mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-25 17:36:30 +03:00
721e1fc86c
* test sPacy commit to git fri 04052019 10:54 * change Data format from my format to master format * ทัทั้งนี้ ---> ทั้งนี้ * delete stop_word translate from Eng * Adjust formatting and readability * add Thai norm_exception * Add Dobita21 SCA * editรึ : หรือ, * Update Dobita21.md * Auto-format * Integrate norms into language defaults * add acronym and some norm exception words
115 lines
5.0 KiB
Python
115 lines
5.0 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
_exc = {
|
|
# Conjugation and Diversion invalid to Tonal form (ผันอักษรและเสียงไม่ตรงกับรูปวรรณยุกต์)
|
|
"สนุ๊กเกอร์": "สนุกเกอร์",
|
|
"โน้ต": "โน้ต",
|
|
# Misspelled because of being lazy or hustle (สะกดผิดเพราะขี้เกียจพิมพ์ หรือเร่งรีบ)
|
|
"โทสับ": "โทรศัพท์",
|
|
"พุ่งนี้": "พรุ่งนี้",
|
|
# Strange (ให้ดูแปลกตา)
|
|
"ชะมะ": "ใช่ไหม",
|
|
"ชิมิ": "ใช่ไหม",
|
|
"ชะ": "ใช่ไหม",
|
|
"ช่ายมะ": "ใช่ไหม",
|
|
"ป่าว": "เปล่า",
|
|
"ป่ะ": "เปล่า",
|
|
"ปล่าว": "เปล่า",
|
|
"คัย": "ใคร",
|
|
"ไค": "ใคร",
|
|
"คราย": "ใคร",
|
|
"เตง": "ตัวเอง",
|
|
"ตะเอง": "ตัวเอง",
|
|
"รึ": "หรือ",
|
|
"เหรอ": "หรือ",
|
|
"หรา": "หรือ",
|
|
"หรอ": "หรือ",
|
|
"ชั้น": "ฉัน",
|
|
"ชั้ล": "ฉัน",
|
|
"ช้าน": "ฉัน",
|
|
"เทอ": "เธอ",
|
|
"เทอร์": "เธอ",
|
|
"เทอว์": "เธอ",
|
|
"แกร": "แก",
|
|
"ป๋ม": "ผม",
|
|
"บ่องตง": "บอกตรงๆ",
|
|
"ถ่ามตง": "ถามตรงๆ",
|
|
"ต่อมตง": "ตอบตรงๆ",
|
|
"เพิ่ล": "เพื่อน",
|
|
"จอบอ": "จอบอ",
|
|
"ดั้ย": "ได้",
|
|
"ขอบคุง": "ขอบคุณ",
|
|
"ยังงัย": "ยังไง",
|
|
"Inw": "เทพ",
|
|
"uou": "นอน",
|
|
"Lกรีeu": "เกรียน",
|
|
# Misspelled to express emotions (คำที่สะกดผิดเพื่อแสดงอารมณ์)
|
|
"เปงราย": "เป็นอะไร",
|
|
"เปนรัย": "เป็นอะไร",
|
|
"เปงรัย": "เป็นอะไร",
|
|
"เป็นอัลไล": "เป็นอะไร",
|
|
"ทามมาย": "ทำไม",
|
|
"ทามมัย": "ทำไม",
|
|
"จังรุย": "จังเลย",
|
|
"จังเยย": "จังเลย",
|
|
"จุงเบย": "จังเลย",
|
|
"ไม่รู้": "มะรุ",
|
|
"เฮ่ย": "เฮ้ย",
|
|
"เห้ย": "เฮ้ย",
|
|
"น่าร็อค": "น่ารัก",
|
|
"น่าร๊าก": "น่ารัก",
|
|
"ตั้ลล๊าก": "น่ารัก",
|
|
"คือร๊ะ": "คืออะไร",
|
|
"โอป่ะ": "โอเคหรือเปล่า",
|
|
"น่ามคาน": "น่ารำคาญ",
|
|
"น่ามสาร": "น่าสงสาร",
|
|
"วงวาร": "สงสาร",
|
|
"บับว่า": "แบบว่า",
|
|
"อัลไล": "อะไร",
|
|
"อิจ": "อิจฉา",
|
|
# Reduce rough words or Avoid to software filter (คำที่สะกดผิดเพื่อลดความหยาบของคำ หรืออาจใช้หลีกเลี่ยงการกรองคำหยาบของซอฟต์แวร์)
|
|
"กรู": "กู",
|
|
"กุ": "กู",
|
|
"กรุ": "กู",
|
|
"ตู": "กู",
|
|
"ตรู": "กู",
|
|
"มรึง": "มึง",
|
|
"เมิง": "มึง",
|
|
"มืง": "มึง",
|
|
"มุง": "มึง",
|
|
"สาด": "สัตว์",
|
|
"สัส": "สัตว์",
|
|
"สัก": "สัตว์",
|
|
"แสรด": "สัตว์",
|
|
"โคโตะ": "โคตร",
|
|
"โคด": "โคตร",
|
|
"โครต": "โคตร",
|
|
"โคตะระ": "โคตร",
|
|
"พ่อง": "พ่อมึง",
|
|
"แม่เมิง": "แม่มึง",
|
|
"เชี่ย": "เหี้ย",
|
|
# Imitate words (คำเลียนเสียง โดยส่วนใหญ่จะเพิ่มทัณฑฆาต หรือซ้ำตัวอักษร)
|
|
"แอร๊ยย": "อ๊าย",
|
|
"อร๊ายยย": "อ๊าย",
|
|
"มันส์": "มัน",
|
|
"วู๊วววววววว์": "วู้",
|
|
# Acronym (แบบคำย่อ)
|
|
"หมาลัย": "มหาวิทยาลัย",
|
|
"วิดวะ": "วิศวะ",
|
|
"สินสาด ": "ศิลปศาสตร์",
|
|
"สินกำ ": "ศิลปกรรมศาสตร์",
|
|
"เสารีย์ ": "อนุเสาวรีย์ชัยสมรภูมิ",
|
|
"เมกา ": "อเมริกา",
|
|
"มอไซค์ ": "มอเตอร์ไซค์",
|
|
}
|
|
|
|
|
|
NORM_EXCEPTIONS = {}
|
|
|
|
for string, norm in _exc.items():
|
|
NORM_EXCEPTIONS[string] = norm
|
|
NORM_EXCEPTIONS[string.title()] = norm
|
|
|