mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-24 17:06:29 +03:00
update norm_exceptions (#3627)
* test sPacy commit to git fri 04052019 10:54 * change Data format from my format to master format * ทัทั้งนี้ ---> ทั้งนี้ * delete stop_word translate from Eng * Adjust formatting and readability * add Thai norm_exception * Add Dobita21 SCA * editรึ : หรือ, * Update Dobita21.md * Auto-format * Integrate norms into language defaults * add acronym and some norm exception words
This commit is contained in:
parent
ec0d840ab5
commit
721e1fc86c
|
@ -37,6 +37,14 @@ _exc = {
|
|||
"บ่องตง": "บอกตรงๆ",
|
||||
"ถ่ามตง": "ถามตรงๆ",
|
||||
"ต่อมตง": "ตอบตรงๆ",
|
||||
"เพิ่ล": "เพื่อน",
|
||||
"จอบอ": "จอบอ",
|
||||
"ดั้ย": "ได้",
|
||||
"ขอบคุง": "ขอบคุณ",
|
||||
"ยังงัย": "ยังไง",
|
||||
"Inw": "เทพ",
|
||||
"uou": "นอน",
|
||||
"Lกรีeu": "เกรียน",
|
||||
# Misspelled to express emotions (คำที่สะกดผิดเพื่อแสดงอารมณ์)
|
||||
"เปงราย": "เป็นอะไร",
|
||||
"เปนรัย": "เป็นอะไร",
|
||||
|
@ -50,9 +58,17 @@ _exc = {
|
|||
"ไม่รู้": "มะรุ",
|
||||
"เฮ่ย": "เฮ้ย",
|
||||
"เห้ย": "เฮ้ย",
|
||||
"น่าร็อคอ่ะ": "น่ารักอ่ะ",
|
||||
"น่าร๊ากอ้ะ": "น่ารักอ่ะ",
|
||||
"ตั้ลล๊ากอ่ะ": "น่ารักอ่ะ",
|
||||
"น่าร็อค": "น่ารัก",
|
||||
"น่าร๊าก": "น่ารัก",
|
||||
"ตั้ลล๊าก": "น่ารัก",
|
||||
"คือร๊ะ": "คืออะไร",
|
||||
"โอป่ะ": "โอเคหรือเปล่า",
|
||||
"น่ามคาน": "น่ารำคาญ",
|
||||
"น่ามสาร": "น่าสงสาร",
|
||||
"วงวาร": "สงสาร",
|
||||
"บับว่า": "แบบว่า",
|
||||
"อัลไล": "อะไร",
|
||||
"อิจ": "อิจฉา",
|
||||
# Reduce rough words or Avoid to software filter (คำที่สะกดผิดเพื่อลดความหยาบของคำ หรืออาจใช้หลีกเลี่ยงการกรองคำหยาบของซอฟต์แวร์)
|
||||
"กรู": "กู",
|
||||
"กุ": "กู",
|
||||
|
@ -71,11 +87,22 @@ _exc = {
|
|||
"โคด": "โคตร",
|
||||
"โครต": "โคตร",
|
||||
"โคตะระ": "โคตร",
|
||||
"พ่อง": "พ่อมึง",
|
||||
"แม่เมิง": "แม่มึง",
|
||||
"เชี่ย": "เหี้ย",
|
||||
# Imitate words (คำเลียนเสียง โดยส่วนใหญ่จะเพิ่มทัณฑฆาต หรือซ้ำตัวอักษร)
|
||||
"แอร๊ยย": "อ๊าย",
|
||||
"อร๊ายยย": "อ๊าย",
|
||||
"มันส์": "มัน",
|
||||
"วู๊วววววววว์": "วู้",
|
||||
# Acronym (แบบคำย่อ)
|
||||
"หมาลัย": "มหาวิทยาลัย",
|
||||
"วิดวะ": "วิศวะ",
|
||||
"สินสาด ": "ศิลปศาสตร์",
|
||||
"สินกำ ": "ศิลปกรรมศาสตร์",
|
||||
"เสารีย์ ": "อนุเสาวรีย์ชัยสมรภูมิ",
|
||||
"เมกา ": "อเมริกา",
|
||||
"มอไซค์ ": "มอเตอร์ไซค์",
|
||||
}
|
||||
|
||||
|
||||
|
@ -84,3 +111,4 @@ NORM_EXCEPTIONS = {}
|
|||
for string, norm in _exc.items():
|
||||
NORM_EXCEPTIONS[string] = norm
|
||||
NORM_EXCEPTIONS[string.title()] = norm
|
||||
|
||||
|
|
Loading…
Reference in New Issue
Block a user