diff --git a/spacy/lang/th/norm_exceptions.py b/spacy/lang/th/norm_exceptions.py index ecff1e363..497779cf9 100644 --- a/spacy/lang/th/norm_exceptions.py +++ b/spacy/lang/th/norm_exceptions.py @@ -37,6 +37,14 @@ _exc = { "บ่องตง": "บอกตรงๆ", "ถ่ามตง": "ถามตรงๆ", "ต่อมตง": "ตอบตรงๆ", + "เพิ่ล": "เพื่อน", + "จอบอ": "จอบอ", + "ดั้ย": "ได้", + "ขอบคุง": "ขอบคุณ", + "ยังงัย": "ยังไง", + "Inw": "เทพ", + "uou": "นอน", + "Lกรีeu": "เกรียน", # Misspelled to express emotions (คำที่สะกดผิดเพื่อแสดงอารมณ์) "เปงราย": "เป็นอะไร", "เปนรัย": "เป็นอะไร", @@ -50,9 +58,17 @@ _exc = { "ไม่รู้": "มะรุ", "เฮ่ย": "เฮ้ย", "เห้ย": "เฮ้ย", - "น่าร็อคอ่ะ": "น่ารักอ่ะ", - "น่าร๊ากอ้ะ": "น่ารักอ่ะ", - "ตั้ลล๊ากอ่ะ": "น่ารักอ่ะ", + "น่าร็อค": "น่ารัก", + "น่าร๊าก": "น่ารัก", + "ตั้ลล๊าก": "น่ารัก", + "คือร๊ะ": "คืออะไร", + "โอป่ะ": "โอเคหรือเปล่า", + "น่ามคาน": "น่ารำคาญ", + "น่ามสาร": "น่าสงสาร", + "วงวาร": "สงสาร", + "บับว่า": "แบบว่า", + "อัลไล": "อะไร", + "อิจ": "อิจฉา", # Reduce rough words or Avoid to software filter (คำที่สะกดผิดเพื่อลดความหยาบของคำ หรืออาจใช้หลีกเลี่ยงการกรองคำหยาบของซอฟต์แวร์) "กรู": "กู", "กุ": "กู", @@ -71,11 +87,22 @@ _exc = { "โคด": "โคตร", "โครต": "โคตร", "โคตะระ": "โคตร", + "พ่อง": "พ่อมึง", + "แม่เมิง": "แม่มึง", + "เชี่ย": "เหี้ย", # Imitate words (คำเลียนเสียง โดยส่วนใหญ่จะเพิ่มทัณฑฆาต หรือซ้ำตัวอักษร) "แอร๊ยย": "อ๊าย", "อร๊ายยย": "อ๊าย", "มันส์": "มัน", "วู๊วววววววว์": "วู้", + # Acronym (แบบคำย่อ) + "หมาลัย": "มหาวิทยาลัย", + "วิดวะ": "วิศวะ", + "สินสาด ": "ศิลปศาสตร์", + "สินกำ ": "ศิลปกรรมศาสตร์", + "เสารีย์ ": "อนุเสาวรีย์ชัยสมรภูมิ", + "เมกา ": "อเมริกา", + "มอไซค์ ": "มอเตอร์ไซค์", } @@ -84,3 +111,4 @@ NORM_EXCEPTIONS = {} for string, norm in _exc.items(): NORM_EXCEPTIONS[string] = norm NORM_EXCEPTIONS[string.title()] = norm +