diff --git a/spacy/lang/ta/norm_exceptions.py b/spacy/lang/ta/norm_exceptions.py new file mode 100644 index 000000000..469e78fcb --- /dev/null +++ b/spacy/lang/ta/norm_exceptions.py @@ -0,0 +1,148 @@ +# coding: utf8 +from __future__ import unicode_literals + +_exc = { + + # Regional words normal + # Sri Lanka - wikipeadia + "இங்க": "இங்கே", + "வாங்க": "வாருங்கள்", + 'ஒண்டு':'ஒன்று', + 'கண்டு': 'கன்று', + 'கொண்டு': 'கொன்று', + 'பண்டி': 'பன்றி', + 'பச்ச': 'பச்சை', + 'அம்பது': 'ஐம்பது', + 'வெச்ச': 'வைத்து', + 'வச்ச': 'வைத்து', + 'வச்சி': 'வைத்து', + 'வாளைப்பழம்':'வாழைப்பழம்', + 'மண்ணு': 'மண்', + 'பொன்னு': 'பொன்', + 'சாவல்': 'சேவல்', + 'அங்கால': 'அங்கு ', + 'அசுப்பு': 'நடமாட்டம்', + 'எழுவான் கரை': 'எழுவான்கரை', + 'ஓய்யாரம்': 'எழில் ', + 'ஒளும்பு': 'எழும்பு', + 'ஓர்மை': 'துணிவு', + 'கச்சை': 'கோவணம்', + 'கடப்பு': 'தெருவாசல்', + 'சுள்ளி': 'காய்ந்த குச்சி', + 'திறாவுதல்': 'தடவுதல்', + 'நாசமறுப்பு': 'தொல்லை', + 'பரிசாரி': 'வைத்தியன்', + 'பறவாதி': 'பேராசைக்காரன்', + 'பிசினி': 'உலோபி ', + 'விசர்': 'பைத்தியம்', + 'ஏனம்': 'பாத்திரம்', + 'ஏலா': 'இயலாது', + 'ஒசில்': 'அழகு', + 'ஒள்ளுப்பம்': 'கொஞ்சம்', + + # Srilankan and indian + 'குத்துமதிப்பு': '', + 'நூனாயம்': 'நூல்நயம்', + 'பைய': 'மெதுவாக', + 'மண்டை': 'தலை', + 'வெள்ளனே': 'சீக்கிரம்', + 'உசுப்பு': 'எழுப்பு', + 'ஆணம்': 'குழம்பு', + 'உறக்கம்': 'தூக்கம்', + 'பஸ்': 'பேருந்து', + 'களவு': 'திருட்டு ', + + #relationship + 'புருசன்': 'கணவன்', + 'பொஞ்சாதி': 'மனைவி', + 'புள்ள': 'பிள்ளை', + 'பிள்ள': 'பிள்ளை', + 'ஆம்பிளப்புள்ள': 'ஆண் பிள்ளை', + 'பொம்பிளப்புள்ள': 'பெண் பிள்ளை', + 'அண்ணாச்சி': 'அண்ணா', + 'அக்காச்சி': 'அக்கா', + 'தங்கச்சி': 'தங்கை', + + #difference words + 'பொடியன்': 'சிறுவன்', + 'பொட்டை': 'சிறுமி', + 'பிறகு': 'பின்பு', + 'டக்கென்டு': 'விரைவாக', + 'கெதியா': 'விரைவாக', + 'கிறுகி': 'திரும்பி', + 'போயித்து வாறன்': 'போய் வருகிறேன்', + 'வருவாங்களா': 'வருவார்களா', + + # regular spokens + 'சொல்லு': 'சொல்', + 'கேளு': 'கேள்', + 'சொல்லுங்க': 'சொல்லுங்கள்', + 'கேளுங்க': 'கேளுங்கள்', + 'நீங்கள்': 'நீ', + 'உன்': 'உன்னுடைய', + + # Portugeese formal words + 'அலவாங்கு': 'கடப்பாரை', + 'ஆசுப்பத்திரி': 'மருத்துவமனை', + 'உரோதை': 'சில்லு', + 'கடுதாசி': 'கடிதம்', + 'கதிரை': 'நாற்காலி', + 'குசினி': 'அடுக்களை', + 'கோப்பை': 'கிண்ணம்', + 'சப்பாத்து': 'காலணி', + 'தாச்சி': 'இரும்புச் சட்டி', + 'துவாய்': 'துவாலை', + 'தவறணை': 'மதுக்கடை', + 'பீப்பா': 'மரத்தாழி', + 'யன்னல்': 'சாளரம்', + 'வாங்கு': 'மரஇருக்கை', + + # Dutch formal words + 'இறாக்கை': 'பற்சட்டம்', + 'இலாட்சி': 'இழுப்பறை', + 'கந்தோர்': 'பணிமனை', + 'நொத்தாரிசு': 'ஆவண எழுத்துபதிவாளர்', + + # English formal words + 'இஞ்சினியர்': 'பொறியியலாளர்', + 'சூப்பு': 'ரசம்', + 'செக்': 'காசோலை', + 'சேட்டு': 'மேற்ச்சட்டை', + 'மார்க்கட்டு': 'சந்தை', + 'விண்ணன்': 'கெட்டிக்காரன்', + + # Arabic formal words + 'ஈமான்': 'நம்பிக்கை', + 'சுன்னத்து': 'விருத்தசேதனம்', + 'செய்த்தான்': 'பிசாசு', + 'மவுத்து': 'இறப்பு', + 'ஹலால்': 'அங்கீகரிக்கப்பட்டது', + 'கறாம்': 'நிராகரிக்கப்பட்டது', + # Persian, Hindustanian and hindi formal words + 'சுமார்': 'கிட்டத்தட்ட', + 'சிப்பாய்': 'போர்வீரன்', + 'சிபார்சு': 'சிபாரிசு', + 'ஜமீன்': 'பணக்காரா்', + 'அசல்': 'மெய்யான', + 'அந்தஸ்து': 'கௌரவம்', + 'ஆஜர்': 'சமா்ப்பித்தல்', + 'உசார்': 'எச்சரிக்கை', + 'அச்சா':'நல்ல', + # English words used in text conversations + "bcoz": "ஏனெனில்", + "bcuz": "ஏனெனில்", + "fav": "விருப்பமான", + "morning": "காலை வணக்கம்", + "gdeveng": "மாலை வணக்கம்", + "gdnyt": "இரவு வணக்கம்", + "gdnit": "இரவு வணக்கம்", + "plz": "தயவு செய்து", + "pls": "தயவு செய்து", + "thx": "நன்றி", + "thanx": "நன்றி", +} + +NORM_EXCEPTIONS = {} + +for string, norm in _exc.items(): + NORM_EXCEPTIONS[string] = norm