# coding: utf8 from __future__ import unicode_literals _exc = { # Regional words normal # Sri Lanka - wikipeadia "இங்க": "இங்கே", "வாங்க": "வாருங்கள்", "ஒண்டு": "ஒன்று", "கண்டு": "கன்று", "கொண்டு": "கொன்று", "பண்டி": "பன்றி", "பச்ச": "பச்சை", "அம்பது": "ஐம்பது", "வெச்ச": "வைத்து", "வச்ச": "வைத்து", "வச்சி": "வைத்து", "வாளைப்பழம்": "வாழைப்பழம்", "மண்ணு": "மண்", "பொன்னு": "பொன்", "சாவல்": "சேவல்", "அங்கால": "அங்கு ", "அசுப்பு": "நடமாட்டம்", "எழுவான் கரை": "எழுவான்கரை", "ஓய்யாரம்": "எழில் ", "ஒளும்பு": "எழும்பு", "ஓர்மை": "துணிவு", "கச்சை": "கோவணம்", "கடப்பு": "தெருவாசல்", "சுள்ளி": "காய்ந்த குச்சி", "திறாவுதல்": "தடவுதல்", "நாசமறுப்பு": "தொல்லை", "பரிசாரி": "வைத்தியன்", "பறவாதி": "பேராசைக்காரன்", "பிசினி": "உலோபி ", "விசர்": "பைத்தியம்", "ஏனம்": "பாத்திரம்", "ஏலா": "இயலாது", "ஒசில்": "அழகு", "ஒள்ளுப்பம்": "கொஞ்சம்", # Srilankan and indian "குத்துமதிப்பு": "", "நூனாயம்": "நூல்நயம்", "பைய": "மெதுவாக", "மண்டை": "தலை", "வெள்ளனே": "சீக்கிரம்", "உசுப்பு": "எழுப்பு", "ஆணம்": "குழம்பு", "உறக்கம்": "தூக்கம்", "பஸ்": "பேருந்து", "களவு": "திருட்டு ", # relationship "புருசன்": "கணவன்", "பொஞ்சாதி": "மனைவி", "புள்ள": "பிள்ளை", "பிள்ள": "பிள்ளை", "ஆம்பிளப்புள்ள": "ஆண் பிள்ளை", "பொம்பிளப்புள்ள": "பெண் பிள்ளை", "அண்ணாச்சி": "அண்ணா", "அக்காச்சி": "அக்கா", "தங்கச்சி": "தங்கை", # difference words "பொடியன்": "சிறுவன்", "பொட்டை": "சிறுமி", "பிறகு": "பின்பு", "டக்கென்டு": "விரைவாக", "கெதியா": "விரைவாக", "கிறுகி": "திரும்பி", "போயித்து வாறன்": "போய் வருகிறேன்", "வருவாங்களா": "வருவார்களா", # regular spokens "சொல்லு": "சொல்", "கேளு": "கேள்", "சொல்லுங்க": "சொல்லுங்கள்", "கேளுங்க": "கேளுங்கள்", "நீங்கள்": "நீ", "உன்": "உன்னுடைய", # Portugeese formal words "அலவாங்கு": "கடப்பாரை", "ஆசுப்பத்திரி": "மருத்துவமனை", "உரோதை": "சில்லு", "கடுதாசி": "கடிதம்", "கதிரை": "நாற்காலி", "குசினி": "அடுக்களை", "கோப்பை": "கிண்ணம்", "சப்பாத்து": "காலணி", "தாச்சி": "இரும்புச் சட்டி", "துவாய்": "துவாலை", "தவறணை": "மதுக்கடை", "பீப்பா": "மரத்தாழி", "யன்னல்": "சாளரம்", "வாங்கு": "மரஇருக்கை", # Dutch formal words "இறாக்கை": "பற்சட்டம்", "இலாட்சி": "இழுப்பறை", "கந்தோர்": "பணிமனை", "நொத்தாரிசு": "ஆவண எழுத்துபதிவாளர்", # English formal words "இஞ்சினியர்": "பொறியியலாளர்", "சூப்பு": "ரசம்", "செக்": "காசோலை", "சேட்டு": "மேற்ச்சட்டை", "மார்க்கட்டு": "சந்தை", "விண்ணன்": "கெட்டிக்காரன்", # Arabic formal words "ஈமான்": "நம்பிக்கை", "சுன்னத்து": "விருத்தசேதனம்", "செய்த்தான்": "பிசாசு", "மவுத்து": "இறப்பு", "ஹலால்": "அங்கீகரிக்கப்பட்டது", "கறாம்": "நிராகரிக்கப்பட்டது", # Persian, Hindustanian and hindi formal words "சுமார்": "கிட்டத்தட்ட", "சிப்பாய்": "போர்வீரன்", "சிபார்சு": "சிபாரிசு", "ஜமீன்": "பணக்காரா்", "அசல்": "மெய்யான", "அந்தஸ்து": "கௌரவம்", "ஆஜர்": "சமா்ப்பித்தல்", "உசார்": "எச்சரிக்கை", "அச்சா": "நல்ல", # English words used in text conversations "bcoz": "ஏனெனில்", "bcuz": "ஏனெனில்", "fav": "விருப்பமான", "morning": "காலை வணக்கம்", "gdeveng": "மாலை வணக்கம்", "gdnyt": "இரவு வணக்கம்", "gdnit": "இரவு வணக்கம்", "plz": "தயவு செய்து", "pls": "தயவு செய்து", "thx": "நன்றி", "thanx": "நன்றி", } NORM_EXCEPTIONS = {} for string, norm in _exc.items(): NORM_EXCEPTIONS[string] = norm