mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-26 01:46:28 +03:00
140 lines
6.6 KiB
Python
140 lines
6.6 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
_exc = {
|
|
# Regional words normal
|
|
# Sri Lanka - wikipeadia
|
|
"இங்க": "இங்கே",
|
|
"வாங்க": "வாருங்கள்",
|
|
"ஒண்டு": "ஒன்று",
|
|
"கண்டு": "கன்று",
|
|
"கொண்டு": "கொன்று",
|
|
"பண்டி": "பன்றி",
|
|
"பச்ச": "பச்சை",
|
|
"அம்பது": "ஐம்பது",
|
|
"வெச்ச": "வைத்து",
|
|
"வச்ச": "வைத்து",
|
|
"வச்சி": "வைத்து",
|
|
"வாளைப்பழம்": "வாழைப்பழம்",
|
|
"மண்ணு": "மண்",
|
|
"பொன்னு": "பொன்",
|
|
"சாவல்": "சேவல்",
|
|
"அங்கால": "அங்கு ",
|
|
"அசுப்பு": "நடமாட்டம்",
|
|
"எழுவான் கரை": "எழுவான்கரை",
|
|
"ஓய்யாரம்": "எழில் ",
|
|
"ஒளும்பு": "எழும்பு",
|
|
"ஓர்மை": "துணிவு",
|
|
"கச்சை": "கோவணம்",
|
|
"கடப்பு": "தெருவாசல்",
|
|
"சுள்ளி": "காய்ந்த குச்சி",
|
|
"திறாவுதல்": "தடவுதல்",
|
|
"நாசமறுப்பு": "தொல்லை",
|
|
"பரிசாரி": "வைத்தியன்",
|
|
"பறவாதி": "பேராசைக்காரன்",
|
|
"பிசினி": "உலோபி ",
|
|
"விசர்": "பைத்தியம்",
|
|
"ஏனம்": "பாத்திரம்",
|
|
"ஏலா": "இயலாது",
|
|
"ஒசில்": "அழகு",
|
|
"ஒள்ளுப்பம்": "கொஞ்சம்",
|
|
# Srilankan and indian
|
|
"குத்துமதிப்பு": "",
|
|
"நூனாயம்": "நூல்நயம்",
|
|
"பைய": "மெதுவாக",
|
|
"மண்டை": "தலை",
|
|
"வெள்ளனே": "சீக்கிரம்",
|
|
"உசுப்பு": "எழுப்பு",
|
|
"ஆணம்": "குழம்பு",
|
|
"உறக்கம்": "தூக்கம்",
|
|
"பஸ்": "பேருந்து",
|
|
"களவு": "திருட்டு ",
|
|
# relationship
|
|
"புருசன்": "கணவன்",
|
|
"பொஞ்சாதி": "மனைவி",
|
|
"புள்ள": "பிள்ளை",
|
|
"பிள்ள": "பிள்ளை",
|
|
"ஆம்பிளப்புள்ள": "ஆண் பிள்ளை",
|
|
"பொம்பிளப்புள்ள": "பெண் பிள்ளை",
|
|
"அண்ணாச்சி": "அண்ணா",
|
|
"அக்காச்சி": "அக்கா",
|
|
"தங்கச்சி": "தங்கை",
|
|
# difference words
|
|
"பொடியன்": "சிறுவன்",
|
|
"பொட்டை": "சிறுமி",
|
|
"பிறகு": "பின்பு",
|
|
"டக்கென்டு": "விரைவாக",
|
|
"கெதியா": "விரைவாக",
|
|
"கிறுகி": "திரும்பி",
|
|
"போயித்து வாறன்": "போய் வருகிறேன்",
|
|
"வருவாங்களா": "வருவார்களா",
|
|
# regular spokens
|
|
"சொல்லு": "சொல்",
|
|
"கேளு": "கேள்",
|
|
"சொல்லுங்க": "சொல்லுங்கள்",
|
|
"கேளுங்க": "கேளுங்கள்",
|
|
"நீங்கள்": "நீ",
|
|
"உன்": "உன்னுடைய",
|
|
# Portugeese formal words
|
|
"அலவாங்கு": "கடப்பாரை",
|
|
"ஆசுப்பத்திரி": "மருத்துவமனை",
|
|
"உரோதை": "சில்லு",
|
|
"கடுதாசி": "கடிதம்",
|
|
"கதிரை": "நாற்காலி",
|
|
"குசினி": "அடுக்களை",
|
|
"கோப்பை": "கிண்ணம்",
|
|
"சப்பாத்து": "காலணி",
|
|
"தாச்சி": "இரும்புச் சட்டி",
|
|
"துவாய்": "துவாலை",
|
|
"தவறணை": "மதுக்கடை",
|
|
"பீப்பா": "மரத்தாழி",
|
|
"யன்னல்": "சாளரம்",
|
|
"வாங்கு": "மரஇருக்கை",
|
|
# Dutch formal words
|
|
"இறாக்கை": "பற்சட்டம்",
|
|
"இலாட்சி": "இழுப்பறை",
|
|
"கந்தோர்": "பணிமனை",
|
|
"நொத்தாரிசு": "ஆவண எழுத்துபதிவாளர்",
|
|
# English formal words
|
|
"இஞ்சினியர்": "பொறியியலாளர்",
|
|
"சூப்பு": "ரசம்",
|
|
"செக்": "காசோலை",
|
|
"சேட்டு": "மேற்ச்சட்டை",
|
|
"மார்க்கட்டு": "சந்தை",
|
|
"விண்ணன்": "கெட்டிக்காரன்",
|
|
# Arabic formal words
|
|
"ஈமான்": "நம்பிக்கை",
|
|
"சுன்னத்து": "விருத்தசேதனம்",
|
|
"செய்த்தான்": "பிசாசு",
|
|
"மவுத்து": "இறப்பு",
|
|
"ஹலால்": "அங்கீகரிக்கப்பட்டது",
|
|
"கறாம்": "நிராகரிக்கப்பட்டது",
|
|
# Persian, Hindustanian and hindi formal words
|
|
"சுமார்": "கிட்டத்தட்ட",
|
|
"சிப்பாய்": "போர்வீரன்",
|
|
"சிபார்சு": "சிபாரிசு",
|
|
"ஜமீன்": "பணக்காரா்",
|
|
"அசல்": "மெய்யான",
|
|
"அந்தஸ்து": "கௌரவம்",
|
|
"ஆஜர்": "சமா்ப்பித்தல்",
|
|
"உசார்": "எச்சரிக்கை",
|
|
"அச்சா": "நல்ல",
|
|
# English words used in text conversations
|
|
"bcoz": "ஏனெனில்",
|
|
"bcuz": "ஏனெனில்",
|
|
"fav": "விருப்பமான",
|
|
"morning": "காலை வணக்கம்",
|
|
"gdeveng": "மாலை வணக்கம்",
|
|
"gdnyt": "இரவு வணக்கம்",
|
|
"gdnit": "இரவு வணக்கம்",
|
|
"plz": "தயவு செய்து",
|
|
"pls": "தயவு செய்து",
|
|
"thx": "நன்றி",
|
|
"thanx": "நன்றி",
|
|
}
|
|
|
|
NORM_EXCEPTIONS = {}
|
|
|
|
for string, norm in _exc.items():
|
|
NORM_EXCEPTIONS[string] = norm
|