mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-11 12:18:04 +03:00
5ca8e2b269
* Tamil language support *stop wors, examples and numerical attribite supports added * Contributor agreement signed * Create Loghijiaha.md Added contributor agreement * Update CONTRIBUTOR_AGREEMENT.md Adjusted contributor_agreement.md * Norm exceptions added
149 lines
6.6 KiB
Python
149 lines
6.6 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
_exc = {
|
|
|
|
# Regional words normal
|
|
# Sri Lanka - wikipeadia
|
|
"இங்க": "இங்கே",
|
|
"வாங்க": "வாருங்கள்",
|
|
'ஒண்டு':'ஒன்று',
|
|
'கண்டு': 'கன்று',
|
|
'கொண்டு': 'கொன்று',
|
|
'பண்டி': 'பன்றி',
|
|
'பச்ச': 'பச்சை',
|
|
'அம்பது': 'ஐம்பது',
|
|
'வெச்ச': 'வைத்து',
|
|
'வச்ச': 'வைத்து',
|
|
'வச்சி': 'வைத்து',
|
|
'வாளைப்பழம்':'வாழைப்பழம்',
|
|
'மண்ணு': 'மண்',
|
|
'பொன்னு': 'பொன்',
|
|
'சாவல்': 'சேவல்',
|
|
'அங்கால': 'அங்கு ',
|
|
'அசுப்பு': 'நடமாட்டம்',
|
|
'எழுவான் கரை': 'எழுவான்கரை',
|
|
'ஓய்யாரம்': 'எழில் ',
|
|
'ஒளும்பு': 'எழும்பு',
|
|
'ஓர்மை': 'துணிவு',
|
|
'கச்சை': 'கோவணம்',
|
|
'கடப்பு': 'தெருவாசல்',
|
|
'சுள்ளி': 'காய்ந்த குச்சி',
|
|
'திறாவுதல்': 'தடவுதல்',
|
|
'நாசமறுப்பு': 'தொல்லை',
|
|
'பரிசாரி': 'வைத்தியன்',
|
|
'பறவாதி': 'பேராசைக்காரன்',
|
|
'பிசினி': 'உலோபி ',
|
|
'விசர்': 'பைத்தியம்',
|
|
'ஏனம்': 'பாத்திரம்',
|
|
'ஏலா': 'இயலாது',
|
|
'ஒசில்': 'அழகு',
|
|
'ஒள்ளுப்பம்': 'கொஞ்சம்',
|
|
|
|
# Srilankan and indian
|
|
'குத்துமதிப்பு': '',
|
|
'நூனாயம்': 'நூல்நயம்',
|
|
'பைய': 'மெதுவாக',
|
|
'மண்டை': 'தலை',
|
|
'வெள்ளனே': 'சீக்கிரம்',
|
|
'உசுப்பு': 'எழுப்பு',
|
|
'ஆணம்': 'குழம்பு',
|
|
'உறக்கம்': 'தூக்கம்',
|
|
'பஸ்': 'பேருந்து',
|
|
'களவு': 'திருட்டு ',
|
|
|
|
#relationship
|
|
'புருசன்': 'கணவன்',
|
|
'பொஞ்சாதி': 'மனைவி',
|
|
'புள்ள': 'பிள்ளை',
|
|
'பிள்ள': 'பிள்ளை',
|
|
'ஆம்பிளப்புள்ள': 'ஆண் பிள்ளை',
|
|
'பொம்பிளப்புள்ள': 'பெண் பிள்ளை',
|
|
'அண்ணாச்சி': 'அண்ணா',
|
|
'அக்காச்சி': 'அக்கா',
|
|
'தங்கச்சி': 'தங்கை',
|
|
|
|
#difference words
|
|
'பொடியன்': 'சிறுவன்',
|
|
'பொட்டை': 'சிறுமி',
|
|
'பிறகு': 'பின்பு',
|
|
'டக்கென்டு': 'விரைவாக',
|
|
'கெதியா': 'விரைவாக',
|
|
'கிறுகி': 'திரும்பி',
|
|
'போயித்து வாறன்': 'போய் வருகிறேன்',
|
|
'வருவாங்களா': 'வருவார்களா',
|
|
|
|
# regular spokens
|
|
'சொல்லு': 'சொல்',
|
|
'கேளு': 'கேள்',
|
|
'சொல்லுங்க': 'சொல்லுங்கள்',
|
|
'கேளுங்க': 'கேளுங்கள்',
|
|
'நீங்கள்': 'நீ',
|
|
'உன்': 'உன்னுடைய',
|
|
|
|
# Portugeese formal words
|
|
'அலவாங்கு': 'கடப்பாரை',
|
|
'ஆசுப்பத்திரி': 'மருத்துவமனை',
|
|
'உரோதை': 'சில்லு',
|
|
'கடுதாசி': 'கடிதம்',
|
|
'கதிரை': 'நாற்காலி',
|
|
'குசினி': 'அடுக்களை',
|
|
'கோப்பை': 'கிண்ணம்',
|
|
'சப்பாத்து': 'காலணி',
|
|
'தாச்சி': 'இரும்புச் சட்டி',
|
|
'துவாய்': 'துவாலை',
|
|
'தவறணை': 'மதுக்கடை',
|
|
'பீப்பா': 'மரத்தாழி',
|
|
'யன்னல்': 'சாளரம்',
|
|
'வாங்கு': 'மரஇருக்கை',
|
|
|
|
# Dutch formal words
|
|
'இறாக்கை': 'பற்சட்டம்',
|
|
'இலாட்சி': 'இழுப்பறை',
|
|
'கந்தோர்': 'பணிமனை',
|
|
'நொத்தாரிசு': 'ஆவண எழுத்துபதிவாளர்',
|
|
|
|
# English formal words
|
|
'இஞ்சினியர்': 'பொறியியலாளர்',
|
|
'சூப்பு': 'ரசம்',
|
|
'செக்': 'காசோலை',
|
|
'சேட்டு': 'மேற்ச்சட்டை',
|
|
'மார்க்கட்டு': 'சந்தை',
|
|
'விண்ணன்': 'கெட்டிக்காரன்',
|
|
|
|
# Arabic formal words
|
|
'ஈமான்': 'நம்பிக்கை',
|
|
'சுன்னத்து': 'விருத்தசேதனம்',
|
|
'செய்த்தான்': 'பிசாசு',
|
|
'மவுத்து': 'இறப்பு',
|
|
'ஹலால்': 'அங்கீகரிக்கப்பட்டது',
|
|
'கறாம்': 'நிராகரிக்கப்பட்டது',
|
|
# Persian, Hindustanian and hindi formal words
|
|
'சுமார்': 'கிட்டத்தட்ட',
|
|
'சிப்பாய்': 'போர்வீரன்',
|
|
'சிபார்சு': 'சிபாரிசு',
|
|
'ஜமீன்': 'பணக்காரா்',
|
|
'அசல்': 'மெய்யான',
|
|
'அந்தஸ்து': 'கௌரவம்',
|
|
'ஆஜர்': 'சமா்ப்பித்தல்',
|
|
'உசார்': 'எச்சரிக்கை',
|
|
'அச்சா':'நல்ல',
|
|
# English words used in text conversations
|
|
"bcoz": "ஏனெனில்",
|
|
"bcuz": "ஏனெனில்",
|
|
"fav": "விருப்பமான",
|
|
"morning": "காலை வணக்கம்",
|
|
"gdeveng": "மாலை வணக்கம்",
|
|
"gdnyt": "இரவு வணக்கம்",
|
|
"gdnit": "இரவு வணக்கம்",
|
|
"plz": "தயவு செய்து",
|
|
"pls": "தயவு செய்து",
|
|
"thx": "நன்றி",
|
|
"thanx": "நன்றி",
|
|
}
|
|
|
|
NORM_EXCEPTIONS = {}
|
|
|
|
for string, norm in _exc.items():
|
|
NORM_EXCEPTIONS[string] = norm
|