mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-10-31 16:07:41 +03:00 
			
		
		
		
	
		
			
				
	
	
		
			140 lines
		
	
	
		
			6.6 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			140 lines
		
	
	
		
			6.6 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
| # coding: utf8
 | |
| from __future__ import unicode_literals
 | |
| 
 | |
| _exc = {
 | |
|     # Regional words normal
 | |
|     # Sri Lanka - wikipeadia
 | |
|     "இங்க": "இங்கே",
 | |
|     "வாங்க": "வாருங்கள்",
 | |
|     "ஒண்டு": "ஒன்று",
 | |
|     "கண்டு": "கன்று",
 | |
|     "கொண்டு": "கொன்று",
 | |
|     "பண்டி": "பன்றி",
 | |
|     "பச்ச": "பச்சை",
 | |
|     "அம்பது": "ஐம்பது",
 | |
|     "வெச்ச": "வைத்து",
 | |
|     "வச்ச": "வைத்து",
 | |
|     "வச்சி": "வைத்து",
 | |
|     "வாளைப்பழம்": "வாழைப்பழம்",
 | |
|     "மண்ணு": "மண்",
 | |
|     "பொன்னு": "பொன்",
 | |
|     "சாவல்": "சேவல்",
 | |
|     "அங்கால": "அங்கு ",
 | |
|     "அசுப்பு": "நடமாட்டம்",
 | |
|     "எழுவான் கரை": "எழுவான்கரை",
 | |
|     "ஓய்யாரம்": "எழில் ",
 | |
|     "ஒளும்பு": "எழும்பு",
 | |
|     "ஓர்மை": "துணிவு",
 | |
|     "கச்சை": "கோவணம்",
 | |
|     "கடப்பு": "தெருவாசல்",
 | |
|     "சுள்ளி": "காய்ந்த குச்சி",
 | |
|     "திறாவுதல்": "தடவுதல்",
 | |
|     "நாசமறுப்பு": "தொல்லை",
 | |
|     "பரிசாரி": "வைத்தியன்",
 | |
|     "பறவாதி": "பேராசைக்காரன்",
 | |
|     "பிசினி": "உலோபி ",
 | |
|     "விசர்": "பைத்தியம்",
 | |
|     "ஏனம்": "பாத்திரம்",
 | |
|     "ஏலா": "இயலாது",
 | |
|     "ஒசில்": "அழகு",
 | |
|     "ஒள்ளுப்பம்": "கொஞ்சம்",
 | |
|     # Srilankan and indian
 | |
|     "குத்துமதிப்பு": "",
 | |
|     "நூனாயம்": "நூல்நயம்",
 | |
|     "பைய": "மெதுவாக",
 | |
|     "மண்டை": "தலை",
 | |
|     "வெள்ளனே": "சீக்கிரம்",
 | |
|     "உசுப்பு": "எழுப்பு",
 | |
|     "ஆணம்": "குழம்பு",
 | |
|     "உறக்கம்": "தூக்கம்",
 | |
|     "பஸ்": "பேருந்து",
 | |
|     "களவு": "திருட்டு ",
 | |
|     # relationship
 | |
|     "புருசன்": "கணவன்",
 | |
|     "பொஞ்சாதி": "மனைவி",
 | |
|     "புள்ள": "பிள்ளை",
 | |
|     "பிள்ள": "பிள்ளை",
 | |
|     "ஆம்பிளப்புள்ள": "ஆண் பிள்ளை",
 | |
|     "பொம்பிளப்புள்ள": "பெண் பிள்ளை",
 | |
|     "அண்ணாச்சி": "அண்ணா",
 | |
|     "அக்காச்சி": "அக்கா",
 | |
|     "தங்கச்சி": "தங்கை",
 | |
|     # difference words
 | |
|     "பொடியன்": "சிறுவன்",
 | |
|     "பொட்டை": "சிறுமி",
 | |
|     "பிறகு": "பின்பு",
 | |
|     "டக்கென்டு": "விரைவாக",
 | |
|     "கெதியா": "விரைவாக",
 | |
|     "கிறுகி": "திரும்பி",
 | |
|     "போயித்து வாறன்": "போய் வருகிறேன்",
 | |
|     "வருவாங்களா": "வருவார்களா",
 | |
|     # regular spokens
 | |
|     "சொல்லு": "சொல்",
 | |
|     "கேளு": "கேள்",
 | |
|     "சொல்லுங்க": "சொல்லுங்கள்",
 | |
|     "கேளுங்க": "கேளுங்கள்",
 | |
|     "நீங்கள்": "நீ",
 | |
|     "உன்": "உன்னுடைய",
 | |
|     # Portugeese formal words
 | |
|     "அலவாங்கு": "கடப்பாரை",
 | |
|     "ஆசுப்பத்திரி": "மருத்துவமனை",
 | |
|     "உரோதை": "சில்லு",
 | |
|     "கடுதாசி": "கடிதம்",
 | |
|     "கதிரை": "நாற்காலி",
 | |
|     "குசினி": "அடுக்களை",
 | |
|     "கோப்பை": "கிண்ணம்",
 | |
|     "சப்பாத்து": "காலணி",
 | |
|     "தாச்சி": "இரும்புச் சட்டி",
 | |
|     "துவாய்": "துவாலை",
 | |
|     "தவறணை": "மதுக்கடை",
 | |
|     "பீப்பா": "மரத்தாழி",
 | |
|     "யன்னல்": "சாளரம்",
 | |
|     "வாங்கு": "மரஇருக்கை",
 | |
|     # Dutch formal words
 | |
|     "இறாக்கை": "பற்சட்டம்",
 | |
|     "இலாட்சி": "இழுப்பறை",
 | |
|     "கந்தோர்": "பணிமனை",
 | |
|     "நொத்தாரிசு": "ஆவண எழுத்துபதிவாளர்",
 | |
|     # English formal words
 | |
|     "இஞ்சினியர்": "பொறியியலாளர்",
 | |
|     "சூப்பு": "ரசம்",
 | |
|     "செக்": "காசோலை",
 | |
|     "சேட்டு": "மேற்ச்சட்டை",
 | |
|     "மார்க்கட்டு": "சந்தை",
 | |
|     "விண்ணன்": "கெட்டிக்காரன்",
 | |
|     # Arabic formal words
 | |
|     "ஈமான்": "நம்பிக்கை",
 | |
|     "சுன்னத்து": "விருத்தசேதனம்",
 | |
|     "செய்த்தான்": "பிசாசு",
 | |
|     "மவுத்து": "இறப்பு",
 | |
|     "ஹலால்": "அங்கீகரிக்கப்பட்டது",
 | |
|     "கறாம்": "நிராகரிக்கப்பட்டது",
 | |
|     # Persian, Hindustanian and hindi formal words
 | |
|     "சுமார்": "கிட்டத்தட்ட",
 | |
|     "சிப்பாய்": "போர்வீரன்",
 | |
|     "சிபார்சு": "சிபாரிசு",
 | |
|     "ஜமீன்": "பணக்காரா்",
 | |
|     "அசல்": "மெய்யான",
 | |
|     "அந்தஸ்து": "கௌரவம்",
 | |
|     "ஆஜர்": "சமா்ப்பித்தல்",
 | |
|     "உசார்": "எச்சரிக்கை",
 | |
|     "அச்சா": "நல்ல",
 | |
|     # English words used in text conversations
 | |
|     "bcoz": "ஏனெனில்",
 | |
|     "bcuz": "ஏனெனில்",
 | |
|     "fav": "விருப்பமான",
 | |
|     "morning": "காலை வணக்கம்",
 | |
|     "gdeveng": "மாலை வணக்கம்",
 | |
|     "gdnyt": "இரவு வணக்கம்",
 | |
|     "gdnit": "இரவு வணக்கம்",
 | |
|     "plz": "தயவு செய்து",
 | |
|     "pls": "தயவு செய்து",
 | |
|     "thx": "நன்றி",
 | |
|     "thanx": "நன்றி",
 | |
| }
 | |
| 
 | |
| NORM_EXCEPTIONS = {}
 | |
| 
 | |
| for string, norm in _exc.items():
 | |
|     NORM_EXCEPTIONS[string] = norm
 |