mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-11-04 18:07:26 +03:00 
			
		
		
		
	* Remove unicode declarations * Remove Python 3.5 and 2.7 from CI * Don't require pathlib * Replace compat helpers * Remove OrderedDict * Use f-strings * Set Cython compiler language level * Fix typo * Re-add OrderedDict for Table * Update setup.cfg * Revert CONTRIBUTING.md * Revert lookups.md * Revert top-level.md * Small adjustments and docs [ci skip]
		
			
				
	
	
		
			137 lines
		
	
	
		
			6.6 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			137 lines
		
	
	
		
			6.6 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
_exc = {
 | 
						|
    # Regional words normal
 | 
						|
    # Sri Lanka - wikipeadia
 | 
						|
    "இங்க": "இங்கே",
 | 
						|
    "வாங்க": "வாருங்கள்",
 | 
						|
    "ஒண்டு": "ஒன்று",
 | 
						|
    "கண்டு": "கன்று",
 | 
						|
    "கொண்டு": "கொன்று",
 | 
						|
    "பண்டி": "பன்றி",
 | 
						|
    "பச்ச": "பச்சை",
 | 
						|
    "அம்பது": "ஐம்பது",
 | 
						|
    "வெச்ச": "வைத்து",
 | 
						|
    "வச்ச": "வைத்து",
 | 
						|
    "வச்சி": "வைத்து",
 | 
						|
    "வாளைப்பழம்": "வாழைப்பழம்",
 | 
						|
    "மண்ணு": "மண்",
 | 
						|
    "பொன்னு": "பொன்",
 | 
						|
    "சாவல்": "சேவல்",
 | 
						|
    "அங்கால": "அங்கு ",
 | 
						|
    "அசுப்பு": "நடமாட்டம்",
 | 
						|
    "எழுவான் கரை": "எழுவான்கரை",
 | 
						|
    "ஓய்யாரம்": "எழில் ",
 | 
						|
    "ஒளும்பு": "எழும்பு",
 | 
						|
    "ஓர்மை": "துணிவு",
 | 
						|
    "கச்சை": "கோவணம்",
 | 
						|
    "கடப்பு": "தெருவாசல்",
 | 
						|
    "சுள்ளி": "காய்ந்த குச்சி",
 | 
						|
    "திறாவுதல்": "தடவுதல்",
 | 
						|
    "நாசமறுப்பு": "தொல்லை",
 | 
						|
    "பரிசாரி": "வைத்தியன்",
 | 
						|
    "பறவாதி": "பேராசைக்காரன்",
 | 
						|
    "பிசினி": "உலோபி ",
 | 
						|
    "விசர்": "பைத்தியம்",
 | 
						|
    "ஏனம்": "பாத்திரம்",
 | 
						|
    "ஏலா": "இயலாது",
 | 
						|
    "ஒசில்": "அழகு",
 | 
						|
    "ஒள்ளுப்பம்": "கொஞ்சம்",
 | 
						|
    # Srilankan and indian
 | 
						|
    "குத்துமதிப்பு": "",
 | 
						|
    "நூனாயம்": "நூல்நயம்",
 | 
						|
    "பைய": "மெதுவாக",
 | 
						|
    "மண்டை": "தலை",
 | 
						|
    "வெள்ளனே": "சீக்கிரம்",
 | 
						|
    "உசுப்பு": "எழுப்பு",
 | 
						|
    "ஆணம்": "குழம்பு",
 | 
						|
    "உறக்கம்": "தூக்கம்",
 | 
						|
    "பஸ்": "பேருந்து",
 | 
						|
    "களவு": "திருட்டு ",
 | 
						|
    # relationship
 | 
						|
    "புருசன்": "கணவன்",
 | 
						|
    "பொஞ்சாதி": "மனைவி",
 | 
						|
    "புள்ள": "பிள்ளை",
 | 
						|
    "பிள்ள": "பிள்ளை",
 | 
						|
    "ஆம்பிளப்புள்ள": "ஆண் பிள்ளை",
 | 
						|
    "பொம்பிளப்புள்ள": "பெண் பிள்ளை",
 | 
						|
    "அண்ணாச்சி": "அண்ணா",
 | 
						|
    "அக்காச்சி": "அக்கா",
 | 
						|
    "தங்கச்சி": "தங்கை",
 | 
						|
    # difference words
 | 
						|
    "பொடியன்": "சிறுவன்",
 | 
						|
    "பொட்டை": "சிறுமி",
 | 
						|
    "பிறகு": "பின்பு",
 | 
						|
    "டக்கென்டு": "விரைவாக",
 | 
						|
    "கெதியா": "விரைவாக",
 | 
						|
    "கிறுகி": "திரும்பி",
 | 
						|
    "போயித்து வாறன்": "போய் வருகிறேன்",
 | 
						|
    "வருவாங்களா": "வருவார்களா",
 | 
						|
    # regular spokens
 | 
						|
    "சொல்லு": "சொல்",
 | 
						|
    "கேளு": "கேள்",
 | 
						|
    "சொல்லுங்க": "சொல்லுங்கள்",
 | 
						|
    "கேளுங்க": "கேளுங்கள்",
 | 
						|
    "நீங்கள்": "நீ",
 | 
						|
    "உன்": "உன்னுடைய",
 | 
						|
    # Portugeese formal words
 | 
						|
    "அலவாங்கு": "கடப்பாரை",
 | 
						|
    "ஆசுப்பத்திரி": "மருத்துவமனை",
 | 
						|
    "உரோதை": "சில்லு",
 | 
						|
    "கடுதாசி": "கடிதம்",
 | 
						|
    "கதிரை": "நாற்காலி",
 | 
						|
    "குசினி": "அடுக்களை",
 | 
						|
    "கோப்பை": "கிண்ணம்",
 | 
						|
    "சப்பாத்து": "காலணி",
 | 
						|
    "தாச்சி": "இரும்புச் சட்டி",
 | 
						|
    "துவாய்": "துவாலை",
 | 
						|
    "தவறணை": "மதுக்கடை",
 | 
						|
    "பீப்பா": "மரத்தாழி",
 | 
						|
    "யன்னல்": "சாளரம்",
 | 
						|
    "வாங்கு": "மரஇருக்கை",
 | 
						|
    # Dutch formal words
 | 
						|
    "இறாக்கை": "பற்சட்டம்",
 | 
						|
    "இலாட்சி": "இழுப்பறை",
 | 
						|
    "கந்தோர்": "பணிமனை",
 | 
						|
    "நொத்தாரிசு": "ஆவண எழுத்துபதிவாளர்",
 | 
						|
    # English formal words
 | 
						|
    "இஞ்சினியர்": "பொறியியலாளர்",
 | 
						|
    "சூப்பு": "ரசம்",
 | 
						|
    "செக்": "காசோலை",
 | 
						|
    "சேட்டு": "மேற்ச்சட்டை",
 | 
						|
    "மார்க்கட்டு": "சந்தை",
 | 
						|
    "விண்ணன்": "கெட்டிக்காரன்",
 | 
						|
    # Arabic formal words
 | 
						|
    "ஈமான்": "நம்பிக்கை",
 | 
						|
    "சுன்னத்து": "விருத்தசேதனம்",
 | 
						|
    "செய்த்தான்": "பிசாசு",
 | 
						|
    "மவுத்து": "இறப்பு",
 | 
						|
    "ஹலால்": "அங்கீகரிக்கப்பட்டது",
 | 
						|
    "கறாம்": "நிராகரிக்கப்பட்டது",
 | 
						|
    # Persian, Hindustanian and hindi formal words
 | 
						|
    "சுமார்": "கிட்டத்தட்ட",
 | 
						|
    "சிப்பாய்": "போர்வீரன்",
 | 
						|
    "சிபார்சு": "சிபாரிசு",
 | 
						|
    "ஜமீன்": "பணக்காரா்",
 | 
						|
    "அசல்": "மெய்யான",
 | 
						|
    "அந்தஸ்து": "கௌரவம்",
 | 
						|
    "ஆஜர்": "சமா்ப்பித்தல்",
 | 
						|
    "உசார்": "எச்சரிக்கை",
 | 
						|
    "அச்சா": "நல்ல",
 | 
						|
    # English words used in text conversations
 | 
						|
    "bcoz": "ஏனெனில்",
 | 
						|
    "bcuz": "ஏனெனில்",
 | 
						|
    "fav": "விருப்பமான",
 | 
						|
    "morning": "காலை வணக்கம்",
 | 
						|
    "gdeveng": "மாலை வணக்கம்",
 | 
						|
    "gdnyt": "இரவு வணக்கம்",
 | 
						|
    "gdnit": "இரவு வணக்கம்",
 | 
						|
    "plz": "தயவு செய்து",
 | 
						|
    "pls": "தயவு செய்து",
 | 
						|
    "thx": "நன்றி",
 | 
						|
    "thanx": "நன்றி",
 | 
						|
}
 | 
						|
 | 
						|
NORM_EXCEPTIONS = {}
 | 
						|
 | 
						|
for string, norm in _exc.items():
 | 
						|
    NORM_EXCEPTIONS[string] = norm
 |