mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-10-30 23:47:31 +03:00 
			
		
		
		
	
		
			
				
	
	
		
			271 lines
		
	
	
		
			4.6 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			271 lines
		
	
	
		
			4.6 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
| # coding: utf8
 | |
| from __future__ import unicode_literals
 | |
| 
 | |
| from ...symbols import ORTH
 | |
| 
 | |
| _exc = {}
 | |
| 
 | |
| for orth in [
 | |
|     "n-tosios",
 | |
|     "?!",
 | |
|     #    "G.",
 | |
|     #    "J. E.",
 | |
|     #    "J. Em.",
 | |
|     #    "J.E.",
 | |
|     #    "J.Em.",
 | |
|     #    "K.",
 | |
|     #    "N.",
 | |
|     #    "V.",
 | |
|     #    "Vt.",
 | |
|     #    "a.",
 | |
|     #    "a.k.",
 | |
|     #    "a.s.",
 | |
|     #    "adv.",
 | |
|     #    "akad.",
 | |
|     #    "aklg.",
 | |
|     #    "akt.",
 | |
|     #    "al.",
 | |
|     #    "ang.",
 | |
|     #    "angl.",
 | |
|     #    "aps.",
 | |
|     #    "apskr.",
 | |
|     #    "apyg.",
 | |
|     #    "arbat.",
 | |
|     #    "asist.",
 | |
|     #    "asm.",
 | |
|     #    "asm.k.",
 | |
|     #    "asmv.",
 | |
|     #    "atk.",
 | |
|     #    "atsak.",
 | |
|     #    "atsisk.",
 | |
|     #    "atsisk.sąsk.",
 | |
|     #    "atv.",
 | |
|     #    "aut.",
 | |
|     #    "avd.",
 | |
|     #    "b.k.",
 | |
|     #    "baud.",
 | |
|     #    "biol.",
 | |
|     #    "bkl.",
 | |
|     #    "bot.",
 | |
|     #    "bt.",
 | |
|     #    "buv.",
 | |
|     #    "ch.",
 | |
|     #    "chem.",
 | |
|     #    "corp.",
 | |
|     #    "d.",
 | |
|     #    "dab.",
 | |
|     #    "dail.",
 | |
|     #    "dek.",
 | |
|     #    "deš.",
 | |
|     #    "dir.",
 | |
|     #    "dirig.",
 | |
|     #    "doc.",
 | |
|     #    "dol.",
 | |
|     #    "dr.",
 | |
|     #    "drp.",
 | |
|     #    "dvit.",
 | |
|     #    "dėst.",
 | |
|     #    "dš.",
 | |
|     #    "dž.",
 | |
|     #    "e.b.",
 | |
|     #    "e.bankas",
 | |
|     #    "e.p.",
 | |
|     #    "e.parašas",
 | |
|     #    "e.paštas",
 | |
|     #    "e.v.",
 | |
|     #    "e.valdžia",
 | |
|     #    "egz.",
 | |
|     #    "eil.",
 | |
|     #    "ekon.",
 | |
|     #    "el.",
 | |
|     #    "el.bankas",
 | |
|     #    "el.p.",
 | |
|     #    "el.parašas",
 | |
|     #    "el.paštas",
 | |
|     #    "el.valdžia",
 | |
|     #    "etc.",
 | |
|     #    "ež.",
 | |
|     #    "fak.",
 | |
|     #    "faks.",
 | |
|     #    "feat.",
 | |
|     #    "filol.",
 | |
|     #    "filos.",
 | |
|     #    "g.",
 | |
|     #    "gen.",
 | |
|     #    "geol.",
 | |
|     #    "gerb.",
 | |
|     #    "gim.",
 | |
|     #    "gr.",
 | |
|     #    "gv.",
 | |
|     #    "gyd.",
 | |
|     #    "gyv.",
 | |
|     #    "habil.",
 | |
|     #    "inc.",
 | |
|     #    "insp.",
 | |
|     #    "inž.",
 | |
|     #    "ir pan.",
 | |
|     #    "ir t. t.",
 | |
|     #    "isp.",
 | |
|     #    "istor.",
 | |
|     #    "it.",
 | |
|     #    "just.",
 | |
|     #    "k.",
 | |
|     #    "k. a.",
 | |
|     #    "k.a.",
 | |
|     #    "kab.",
 | |
|     #    "kand.",
 | |
|     #    "kart.",
 | |
|     #    "kat.",
 | |
|     #    "ketv.",
 | |
|     #    "kh.",
 | |
|     #    "kl.",
 | |
|     #    "kln.",
 | |
|     #    "km.",
 | |
|     #    "kn.",
 | |
|     #    "koresp.",
 | |
|     #    "kpt.",
 | |
|     #    "kr.",
 | |
|     #    "kt.",
 | |
|     #    "kub.",
 | |
|     #    "kun.",
 | |
|     #    "kv.",
 | |
|     #    "kyš.",
 | |
|     #    "l. e. p.",
 | |
|     #    "l.e.p.",
 | |
|     #    "lenk.",
 | |
|     #    "liet.",
 | |
|     #    "lot.",
 | |
|     #    "lt.",
 | |
|     #    "ltd.",
 | |
|     #    "ltn.",
 | |
|     #    "m.",
 | |
|     #    "m.e..",
 | |
|     #    "m.m.",
 | |
|     #    "mat.",
 | |
|     #    "med.",
 | |
|     #    "mgnt.",
 | |
|     #    "mgr.",
 | |
|     #    "min.",
 | |
|     #    "mjr.",
 | |
|     #    "ml.",
 | |
|     #    "mln.",
 | |
|     #    "mlrd.",
 | |
|     #    "mob.",
 | |
|     #    "mok.",
 | |
|     #    "moksl.",
 | |
|     #    "mokyt.",
 | |
|     #    "mot.",
 | |
|     #    "mr.",
 | |
|     #    "mst.",
 | |
|     #    "mstl.",
 | |
|     #    "mėn.",
 | |
|     #    "nkt.",
 | |
|     #    "no.",
 | |
|     #    "nr.",
 | |
|     #    "ntk.",
 | |
|     #    "nuotr.",
 | |
|     #    "op.",
 | |
|     #    "org.",
 | |
|     #    "orig.",
 | |
|     #    "p.",
 | |
|     #    "p.d.",
 | |
|     #    "p.m.e.",
 | |
|     #    "p.s.",
 | |
|     #    "pab.",
 | |
|     #    "pan.",
 | |
|     #    "past.",
 | |
|     #    "pav.",
 | |
|     #    "pavad.",
 | |
|     #    "per.",
 | |
|     #    "perd.",
 | |
|     #    "pirm.",
 | |
|     #    "pl.",
 | |
|     #    "plg.",
 | |
|     #    "plk.",
 | |
|     #    "pr.",
 | |
|     #    "pr.Kr.",
 | |
|     #    "pranc.",
 | |
|     #    "proc.",
 | |
|     #    "prof.",
 | |
|     #    "prom.",
 | |
|     #    "prot.",
 | |
|     #    "psl.",
 | |
|     #    "pss.",
 | |
|     #    "pvz.",
 | |
|     #    "pšt.",
 | |
|     #    "r.",
 | |
|     #    "raj.",
 | |
|     #    "red.",
 | |
|     #    "rez.",
 | |
|     #    "rež.",
 | |
|     #    "rus.",
 | |
|     #    "rš.",
 | |
|     #    "s.",
 | |
|     #    "sav.",
 | |
|     #    "saviv.",
 | |
|     #    "sek.",
 | |
|     #    "sekr.",
 | |
|     #    "sen.",
 | |
|     #    "sh.",
 | |
|     #    "sk.",
 | |
|     #    "skg.",
 | |
|     #    "skv.",
 | |
|     #    "skyr.",
 | |
|     #    "sp.",
 | |
|     #    "spec.",
 | |
|     #    "sr.",
 | |
|     #    "st.",
 | |
|     #    "str.",
 | |
|     #    "stud.",
 | |
|     #    "sąs.",
 | |
|     #    "t.",
 | |
|     #    "t. p.",
 | |
|     #    "t. y.",
 | |
|     #    "t.p.",
 | |
|     #    "t.t.",
 | |
|     #    "t.y.",
 | |
|     #    "techn.",
 | |
|     #    "tel.",
 | |
|     #    "teol.",
 | |
|     #    "th.",
 | |
|     #    "tir.",
 | |
|     #    "trit.",
 | |
|     #    "trln.",
 | |
|     #    "tšk.",
 | |
|     #    "tūks.",
 | |
|     #    "tūkst.",
 | |
|     #    "up.",
 | |
|     #    "upl.",
 | |
|     #    "v.s.",
 | |
|     #    "vad.",
 | |
|     #    "val.",
 | |
|     #    "valg.",
 | |
|     #    "ved.",
 | |
|     #    "vert.",
 | |
|     #    "vet.",
 | |
|     #    "vid.",
 | |
|     #    "virš.",
 | |
|     #    "vlsč.",
 | |
|     #    "vnt.",
 | |
|     #    "vok.",
 | |
|     #    "vs.",
 | |
|     #    "vtv.",
 | |
|     #    "vv.",
 | |
|     #    "vyr.",
 | |
|     #    "vyresn.",
 | |
|     #    "zool.",
 | |
|     #    "Įn",
 | |
|     #    "įl.",
 | |
|     #    "š.m.",
 | |
|     #    "šnek.",
 | |
|     #    "šv.",
 | |
|     #    "švč.",
 | |
|     #    "ž.ū.",
 | |
|     #    "žin.",
 | |
|     #    "žml.",
 | |
|     #    "žr.",
 | |
| ]:
 | |
|     _exc[orth] = [{ORTH: orth}]
 | |
| 
 | |
| TOKENIZER_EXCEPTIONS = _exc
 |