mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-11-04 09:57:26 +03:00 
			
		
		
		
	* Remove unicode declarations * Remove Python 3.5 and 2.7 from CI * Don't require pathlib * Replace compat helpers * Remove OrderedDict * Use f-strings * Set Cython compiler language level * Fix typo * Re-add OrderedDict for Table * Update setup.cfg * Revert CONTRIBUTING.md * Revert lookups.md * Revert top-level.md * Small adjustments and docs [ci skip]
		
			
				
	
	
		
			266 lines
		
	
	
		
			3.2 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			266 lines
		
	
	
		
			3.2 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
from ...symbols import ORTH
 | 
						|
 | 
						|
_exc = {}
 | 
						|
 | 
						|
for orth in [
 | 
						|
    "G.",
 | 
						|
    "J. E.",
 | 
						|
    "J. Em.",
 | 
						|
    "J.E.",
 | 
						|
    "J.Em.",
 | 
						|
    "K.",
 | 
						|
    "N.",
 | 
						|
    "V.",
 | 
						|
    "Vt.",
 | 
						|
    "a.",
 | 
						|
    "a.k.",
 | 
						|
    "a.s.",
 | 
						|
    "adv.",
 | 
						|
    "akad.",
 | 
						|
    "aklg.",
 | 
						|
    "akt.",
 | 
						|
    "al.",
 | 
						|
    "ang.",
 | 
						|
    "angl.",
 | 
						|
    "aps.",
 | 
						|
    "apskr.",
 | 
						|
    "apyg.",
 | 
						|
    "arbat.",
 | 
						|
    "asist.",
 | 
						|
    "asm.",
 | 
						|
    "asm.k.",
 | 
						|
    "asmv.",
 | 
						|
    "atk.",
 | 
						|
    "atsak.",
 | 
						|
    "atsisk.",
 | 
						|
    "atsisk.sąsk.",
 | 
						|
    "atv.",
 | 
						|
    "aut.",
 | 
						|
    "avd.",
 | 
						|
    "b.k.",
 | 
						|
    "baud.",
 | 
						|
    "biol.",
 | 
						|
    "bkl.",
 | 
						|
    "bot.",
 | 
						|
    "bt.",
 | 
						|
    "buv.",
 | 
						|
    "ch.",
 | 
						|
    "chem.",
 | 
						|
    "corp.",
 | 
						|
    "d.",
 | 
						|
    "dab.",
 | 
						|
    "dail.",
 | 
						|
    "dek.",
 | 
						|
    "deš.",
 | 
						|
    "dir.",
 | 
						|
    "dirig.",
 | 
						|
    "doc.",
 | 
						|
    "dol.",
 | 
						|
    "dr.",
 | 
						|
    "drp.",
 | 
						|
    "dvit.",
 | 
						|
    "dėst.",
 | 
						|
    "dš.",
 | 
						|
    "dž.",
 | 
						|
    "e.b.",
 | 
						|
    "e.bankas",
 | 
						|
    "e.p.",
 | 
						|
    "e.parašas",
 | 
						|
    "e.paštas",
 | 
						|
    "e.v.",
 | 
						|
    "e.valdžia",
 | 
						|
    "egz.",
 | 
						|
    "eil.",
 | 
						|
    "ekon.",
 | 
						|
    "el.",
 | 
						|
    "el.bankas",
 | 
						|
    "el.p.",
 | 
						|
    "el.parašas",
 | 
						|
    "el.paštas",
 | 
						|
    "el.valdžia",
 | 
						|
    "etc.",
 | 
						|
    "ež.",
 | 
						|
    "fak.",
 | 
						|
    "faks.",
 | 
						|
    "feat.",
 | 
						|
    "filol.",
 | 
						|
    "filos.",
 | 
						|
    "g.",
 | 
						|
    "gen.",
 | 
						|
    "geol.",
 | 
						|
    "gerb.",
 | 
						|
    "gim.",
 | 
						|
    "gr.",
 | 
						|
    "gv.",
 | 
						|
    "gyd.",
 | 
						|
    "gyv.",
 | 
						|
    "habil.",
 | 
						|
    "inc.",
 | 
						|
    "insp.",
 | 
						|
    "inž.",
 | 
						|
    "ir pan.",
 | 
						|
    "ir t. t.",
 | 
						|
    "isp.",
 | 
						|
    "istor.",
 | 
						|
    "it.",
 | 
						|
    "just.",
 | 
						|
    "k.",
 | 
						|
    "k. a.",
 | 
						|
    "k.a.",
 | 
						|
    "kab.",
 | 
						|
    "kand.",
 | 
						|
    "kart.",
 | 
						|
    "kat.",
 | 
						|
    "ketv.",
 | 
						|
    "kh.",
 | 
						|
    "kl.",
 | 
						|
    "kln.",
 | 
						|
    "km.",
 | 
						|
    "kn.",
 | 
						|
    "koresp.",
 | 
						|
    "kpt.",
 | 
						|
    "kr.",
 | 
						|
    "kt.",
 | 
						|
    "kub.",
 | 
						|
    "kun.",
 | 
						|
    "kv.",
 | 
						|
    "kyš.",
 | 
						|
    "l. e. p.",
 | 
						|
    "l.e.p.",
 | 
						|
    "lenk.",
 | 
						|
    "liet.",
 | 
						|
    "lot.",
 | 
						|
    "lt.",
 | 
						|
    "ltd.",
 | 
						|
    "ltn.",
 | 
						|
    "m.",
 | 
						|
    "m.e..",
 | 
						|
    "m.m.",
 | 
						|
    "mat.",
 | 
						|
    "med.",
 | 
						|
    "mgnt.",
 | 
						|
    "mgr.",
 | 
						|
    "min.",
 | 
						|
    "mjr.",
 | 
						|
    "ml.",
 | 
						|
    "mln.",
 | 
						|
    "mlrd.",
 | 
						|
    "mob.",
 | 
						|
    "mok.",
 | 
						|
    "moksl.",
 | 
						|
    "mokyt.",
 | 
						|
    "mot.",
 | 
						|
    "mr.",
 | 
						|
    "mst.",
 | 
						|
    "mstl.",
 | 
						|
    "mėn.",
 | 
						|
    "nkt.",
 | 
						|
    "no.",
 | 
						|
    "nr.",
 | 
						|
    "ntk.",
 | 
						|
    "nuotr.",
 | 
						|
    "op.",
 | 
						|
    "org.",
 | 
						|
    "orig.",
 | 
						|
    "p.",
 | 
						|
    "p.d.",
 | 
						|
    "p.m.e.",
 | 
						|
    "p.s.",
 | 
						|
    "pab.",
 | 
						|
    "pan.",
 | 
						|
    "past.",
 | 
						|
    "pav.",
 | 
						|
    "pavad.",
 | 
						|
    "per.",
 | 
						|
    "perd.",
 | 
						|
    "pirm.",
 | 
						|
    "pl.",
 | 
						|
    "plg.",
 | 
						|
    "plk.",
 | 
						|
    "pr.",
 | 
						|
    "pr.Kr.",
 | 
						|
    "pranc.",
 | 
						|
    "proc.",
 | 
						|
    "prof.",
 | 
						|
    "prom.",
 | 
						|
    "prot.",
 | 
						|
    "psl.",
 | 
						|
    "pss.",
 | 
						|
    "pvz.",
 | 
						|
    "pšt.",
 | 
						|
    "r.",
 | 
						|
    "raj.",
 | 
						|
    "red.",
 | 
						|
    "rez.",
 | 
						|
    "rež.",
 | 
						|
    "rus.",
 | 
						|
    "rš.",
 | 
						|
    "s.",
 | 
						|
    "sav.",
 | 
						|
    "saviv.",
 | 
						|
    "sek.",
 | 
						|
    "sekr.",
 | 
						|
    "sen.",
 | 
						|
    "sh.",
 | 
						|
    "sk.",
 | 
						|
    "skg.",
 | 
						|
    "skv.",
 | 
						|
    "skyr.",
 | 
						|
    "sp.",
 | 
						|
    "spec.",
 | 
						|
    "sr.",
 | 
						|
    "st.",
 | 
						|
    "str.",
 | 
						|
    "stud.",
 | 
						|
    "sąs.",
 | 
						|
    "t.",
 | 
						|
    "t. p.",
 | 
						|
    "t. y.",
 | 
						|
    "t.p.",
 | 
						|
    "t.t.",
 | 
						|
    "t.y.",
 | 
						|
    "techn.",
 | 
						|
    "tel.",
 | 
						|
    "teol.",
 | 
						|
    "th.",
 | 
						|
    "tir.",
 | 
						|
    "trit.",
 | 
						|
    "trln.",
 | 
						|
    "tšk.",
 | 
						|
    "tūks.",
 | 
						|
    "tūkst.",
 | 
						|
    "up.",
 | 
						|
    "upl.",
 | 
						|
    "v.s.",
 | 
						|
    "vad.",
 | 
						|
    "val.",
 | 
						|
    "valg.",
 | 
						|
    "ved.",
 | 
						|
    "vert.",
 | 
						|
    "vet.",
 | 
						|
    "vid.",
 | 
						|
    "virš.",
 | 
						|
    "vlsč.",
 | 
						|
    "vnt.",
 | 
						|
    "vok.",
 | 
						|
    "vs.",
 | 
						|
    "vtv.",
 | 
						|
    "vv.",
 | 
						|
    "vyr.",
 | 
						|
    "vyresn.",
 | 
						|
    "zool.",
 | 
						|
    "Įn",
 | 
						|
    "įl.",
 | 
						|
    "š.m.",
 | 
						|
    "šnek.",
 | 
						|
    "šv.",
 | 
						|
    "švč.",
 | 
						|
    "ž.ū.",
 | 
						|
    "žin.",
 | 
						|
    "žml.",
 | 
						|
    "žr.",
 | 
						|
]:
 | 
						|
    _exc[orth] = [{ORTH: orth}]
 | 
						|
 | 
						|
TOKENIZER_EXCEPTIONS = _exc
 |