spaCy/spacy/lang/lt/tokenizer_exceptions.py

from ...symbols import ORTH

_exc = {}

for orth in [
    "n-tosios",
    "?!",
    #    "G.",
    #    "J. E.",
    #    "J. Em.",
    #    "J.E.",
    #    "J.Em.",
    #    "K.",
    #    "N.",
    #    "V.",
    #    "Vt.",
    #    "a.",
    #    "a.k.",
    #    "a.s.",
    #    "adv.",
    #    "akad.",
    #    "aklg.",
    #    "akt.",
    #    "al.",
    #    "ang.",
    #    "angl.",
    #    "aps.",
    #    "apskr.",
    #    "apyg.",
    #    "arbat.",
    #    "asist.",
    #    "asm.",
    #    "asm.k.",
    #    "asmv.",
    #    "atk.",
    #    "atsak.",
    #    "atsisk.",
    #    "atsisk.sąsk.",
    #    "atv.",
    #    "aut.",
    #    "avd.",
    #    "b.k.",
    #    "baud.",
    #    "biol.",
    #    "bkl.",
    #    "bot.",
    #    "bt.",
    #    "buv.",
    #    "ch.",
    #    "chem.",
    #    "corp.",
    #    "d.",
    #    "dab.",
    #    "dail.",
    #    "dek.",
    #    "deš.",
    #    "dir.",
    #    "dirig.",
    #    "doc.",
    #    "dol.",
    #    "dr.",
    #    "drp.",
    #    "dvit.",
    #    "dėst.",
    #    "dš.",
    #    "dž.",
    #    "e.b.",
    #    "e.bankas",
    #    "e.p.",
    #    "e.parašas",
    #    "e.paštas",
    #    "e.v.",
    #    "e.valdžia",
    #    "egz.",
    #    "eil.",
    #    "ekon.",
    #    "el.",
    #    "el.bankas",
    #    "el.p.",
    #    "el.parašas",
    #    "el.paštas",
    #    "el.valdžia",
    #    "etc.",
    #    "ež.",
    #    "fak.",
    #    "faks.",
    #    "feat.",
    #    "filol.",
    #    "filos.",
    #    "g.",
    #    "gen.",
    #    "geol.",
    #    "gerb.",
    #    "gim.",
    #    "gr.",
    #    "gv.",
    #    "gyd.",
    #    "gyv.",
    #    "habil.",
    #    "inc.",
    #    "insp.",
    #    "inž.",
    #    "ir pan.",
    #    "ir t. t.",
    #    "isp.",
    #    "istor.",
    #    "it.",
    #    "just.",
    #    "k.",
    #    "k. a.",
    #    "k.a.",
    #    "kab.",
    #    "kand.",
    #    "kart.",
    #    "kat.",
    #    "ketv.",
    #    "kh.",
    #    "kl.",
    #    "kln.",
    #    "km.",
    #    "kn.",
    #    "koresp.",
    #    "kpt.",
    #    "kr.",
    #    "kt.",
    #    "kub.",
    #    "kun.",
    #    "kv.",
    #    "kyš.",
    #    "l. e. p.",
    #    "l.e.p.",
    #    "lenk.",
    #    "liet.",
    #    "lot.",
    #    "lt.",
    #    "ltd.",
    #    "ltn.",
    #    "m.",
    #    "m.e..",
    #    "m.m.",
    #    "mat.",
    #    "med.",
    #    "mgnt.",
    #    "mgr.",
    #    "min.",
    #    "mjr.",
    #    "ml.",
    #    "mln.",
    #    "mlrd.",
    #    "mob.",
    #    "mok.",
    #    "moksl.",
    #    "mokyt.",
    #    "mot.",
    #    "mr.",
    #    "mst.",
    #    "mstl.",
    #    "mėn.",
    #    "nkt.",
    #    "no.",
    #    "nr.",
    #    "ntk.",
    #    "nuotr.",
    #    "op.",
    #    "org.",
    #    "orig.",
    #    "p.",
    #    "p.d.",
    #    "p.m.e.",
    #    "p.s.",
    #    "pab.",
    #    "pan.",
    #    "past.",
    #    "pav.",
    #    "pavad.",
    #    "per.",
    #    "perd.",
    #    "pirm.",
    #    "pl.",
    #    "plg.",
    #    "plk.",
    #    "pr.",
    #    "pr.Kr.",
    #    "pranc.",
    #    "proc.",
    #    "prof.",
    #    "prom.",
    #    "prot.",
    #    "psl.",
    #    "pss.",
    #    "pvz.",
    #    "pšt.",
    #    "r.",
    #    "raj.",
    #    "red.",
    #    "rez.",
    #    "rež.",
    #    "rus.",
    #    "rš.",
    #    "s.",
    #    "sav.",
    #    "saviv.",
    #    "sek.",
    #    "sekr.",
    #    "sen.",
    #    "sh.",
    #    "sk.",
    #    "skg.",
    #    "skv.",
    #    "skyr.",
    #    "sp.",
    #    "spec.",
    #    "sr.",
    #    "st.",
    #    "str.",
    #    "stud.",
    #    "sąs.",
    #    "t.",
    #    "t. p.",
    #    "t. y.",
    #    "t.p.",
    #    "t.t.",
    #    "t.y.",
    #    "techn.",
    #    "tel.",
    #    "teol.",
    #    "th.",
    #    "tir.",
    #    "trit.",
    #    "trln.",
    #    "tšk.",
    #    "tūks.",
    #    "tūkst.",
    #    "up.",
    #    "upl.",
    #    "v.s.",
    #    "vad.",
    #    "val.",
    #    "valg.",
    #    "ved.",
    #    "vert.",
    #    "vet.",
    #    "vid.",
    #    "virš.",
    #    "vlsč.",
    #    "vnt.",
    #    "vok.",
    #    "vs.",
    #    "vtv.",
    #    "vv.",
    #    "vyr.",
    #    "vyresn.",
    #    "zool.",
    #    "Įn",
    #    "įl.",
    #    "š.m.",
    #    "šnek.",
    #    "šv.",
    #    "švč.",
    #    "ž.ū.",
    #    "žin.",
    #    "žml.",
    #    "žr.",
]:
    _exc[orth] = [{ORTH: orth}]

TOKENIZER_EXCEPTIONS = _exc
Lithuanian language support (#3895) * initial LT lang support * Added more stopwords. Started setting up some basic test environment (not complete) * Initial morph rules for LT lang * Closes #1 Adds tokenizer exceptions for Lithuanian * Closes #5 Punctuation rules. Closes #6 Lexical Attributes * test: add native examples to basic tests * feat: add tag map for lt lang * fix: remove undefined tag attribute 'Definite' * feat: add lemmatizer for lt lang * refactor: add new instances to lt lang morph rules; use tags from tag map * refactor: add morph rules to lt lang defaults * refactor: only keep nouns, verbs, adverbs and adjectives in lt lang lemmatizer lookup * refactor: add capitalized words to lt lang lemmatizer * refactor: add more num words to lt lang lex attrs * refactor: update lt lang stop word set * refactor: add new instances to lt lang tokenizer exceptions * refactor: remove comments form lt lang init file * refactor: use function instead of lambda in lt lex lang getter * refactor: remove conversion to dict in lt init when dict is already provided * chore: rename lt 'test_basic' to 'test_text' * feat: add more lt text tests * feat: add lemmatizer tests * refactor: remove unused imports, add newline to end of file * chore: add contributor agreement * chore: change 'en' to 'lt' in lt example description * fix: add missing encoding info * style: add newline to end of file * refactor: use python2 compatible syntax * style: reformat code using black 2019-07-08 11:25:22 +03:00			`from ...symbols import ORTH`

			`_exc = {}`

			`for orth in [`
Improve Lithuanian tokenization (#5205) * Improve Lithuanian tokenization Modify Lithuanian tokenization to improve performance for UD_Lithuanian-ALKSNIS. * Update Lithuanian tokenizer tests 2020-03-25 13:28:12 +03:00			`"n-tosios",`
			`"?!",`
Tidy up and auto-format 2020-03-25 14:28:12 +03:00			`# "G.",`
			`# "J. E.",`
			`# "J. Em.",`
			`# "J.E.",`
			`# "J.Em.",`
			`# "K.",`
			`# "N.",`
			`# "V.",`
			`# "Vt.",`
			`# "a.",`
			`# "a.k.",`
			`# "a.s.",`
			`# "adv.",`
			`# "akad.",`
			`# "aklg.",`
			`# "akt.",`
			`# "al.",`
			`# "ang.",`
			`# "angl.",`
			`# "aps.",`
			`# "apskr.",`
			`# "apyg.",`
			`# "arbat.",`
			`# "asist.",`
			`# "asm.",`
			`# "asm.k.",`
			`# "asmv.",`
			`# "atk.",`
			`# "atsak.",`
			`# "atsisk.",`
			`# "atsisk.sąsk.",`
			`# "atv.",`
			`# "aut.",`
			`# "avd.",`
			`# "b.k.",`
			`# "baud.",`
			`# "biol.",`
			`# "bkl.",`
			`# "bot.",`
			`# "bt.",`
			`# "buv.",`
			`# "ch.",`
			`# "chem.",`
			`# "corp.",`
			`# "d.",`
			`# "dab.",`
			`# "dail.",`
			`# "dek.",`
			`# "deš.",`
			`# "dir.",`
			`# "dirig.",`
			`# "doc.",`
			`# "dol.",`
			`# "dr.",`
			`# "drp.",`
			`# "dvit.",`
			`# "dėst.",`
			`# "dš.",`
			`# "dž.",`
			`# "e.b.",`
			`# "e.bankas",`
			`# "e.p.",`
			`# "e.parašas",`
			`# "e.paštas",`
			`# "e.v.",`
			`# "e.valdžia",`
			`# "egz.",`
			`# "eil.",`
			`# "ekon.",`
			`# "el.",`
			`# "el.bankas",`
			`# "el.p.",`
			`# "el.parašas",`
			`# "el.paštas",`
			`# "el.valdžia",`
			`# "etc.",`
			`# "ež.",`
			`# "fak.",`
			`# "faks.",`
			`# "feat.",`
			`# "filol.",`
			`# "filos.",`
			`# "g.",`
			`# "gen.",`
			`# "geol.",`
			`# "gerb.",`
			`# "gim.",`
			`# "gr.",`
			`# "gv.",`
			`# "gyd.",`
			`# "gyv.",`
			`# "habil.",`
			`# "inc.",`
			`# "insp.",`
			`# "inž.",`
			`# "ir pan.",`
			`# "ir t. t.",`
			`# "isp.",`
			`# "istor.",`
			`# "it.",`
			`# "just.",`
			`# "k.",`
			`# "k. a.",`
			`# "k.a.",`
			`# "kab.",`
			`# "kand.",`
			`# "kart.",`
			`# "kat.",`
			`# "ketv.",`
			`# "kh.",`
			`# "kl.",`
			`# "kln.",`
			`# "km.",`
			`# "kn.",`
			`# "koresp.",`
			`# "kpt.",`
			`# "kr.",`
			`# "kt.",`
			`# "kub.",`
			`# "kun.",`
			`# "kv.",`
			`# "kyš.",`
			`# "l. e. p.",`
			`# "l.e.p.",`
			`# "lenk.",`
			`# "liet.",`
			`# "lot.",`
			`# "lt.",`
			`# "ltd.",`
			`# "ltn.",`
			`# "m.",`
			`# "m.e..",`
			`# "m.m.",`
			`# "mat.",`
			`# "med.",`
			`# "mgnt.",`
			`# "mgr.",`
			`# "min.",`
			`# "mjr.",`
			`# "ml.",`
			`# "mln.",`
			`# "mlrd.",`
			`# "mob.",`
			`# "mok.",`
			`# "moksl.",`
			`# "mokyt.",`
			`# "mot.",`
			`# "mr.",`
			`# "mst.",`
			`# "mstl.",`
			`# "mėn.",`
			`# "nkt.",`
			`# "no.",`
			`# "nr.",`
			`# "ntk.",`
			`# "nuotr.",`
			`# "op.",`
			`# "org.",`
			`# "orig.",`
			`# "p.",`
			`# "p.d.",`
			`# "p.m.e.",`
			`# "p.s.",`
			`# "pab.",`
			`# "pan.",`
			`# "past.",`
			`# "pav.",`
			`# "pavad.",`
			`# "per.",`
			`# "perd.",`
			`# "pirm.",`
			`# "pl.",`
			`# "plg.",`
			`# "plk.",`
			`# "pr.",`
			`# "pr.Kr.",`
			`# "pranc.",`
			`# "proc.",`
			`# "prof.",`
			`# "prom.",`
			`# "prot.",`
			`# "psl.",`
			`# "pss.",`
			`# "pvz.",`
			`# "pšt.",`
			`# "r.",`
			`# "raj.",`
			`# "red.",`
			`# "rez.",`
			`# "rež.",`
			`# "rus.",`
			`# "rš.",`
			`# "s.",`
			`# "sav.",`
			`# "saviv.",`
			`# "sek.",`
			`# "sekr.",`
			`# "sen.",`
			`# "sh.",`
			`# "sk.",`
			`# "skg.",`
			`# "skv.",`
			`# "skyr.",`
			`# "sp.",`
			`# "spec.",`
			`# "sr.",`
			`# "st.",`
			`# "str.",`
			`# "stud.",`
			`# "sąs.",`
			`# "t.",`
			`# "t. p.",`
			`# "t. y.",`
			`# "t.p.",`
			`# "t.t.",`
			`# "t.y.",`
			`# "techn.",`
			`# "tel.",`
			`# "teol.",`
			`# "th.",`
			`# "tir.",`
			`# "trit.",`
			`# "trln.",`
			`# "tšk.",`
			`# "tūks.",`
			`# "tūkst.",`
			`# "up.",`
			`# "upl.",`
			`# "v.s.",`
			`# "vad.",`
			`# "val.",`
			`# "valg.",`
			`# "ved.",`
			`# "vert.",`
			`# "vet.",`
			`# "vid.",`
			`# "virš.",`
			`# "vlsč.",`
			`# "vnt.",`
			`# "vok.",`
			`# "vs.",`
			`# "vtv.",`
			`# "vv.",`
			`# "vyr.",`
			`# "vyresn.",`
			`# "zool.",`
			`# "Įn",`
			`# "įl.",`
			`# "š.m.",`
			`# "šnek.",`
			`# "šv.",`
			`# "švč.",`
			`# "ž.ū.",`
			`# "žin.",`
			`# "žml.",`
			`# "žr.",`
Lithuanian language support (#3895) * initial LT lang support * Added more stopwords. Started setting up some basic test environment (not complete) * Initial morph rules for LT lang * Closes #1 Adds tokenizer exceptions for Lithuanian * Closes #5 Punctuation rules. Closes #6 Lexical Attributes * test: add native examples to basic tests * feat: add tag map for lt lang * fix: remove undefined tag attribute 'Definite' * feat: add lemmatizer for lt lang * refactor: add new instances to lt lang morph rules; use tags from tag map * refactor: add morph rules to lt lang defaults * refactor: only keep nouns, verbs, adverbs and adjectives in lt lang lemmatizer lookup * refactor: add capitalized words to lt lang lemmatizer * refactor: add more num words to lt lang lex attrs * refactor: update lt lang stop word set * refactor: add new instances to lt lang tokenizer exceptions * refactor: remove comments form lt lang init file * refactor: use function instead of lambda in lt lex lang getter * refactor: remove conversion to dict in lt init when dict is already provided * chore: rename lt 'test_basic' to 'test_text' * feat: add more lt text tests * feat: add lemmatizer tests * refactor: remove unused imports, add newline to end of file * chore: add contributor agreement * chore: change 'en' to 'lt' in lt example description * fix: add missing encoding info * style: add newline to end of file * refactor: use python2 compatible syntax * style: reformat code using black 2019-07-08 11:25:22 +03:00			`]:`
			`_exc[orth] = [{ORTH: orth}]`

			`TOKENIZER_EXCEPTIONS = _exc`