extend abbreviations list in Faroese tokenizer exceptions (#13366)

This commit is contained in:
Lise 2024-03-25 15:36:11 +01:00 committed by GitHub
parent c32c1289a9
commit dfe27516d9
No known key found for this signature in database
GPG Key ID: B5690EEEBB952194

View File

@ -5,7 +5,9 @@ from ..tokenizer_exceptions import BASE_EXCEPTIONS
_exc = {} _exc = {}
for orth in [ for orth in [
"Chr.",
"apr.", "apr.",
"atm.",
"aug.", "aug.",
"avgr.", "avgr.",
"árg.", "árg.",
@ -15,21 +17,53 @@ for orth in [
"blaðkv.", "blaðkv.",
"blm.", "blm.",
"blaðm.", "blaðm.",
"blaðstj.",
"blkv.",
"blm.",
"bls.", "bls.",
"blstj.", "blstj.",
"blaðstj.", "blaðstj.",
"cand.",
"dagf.",
"des.", "des.",
"dkr.",
"dr.",
"e.Kr.",
"eint.", "eint.",
"ex.",
"exam.",
"f.",
"f.Kr.",
"fa.",
"fam.",
"feb.",
"febr.", "febr.",
"ff.",
"fl.",
"form.",
"frí.",
"fyrrv.", "fyrrv.",
"góðk.", "góðk.",
"h.m.", "h.m.",
"hósd.",
"innt.", "innt.",
"jan.", "jan.",
"kap.",
"kgl.",
"kl.", "kl.",
"kr.",
"leyg.",
"m.a.", "m.a.",
"mðr.", "mðr.",
"m.o.",
"m.ø.",
"mia.",
"mik.",
"min.",
"mió.", "mió.",
"mán.",
"mðr.",
"nov.",
"nr.", "nr.",
"nto.", "nto.",
"nov.", "nov.",
@ -43,12 +77,25 @@ for orth in [
"o.o.", "o.o.",
"o.s.fr.", "o.s.fr.",
"o.tíl.", "o.tíl.",
"o.u.",
"o.ø.", "o.ø.",
"okt.", "okt.",
"omf.", "omf.",
"ph.d.",
"phil.",
"pr.",
"pst.", "pst.",
"ritstj.", "ritstj.",
"s.",
"sb.",
"sbr.", "sbr.",
"sbrt.",
"sek.",
"sep.",
"sept.",
"serst.",
"smb.",
"smbr.",
"sms.", "sms.",
"smst.", "smst.",
"smb.", "smb.",
@ -58,14 +105,25 @@ for orth in [
"sept.", "sept.",
"spf.", "spf.",
"spsk.", "spsk.",
"stk.",
"sunnud.",
"t.",
"t.d.",
"t.e.", "t.e.",
"t.o.v.",
"t.s.", "t.s.",
"t.s.s.", "t.s.s.",
"tlf.", "tlf.",
"t.v.s",
"t.v.s.",
"tel.", "tel.",
"tils.",
"tlf.",
"tsk.", "tsk.",
"t.o.v.", "t.o.v.",
"t.d.", "t.d.",
"tús.",
"týs.",
"uml.", "uml.",
"ums.", "ums.",
"uppl.", "uppl.",
@ -75,13 +133,22 @@ for orth in [
"útl.", "útl.",
"útr.", "útr.",
"vanl.", "vanl.",
"upprfr.",
"v.", "v.",
"v.h.", "v.h.",
"v.m.",
"v.ø.o.", "v.ø.o.",
"vanl.",
"viðm.", "viðm.",
"viðv.", "viðv.",
"vm.", "vm.",
"v.m.", "v.m.",
"á.Kr.",
"árg.",
"ávís.",
"útg.",
"útl.",
"útr.",
]: ]:
_exc[orth] = [{ORTH: orth}] _exc[orth] = [{ORTH: orth}]
capitalized = orth.capitalize() capitalized = orth.capitalize()