extend abbreviations list in Faroese tokenizer exceptions (#13366)

This commit is contained in:
Lise 2024-03-25 15:36:11 +01:00 committed by GitHub
parent c32c1289a9
commit dfe27516d9
No known key found for this signature in database
GPG Key ID: B5690EEEBB952194

View File

@ -5,7 +5,9 @@ from ..tokenizer_exceptions import BASE_EXCEPTIONS
_exc = {}
for orth in [
"Chr.",
"apr.",
"atm.",
"aug.",
"avgr.",
"árg.",
@ -15,21 +17,53 @@ for orth in [
"blaðkv.",
"blm.",
"blaðm.",
"blaðstj.",
"blkv.",
"blm.",
"bls.",
"blstj.",
"blaðstj.",
"cand.",
"dagf.",
"des.",
"dkr.",
"dr.",
"e.Kr.",
"eint.",
"ex.",
"exam.",
"f.",
"f.Kr.",
"fa.",
"fam.",
"feb.",
"febr.",
"ff.",
"fl.",
"form.",
"frí.",
"fyrrv.",
"góðk.",
"h.m.",
"hósd.",
"innt.",
"jan.",
"kap.",
"kgl.",
"kl.",
"kr.",
"leyg.",
"m.a.",
"mðr.",
"m.o.",
"m.ø.",
"mia.",
"mik.",
"min.",
"mió.",
"mán.",
"mðr.",
"nov.",
"nr.",
"nto.",
"nov.",
@ -43,12 +77,25 @@ for orth in [
"o.o.",
"o.s.fr.",
"o.tíl.",
"o.u.",
"o.ø.",
"okt.",
"omf.",
"ph.d.",
"phil.",
"pr.",
"pst.",
"ritstj.",
"s.",
"sb.",
"sbr.",
"sbrt.",
"sek.",
"sep.",
"sept.",
"serst.",
"smb.",
"smbr.",
"sms.",
"smst.",
"smb.",
@ -58,14 +105,25 @@ for orth in [
"sept.",
"spf.",
"spsk.",
"stk.",
"sunnud.",
"t.",
"t.d.",
"t.e.",
"t.o.v.",
"t.s.",
"t.s.s.",
"tlf.",
"t.v.s",
"t.v.s.",
"tel.",
"tils.",
"tlf.",
"tsk.",
"t.o.v.",
"t.d.",
"tús.",
"týs.",
"uml.",
"ums.",
"uppl.",
@ -75,13 +133,22 @@ for orth in [
"útl.",
"útr.",
"vanl.",
"upprfr.",
"v.",
"v.h.",
"v.m.",
"v.ø.o.",
"vanl.",
"viðm.",
"viðv.",
"vm.",
"v.m.",
"á.Kr.",
"árg.",
"ávís.",
"útg.",
"útl.",
"útr.",
]:
_exc[orth] = [{ORTH: orth}]
capitalized = orth.capitalize()