mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-10 19:57:17 +03:00
extend abbreviations list in Faroese tokenizer exceptions (#13366)
This commit is contained in:
parent
c32c1289a9
commit
dfe27516d9
|
@ -5,7 +5,9 @@ from ..tokenizer_exceptions import BASE_EXCEPTIONS
|
|||
_exc = {}
|
||||
|
||||
for orth in [
|
||||
"Chr.",
|
||||
"apr.",
|
||||
"atm.",
|
||||
"aug.",
|
||||
"avgr.",
|
||||
"árg.",
|
||||
|
@ -15,21 +17,53 @@ for orth in [
|
|||
"blaðkv.",
|
||||
"blm.",
|
||||
"blaðm.",
|
||||
"blaðstj.",
|
||||
"blkv.",
|
||||
"blm.",
|
||||
"bls.",
|
||||
"blstj.",
|
||||
"blaðstj.",
|
||||
"cand.",
|
||||
"dagf.",
|
||||
"des.",
|
||||
"dkr.",
|
||||
"dr.",
|
||||
"e.Kr.",
|
||||
"eint.",
|
||||
"ex.",
|
||||
"exam.",
|
||||
"f.",
|
||||
"f.Kr.",
|
||||
"fa.",
|
||||
"fam.",
|
||||
"feb.",
|
||||
"febr.",
|
||||
"ff.",
|
||||
"fl.",
|
||||
"form.",
|
||||
"frí.",
|
||||
"fyrrv.",
|
||||
"góðk.",
|
||||
"h.m.",
|
||||
"hósd.",
|
||||
"innt.",
|
||||
"jan.",
|
||||
"kap.",
|
||||
"kgl.",
|
||||
"kl.",
|
||||
"kr.",
|
||||
"leyg.",
|
||||
"m.a.",
|
||||
"mðr.",
|
||||
"m.o.",
|
||||
"m.ø.",
|
||||
"mia.",
|
||||
"mik.",
|
||||
"min.",
|
||||
"mió.",
|
||||
"mán.",
|
||||
"mðr.",
|
||||
"nov.",
|
||||
"nr.",
|
||||
"nto.",
|
||||
"nov.",
|
||||
|
@ -43,12 +77,25 @@ for orth in [
|
|||
"o.o.",
|
||||
"o.s.fr.",
|
||||
"o.tíl.",
|
||||
"o.u.",
|
||||
"o.ø.",
|
||||
"okt.",
|
||||
"omf.",
|
||||
"ph.d.",
|
||||
"phil.",
|
||||
"pr.",
|
||||
"pst.",
|
||||
"ritstj.",
|
||||
"s.",
|
||||
"sb.",
|
||||
"sbr.",
|
||||
"sbrt.",
|
||||
"sek.",
|
||||
"sep.",
|
||||
"sept.",
|
||||
"serst.",
|
||||
"smb.",
|
||||
"smbr.",
|
||||
"sms.",
|
||||
"smst.",
|
||||
"smb.",
|
||||
|
@ -58,14 +105,25 @@ for orth in [
|
|||
"sept.",
|
||||
"spf.",
|
||||
"spsk.",
|
||||
"stk.",
|
||||
"sunnud.",
|
||||
"t.",
|
||||
"t.d.",
|
||||
"t.e.",
|
||||
"t.o.v.",
|
||||
"t.s.",
|
||||
"t.s.s.",
|
||||
"tlf.",
|
||||
"t.v.s",
|
||||
"t.v.s.",
|
||||
"tel.",
|
||||
"tils.",
|
||||
"tlf.",
|
||||
"tsk.",
|
||||
"t.o.v.",
|
||||
"t.d.",
|
||||
"tús.",
|
||||
"týs.",
|
||||
"uml.",
|
||||
"ums.",
|
||||
"uppl.",
|
||||
|
@ -75,13 +133,22 @@ for orth in [
|
|||
"útl.",
|
||||
"útr.",
|
||||
"vanl.",
|
||||
"upprfr.",
|
||||
"v.",
|
||||
"v.h.",
|
||||
"v.m.",
|
||||
"v.ø.o.",
|
||||
"vanl.",
|
||||
"viðm.",
|
||||
"viðv.",
|
||||
"vm.",
|
||||
"v.m.",
|
||||
"á.Kr.",
|
||||
"árg.",
|
||||
"ávís.",
|
||||
"útg.",
|
||||
"útl.",
|
||||
"útr.",
|
||||
]:
|
||||
_exc[orth] = [{ORTH: orth}]
|
||||
capitalized = orth.capitalize()
|
||||
|
|
Loading…
Reference in New Issue
Block a user