mirror of
https://github.com/explosion/spaCy.git
synced 2025-01-26 09:14:32 +03:00
extend abbreviations list in Faroese tokenizer exceptions (#13366)
This commit is contained in:
parent
c32c1289a9
commit
dfe27516d9
|
@ -5,7 +5,9 @@ from ..tokenizer_exceptions import BASE_EXCEPTIONS
|
||||||
_exc = {}
|
_exc = {}
|
||||||
|
|
||||||
for orth in [
|
for orth in [
|
||||||
|
"Chr.",
|
||||||
"apr.",
|
"apr.",
|
||||||
|
"atm.",
|
||||||
"aug.",
|
"aug.",
|
||||||
"avgr.",
|
"avgr.",
|
||||||
"árg.",
|
"árg.",
|
||||||
|
@ -15,21 +17,53 @@ for orth in [
|
||||||
"blaðkv.",
|
"blaðkv.",
|
||||||
"blm.",
|
"blm.",
|
||||||
"blaðm.",
|
"blaðm.",
|
||||||
|
"blaðstj.",
|
||||||
|
"blkv.",
|
||||||
|
"blm.",
|
||||||
"bls.",
|
"bls.",
|
||||||
"blstj.",
|
"blstj.",
|
||||||
"blaðstj.",
|
"blaðstj.",
|
||||||
|
"cand.",
|
||||||
|
"dagf.",
|
||||||
"des.",
|
"des.",
|
||||||
|
"dkr.",
|
||||||
|
"dr.",
|
||||||
|
"e.Kr.",
|
||||||
"eint.",
|
"eint.",
|
||||||
|
"ex.",
|
||||||
|
"exam.",
|
||||||
|
"f.",
|
||||||
|
"f.Kr.",
|
||||||
|
"fa.",
|
||||||
|
"fam.",
|
||||||
|
"feb.",
|
||||||
"febr.",
|
"febr.",
|
||||||
|
"ff.",
|
||||||
|
"fl.",
|
||||||
|
"form.",
|
||||||
|
"frí.",
|
||||||
"fyrrv.",
|
"fyrrv.",
|
||||||
"góðk.",
|
"góðk.",
|
||||||
"h.m.",
|
"h.m.",
|
||||||
|
"hósd.",
|
||||||
"innt.",
|
"innt.",
|
||||||
"jan.",
|
"jan.",
|
||||||
|
"kap.",
|
||||||
|
"kgl.",
|
||||||
"kl.",
|
"kl.",
|
||||||
|
"kr.",
|
||||||
|
"leyg.",
|
||||||
"m.a.",
|
"m.a.",
|
||||||
"mðr.",
|
"mðr.",
|
||||||
|
"m.o.",
|
||||||
|
"m.ø.",
|
||||||
|
"mia.",
|
||||||
|
"mik.",
|
||||||
|
"min.",
|
||||||
"mió.",
|
"mió.",
|
||||||
|
"mán.",
|
||||||
|
"mðr.",
|
||||||
|
"nov.",
|
||||||
"nr.",
|
"nr.",
|
||||||
"nto.",
|
"nto.",
|
||||||
"nov.",
|
"nov.",
|
||||||
|
@ -43,12 +77,25 @@ for orth in [
|
||||||
"o.o.",
|
"o.o.",
|
||||||
"o.s.fr.",
|
"o.s.fr.",
|
||||||
"o.tíl.",
|
"o.tíl.",
|
||||||
|
"o.u.",
|
||||||
"o.ø.",
|
"o.ø.",
|
||||||
"okt.",
|
"okt.",
|
||||||
"omf.",
|
"omf.",
|
||||||
|
"ph.d.",
|
||||||
|
"phil.",
|
||||||
|
"pr.",
|
||||||
"pst.",
|
"pst.",
|
||||||
"ritstj.",
|
"ritstj.",
|
||||||
|
"s.",
|
||||||
|
"sb.",
|
||||||
"sbr.",
|
"sbr.",
|
||||||
|
"sbrt.",
|
||||||
|
"sek.",
|
||||||
|
"sep.",
|
||||||
|
"sept.",
|
||||||
|
"serst.",
|
||||||
|
"smb.",
|
||||||
|
"smbr.",
|
||||||
"sms.",
|
"sms.",
|
||||||
"smst.",
|
"smst.",
|
||||||
"smb.",
|
"smb.",
|
||||||
|
@ -58,14 +105,25 @@ for orth in [
|
||||||
"sept.",
|
"sept.",
|
||||||
"spf.",
|
"spf.",
|
||||||
"spsk.",
|
"spsk.",
|
||||||
|
"stk.",
|
||||||
|
"sunnud.",
|
||||||
|
"t.",
|
||||||
|
"t.d.",
|
||||||
"t.e.",
|
"t.e.",
|
||||||
|
"t.o.v.",
|
||||||
"t.s.",
|
"t.s.",
|
||||||
"t.s.s.",
|
"t.s.s.",
|
||||||
"tlf.",
|
"tlf.",
|
||||||
|
"t.v.s",
|
||||||
|
"t.v.s.",
|
||||||
"tel.",
|
"tel.",
|
||||||
|
"tils.",
|
||||||
|
"tlf.",
|
||||||
"tsk.",
|
"tsk.",
|
||||||
"t.o.v.",
|
"t.o.v.",
|
||||||
"t.d.",
|
"t.d.",
|
||||||
|
"tús.",
|
||||||
|
"týs.",
|
||||||
"uml.",
|
"uml.",
|
||||||
"ums.",
|
"ums.",
|
||||||
"uppl.",
|
"uppl.",
|
||||||
|
@ -75,13 +133,22 @@ for orth in [
|
||||||
"útl.",
|
"útl.",
|
||||||
"útr.",
|
"útr.",
|
||||||
"vanl.",
|
"vanl.",
|
||||||
|
"upprfr.",
|
||||||
"v.",
|
"v.",
|
||||||
"v.h.",
|
"v.h.",
|
||||||
|
"v.m.",
|
||||||
"v.ø.o.",
|
"v.ø.o.",
|
||||||
|
"vanl.",
|
||||||
"viðm.",
|
"viðm.",
|
||||||
"viðv.",
|
"viðv.",
|
||||||
"vm.",
|
"vm.",
|
||||||
"v.m.",
|
"v.m.",
|
||||||
|
"á.Kr.",
|
||||||
|
"árg.",
|
||||||
|
"ávís.",
|
||||||
|
"útg.",
|
||||||
|
"útl.",
|
||||||
|
"útr.",
|
||||||
]:
|
]:
|
||||||
_exc[orth] = [{ORTH: orth}]
|
_exc[orth] = [{ORTH: orth}]
|
||||||
capitalized = orth.capitalize()
|
capitalized = orth.capitalize()
|
||||||
|
|
Loading…
Reference in New Issue
Block a user