mirror of
https://github.com/explosion/spaCy.git
synced 2025-01-12 18:26:30 +03:00
Merge remote-tracking branch 'upstream/develop' into chore/update-v4-from-develop
This commit is contained in:
commit
740c33fe58
|
@ -28,7 +28,7 @@ class Russian(Language):
|
||||||
assigns=["token.lemma"],
|
assigns=["token.lemma"],
|
||||||
default_config={
|
default_config={
|
||||||
"model": None,
|
"model": None,
|
||||||
"mode": "pymorphy2",
|
"mode": "pymorphy3",
|
||||||
"overwrite": False,
|
"overwrite": False,
|
||||||
"scorer": {"@scorers": "spacy.lemmatizer_scorer.v1"},
|
"scorer": {"@scorers": "spacy.lemmatizer_scorer.v1"},
|
||||||
},
|
},
|
||||||
|
|
|
@ -19,7 +19,7 @@ class RussianLemmatizer(Lemmatizer):
|
||||||
model: Optional[Model],
|
model: Optional[Model],
|
||||||
name: str = "lemmatizer",
|
name: str = "lemmatizer",
|
||||||
*,
|
*,
|
||||||
mode: str = "pymorphy2",
|
mode: str = "pymorphy3",
|
||||||
overwrite: bool = False,
|
overwrite: bool = False,
|
||||||
scorer: Optional[Callable] = lemmatizer_score,
|
scorer: Optional[Callable] = lemmatizer_score,
|
||||||
) -> None:
|
) -> None:
|
||||||
|
@ -33,6 +33,16 @@ class RussianLemmatizer(Lemmatizer):
|
||||||
) from None
|
) from None
|
||||||
if getattr(self, "_morph", None) is None:
|
if getattr(self, "_morph", None) is None:
|
||||||
self._morph = MorphAnalyzer()
|
self._morph = MorphAnalyzer()
|
||||||
|
elif mode == "pymorphy3":
|
||||||
|
try:
|
||||||
|
from pymorphy3 import MorphAnalyzer
|
||||||
|
except ImportError:
|
||||||
|
raise ImportError(
|
||||||
|
"The Russian lemmatizer mode 'pymorphy3' requires the "
|
||||||
|
"pymorphy3 library. Install it with: pip install pymorphy3"
|
||||||
|
) from None
|
||||||
|
if getattr(self, "_morph", None) is None:
|
||||||
|
self._morph = MorphAnalyzer()
|
||||||
super().__init__(
|
super().__init__(
|
||||||
vocab, model, name, mode=mode, overwrite=overwrite, scorer=scorer
|
vocab, model, name, mode=mode, overwrite=overwrite, scorer=scorer
|
||||||
)
|
)
|
||||||
|
@ -104,6 +114,9 @@ class RussianLemmatizer(Lemmatizer):
|
||||||
return [analyses[0].normal_form]
|
return [analyses[0].normal_form]
|
||||||
return [string]
|
return [string]
|
||||||
|
|
||||||
|
def pymorphy3_lemmatize(self, token: Token) -> List[str]:
|
||||||
|
return self.pymorphy2_lemmatize(token)
|
||||||
|
|
||||||
|
|
||||||
def oc2ud(oc_tag: str) -> Tuple[str, Dict[str, str]]:
|
def oc2ud(oc_tag: str) -> Tuple[str, Dict[str, str]]:
|
||||||
gram_map = {
|
gram_map = {
|
||||||
|
|
|
@ -1,9 +1,17 @@
|
||||||
|
from .lex_attrs import LEX_ATTRS
|
||||||
|
from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES, TOKENIZER_PREFIXES
|
||||||
from .stop_words import STOP_WORDS
|
from .stop_words import STOP_WORDS
|
||||||
|
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||||
from ...language import Language, BaseDefaults
|
from ...language import Language, BaseDefaults
|
||||||
|
|
||||||
|
|
||||||
class SlovenianDefaults(BaseDefaults):
|
class SlovenianDefaults(BaseDefaults):
|
||||||
stop_words = STOP_WORDS
|
stop_words = STOP_WORDS
|
||||||
|
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||||
|
prefixes = TOKENIZER_PREFIXES
|
||||||
|
infixes = TOKENIZER_INFIXES
|
||||||
|
suffixes = TOKENIZER_SUFFIXES
|
||||||
|
lex_attr_getters = LEX_ATTRS
|
||||||
|
|
||||||
|
|
||||||
class Slovenian(Language):
|
class Slovenian(Language):
|
||||||
|
|
145
spacy/lang/sl/lex_attrs.py
Normal file
145
spacy/lang/sl/lex_attrs.py
Normal file
|
@ -0,0 +1,145 @@
|
||||||
|
from ...attrs import LIKE_NUM
|
||||||
|
from ...attrs import IS_CURRENCY
|
||||||
|
import unicodedata
|
||||||
|
|
||||||
|
|
||||||
|
_num_words = set(
|
||||||
|
"""
|
||||||
|
nula ničla nič ena dva tri štiri pet šest sedem osem
|
||||||
|
devet deset enajst dvanajst trinajst štirinajst petnajst
|
||||||
|
šestnajst sedemnajst osemnajst devetnajst dvajset trideset štirideset
|
||||||
|
petdeset šestdest sedemdeset osemdeset devedeset sto tisoč
|
||||||
|
milijon bilijon trilijon kvadrilijon nešteto
|
||||||
|
|
||||||
|
en eden enega enemu ennem enim enih enima enimi ene eni eno
|
||||||
|
dveh dvema dvem dvoje trije treh trem tremi troje štirje štirih štirim štirimi
|
||||||
|
petih petim petimi šestih šestim šestimi sedmih sedmim sedmimi osmih osmim osmimi
|
||||||
|
devetih devetim devetimi desetih desetim desetimi enajstih enajstim enajstimi
|
||||||
|
dvanajstih dvanajstim dvanajstimi trinajstih trinajstim trinajstimi
|
||||||
|
šestnajstih šestnajstim šestnajstimi petnajstih petnajstim petnajstimi
|
||||||
|
sedemnajstih sedemnajstim sedemnajstimi osemnajstih osemnajstim osemnajstimi
|
||||||
|
devetnajstih devetnajstim devetnajstimi dvajsetih dvajsetim dvajsetimi
|
||||||
|
""".split()
|
||||||
|
)
|
||||||
|
|
||||||
|
_ordinal_words = set(
|
||||||
|
"""
|
||||||
|
prvi drugi tretji četrti peti šesti sedmi osmi
|
||||||
|
deveti deseti enajsti dvanajsti trinajsti štirinajsti
|
||||||
|
petnajsti šestnajsti sedemnajsti osemnajsti devetnajsti
|
||||||
|
dvajseti trideseti štirideseti petdeseti šestdeseti sedemdeseti
|
||||||
|
osemdeseti devetdeseti stoti tisoči milijonti bilijonti
|
||||||
|
trilijonti kvadrilijonti nešteti
|
||||||
|
|
||||||
|
prva druga tretja četrta peta šesta sedma osma
|
||||||
|
deveta deseta enajsta dvanajsta trinajsta štirnajsta
|
||||||
|
petnajsta šestnajsta sedemnajsta osemnajsta devetnajsta
|
||||||
|
dvajseta trideseta štirideseta petdeseta šestdeseta sedemdeseta
|
||||||
|
osemdeseta devetdeseta stota tisoča milijonta bilijonta
|
||||||
|
trilijonta kvadrilijonta nešteta
|
||||||
|
|
||||||
|
prvo drugo tretje četrto peto šestro sedmo osmo
|
||||||
|
deveto deseto enajsto dvanajsto trinajsto štirnajsto
|
||||||
|
petnajsto šestnajsto sedemnajsto osemnajsto devetnajsto
|
||||||
|
dvajseto trideseto štirideseto petdeseto šestdeseto sedemdeseto
|
||||||
|
osemdeseto devetdeseto stoto tisočo milijonto bilijonto
|
||||||
|
trilijonto kvadrilijonto nešteto
|
||||||
|
|
||||||
|
prvega drugega tretjega četrtega petega šestega sedmega osmega
|
||||||
|
devega desetega enajstega dvanajstega trinajstega štirnajstega
|
||||||
|
petnajstega šestnajstega sedemnajstega osemnajstega devetnajstega
|
||||||
|
dvajsetega tridesetega štiridesetega petdesetega šestdesetega sedemdesetega
|
||||||
|
osemdesetega devetdesetega stotega tisočega milijontega bilijontega
|
||||||
|
trilijontega kvadrilijontega neštetega
|
||||||
|
|
||||||
|
prvemu drugemu tretjemu četrtemu petemu šestemu sedmemu osmemu devetemu desetemu
|
||||||
|
enajstemu dvanajstemu trinajstemu štirnajstemu petnajstemu šestnajstemu sedemnajstemu
|
||||||
|
osemnajstemu devetnajstemu dvajsetemu tridesetemu štiridesetemu petdesetemu šestdesetemu
|
||||||
|
sedemdesetemu osemdesetemu devetdesetemu stotemu tisočemu milijontemu bilijontemu
|
||||||
|
trilijontemu kvadrilijontemu neštetemu
|
||||||
|
|
||||||
|
prvem drugem tretjem četrtem petem šestem sedmem osmem devetem desetem
|
||||||
|
enajstem dvanajstem trinajstem štirnajstem petnajstem šestnajstem sedemnajstem
|
||||||
|
osemnajstem devetnajstem dvajsetem tridesetem štiridesetem petdesetem šestdesetem
|
||||||
|
sedemdesetem osemdesetem devetdesetem stotem tisočem milijontem bilijontem
|
||||||
|
trilijontem kvadrilijontem neštetem
|
||||||
|
|
||||||
|
prvim drugim tretjim četrtim petim šestim sedtim osmim devetim desetim
|
||||||
|
enajstim dvanajstim trinajstim štirnajstim petnajstim šestnajstim sedemnajstim
|
||||||
|
osemnajstim devetnajstim dvajsetim tridesetim štiridesetim petdesetim šestdesetim
|
||||||
|
sedemdesetim osemdesetim devetdesetim stotim tisočim milijontim bilijontim
|
||||||
|
trilijontim kvadrilijontim neštetim
|
||||||
|
|
||||||
|
prvih drugih tretjih četrthih petih šestih sedmih osmih deveth desetih
|
||||||
|
enajstih dvanajstih trinajstih štirnajstih petnajstih šestnajstih sedemnajstih
|
||||||
|
osemnajstih devetnajstih dvajsetih tridesetih štiridesetih petdesetih šestdesetih
|
||||||
|
sedemdesetih osemdesetih devetdesetih stotih tisočih milijontih bilijontih
|
||||||
|
trilijontih kvadrilijontih nešteth
|
||||||
|
|
||||||
|
prvima drugima tretjima četrtima petima šestima sedmima osmima devetima desetima
|
||||||
|
enajstima dvanajstima trinajstima štirnajstima petnajstima šestnajstima sedemnajstima
|
||||||
|
osemnajstima devetnajstima dvajsetima tridesetima štiridesetima petdesetima šestdesetima
|
||||||
|
sedemdesetima osemdesetima devetdesetima stotima tisočima milijontima bilijontima
|
||||||
|
trilijontima kvadrilijontima neštetima
|
||||||
|
|
||||||
|
prve druge četrte pete šeste sedme osme devete desete
|
||||||
|
enajste dvanajste trinajste štirnajste petnajste šestnajste sedemnajste
|
||||||
|
osemnajste devetnajste dvajsete tridesete štiridesete petdesete šestdesete
|
||||||
|
sedemdesete osemdesete devetdesete stote tisoče milijonte bilijonte
|
||||||
|
trilijonte kvadrilijonte neštete
|
||||||
|
|
||||||
|
prvimi drugimi tretjimi četrtimi petimi šestimi sedtimi osmimi devetimi desetimi
|
||||||
|
enajstimi dvanajstimi trinajstimi štirnajstimi petnajstimi šestnajstimi sedemnajstimi
|
||||||
|
osemnajstimi devetnajstimi dvajsetimi tridesetimi štiridesetimi petdesetimi šestdesetimi
|
||||||
|
sedemdesetimi osemdesetimi devetdesetimi stotimi tisočimi milijontimi bilijontimi
|
||||||
|
trilijontimi kvadrilijontimi neštetimi
|
||||||
|
""".split()
|
||||||
|
)
|
||||||
|
|
||||||
|
_currency_words = set(
|
||||||
|
"""
|
||||||
|
evro evra evru evrom evrov evroma evrih evrom evre evri evr eur
|
||||||
|
cent centa centu cenom centov centoma centih centom cente centi
|
||||||
|
dolar dolarja dolarji dolarju dolarjem dolarjev dolarjema dolarjih dolarje usd
|
||||||
|
tolar tolarja tolarji tolarju tolarjem tolarjev tolarjema tolarjih tolarje tol
|
||||||
|
dinar dinarja dinarji dinarju dinarjem dinarjev dinarjema dinarjih dinarje din
|
||||||
|
funt funta funti funtu funtom funtov funtoma funtih funte gpb
|
||||||
|
forint forinta forinti forintu forintom forintov forintoma forintih forinte
|
||||||
|
zlot zlota zloti zlotu zlotom zlotov zlotoma zlotih zlote
|
||||||
|
rupij rupija rupiji rupiju rupijem rupijev rupijema rupijih rupije
|
||||||
|
jen jena jeni jenu jenom jenov jenoma jenih jene
|
||||||
|
kuna kuni kune kuno kun kunama kunah kunam kunami
|
||||||
|
marka marki marke markama markah markami
|
||||||
|
""".split()
|
||||||
|
)
|
||||||
|
|
||||||
|
|
||||||
|
def like_num(text):
|
||||||
|
if text.startswith(("+", "-", "±", "~")):
|
||||||
|
text = text[1:]
|
||||||
|
text = text.replace(",", "").replace(".", "")
|
||||||
|
if text.isdigit():
|
||||||
|
return True
|
||||||
|
if text.count("/") == 1:
|
||||||
|
num, denom = text.split("/")
|
||||||
|
if num.isdigit() and denom.isdigit():
|
||||||
|
return True
|
||||||
|
text_lower = text.lower()
|
||||||
|
if text_lower in _num_words:
|
||||||
|
return True
|
||||||
|
if text_lower in _ordinal_words:
|
||||||
|
return True
|
||||||
|
return False
|
||||||
|
|
||||||
|
|
||||||
|
def is_currency(text):
|
||||||
|
text_lower = text.lower()
|
||||||
|
if text in _currency_words:
|
||||||
|
return True
|
||||||
|
for char in text:
|
||||||
|
if unicodedata.category(char) != "Sc":
|
||||||
|
return False
|
||||||
|
return True
|
||||||
|
|
||||||
|
|
||||||
|
LEX_ATTRS = {LIKE_NUM: like_num, IS_CURRENCY: is_currency}
|
84
spacy/lang/sl/punctuation.py
Normal file
84
spacy/lang/sl/punctuation.py
Normal file
|
@ -0,0 +1,84 @@
|
||||||
|
from ..char_classes import (
|
||||||
|
LIST_ELLIPSES,
|
||||||
|
LIST_ICONS,
|
||||||
|
HYPHENS,
|
||||||
|
LIST_PUNCT,
|
||||||
|
LIST_QUOTES,
|
||||||
|
CURRENCY,
|
||||||
|
UNITS,
|
||||||
|
PUNCT,
|
||||||
|
LIST_CURRENCY,
|
||||||
|
CONCAT_QUOTES,
|
||||||
|
)
|
||||||
|
from ..char_classes import CONCAT_QUOTES, ALPHA_LOWER, ALPHA_UPPER, ALPHA
|
||||||
|
from ..char_classes import merge_chars
|
||||||
|
from ..punctuation import TOKENIZER_PREFIXES as BASE_TOKENIZER_PREFIXES
|
||||||
|
|
||||||
|
|
||||||
|
INCLUDE_SPECIAL = ["\\+", "\\/", "\\•", "\\¯", "\\=", "\\×"] + HYPHENS.split("|")
|
||||||
|
|
||||||
|
_prefixes = INCLUDE_SPECIAL + BASE_TOKENIZER_PREFIXES
|
||||||
|
|
||||||
|
_suffixes = (
|
||||||
|
INCLUDE_SPECIAL
|
||||||
|
+ LIST_PUNCT
|
||||||
|
+ LIST_ELLIPSES
|
||||||
|
+ LIST_QUOTES
|
||||||
|
+ LIST_ICONS
|
||||||
|
+ [
|
||||||
|
r"(?<=°[FfCcKk])\.",
|
||||||
|
r"(?<=[0-9])(?:{c})".format(c=CURRENCY),
|
||||||
|
r"(?<=[0-9])(?:{u})".format(u=UNITS),
|
||||||
|
r"(?<=[{al}{e}{p}(?:{q})])\.".format(
|
||||||
|
al=ALPHA_LOWER, e=r"%²\-\+", q=CONCAT_QUOTES, p=PUNCT
|
||||||
|
),
|
||||||
|
r"(?<=[{au}][{au}])\.".format(au=ALPHA_UPPER),
|
||||||
|
# split initials like J.K. Rowling
|
||||||
|
r"(?<=[A-Z]\.)(?:[A-Z].)",
|
||||||
|
]
|
||||||
|
)
|
||||||
|
|
||||||
|
# a list of all suffixes following a hyphen that are shouldn't split (eg. BTC-jev)
|
||||||
|
# source: Obeliks tokenizer - https://github.com/clarinsi/obeliks/blob/master/obeliks/res/TokRulesPart1.txt
|
||||||
|
CONCAT_QUOTES = CONCAT_QUOTES.replace("'", "")
|
||||||
|
HYPHENS_PERMITTED = (
|
||||||
|
"((a)|(evemu)|(evskega)|(i)|(jevega)|(jevska)|(jevskimi)|(jinemu)|(oma)|(ovim)|"
|
||||||
|
"(ovski)|(e)|(evi)|(evskem)|(ih)|(jevem)|(jevske)|(jevsko)|(jini)|(ov)|(ovima)|"
|
||||||
|
"(ovskih)|(em)|(evih)|(evskemu)|(ja)|(jevemu)|(jevskega)|(ji)|(jinih)|(ova)|"
|
||||||
|
"(ovimi)|(ovskim)|(ema)|(evim)|(evski)|(je)|(jevi)|(jevskem)|(jih)|(jinim)|"
|
||||||
|
"(ove)|(ovo)|(ovskima)|(ev)|(evima)|(evskih)|(jem)|(jevih)|(jevskemu)|(jin)|"
|
||||||
|
"(jinima)|(ovega)|(ovska)|(ovskimi)|(eva)|(evimi)|(evskim)|(jema)|(jevim)|"
|
||||||
|
"(jevski)|(jina)|(jinimi)|(ovem)|(ovske)|(ovsko)|(eve)|(evo)|(evskima)|(jev)|"
|
||||||
|
"(jevima)|(jevskih)|(jine)|(jino)|(ovemu)|(ovskega)|(u)|(evega)|(evska)|"
|
||||||
|
"(evskimi)|(jeva)|(jevimi)|(jevskim)|(jinega)|(ju)|(ovi)|(ovskem)|(evem)|"
|
||||||
|
"(evske)|(evsko)|(jeve)|(jevo)|(jevskima)|(jinem)|(om)|(ovih)|(ovskemu)|"
|
||||||
|
"(ovec)|(ovca)|(ovcu)|(ovcem)|(ovcev)|(ovcema)|(ovcih)|(ovci)|(ovce)|(ovcimi)|"
|
||||||
|
"(evec)|(evca)|(evcu)|(evcem)|(evcev)|(evcema)|(evcih)|(evci)|(evce)|(evcimi)|"
|
||||||
|
"(jevec)|(jevca)|(jevcu)|(jevcem)|(jevcev)|(jevcema)|(jevcih)|(jevci)|(jevce)|"
|
||||||
|
"(jevcimi)|(ovka)|(ovke)|(ovki)|(ovko)|(ovk)|(ovkama)|(ovkah)|(ovkam)|(ovkami)|"
|
||||||
|
"(evka)|(evke)|(evki)|(evko)|(evk)|(evkama)|(evkah)|(evkam)|(evkami)|(jevka)|"
|
||||||
|
"(jevke)|(jevki)|(jevko)|(jevk)|(jevkama)|(jevkah)|(jevkam)|(jevkami)|(timi)|"
|
||||||
|
"(im)|(ima)|(a)|(imi)|(e)|(o)|(ega)|(ti)|(em)|(tih)|(emu)|(tim)|(i)|(tima)|"
|
||||||
|
"(ih)|(ta)|(te)|(to)|(tega)|(tem)|(temu))"
|
||||||
|
)
|
||||||
|
|
||||||
|
_infixes = (
|
||||||
|
LIST_ELLIPSES
|
||||||
|
+ LIST_ICONS
|
||||||
|
+ [
|
||||||
|
r"(?<=[0-9])[+\-\*^](?=[0-9-])",
|
||||||
|
r"(?<=[{al}{q}])\.(?=[{au}{q}])".format(
|
||||||
|
al=ALPHA_LOWER, au=ALPHA_UPPER, q=CONCAT_QUOTES
|
||||||
|
),
|
||||||
|
r"(?<=[{a}]),(?=[{a}])".format(a=ALPHA),
|
||||||
|
r"(?<=[{a}0-9])(?:{h})(?!{hp}$)(?=[{a}])".format(
|
||||||
|
a=ALPHA, h=HYPHENS, hp=HYPHENS_PERMITTED
|
||||||
|
),
|
||||||
|
r"(?<=[{a}0-9])[:<>=/](?=[{a}])".format(a=ALPHA),
|
||||||
|
]
|
||||||
|
)
|
||||||
|
|
||||||
|
|
||||||
|
TOKENIZER_PREFIXES = _prefixes
|
||||||
|
TOKENIZER_SUFFIXES = _suffixes
|
||||||
|
TOKENIZER_INFIXES = _infixes
|
|
@ -1,326 +1,84 @@
|
||||||
# Source: https://github.com/stopwords-iso/stopwords-sl
|
# Source: https://github.com/stopwords-iso/stopwords-sl
|
||||||
# Removed various words that are not normally considered stop words, such as months.
|
|
||||||
|
|
||||||
STOP_WORDS = set(
|
STOP_WORDS = set(
|
||||||
"""
|
"""
|
||||||
a
|
a ali
|
||||||
ali
|
|
||||||
b
|
b bi bil bila bile bili bilo biti blizu bo bodo bojo bolj bom bomo
|
||||||
bi
|
boste bova boš brez
|
||||||
bil
|
|
||||||
bila
|
c cel cela celi celo
|
||||||
bile
|
|
||||||
bili
|
č če često četrta četrtek četrti četrto čez čigav
|
||||||
bilo
|
|
||||||
biti
|
d da daleč dan danes datum deset deseta deseti deseto devet
|
||||||
blizu
|
deveta deveti deveto do dober dobra dobri dobro dokler dol dolg
|
||||||
bo
|
dolga dolgi dovolj drug druga drugi drugo dva dve
|
||||||
bodo
|
|
||||||
bolj
|
e eden en ena ene eni enkrat eno etc.
|
||||||
bom
|
|
||||||
bomo
|
|
||||||
boste
|
|
||||||
bova
|
|
||||||
boš
|
|
||||||
brez
|
|
||||||
c
|
|
||||||
cel
|
|
||||||
cela
|
|
||||||
celi
|
|
||||||
celo
|
|
||||||
d
|
|
||||||
da
|
|
||||||
daleč
|
|
||||||
dan
|
|
||||||
danes
|
|
||||||
do
|
|
||||||
dober
|
|
||||||
dobra
|
|
||||||
dobri
|
|
||||||
dobro
|
|
||||||
dokler
|
|
||||||
dol
|
|
||||||
dovolj
|
|
||||||
e
|
|
||||||
eden
|
|
||||||
en
|
|
||||||
ena
|
|
||||||
ene
|
|
||||||
eni
|
|
||||||
enkrat
|
|
||||||
eno
|
|
||||||
etc.
|
|
||||||
f
|
f
|
||||||
g
|
|
||||||
g.
|
g g. ga ga. gor gospa gospod
|
||||||
ga
|
|
||||||
ga.
|
h halo
|
||||||
gor
|
|
||||||
gospa
|
i idr. ii iii in iv ix iz
|
||||||
gospod
|
|
||||||
h
|
j jaz je ji jih jim jo jutri
|
||||||
halo
|
|
||||||
i
|
k kadarkoli kaj kajti kako kakor kamor kamorkoli kar karkoli
|
||||||
idr.
|
katerikoli kdaj kdo kdorkoli ker ki kje kjer kjerkoli
|
||||||
ii
|
ko koder koderkoli koga komu kot kratek kratka kratke kratki
|
||||||
iii
|
|
||||||
in
|
l lahka lahke lahki lahko le lep lepa lepe lepi lepo leto
|
||||||
iv
|
|
||||||
ix
|
m majhen majhna majhni malce malo manj me med medtem mene
|
||||||
iz
|
mesec mi midva midve mnogo moj moja moje mora morajo moram
|
||||||
j
|
moramo morate moraš morem mu
|
||||||
jaz
|
|
||||||
je
|
n na nad naj najina najino najmanj naju največ nam narobe
|
||||||
ji
|
nas nato nazaj naš naša naše ne nedavno nedelja nek neka
|
||||||
jih
|
nekaj nekatere nekateri nekatero nekdo neke nekega neki
|
||||||
jim
|
nekje neko nekoga nekoč ni nikamor nikdar nikjer nikoli
|
||||||
jo
|
nič nje njega njegov njegova njegovo njej njemu njen
|
||||||
k
|
njena njeno nji njih njihov njihova njihovo njiju njim
|
||||||
kadarkoli
|
njo njun njuna njuno no nocoj npr.
|
||||||
kaj
|
|
||||||
kajti
|
o ob oba obe oboje od odprt odprta odprti okoli on
|
||||||
kako
|
onadva one oni onidve osem osma osmi osmo oz.
|
||||||
kakor
|
|
||||||
kamor
|
p pa pet peta petek peti peto po pod pogosto poleg poln
|
||||||
kamorkoli
|
polna polni polno ponavadi ponedeljek ponovno potem
|
||||||
kar
|
povsod pozdravljen pozdravljeni prav prava prave pravi
|
||||||
karkoli
|
pravo prazen prazna prazno prbl. precej pred prej preko
|
||||||
katerikoli
|
pri pribl. približno primer pripravljen pripravljena
|
||||||
kdaj
|
pripravljeni proti prva prvi prvo
|
||||||
kdo
|
|
||||||
kdorkoli
|
r ravno redko res reč
|
||||||
ker
|
|
||||||
ki
|
s saj sam sama same sami samo se sebe sebi sedaj sedem
|
||||||
kje
|
sedma sedmi sedmo sem seveda si sicer skoraj skozi slab sm
|
||||||
kjer
|
so sobota spet sreda srednja srednji sta ste stran stvar sva
|
||||||
kjerkoli
|
|
||||||
ko
|
š šest šesta šesti šesto štiri
|
||||||
koderkoli
|
|
||||||
koga
|
t ta tak taka take taki tako takoj tam te tebe tebi tega
|
||||||
komu
|
težak težka težki težko ti tista tiste tisti tisto tj.
|
||||||
kot
|
tja to toda torek tretja tretje tretji tri tu tudi tukaj
|
||||||
l
|
tvoj tvoja tvoje
|
||||||
le
|
|
||||||
lep
|
|
||||||
lepa
|
|
||||||
lepe
|
|
||||||
lepi
|
|
||||||
lepo
|
|
||||||
m
|
|
||||||
manj
|
|
||||||
me
|
|
||||||
med
|
|
||||||
medtem
|
|
||||||
mene
|
|
||||||
mi
|
|
||||||
midva
|
|
||||||
midve
|
|
||||||
mnogo
|
|
||||||
moj
|
|
||||||
moja
|
|
||||||
moje
|
|
||||||
mora
|
|
||||||
morajo
|
|
||||||
moram
|
|
||||||
moramo
|
|
||||||
morate
|
|
||||||
moraš
|
|
||||||
morem
|
|
||||||
mu
|
|
||||||
n
|
|
||||||
na
|
|
||||||
nad
|
|
||||||
naj
|
|
||||||
najina
|
|
||||||
najino
|
|
||||||
najmanj
|
|
||||||
naju
|
|
||||||
največ
|
|
||||||
nam
|
|
||||||
nas
|
|
||||||
nato
|
|
||||||
nazaj
|
|
||||||
naš
|
|
||||||
naša
|
|
||||||
naše
|
|
||||||
ne
|
|
||||||
nedavno
|
|
||||||
nek
|
|
||||||
neka
|
|
||||||
nekaj
|
|
||||||
nekatere
|
|
||||||
nekateri
|
|
||||||
nekatero
|
|
||||||
nekdo
|
|
||||||
neke
|
|
||||||
nekega
|
|
||||||
neki
|
|
||||||
nekje
|
|
||||||
neko
|
|
||||||
nekoga
|
|
||||||
nekoč
|
|
||||||
ni
|
|
||||||
nikamor
|
|
||||||
nikdar
|
|
||||||
nikjer
|
|
||||||
nikoli
|
|
||||||
nič
|
|
||||||
nje
|
|
||||||
njega
|
|
||||||
njegov
|
|
||||||
njegova
|
|
||||||
njegovo
|
|
||||||
njej
|
|
||||||
njemu
|
|
||||||
njen
|
|
||||||
njena
|
|
||||||
njeno
|
|
||||||
nji
|
|
||||||
njih
|
|
||||||
njihov
|
|
||||||
njihova
|
|
||||||
njihovo
|
|
||||||
njiju
|
|
||||||
njim
|
|
||||||
njo
|
|
||||||
njun
|
|
||||||
njuna
|
|
||||||
njuno
|
|
||||||
no
|
|
||||||
nocoj
|
|
||||||
npr.
|
|
||||||
o
|
|
||||||
ob
|
|
||||||
oba
|
|
||||||
obe
|
|
||||||
oboje
|
|
||||||
od
|
|
||||||
okoli
|
|
||||||
on
|
|
||||||
onadva
|
|
||||||
one
|
|
||||||
oni
|
|
||||||
onidve
|
|
||||||
oz.
|
|
||||||
p
|
|
||||||
pa
|
|
||||||
po
|
|
||||||
pod
|
|
||||||
pogosto
|
|
||||||
poleg
|
|
||||||
ponavadi
|
|
||||||
ponovno
|
|
||||||
potem
|
|
||||||
povsod
|
|
||||||
prbl.
|
|
||||||
precej
|
|
||||||
pred
|
|
||||||
prej
|
|
||||||
preko
|
|
||||||
pri
|
|
||||||
pribl.
|
|
||||||
približno
|
|
||||||
proti
|
|
||||||
r
|
|
||||||
redko
|
|
||||||
res
|
|
||||||
s
|
|
||||||
saj
|
|
||||||
sam
|
|
||||||
sama
|
|
||||||
same
|
|
||||||
sami
|
|
||||||
samo
|
|
||||||
se
|
|
||||||
sebe
|
|
||||||
sebi
|
|
||||||
sedaj
|
|
||||||
sem
|
|
||||||
seveda
|
|
||||||
si
|
|
||||||
sicer
|
|
||||||
skoraj
|
|
||||||
skozi
|
|
||||||
smo
|
|
||||||
so
|
|
||||||
spet
|
|
||||||
sta
|
|
||||||
ste
|
|
||||||
sva
|
|
||||||
t
|
|
||||||
ta
|
|
||||||
tak
|
|
||||||
taka
|
|
||||||
take
|
|
||||||
taki
|
|
||||||
tako
|
|
||||||
takoj
|
|
||||||
tam
|
|
||||||
te
|
|
||||||
tebe
|
|
||||||
tebi
|
|
||||||
tega
|
|
||||||
ti
|
|
||||||
tista
|
|
||||||
tiste
|
|
||||||
tisti
|
|
||||||
tisto
|
|
||||||
tj.
|
|
||||||
tja
|
|
||||||
to
|
|
||||||
toda
|
|
||||||
tu
|
|
||||||
tudi
|
|
||||||
tukaj
|
|
||||||
tvoj
|
|
||||||
tvoja
|
|
||||||
tvoje
|
|
||||||
u
|
u
|
||||||
v
|
|
||||||
vaju
|
v vaju vam vas vaš vaša vaše ve vedno velik velika veliki
|
||||||
vam
|
veliko vendar ves več vi vidva vii viii visok visoka visoke
|
||||||
vas
|
visoki vsa vsaj vsak vsaka vsakdo vsake vsaki vsakomur vse
|
||||||
vaš
|
vsega vsi vso včasih včeraj
|
||||||
vaša
|
|
||||||
vaše
|
|
||||||
ve
|
|
||||||
vedno
|
|
||||||
vendar
|
|
||||||
ves
|
|
||||||
več
|
|
||||||
vi
|
|
||||||
vidva
|
|
||||||
vii
|
|
||||||
viii
|
|
||||||
vsa
|
|
||||||
vsaj
|
|
||||||
vsak
|
|
||||||
vsaka
|
|
||||||
vsakdo
|
|
||||||
vsake
|
|
||||||
vsaki
|
|
||||||
vsakomur
|
|
||||||
vse
|
|
||||||
vsega
|
|
||||||
vsi
|
|
||||||
vso
|
|
||||||
včasih
|
|
||||||
x
|
x
|
||||||
z
|
|
||||||
za
|
z za zadaj zadnji zakaj zaprta zaprti zaprto zdaj zelo zunaj
|
||||||
zadaj
|
|
||||||
zadnji
|
ž že
|
||||||
zakaj
|
|
||||||
zdaj
|
|
||||||
zelo
|
|
||||||
zunaj
|
|
||||||
č
|
|
||||||
če
|
|
||||||
često
|
|
||||||
čez
|
|
||||||
čigav
|
|
||||||
š
|
|
||||||
ž
|
|
||||||
že
|
|
||||||
""".split()
|
""".split()
|
||||||
)
|
)
|
||||||
|
|
272
spacy/lang/sl/tokenizer_exceptions.py
Normal file
272
spacy/lang/sl/tokenizer_exceptions.py
Normal file
|
@ -0,0 +1,272 @@
|
||||||
|
from typing import Dict, List
|
||||||
|
from ..tokenizer_exceptions import BASE_EXCEPTIONS
|
||||||
|
from ...symbols import ORTH, NORM
|
||||||
|
from ...util import update_exc
|
||||||
|
|
||||||
|
_exc: Dict[str, List[Dict]] = {}
|
||||||
|
|
||||||
|
_other_exc = {
|
||||||
|
"t.i.": [{ORTH: "t.", NORM: "tako"}, {ORTH: "i.", NORM: "imenovano"}],
|
||||||
|
"t.j.": [{ORTH: "t.", NORM: "to"}, {ORTH: "j.", NORM: "je"}],
|
||||||
|
"T.j.": [{ORTH: "T.", NORM: "to"}, {ORTH: "j.", NORM: "je"}],
|
||||||
|
"d.o.o.": [
|
||||||
|
{ORTH: "d.", NORM: "družba"},
|
||||||
|
{ORTH: "o.", NORM: "omejeno"},
|
||||||
|
{ORTH: "o.", NORM: "odgovornostjo"},
|
||||||
|
],
|
||||||
|
"D.O.O.": [
|
||||||
|
{ORTH: "D.", NORM: "družba"},
|
||||||
|
{ORTH: "O.", NORM: "omejeno"},
|
||||||
|
{ORTH: "O.", NORM: "odgovornostjo"},
|
||||||
|
],
|
||||||
|
"d.n.o.": [
|
||||||
|
{ORTH: "d.", NORM: "družba"},
|
||||||
|
{ORTH: "n.", NORM: "neomejeno"},
|
||||||
|
{ORTH: "o.", NORM: "odgovornostjo"},
|
||||||
|
],
|
||||||
|
"D.N.O.": [
|
||||||
|
{ORTH: "D.", NORM: "družba"},
|
||||||
|
{ORTH: "N.", NORM: "neomejeno"},
|
||||||
|
{ORTH: "O.", NORM: "odgovornostjo"},
|
||||||
|
],
|
||||||
|
"d.d.": [{ORTH: "d.", NORM: "delniška"}, {ORTH: "d.", NORM: "družba"}],
|
||||||
|
"D.D.": [{ORTH: "D.", NORM: "delniška"}, {ORTH: "D.", NORM: "družba"}],
|
||||||
|
"s.p.": [{ORTH: "s.", NORM: "samostojni"}, {ORTH: "p.", NORM: "podjetnik"}],
|
||||||
|
"S.P.": [{ORTH: "S.", NORM: "samostojni"}, {ORTH: "P.", NORM: "podjetnik"}],
|
||||||
|
"l.r.": [{ORTH: "l.", NORM: "lastno"}, {ORTH: "r.", NORM: "ročno"}],
|
||||||
|
"le-te": [{ORTH: "le"}, {ORTH: "-"}, {ORTH: "te"}],
|
||||||
|
"Le-te": [{ORTH: "Le"}, {ORTH: "-"}, {ORTH: "te"}],
|
||||||
|
"le-ti": [{ORTH: "le"}, {ORTH: "-"}, {ORTH: "ti"}],
|
||||||
|
"Le-ti": [{ORTH: "Le"}, {ORTH: "-"}, {ORTH: "ti"}],
|
||||||
|
"le-to": [{ORTH: "le"}, {ORTH: "-"}, {ORTH: "to"}],
|
||||||
|
"Le-to": [{ORTH: "Le"}, {ORTH: "-"}, {ORTH: "to"}],
|
||||||
|
"le-ta": [{ORTH: "le"}, {ORTH: "-"}, {ORTH: "ta"}],
|
||||||
|
"Le-ta": [{ORTH: "Le"}, {ORTH: "-"}, {ORTH: "ta"}],
|
||||||
|
"le-tega": [{ORTH: "le"}, {ORTH: "-"}, {ORTH: "tega"}],
|
||||||
|
"Le-tega": [{ORTH: "Le"}, {ORTH: "-"}, {ORTH: "tega"}],
|
||||||
|
}
|
||||||
|
|
||||||
|
_exc.update(_other_exc)
|
||||||
|
|
||||||
|
|
||||||
|
for exc_data in [
|
||||||
|
{ORTH: "adm.", NORM: "administracija"},
|
||||||
|
{ORTH: "aer.", NORM: "aeronavtika"},
|
||||||
|
{ORTH: "agr.", NORM: "agronomija"},
|
||||||
|
{ORTH: "amer.", NORM: "ameriško"},
|
||||||
|
{ORTH: "anat.", NORM: "anatomija"},
|
||||||
|
{ORTH: "angl.", NORM: "angleški"},
|
||||||
|
{ORTH: "ant.", NORM: "antonim"},
|
||||||
|
{ORTH: "antr.", NORM: "antropologija"},
|
||||||
|
{ORTH: "apr.", NORM: "april"},
|
||||||
|
{ORTH: "arab.", NORM: "arabsko"},
|
||||||
|
{ORTH: "arheol.", NORM: "arheologija"},
|
||||||
|
{ORTH: "arhit.", NORM: "arhitektura"},
|
||||||
|
{ORTH: "avg.", NORM: "avgust"},
|
||||||
|
{ORTH: "avstr.", NORM: "avstrijsko"},
|
||||||
|
{ORTH: "avt.", NORM: "avtomobilizem"},
|
||||||
|
{ORTH: "bibl.", NORM: "biblijsko"},
|
||||||
|
{ORTH: "biokem.", NORM: "biokemija"},
|
||||||
|
{ORTH: "biol.", NORM: "biologija"},
|
||||||
|
{ORTH: "bolg.", NORM: "bolgarski"},
|
||||||
|
{ORTH: "bot.", NORM: "botanika"},
|
||||||
|
{ORTH: "cit.", NORM: "citat"},
|
||||||
|
{ORTH: "daj.", NORM: "dajalnik"},
|
||||||
|
{ORTH: "del.", NORM: "deležnik"},
|
||||||
|
{ORTH: "ed.", NORM: "ednina"},
|
||||||
|
{ORTH: "etn.", NORM: "etnografija"},
|
||||||
|
{ORTH: "farm.", NORM: "farmacija"},
|
||||||
|
{ORTH: "filat.", NORM: "filatelija"},
|
||||||
|
{ORTH: "filoz.", NORM: "filozofija"},
|
||||||
|
{ORTH: "fin.", NORM: "finančništvo"},
|
||||||
|
{ORTH: "fiz.", NORM: "fizika"},
|
||||||
|
{ORTH: "fot.", NORM: "fotografija"},
|
||||||
|
{ORTH: "fr.", NORM: "francoski"},
|
||||||
|
{ORTH: "friz.", NORM: "frizerstvo"},
|
||||||
|
{ORTH: "gastr.", NORM: "gastronomija"},
|
||||||
|
{ORTH: "geogr.", NORM: "geografija"},
|
||||||
|
{ORTH: "geol.", NORM: "geologija"},
|
||||||
|
{ORTH: "geom.", NORM: "geometrija"},
|
||||||
|
{ORTH: "germ.", NORM: "germanski"},
|
||||||
|
{ORTH: "gl.", NORM: "glej"},
|
||||||
|
{ORTH: "glag.", NORM: "glagolski"},
|
||||||
|
{ORTH: "glasb.", NORM: "glasba"},
|
||||||
|
{ORTH: "gled.", NORM: "gledališče"},
|
||||||
|
{ORTH: "gost.", NORM: "gostinstvo"},
|
||||||
|
{ORTH: "gozd.", NORM: "gozdarstvo"},
|
||||||
|
{ORTH: "gr.", NORM: "grški"},
|
||||||
|
{ORTH: "grad.", NORM: "gradbeništvo"},
|
||||||
|
{ORTH: "hebr.", NORM: "hebrejsko"},
|
||||||
|
{ORTH: "hrv.", NORM: "hrvaško"},
|
||||||
|
{ORTH: "ide.", NORM: "indoevropsko"},
|
||||||
|
{ORTH: "igr.", NORM: "igre"},
|
||||||
|
{ORTH: "im.", NORM: "imenovalnik"},
|
||||||
|
{ORTH: "iron.", NORM: "ironično"},
|
||||||
|
{ORTH: "it.", NORM: "italijanski"},
|
||||||
|
{ORTH: "itd.", NORM: "in tako dalje"},
|
||||||
|
{ORTH: "itn.", NORM: "in tako naprej"},
|
||||||
|
{ORTH: "ipd.", NORM: "in podobno"},
|
||||||
|
{ORTH: "jap.", NORM: "japonsko"},
|
||||||
|
{ORTH: "jul.", NORM: "julij"},
|
||||||
|
{ORTH: "jun.", NORM: "junij"},
|
||||||
|
{ORTH: "kit.", NORM: "kitajsko"},
|
||||||
|
{ORTH: "knj.", NORM: "knjižno"},
|
||||||
|
{ORTH: "knjiž.", NORM: "knjižno"},
|
||||||
|
{ORTH: "kor.", NORM: "koreografija"},
|
||||||
|
{ORTH: "lat.", NORM: "latinski"},
|
||||||
|
{ORTH: "les.", NORM: "lesna stroka"},
|
||||||
|
{ORTH: "lingv.", NORM: "lingvistika"},
|
||||||
|
{ORTH: "lit.", NORM: "literarni"},
|
||||||
|
{ORTH: "ljubk.", NORM: "ljubkovalno"},
|
||||||
|
{ORTH: "lov.", NORM: "lovstvo"},
|
||||||
|
{ORTH: "m.", NORM: "moški"},
|
||||||
|
{ORTH: "mak.", NORM: "makedonski"},
|
||||||
|
{ORTH: "mar.", NORM: "marec"},
|
||||||
|
{ORTH: "mat.", NORM: "matematika"},
|
||||||
|
{ORTH: "med.", NORM: "medicina"},
|
||||||
|
{ORTH: "meh.", NORM: "mehiško"},
|
||||||
|
{ORTH: "mest.", NORM: "mestnik"},
|
||||||
|
{ORTH: "mdr.", NORM: "med drugim"},
|
||||||
|
{ORTH: "min.", NORM: "mineralogija"},
|
||||||
|
{ORTH: "mitol.", NORM: "mitologija"},
|
||||||
|
{ORTH: "mn.", NORM: "množina"},
|
||||||
|
{ORTH: "mont.", NORM: "montanistika"},
|
||||||
|
{ORTH: "muz.", NORM: "muzikologija"},
|
||||||
|
{ORTH: "nam.", NORM: "namenilnik"},
|
||||||
|
{ORTH: "nar.", NORM: "narečno"},
|
||||||
|
{ORTH: "nav.", NORM: "navadno"},
|
||||||
|
{ORTH: "nedol.", NORM: "nedoločnik"},
|
||||||
|
{ORTH: "nedov.", NORM: "nedovršni"},
|
||||||
|
{ORTH: "neprav.", NORM: "nepravilno"},
|
||||||
|
{ORTH: "nepreh.", NORM: "neprehodno"},
|
||||||
|
{ORTH: "neskl.", NORM: "nesklonljiv(o)"},
|
||||||
|
{ORTH: "nestrok.", NORM: "nestrokovno"},
|
||||||
|
{ORTH: "num.", NORM: "numizmatika"},
|
||||||
|
{ORTH: "npr.", NORM: "na primer"},
|
||||||
|
{ORTH: "obrt.", NORM: "obrtništvo"},
|
||||||
|
{ORTH: "okt.", NORM: "oktober"},
|
||||||
|
{ORTH: "or.", NORM: "orodnik"},
|
||||||
|
{ORTH: "os.", NORM: "oseba"},
|
||||||
|
{ORTH: "otr.", NORM: "otroško"},
|
||||||
|
{ORTH: "oz.", NORM: "oziroma"},
|
||||||
|
{ORTH: "pal.", NORM: "paleontologija"},
|
||||||
|
{ORTH: "papir.", NORM: "papirništvo"},
|
||||||
|
{ORTH: "ped.", NORM: "pedagogika"},
|
||||||
|
{ORTH: "pisar.", NORM: "pisarniško"},
|
||||||
|
{ORTH: "pog.", NORM: "pogovorno"},
|
||||||
|
{ORTH: "polit.", NORM: "politika"},
|
||||||
|
{ORTH: "polj.", NORM: "poljsko"},
|
||||||
|
{ORTH: "poljud.", NORM: "poljudno"},
|
||||||
|
{ORTH: "preg.", NORM: "pregovor"},
|
||||||
|
{ORTH: "preh.", NORM: "prehodno"},
|
||||||
|
{ORTH: "pren.", NORM: "preneseno"},
|
||||||
|
{ORTH: "prid.", NORM: "pridevnik"},
|
||||||
|
{ORTH: "prim.", NORM: "primerjaj"},
|
||||||
|
{ORTH: "prisl.", NORM: "prislov"},
|
||||||
|
{ORTH: "psih.", NORM: "psihologija"},
|
||||||
|
{ORTH: "psiht.", NORM: "psihiatrija"},
|
||||||
|
{ORTH: "rad.", NORM: "radiotehnika"},
|
||||||
|
{ORTH: "rač.", NORM: "računalništvo"},
|
||||||
|
{ORTH: "rib.", NORM: "ribištvo"},
|
||||||
|
{ORTH: "rod.", NORM: "rodilnik"},
|
||||||
|
{ORTH: "rus.", NORM: "rusko"},
|
||||||
|
{ORTH: "s.", NORM: "srednji"},
|
||||||
|
{ORTH: "sam.", NORM: "samostalniški"},
|
||||||
|
{ORTH: "sed.", NORM: "sedanjik"},
|
||||||
|
{ORTH: "sep.", NORM: "september"},
|
||||||
|
{ORTH: "slabš.", NORM: "slabšalno"},
|
||||||
|
{ORTH: "slovan.", NORM: "slovansko"},
|
||||||
|
{ORTH: "slovaš.", NORM: "slovaško"},
|
||||||
|
{ORTH: "srb.", NORM: "srbsko"},
|
||||||
|
{ORTH: "star.", NORM: "starinsko"},
|
||||||
|
{ORTH: "stil.", NORM: "stilno"},
|
||||||
|
{ORTH: "sv.", NORM: "svet(i)"},
|
||||||
|
{ORTH: "teh.", NORM: "tehnika"},
|
||||||
|
{ORTH: "tisk.", NORM: "tiskarstvo"},
|
||||||
|
{ORTH: "tj.", NORM: "to je"},
|
||||||
|
{ORTH: "tož.", NORM: "tožilnik"},
|
||||||
|
{ORTH: "trg.", NORM: "trgovina"},
|
||||||
|
{ORTH: "ukr.", NORM: "ukrajinski"},
|
||||||
|
{ORTH: "um.", NORM: "umetnost"},
|
||||||
|
{ORTH: "vel.", NORM: "velelnik"},
|
||||||
|
{ORTH: "vet.", NORM: "veterina"},
|
||||||
|
{ORTH: "vez.", NORM: "veznik"},
|
||||||
|
{ORTH: "vn.", NORM: "visokonemško"},
|
||||||
|
{ORTH: "voj.", NORM: "vojska"},
|
||||||
|
{ORTH: "vrtn.", NORM: "vrtnarstvo"},
|
||||||
|
{ORTH: "vulg.", NORM: "vulgarno"},
|
||||||
|
{ORTH: "vznes.", NORM: "vzneseno"},
|
||||||
|
{ORTH: "zal.", NORM: "založništvo"},
|
||||||
|
{ORTH: "zastar.", NORM: "zastarelo"},
|
||||||
|
{ORTH: "zgod.", NORM: "zgodovina"},
|
||||||
|
{ORTH: "zool.", NORM: "zoologija"},
|
||||||
|
{ORTH: "čeb.", NORM: "čebelarstvo"},
|
||||||
|
{ORTH: "češ.", NORM: "češki"},
|
||||||
|
{ORTH: "člov.", NORM: "človeškost"},
|
||||||
|
{ORTH: "šah.", NORM: "šahovski"},
|
||||||
|
{ORTH: "šalj.", NORM: "šaljivo"},
|
||||||
|
{ORTH: "šp.", NORM: "španski"},
|
||||||
|
{ORTH: "špan.", NORM: "špansko"},
|
||||||
|
{ORTH: "šport.", NORM: "športni"},
|
||||||
|
{ORTH: "štev.", NORM: "števnik"},
|
||||||
|
{ORTH: "šved.", NORM: "švedsko"},
|
||||||
|
{ORTH: "švic.", NORM: "švicarsko"},
|
||||||
|
{ORTH: "ž.", NORM: "ženski"},
|
||||||
|
{ORTH: "žarg.", NORM: "žargonsko"},
|
||||||
|
{ORTH: "žel.", NORM: "železnica"},
|
||||||
|
{ORTH: "živ.", NORM: "živost"},
|
||||||
|
]:
|
||||||
|
_exc[exc_data[ORTH]] = [exc_data]
|
||||||
|
|
||||||
|
|
||||||
|
abbrv = """
|
||||||
|
Co. Ch. DIPL. DR. Dr. Ev. Inc. Jr. Kr. Mag. M. MR. Mr. Mt. Murr. Npr. OZ.
|
||||||
|
Opr. Osn. Prim. Roj. ST. Sim. Sp. Sred. St. Sv. Škofl. Tel. UR. Zb.
|
||||||
|
a. aa. ab. abc. abit. abl. abs. abt. acc. accel. add. adj. adv. aet. afr. akad. al. alban. all. alleg.
|
||||||
|
alp. alt. alter. alžir. am. an. andr. ang. anh. anon. ans. antrop. apoc. app. approx. apt. ar. arc. arch.
|
||||||
|
arh. arr. as. asist. assist. assoc. asst. astr. attn. aug. avstral. az. b. bab. bal. bbl. bd. belg. bioinf.
|
||||||
|
biomed. bk. bl. bn. borg. bp. br. braz. brit. bros. broš. bt. bu. c. ca. cal. can. cand. cantab. cap. capt.
|
||||||
|
cat. cath. cc. cca. cd. cdr. cdre. cent. cerkv. cert. cf. cfr. ch. chap. chem. chr. chs. cic. circ. civ. cl.
|
||||||
|
cm. cmd. cnr. co. cod. col. coll. colo. com. comp. con. conc. cond. conn. cons. cont. coop. corr. cost. cp.
|
||||||
|
cpl. cr. crd. cres. cresc. ct. cu. d. dan. dat. davč. ddr. dec. ded. def. dem. dent. dept. dia. dip. dipl.
|
||||||
|
dir. disp. diss. div. do. doc. dok. dol. doo. dop. dott. dr. dram. druž. družb. drž. dt. duh. dur. dvr. dwt. e.
|
||||||
|
ea. ecc. eccl. eccles. econ. edn. egipt. egr. ekon. eksp. el. em. enc. eng. eo. ep. err. esp. esq. est.
|
||||||
|
et. etc. etnogr. etnol. ev. evfem. evr. ex. exc. excl. exp. expl. ext. exx. f. fa. facs. fak. faks. fas.
|
||||||
|
fasc. fco. fcp. feb. febr. fec. fed. fem. ff. fff. fid. fig. fil. film. fiziol. fiziot. flam. fm. fo. fol. folk.
|
||||||
|
frag. fran. franc. fsc. g. ga. gal. gdč. ge. gen. geod. geog. geotehnol. gg. gimn. glas. glav. gnr. go. gor.
|
||||||
|
gosp. gp. graf. gram. gren. grš. gs. h. hab. hf. hist. ho. hort. i. ia. ib. ibid. id. idr. idridr. ill. imen.
|
||||||
|
imp. impf. impr. in. inc. incl. ind. indus. inf. inform. ing. init. ins. int. inv. inšp. inštr. inž. is. islam.
|
||||||
|
ist. ital. iur. iz. izbr. izd. izg. izgr. izr. izv. j. jak. jam. jan. jav. je. jez. jr. jsl. jud. jug.
|
||||||
|
jugoslovan. jur. juž. jv. jz. k. kal. kan. kand. kat. kdo. kem. kip. kmet. kol. kom. komp. konf. kont. kost. kov.
|
||||||
|
kp. kpfw. kr. kraj. krat. kub. kult. kv. kval. l. la. lab. lb. ld. let. lib. lik. litt. lj. ljud. ll. loc. log.
|
||||||
|
loč. lt. ma. madž. mag. manag. manjš. masc. mass. mater. max. maxmax. mb. md. mech. medic. medij. medn.
|
||||||
|
mehč. mem. menedž. mes. mess. metal. meteor. meteorol. mex. mi. mikr. mil. minn. mio. misc. miss. mit. mk.
|
||||||
|
mkt. ml. mlad. mlle. mlr. mm. mme. množ. mo. moj. moš. možn. mr. mrd. mrs. ms. msc. msgr. mt. murr. mus. mut.
|
||||||
|
n. na. nad. nadalj. nadom. nagl. nakl. namer. nan. naniz. nasl. nat. navt. nač. ned. nem. nik. nizoz. nm. nn.
|
||||||
|
no. nom. norv. notr. nov. novogr. ns. o. ob. obd. obj. oblač. obl. oblik. obr. obraz. obs. obst. obt. obč. oc.
|
||||||
|
oct. od. odd. odg. odn. odst. odv. oec. off. ok. okla. okr. ont. oo. op. opis. opp. opr. orch. ord. ore. oreg.
|
||||||
|
org. orient. orig. ork. ort. oseb. osn. ot. ozir. ošk. p. pag. par. para. parc. parl. part. past. pat. pdk.
|
||||||
|
pen. perf. pert. perz. pesn. pet. pev. pf. pfc. ph. pharm. phil. pis. pl. po. pod. podr. podaljš. pogl. pogoj. pojm.
|
||||||
|
pok. pokr. pol. poljed. poljub. polu. pom. pomen. pon. ponov. pop. por. port. pos. posl. posn. pov. pp. ppl. pr.
|
||||||
|
praet. prav. pravopis. pravosl. preb. pred. predl. predm. predp. preds. pref. pregib. prel. prem. premen. prep.
|
||||||
|
pres. pret. prev. pribl. prih. pril. primerj. primor. prip. pripor. prir. prist. priv. proc. prof. prog. proiz.
|
||||||
|
prom. pron. prop. prot. protest. prov. ps. pss. pt. publ. pz. q. qld. qu. quad. que. r. racc. rastl. razgl.
|
||||||
|
razl. razv. rd. red. ref. reg. rel. relig. rep. repr. rer. resp. rest. ret. rev. revol. rež. rim. rist. rkp. rm.
|
||||||
|
roj. rom. romun. rp. rr. rt. rud. ruš. ry. sal. samogl. san. sc. scen. sci. scr. sdv. seg. sek. sen. sept. ser.
|
||||||
|
sev. sg. sgt. sh. sig. sigg. sign. sim. sin. sing. sinh. skand. skl. sklad. sklanj. sklep. skr. sl. slik. slov.
|
||||||
|
slovak. slovn. sn. so. sob. soc. sociol. sod. sopomen. sopr. sor. sov. sovj. sp. spec. spl. spr. spreg. sq. sr.
|
||||||
|
sre. sred. sredoz. srh. ss. ssp. st. sta. stan. stanstar. stcsl. ste. stim. stol. stom. str. stroj. strok. stsl.
|
||||||
|
stud. sup. supl. suppl. svet. sz. t. tab. tech. ted. tehn. tehnol. tek. teks. tekst. tel. temp. ten. teol. ter.
|
||||||
|
term. test. th. theol. tim. tip. tisočl. tit. tl. tol. tolmač. tom. tor. tov. tr. trad. traj. trans. tren.
|
||||||
|
trib. tril. trop. trp. trž. ts. tt. tu. tur. turiz. tvor. tvorb. tč. u. ul. umet. un. univ. up. upr. ur. urad.
|
||||||
|
us. ust. utr. v. va. val. var. varn. ven. ver. verb. vest. vezal. vic. vis. viv. viz. viš. vod. vok. vol. vpr.
|
||||||
|
vrst. vrstil. vs. vv. vzd. vzg. vzh. vzor. w. wed. wg. wk. x. y. z. zah. zaim. zak. zap. zasl. zavar. zač. zb.
|
||||||
|
združ. zg. zn. znan. znanstv. zoot. zun. zv. zvd. á. é. ć. č. čas. čet. čl. člen. čustv. đ. ľ. ł. ş. ŠT. š. šir.
|
||||||
|
škofl. škot. šol. št. števil. štud. ů. ű. žen. žival.
|
||||||
|
""".split()
|
||||||
|
|
||||||
|
for orth in abbrv:
|
||||||
|
_exc[orth] = [{ORTH: orth}]
|
||||||
|
|
||||||
|
|
||||||
|
TOKENIZER_EXCEPTIONS = update_exc(BASE_EXCEPTIONS, _exc)
|
|
@ -29,7 +29,7 @@ class Ukrainian(Language):
|
||||||
assigns=["token.lemma"],
|
assigns=["token.lemma"],
|
||||||
default_config={
|
default_config={
|
||||||
"model": None,
|
"model": None,
|
||||||
"mode": "pymorphy2",
|
"mode": "pymorphy3",
|
||||||
"overwrite": False,
|
"overwrite": False,
|
||||||
"scorer": {"@scorers": "spacy.lemmatizer_scorer.v1"},
|
"scorer": {"@scorers": "spacy.lemmatizer_scorer.v1"},
|
||||||
},
|
},
|
||||||
|
|
|
@ -14,7 +14,7 @@ class UkrainianLemmatizer(RussianLemmatizer):
|
||||||
model: Optional[Model],
|
model: Optional[Model],
|
||||||
name: str = "lemmatizer",
|
name: str = "lemmatizer",
|
||||||
*,
|
*,
|
||||||
mode: str = "pymorphy2",
|
mode: str = "pymorphy3",
|
||||||
overwrite: bool = False,
|
overwrite: bool = False,
|
||||||
scorer: Optional[Callable] = lemmatizer_score,
|
scorer: Optional[Callable] = lemmatizer_score,
|
||||||
) -> None:
|
) -> None:
|
||||||
|
@ -29,6 +29,17 @@ class UkrainianLemmatizer(RussianLemmatizer):
|
||||||
) from None
|
) from None
|
||||||
if getattr(self, "_morph", None) is None:
|
if getattr(self, "_morph", None) is None:
|
||||||
self._morph = MorphAnalyzer(lang="uk")
|
self._morph = MorphAnalyzer(lang="uk")
|
||||||
|
elif mode == "pymorphy3":
|
||||||
|
try:
|
||||||
|
from pymorphy3 import MorphAnalyzer
|
||||||
|
except ImportError:
|
||||||
|
raise ImportError(
|
||||||
|
"The Ukrainian lemmatizer mode 'pymorphy3' requires the "
|
||||||
|
"pymorphy3 library and dictionaries. Install them with: "
|
||||||
|
"pip install pymorphy3 pymorphy3-dicts-uk"
|
||||||
|
) from None
|
||||||
|
if getattr(self, "_morph", None) is None:
|
||||||
|
self._morph = MorphAnalyzer(lang="uk")
|
||||||
super().__init__(
|
super().__init__(
|
||||||
vocab, model, name, mode=mode, overwrite=overwrite, scorer=scorer
|
vocab, model, name, mode=mode, overwrite=overwrite, scorer=scorer
|
||||||
)
|
)
|
||||||
|
|
|
@ -328,13 +328,13 @@ def ro_tokenizer():
|
||||||
|
|
||||||
@pytest.fixture(scope="session")
|
@pytest.fixture(scope="session")
|
||||||
def ru_tokenizer():
|
def ru_tokenizer():
|
||||||
pytest.importorskip("pymorphy2")
|
pytest.importorskip("pymorphy3")
|
||||||
return get_lang_class("ru")().tokenizer
|
return get_lang_class("ru")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
@pytest.fixture
|
@pytest.fixture
|
||||||
def ru_lemmatizer():
|
def ru_lemmatizer():
|
||||||
pytest.importorskip("pymorphy2")
|
pytest.importorskip("pymorphy3")
|
||||||
return get_lang_class("ru")().add_pipe("lemmatizer")
|
return get_lang_class("ru")().add_pipe("lemmatizer")
|
||||||
|
|
||||||
|
|
||||||
|
@ -406,14 +406,14 @@ def ky_tokenizer():
|
||||||
|
|
||||||
@pytest.fixture(scope="session")
|
@pytest.fixture(scope="session")
|
||||||
def uk_tokenizer():
|
def uk_tokenizer():
|
||||||
pytest.importorskip("pymorphy2")
|
pytest.importorskip("pymorphy3")
|
||||||
return get_lang_class("uk")().tokenizer
|
return get_lang_class("uk")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
@pytest.fixture
|
@pytest.fixture
|
||||||
def uk_lemmatizer():
|
def uk_lemmatizer():
|
||||||
pytest.importorskip("pymorphy2")
|
pytest.importorskip("pymorphy3")
|
||||||
pytest.importorskip("pymorphy2_dicts_uk")
|
pytest.importorskip("pymorphy3_dicts_uk")
|
||||||
return get_lang_class("uk")().add_pipe("lemmatizer")
|
return get_lang_class("uk")().add_pipe("lemmatizer")
|
||||||
|
|
||||||
|
|
||||||
|
|
|
@ -20,7 +20,6 @@ od katerih so te svoboščine odvisne,
|
||||||
assert len(tokens) == 116
|
assert len(tokens) == 116
|
||||||
|
|
||||||
|
|
||||||
@pytest.mark.xfail
|
|
||||||
def test_ordinal_number(sl_tokenizer):
|
def test_ordinal_number(sl_tokenizer):
|
||||||
text = "10. decembra 1948"
|
text = "10. decembra 1948"
|
||||||
tokens = sl_tokenizer(text)
|
tokens = sl_tokenizer(text)
|
||||||
|
|
|
@ -70,7 +70,7 @@ lemmatizer is available. The lemmatizer modes `rule` and `pos_lookup` require
|
||||||
[`token.pos`](/api/token) from a previous pipeline component (see example
|
[`token.pos`](/api/token) from a previous pipeline component (see example
|
||||||
pipeline configurations in the
|
pipeline configurations in the
|
||||||
[pretrained pipeline design details](/models#design-cnn)) or rely on third-party
|
[pretrained pipeline design details](/models#design-cnn)) or rely on third-party
|
||||||
libraries (`pymorphy2`).
|
libraries (`pymorphy3`).
|
||||||
|
|
||||||
| Language | Default Mode |
|
| Language | Default Mode |
|
||||||
| -------- | ------------ |
|
| -------- | ------------ |
|
||||||
|
@ -86,9 +86,9 @@ libraries (`pymorphy2`).
|
||||||
| `nb` | `rule` |
|
| `nb` | `rule` |
|
||||||
| `nl` | `rule` |
|
| `nl` | `rule` |
|
||||||
| `pl` | `pos_lookup` |
|
| `pl` | `pos_lookup` |
|
||||||
| `ru` | `pymorphy2` |
|
| `ru` | `pymorphy3` |
|
||||||
| `sv` | `rule` |
|
| `sv` | `rule` |
|
||||||
| `uk` | `pymorphy2` |
|
| `uk` | `pymorphy3` |
|
||||||
|
|
||||||
```python
|
```python
|
||||||
%%GITHUB_SPACY/spacy/pipeline/lemmatizer.py
|
%%GITHUB_SPACY/spacy/pipeline/lemmatizer.py
|
||||||
|
|
|
@ -374,8 +374,8 @@
|
||||||
"has_examples": true,
|
"has_examples": true,
|
||||||
"dependencies": [
|
"dependencies": [
|
||||||
{
|
{
|
||||||
"name": "pymorphy2",
|
"name": "pymorphy3",
|
||||||
"url": "https://github.com/kmike/pymorphy2"
|
"url": "https://github.com/no-plagiarism/pymorphy3"
|
||||||
}
|
}
|
||||||
],
|
],
|
||||||
"models": [
|
"models": [
|
||||||
|
@ -480,12 +480,12 @@
|
||||||
],
|
],
|
||||||
"dependencies": [
|
"dependencies": [
|
||||||
{
|
{
|
||||||
"name": "pymorphy2",
|
"name": "pymorphy3",
|
||||||
"url": "https://github.com/kmike/pymorphy2"
|
"url": "https://github.com/no-plagiarism/pymorphy3"
|
||||||
},
|
},
|
||||||
{
|
{
|
||||||
"name": "pymorphy2-dicts-uk",
|
"name": "pymorphy3-dicts-uk",
|
||||||
"url": "https://github.com/kmike/pymorphy2-dicts/"
|
"url": "https://github.com/no-plagiarism/pymorphy3-dicts"
|
||||||
}
|
}
|
||||||
]
|
]
|
||||||
},
|
},
|
||||||
|
|
Loading…
Reference in New Issue
Block a user