Updates to Slovenian language (#11162)

* Added examples for Slovene * Update spacy/lang/sl/examples.py Co-authored-by: Adriane Boyd <adrianeboyd@gmail.com> * Corrected a typo in one of the sentences * Updated support for Slovenian * Some minor changes to corrections * Added forint currency * Corrected HYPHENS_PERMITTED regex and some formatting * Minor changes * Un-xfail tokenizer test * Format Co-authored-by: Luka Dragar <D20124481@mytudublin.ie> Co-authored-by: Adriane Boyd <adrianeboyd@gmail.com>
2025-10-26 13:41:21 +03:00 · 2022-08-05 10:10:18 +02:00 · 2022-08-05 10:10:18 +02:00 · b64243ed55
commit b64243ed55
parent b5d9d0897e
6 changed files with 585 additions and 319 deletions
--- a/spacy/lang/sl/init.py
+++ b/spacy/lang/sl/init.py
@ -1,9 +1,17 @@
 from .lex_attrs import LEX_ATTRS
 from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES, TOKENIZER_PREFIXES
 from .stop_words import STOP_WORDS
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
 from ...language import Language, BaseDefaults
 class SlovenianDefaults(BaseDefaults):
    stop_words = STOP_WORDS
    tokenizer_exceptions = TOKENIZER_EXCEPTIONS
    prefixes = TOKENIZER_PREFIXES
    infixes = TOKENIZER_INFIXES
    suffixes = TOKENIZER_SUFFIXES
    lex_attr_getters = LEX_ATTRS
 class Slovenian(Language):
--- a/spacy/lang/sl/lex_attrs.py
+++ b/spacy/lang/sl/lex_attrs.py
@ -0,0 +1,145 @@
 from ...attrs import LIKE_NUM
 from ...attrs import IS_CURRENCY
 import unicodedata
 _num_words = set(
    """
 	nula ničla nič ena dva tri štiri pet šest sedem osem
 	devet deset enajst dvanajst trinajst štirinajst petnajst
 	šestnajst sedemnajst osemnajst devetnajst dvajset trideset štirideset
 	petdeset šestdest sedemdeset osemdeset devedeset sto tisoč
 	milijon bilijon trilijon kvadrilijon nešteto
 	en eden enega enemu ennem enim enih enima enimi ene eni eno
 	dveh dvema dvem dvoje trije treh trem tremi troje štirje štirih štirim štirimi
 	petih petim petimi šestih šestim šestimi sedmih sedmim sedmimi osmih osmim osmimi
 	devetih devetim devetimi desetih desetim desetimi enajstih enajstim enajstimi
 	dvanajstih dvanajstim dvanajstimi trinajstih trinajstim trinajstimi
 	šestnajstih šestnajstim šestnajstimi petnajstih petnajstim petnajstimi
 	sedemnajstih sedemnajstim sedemnajstimi osemnajstih osemnajstim osemnajstimi
 	devetnajstih devetnajstim devetnajstimi dvajsetih dvajsetim dvajsetimi  
 	""".split()
 )
 _ordinal_words = set(
    """
 	prvi drugi tretji četrti peti šesti sedmi osmi
 	deveti deseti enajsti dvanajsti trinajsti štirinajsti
 	petnajsti šestnajsti sedemnajsti osemnajsti devetnajsti
 	dvajseti trideseti štirideseti petdeseti šestdeseti sedemdeseti
 	osemdeseti devetdeseti stoti tisoči milijonti bilijonti
 	trilijonti kvadrilijonti nešteti
 	prva druga tretja četrta peta šesta sedma osma
 	deveta deseta enajsta dvanajsta trinajsta štirnajsta
 	petnajsta šestnajsta sedemnajsta osemnajsta devetnajsta
 	dvajseta trideseta štirideseta petdeseta šestdeseta sedemdeseta
 	osemdeseta devetdeseta stota tisoča milijonta bilijonta
 	trilijonta kvadrilijonta nešteta
 	prvo drugo tretje četrto peto šestro sedmo osmo
 	deveto deseto enajsto dvanajsto trinajsto štirnajsto
 	petnajsto šestnajsto sedemnajsto osemnajsto devetnajsto
 	dvajseto trideseto štirideseto petdeseto šestdeseto sedemdeseto
 	osemdeseto devetdeseto stoto tisočo milijonto bilijonto
 	trilijonto kvadrilijonto nešteto
 	prvega drugega tretjega četrtega petega šestega sedmega osmega 
 	devega desetega enajstega dvanajstega trinajstega štirnajstega
 	petnajstega šestnajstega sedemnajstega osemnajstega devetnajstega
 	dvajsetega tridesetega štiridesetega petdesetega šestdesetega sedemdesetega
 	osemdesetega devetdesetega stotega tisočega milijontega bilijontega
 	trilijontega kvadrilijontega neštetega
 	prvemu drugemu tretjemu četrtemu petemu šestemu sedmemu osmemu devetemu desetemu 
 	enajstemu dvanajstemu trinajstemu štirnajstemu petnajstemu šestnajstemu sedemnajstemu
 	osemnajstemu devetnajstemu dvajsetemu tridesetemu štiridesetemu petdesetemu šestdesetemu
 	sedemdesetemu osemdesetemu devetdesetemu stotemu tisočemu milijontemu bilijontemu
 	trilijontemu kvadrilijontemu neštetemu
 	prvem drugem tretjem četrtem petem šestem sedmem osmem devetem desetem
 	enajstem dvanajstem trinajstem štirnajstem petnajstem šestnajstem sedemnajstem
 	osemnajstem devetnajstem dvajsetem tridesetem štiridesetem petdesetem šestdesetem
 	sedemdesetem osemdesetem devetdesetem stotem tisočem milijontem bilijontem
 	trilijontem kvadrilijontem neštetem
 	prvim drugim tretjim četrtim petim šestim sedtim osmim devetim desetim
 	enajstim dvanajstim trinajstim štirnajstim petnajstim šestnajstim sedemnajstim
 	osemnajstim devetnajstim dvajsetim tridesetim štiridesetim petdesetim šestdesetim
 	sedemdesetim osemdesetim devetdesetim stotim tisočim milijontim bilijontim
 	trilijontim kvadrilijontim neštetim
 	prvih drugih tretjih četrthih petih šestih sedmih osmih deveth desetih
 	enajstih dvanajstih trinajstih štirnajstih petnajstih šestnajstih sedemnajstih
 	osemnajstih devetnajstih dvajsetih tridesetih štiridesetih petdesetih šestdesetih
 	sedemdesetih osemdesetih devetdesetih stotih tisočih milijontih bilijontih
 	trilijontih kvadrilijontih nešteth
 	prvima drugima tretjima četrtima petima šestima sedmima osmima devetima desetima
 	enajstima dvanajstima trinajstima štirnajstima petnajstima šestnajstima sedemnajstima
 	osemnajstima devetnajstima dvajsetima tridesetima štiridesetima petdesetima šestdesetima
 	sedemdesetima osemdesetima devetdesetima stotima tisočima milijontima bilijontima
 	trilijontima kvadrilijontima neštetima
 	prve druge četrte pete šeste sedme osme devete desete
 	enajste dvanajste trinajste štirnajste petnajste šestnajste sedemnajste
 	osemnajste devetnajste dvajsete tridesete štiridesete petdesete šestdesete
 	sedemdesete osemdesete devetdesete stote tisoče milijonte bilijonte 
 	trilijonte kvadrilijonte neštete
 	prvimi drugimi tretjimi četrtimi petimi šestimi sedtimi osmimi devetimi desetimi
 	enajstimi dvanajstimi trinajstimi štirnajstimi petnajstimi šestnajstimi sedemnajstimi
 	osemnajstimi devetnajstimi dvajsetimi tridesetimi štiridesetimi petdesetimi šestdesetimi
 	sedemdesetimi osemdesetimi devetdesetimi stotimi tisočimi milijontimi bilijontimi
 	trilijontimi kvadrilijontimi neštetimi
 	""".split()
 )
 _currency_words = set(
    """
 	evro evra evru evrom evrov evroma evrih evrom evre evri evr eur
 	cent centa centu cenom centov centoma centih centom cente centi
 	dolar dolarja dolarji dolarju dolarjem dolarjev dolarjema dolarjih dolarje usd
 	tolar tolarja tolarji tolarju tolarjem tolarjev tolarjema tolarjih tolarje tol
 	dinar dinarja dinarji dinarju dinarjem dinarjev dinarjema dinarjih dinarje din
 	funt funta funti funtu funtom funtov funtoma funtih funte gpb
 	forint forinta forinti forintu forintom forintov forintoma forintih forinte
 	zlot zlota zloti zlotu zlotom zlotov zlotoma zlotih zlote 
 	rupij rupija rupiji rupiju rupijem rupijev rupijema rupijih rupije
 	jen jena jeni jenu jenom jenov jenoma jenih jene
 	kuna kuni kune kuno kun kunama kunah kunam kunami
 	marka marki marke markama markah markami 
 	""".split()
 )
 def like_num(text):
    if text.startswith(("+", "-", "±", "~")):
        text = text[1:]
    text = text.replace(",", "").replace(".", "")
    if text.isdigit():
        return True
    if text.count("/") == 1:
        num, denom = text.split("/")
        if num.isdigit() and denom.isdigit():
            return True
    text_lower = text.lower()
    if text_lower in _num_words:
        return True
    if text_lower in _ordinal_words:
        return True
    return False
 def is_currency(text):
    text_lower = text.lower()
    if text in _currency_words:
        return True
    for char in text:
        if unicodedata.category(char) != "Sc":
            return False
    return True
 LEX_ATTRS = {LIKE_NUM: like_num, IS_CURRENCY: is_currency}
--- a/spacy/lang/sl/punctuation.py
+++ b/spacy/lang/sl/punctuation.py
@ -0,0 +1,84 @@
 from ..char_classes import (
    LIST_ELLIPSES,
    LIST_ICONS,
    HYPHENS,
    LIST_PUNCT,
    LIST_QUOTES,
    CURRENCY,
    UNITS,
    PUNCT,
    LIST_CURRENCY,
    CONCAT_QUOTES,
 )
 from ..char_classes import CONCAT_QUOTES, ALPHA_LOWER, ALPHA_UPPER, ALPHA
 from ..char_classes import merge_chars
 from ..punctuation import TOKENIZER_PREFIXES as BASE_TOKENIZER_PREFIXES
 INCLUDE_SPECIAL = ["\\+", "\\/", "\\•", "\\¯", "\\=", "\\×"] + HYPHENS.split("|")
 _prefixes = INCLUDE_SPECIAL + BASE_TOKENIZER_PREFIXES
 _suffixes = (
    INCLUDE_SPECIAL
    + LIST_PUNCT
    + LIST_ELLIPSES
    + LIST_QUOTES
    + LIST_ICONS
    + [
        r"(?<=°[FfCcKk])\.",
        r"(?<=[0-9])(?:{c})".format(c=CURRENCY),
        r"(?<=[0-9])(?:{u})".format(u=UNITS),
        r"(?<=[{al}{e}{p}(?:{q})])\.".format(
            al=ALPHA_LOWER, e=r"%²\-\+", q=CONCAT_QUOTES, p=PUNCT
        ),
        r"(?<=[{au}][{au}])\.".format(au=ALPHA_UPPER),
        # split initials like J.K. Rowling
        r"(?<=[A-Z]\.)(?:[A-Z].)",
    ]
 )
 # a list of all suffixes following a hyphen that are shouldn't split (eg. BTC-jev)
 # source: Obeliks tokenizer - https://github.com/clarinsi/obeliks/blob/master/obeliks/res/TokRulesPart1.txt
 CONCAT_QUOTES = CONCAT_QUOTES.replace("'", "")
 HYPHENS_PERMITTED = (
    "((a)|(evemu)|(evskega)|(i)|(jevega)|(jevska)|(jevskimi)|(jinemu)|(oma)|(ovim)|"
    "(ovski)|(e)|(evi)|(evskem)|(ih)|(jevem)|(jevske)|(jevsko)|(jini)|(ov)|(ovima)|"
    "(ovskih)|(em)|(evih)|(evskemu)|(ja)|(jevemu)|(jevskega)|(ji)|(jinih)|(ova)|"
    "(ovimi)|(ovskim)|(ema)|(evim)|(evski)|(je)|(jevi)|(jevskem)|(jih)|(jinim)|"
    "(ove)|(ovo)|(ovskima)|(ev)|(evima)|(evskih)|(jem)|(jevih)|(jevskemu)|(jin)|"
    "(jinima)|(ovega)|(ovska)|(ovskimi)|(eva)|(evimi)|(evskim)|(jema)|(jevim)|"
    "(jevski)|(jina)|(jinimi)|(ovem)|(ovske)|(ovsko)|(eve)|(evo)|(evskima)|(jev)|"
    "(jevima)|(jevskih)|(jine)|(jino)|(ovemu)|(ovskega)|(u)|(evega)|(evska)|"
    "(evskimi)|(jeva)|(jevimi)|(jevskim)|(jinega)|(ju)|(ovi)|(ovskem)|(evem)|"
    "(evske)|(evsko)|(jeve)|(jevo)|(jevskima)|(jinem)|(om)|(ovih)|(ovskemu)|"
    "(ovec)|(ovca)|(ovcu)|(ovcem)|(ovcev)|(ovcema)|(ovcih)|(ovci)|(ovce)|(ovcimi)|"
    "(evec)|(evca)|(evcu)|(evcem)|(evcev)|(evcema)|(evcih)|(evci)|(evce)|(evcimi)|"
    "(jevec)|(jevca)|(jevcu)|(jevcem)|(jevcev)|(jevcema)|(jevcih)|(jevci)|(jevce)|"
    "(jevcimi)|(ovka)|(ovke)|(ovki)|(ovko)|(ovk)|(ovkama)|(ovkah)|(ovkam)|(ovkami)|"
    "(evka)|(evke)|(evki)|(evko)|(evk)|(evkama)|(evkah)|(evkam)|(evkami)|(jevka)|"
    "(jevke)|(jevki)|(jevko)|(jevk)|(jevkama)|(jevkah)|(jevkam)|(jevkami)|(timi)|"
    "(im)|(ima)|(a)|(imi)|(e)|(o)|(ega)|(ti)|(em)|(tih)|(emu)|(tim)|(i)|(tima)|"
    "(ih)|(ta)|(te)|(to)|(tega)|(tem)|(temu))"
 )
 _infixes = (
    LIST_ELLIPSES
    + LIST_ICONS
    + [
        r"(?<=[0-9])[+\-\*^](?=[0-9-])",
        r"(?<=[{al}{q}])\.(?=[{au}{q}])".format(
            al=ALPHA_LOWER, au=ALPHA_UPPER, q=CONCAT_QUOTES
        ),
        r"(?<=[{a}]),(?=[{a}])".format(a=ALPHA),
        r"(?<=[{a}0-9])(?:{h})(?!{hp}$)(?=[{a}])".format(
            a=ALPHA, h=HYPHENS, hp=HYPHENS_PERMITTED
        ),
        r"(?<=[{a}0-9])[:<>=/](?=[{a}])".format(a=ALPHA),
    ]
 )
 TOKENIZER_PREFIXES = _prefixes
 TOKENIZER_SUFFIXES = _suffixes
 TOKENIZER_INFIXES = _infixes
--- a/spacy/lang/sl/stop_words.py
+++ b/spacy/lang/sl/stop_words.py
@ -1,326 +1,84 @@
 # Source: https://github.com/stopwords-iso/stopwords-sl
 # Removed various words that are not normally considered stop words, such as months.
 STOP_WORDS = set(
    """
-a
+a ali 
-ali
+
-b
+b bi bil bila bile bili bilo biti blizu bo bodo bojo bolj bom bomo 
-bi
+boste bova boš brez
-bil
+
-bila
+c cel cela celi celo
-bile
+
-bili
+č če često četrta četrtek četrti četrto čez čigav
-bilo
+
-biti
+d da daleč dan danes datum deset deseta deseti deseto devet
-blizu
+deveta deveti deveto do dober dobra dobri dobro dokler dol dolg
-bo
+dolga dolgi dovolj drug druga drugi drugo dva dve
-bodo
+
-bolj
+e eden en ena ene eni enkrat eno etc.
-bom
+
 bomo
 boste
 bova
 boš
 brez
 c
 cel
 cela
 celi
 celo
 d
 da
 daleč
 dan
 danes
 do
 dober
 dobra
 dobri
 dobro
 dokler
 dol
 dovolj
 e
 eden
 en
 ena
 ene
 eni
 enkrat
 eno
 etc.
 f
-g
+
-g.
+g g. ga ga. gor gospa gospod 
-ga
+
-ga.
+h halo 
-gor
+
-gospa
+i idr. ii iii in iv ix iz
-gospod
+
-h
+j jaz je ji jih jim jo jutri
-halo
+
-i
+k kadarkoli kaj kajti kako kakor kamor kamorkoli kar karkoli
-idr.
+katerikoli kdaj kdo kdorkoli ker ki kje kjer kjerkoli
-ii
+ko koder koderkoli koga komu kot kratek kratka kratke kratki
-iii
+
-in
+l lahka lahke lahki lahko le lep lepa lepe lepi lepo leto
-iv
+
-ix
+m majhen majhna majhni malce malo manj me med medtem mene
-iz
+mesec mi midva midve mnogo moj moja moje mora morajo moram
-j
+moramo morate moraš morem mu
-jaz
+
-je
+n na nad naj najina najino najmanj naju največ nam narobe
-ji
+nas nato nazaj naš naša naše ne nedavno nedelja nek neka
-jih
+nekaj nekatere nekateri nekatero nekdo neke nekega neki
-jim
+nekje neko nekoga nekoč ni nikamor nikdar nikjer nikoli
-jo
+nič nje njega njegov njegova njegovo njej njemu njen
-k
+njena njeno nji njih njihov njihova njihovo njiju njim
-kadarkoli
+njo njun njuna njuno no nocoj npr.
-kaj
+
-kajti
+o ob oba obe oboje od odprt odprta odprti okoli on
-kako
+onadva one oni onidve osem osma osmi osmo oz.
-kakor
+
-kamor
+p pa pet peta petek peti peto po pod pogosto poleg poln
-kamorkoli
+polna polni polno ponavadi ponedeljek ponovno potem
-kar
+povsod pozdravljen pozdravljeni prav prava prave pravi
-karkoli
+pravo prazen prazna prazno prbl. precej pred prej preko
-katerikoli
+pri pribl. približno primer pripravljen pripravljena
-kdaj
+pripravljeni proti prva prvi prvo
-kdo
+
-kdorkoli
+r ravno redko res reč
-ker
+
-ki
+s saj sam sama same sami samo se sebe sebi sedaj sedem
-kje
+sedma sedmi sedmo sem seveda si sicer skoraj skozi slab sm
-kjer
+so sobota spet sreda srednja srednji sta ste stran stvar sva
-kjerkoli
+
-ko
+š šest šesta šesti šesto štiri 
-koderkoli
+
-koga
+t ta tak taka take taki tako takoj tam te tebe tebi tega
-komu
+težak težka težki težko ti tista tiste tisti tisto tj.
-kot
+tja to toda torek tretja tretje tretji tri tu tudi tukaj
-l
+tvoj tvoja tvoje
-le
+
 lep
 lepa
 lepe
 lepi
 lepo
 m
 manj
 me
 med
 medtem
 mene
 mi
 midva
 midve
 mnogo
 moj
 moja
 moje
 mora
 morajo
 moram
 moramo
 morate
 moraš
 morem
 mu
 n
 na
 nad
 naj
 najina
 najino
 najmanj
 naju
 največ
 nam
 nas
 nato
 nazaj
 naš
 naša
 naše
 ne
 nedavno
 nek
 neka
 nekaj
 nekatere
 nekateri
 nekatero
 nekdo
 neke
 nekega
 neki
 nekje
 neko
 nekoga
 nekoč
 ni
 nikamor
 nikdar
 nikjer
 nikoli
 nič
 nje
 njega
 njegov
 njegova
 njegovo
 njej
 njemu
 njen
 njena
 njeno
 nji
 njih
 njihov
 njihova
 njihovo
 njiju
 njim
 njo
 njun
 njuna
 njuno
 no
 nocoj
 npr.
 o
 ob
 oba
 obe
 oboje
 od
 okoli
 on
 onadva
 one
 oni
 onidve
 oz.
 p
 pa
 po
 pod
 pogosto
 poleg
 ponavadi
 ponovno
 potem
 povsod
 prbl.
 precej
 pred
 prej
 preko
 pri
 pribl.
 približno
 proti
 r
 redko
 res
 s
 saj
 sam
 sama
 same
 sami
 samo
 se
 sebe
 sebi
 sedaj
 sem
 seveda
 si
 sicer
 skoraj
 skozi
 smo
 so
 spet
 sta
 ste
 sva
 t
 ta
 tak
 taka
 take
 taki
 tako
 takoj
 tam
 te
 tebe
 tebi
 tega
 ti
 tista
 tiste
 tisti
 tisto
 tj.
 tja
 to
 toda
 tu
 tudi
 tukaj
 tvoj
 tvoja
 tvoje
 u
-v
+
-vaju
+v vaju vam vas vaš vaša vaše ve vedno velik velika veliki
-vam
+veliko vendar ves več vi vidva vii viii visok visoka visoke
-vas
+visoki vsa vsaj vsak vsaka vsakdo vsake vsaki vsakomur vse
-vaš
+vsega vsi vso včasih včeraj 
-vaša
+
 vaše
 ve
 vedno
 vendar
 ves
 več
 vi
 vidva
 vii
 viii
 vsa
 vsaj
 vsak
 vsaka
 vsakdo
 vsake
 vsaki
 vsakomur
 vse
 vsega
 vsi
 vso
 včasih
 x 
-z
+
-za
+z za zadaj zadnji zakaj zaprta zaprti zaprto zdaj zelo zunaj
-zadaj
+
-zadnji
+ž že
 zakaj
 zdaj
 zelo
 zunaj
 č
 če
 često
 čez
 čigav
 š
 ž
 že
 """.split()
 )
--- a/spacy/lang/sl/tokenizer_exceptions.py
+++ b/spacy/lang/sl/tokenizer_exceptions.py
@ -0,0 +1,272 @@
 from typing import Dict, List
 from ..tokenizer_exceptions import BASE_EXCEPTIONS
 from ...symbols import ORTH, NORM
 from ...util import update_exc
 _exc: Dict[str, List[Dict]] = {}
 _other_exc = {
    "t.i.": [{ORTH: "t.", NORM: "tako"}, {ORTH: "i.", NORM: "imenovano"}],
    "t.j.": [{ORTH: "t.", NORM: "to"}, {ORTH: "j.", NORM: "je"}],
    "T.j.": [{ORTH: "T.", NORM: "to"}, {ORTH: "j.", NORM: "je"}],
    "d.o.o.": [
        {ORTH: "d.", NORM: "družba"},
        {ORTH: "o.", NORM: "omejeno"},
        {ORTH: "o.", NORM: "odgovornostjo"},
    ],
    "D.O.O.": [
        {ORTH: "D.", NORM: "družba"},
        {ORTH: "O.", NORM: "omejeno"},
        {ORTH: "O.", NORM: "odgovornostjo"},
    ],
    "d.n.o.": [
        {ORTH: "d.", NORM: "družba"},
        {ORTH: "n.", NORM: "neomejeno"},
        {ORTH: "o.", NORM: "odgovornostjo"},
    ],
    "D.N.O.": [
        {ORTH: "D.", NORM: "družba"},
        {ORTH: "N.", NORM: "neomejeno"},
        {ORTH: "O.", NORM: "odgovornostjo"},
    ],
    "d.d.": [{ORTH: "d.", NORM: "delniška"}, {ORTH: "d.", NORM: "družba"}],
    "D.D.": [{ORTH: "D.", NORM: "delniška"}, {ORTH: "D.", NORM: "družba"}],
    "s.p.": [{ORTH: "s.", NORM: "samostojni"}, {ORTH: "p.", NORM: "podjetnik"}],
    "S.P.": [{ORTH: "S.", NORM: "samostojni"}, {ORTH: "P.", NORM: "podjetnik"}],
    "l.r.": [{ORTH: "l.", NORM: "lastno"}, {ORTH: "r.", NORM: "ročno"}],
    "le-te": [{ORTH: "le"}, {ORTH: "-"}, {ORTH: "te"}],
    "Le-te": [{ORTH: "Le"}, {ORTH: "-"}, {ORTH: "te"}],
    "le-ti": [{ORTH: "le"}, {ORTH: "-"}, {ORTH: "ti"}],
    "Le-ti": [{ORTH: "Le"}, {ORTH: "-"}, {ORTH: "ti"}],
    "le-to": [{ORTH: "le"}, {ORTH: "-"}, {ORTH: "to"}],
    "Le-to": [{ORTH: "Le"}, {ORTH: "-"}, {ORTH: "to"}],
    "le-ta": [{ORTH: "le"}, {ORTH: "-"}, {ORTH: "ta"}],
    "Le-ta": [{ORTH: "Le"}, {ORTH: "-"}, {ORTH: "ta"}],
    "le-tega": [{ORTH: "le"}, {ORTH: "-"}, {ORTH: "tega"}],
    "Le-tega": [{ORTH: "Le"}, {ORTH: "-"}, {ORTH: "tega"}],
 }
 _exc.update(_other_exc)
 for exc_data in [
    {ORTH: "adm.", NORM: "administracija"},
    {ORTH: "aer.", NORM: "aeronavtika"},
    {ORTH: "agr.", NORM: "agronomija"},
    {ORTH: "amer.", NORM: "ameriško"},
    {ORTH: "anat.", NORM: "anatomija"},
    {ORTH: "angl.", NORM: "angleški"},
    {ORTH: "ant.", NORM: "antonim"},
    {ORTH: "antr.", NORM: "antropologija"},
    {ORTH: "apr.", NORM: "april"},
    {ORTH: "arab.", NORM: "arabsko"},
    {ORTH: "arheol.", NORM: "arheologija"},
    {ORTH: "arhit.", NORM: "arhitektura"},
    {ORTH: "avg.", NORM: "avgust"},
    {ORTH: "avstr.", NORM: "avstrijsko"},
    {ORTH: "avt.", NORM: "avtomobilizem"},
    {ORTH: "bibl.", NORM: "biblijsko"},
    {ORTH: "biokem.", NORM: "biokemija"},
    {ORTH: "biol.", NORM: "biologija"},
    {ORTH: "bolg.", NORM: "bolgarski"},
    {ORTH: "bot.", NORM: "botanika"},
    {ORTH: "cit.", NORM: "citat"},
    {ORTH: "daj.", NORM: "dajalnik"},
    {ORTH: "del.", NORM: "deležnik"},
    {ORTH: "ed.", NORM: "ednina"},
    {ORTH: "etn.", NORM: "etnografija"},
    {ORTH: "farm.", NORM: "farmacija"},
    {ORTH: "filat.", NORM: "filatelija"},
    {ORTH: "filoz.", NORM: "filozofija"},
    {ORTH: "fin.", NORM: "finančništvo"},
    {ORTH: "fiz.", NORM: "fizika"},
    {ORTH: "fot.", NORM: "fotografija"},
    {ORTH: "fr.", NORM: "francoski"},
    {ORTH: "friz.", NORM: "frizerstvo"},
    {ORTH: "gastr.", NORM: "gastronomija"},
    {ORTH: "geogr.", NORM: "geografija"},
    {ORTH: "geol.", NORM: "geologija"},
    {ORTH: "geom.", NORM: "geometrija"},
    {ORTH: "germ.", NORM: "germanski"},
    {ORTH: "gl.", NORM: "glej"},
    {ORTH: "glag.", NORM: "glagolski"},
    {ORTH: "glasb.", NORM: "glasba"},
    {ORTH: "gled.", NORM: "gledališče"},
    {ORTH: "gost.", NORM: "gostinstvo"},
    {ORTH: "gozd.", NORM: "gozdarstvo"},
    {ORTH: "gr.", NORM: "grški"},
    {ORTH: "grad.", NORM: "gradbeništvo"},
    {ORTH: "hebr.", NORM: "hebrejsko"},
    {ORTH: "hrv.", NORM: "hrvaško"},
    {ORTH: "ide.", NORM: "indoevropsko"},
    {ORTH: "igr.", NORM: "igre"},
    {ORTH: "im.", NORM: "imenovalnik"},
    {ORTH: "iron.", NORM: "ironično"},
    {ORTH: "it.", NORM: "italijanski"},
    {ORTH: "itd.", NORM: "in tako dalje"},
    {ORTH: "itn.", NORM: "in tako naprej"},
    {ORTH: "ipd.", NORM: "in podobno"},
    {ORTH: "jap.", NORM: "japonsko"},
    {ORTH: "jul.", NORM: "julij"},
    {ORTH: "jun.", NORM: "junij"},
    {ORTH: "kit.", NORM: "kitajsko"},
    {ORTH: "knj.", NORM: "knjižno"},
    {ORTH: "knjiž.", NORM: "knjižno"},
    {ORTH: "kor.", NORM: "koreografija"},
    {ORTH: "lat.", NORM: "latinski"},
    {ORTH: "les.", NORM: "lesna stroka"},
    {ORTH: "lingv.", NORM: "lingvistika"},
    {ORTH: "lit.", NORM: "literarni"},
    {ORTH: "ljubk.", NORM: "ljubkovalno"},
    {ORTH: "lov.", NORM: "lovstvo"},
    {ORTH: "m.", NORM: "moški"},
    {ORTH: "mak.", NORM: "makedonski"},
    {ORTH: "mar.", NORM: "marec"},
    {ORTH: "mat.", NORM: "matematika"},
    {ORTH: "med.", NORM: "medicina"},
    {ORTH: "meh.", NORM: "mehiško"},
    {ORTH: "mest.", NORM: "mestnik"},
    {ORTH: "mdr.", NORM: "med drugim"},
    {ORTH: "min.", NORM: "mineralogija"},
    {ORTH: "mitol.", NORM: "mitologija"},
    {ORTH: "mn.", NORM: "množina"},
    {ORTH: "mont.", NORM: "montanistika"},
    {ORTH: "muz.", NORM: "muzikologija"},
    {ORTH: "nam.", NORM: "namenilnik"},
    {ORTH: "nar.", NORM: "narečno"},
    {ORTH: "nav.", NORM: "navadno"},
    {ORTH: "nedol.", NORM: "nedoločnik"},
    {ORTH: "nedov.", NORM: "nedovršni"},
    {ORTH: "neprav.", NORM: "nepravilno"},
    {ORTH: "nepreh.", NORM: "neprehodno"},
    {ORTH: "neskl.", NORM: "nesklonljiv(o)"},
    {ORTH: "nestrok.", NORM: "nestrokovno"},
    {ORTH: "num.", NORM: "numizmatika"},
    {ORTH: "npr.", NORM: "na primer"},
    {ORTH: "obrt.", NORM: "obrtništvo"},
    {ORTH: "okt.", NORM: "oktober"},
    {ORTH: "or.", NORM: "orodnik"},
    {ORTH: "os.", NORM: "oseba"},
    {ORTH: "otr.", NORM: "otroško"},
    {ORTH: "oz.", NORM: "oziroma"},
    {ORTH: "pal.", NORM: "paleontologija"},
    {ORTH: "papir.", NORM: "papirništvo"},
    {ORTH: "ped.", NORM: "pedagogika"},
    {ORTH: "pisar.", NORM: "pisarniško"},
    {ORTH: "pog.", NORM: "pogovorno"},
    {ORTH: "polit.", NORM: "politika"},
    {ORTH: "polj.", NORM: "poljsko"},
    {ORTH: "poljud.", NORM: "poljudno"},
    {ORTH: "preg.", NORM: "pregovor"},
    {ORTH: "preh.", NORM: "prehodno"},
    {ORTH: "pren.", NORM: "preneseno"},
    {ORTH: "prid.", NORM: "pridevnik"},
    {ORTH: "prim.", NORM: "primerjaj"},
    {ORTH: "prisl.", NORM: "prislov"},
    {ORTH: "psih.", NORM: "psihologija"},
    {ORTH: "psiht.", NORM: "psihiatrija"},
    {ORTH: "rad.", NORM: "radiotehnika"},
    {ORTH: "rač.", NORM: "računalništvo"},
    {ORTH: "rib.", NORM: "ribištvo"},
    {ORTH: "rod.", NORM: "rodilnik"},
    {ORTH: "rus.", NORM: "rusko"},
    {ORTH: "s.", NORM: "srednji"},
    {ORTH: "sam.", NORM: "samostalniški"},
    {ORTH: "sed.", NORM: "sedanjik"},
    {ORTH: "sep.", NORM: "september"},
    {ORTH: "slabš.", NORM: "slabšalno"},
    {ORTH: "slovan.", NORM: "slovansko"},
    {ORTH: "slovaš.", NORM: "slovaško"},
    {ORTH: "srb.", NORM: "srbsko"},
    {ORTH: "star.", NORM: "starinsko"},
    {ORTH: "stil.", NORM: "stilno"},
    {ORTH: "sv.", NORM: "svet(i)"},
    {ORTH: "teh.", NORM: "tehnika"},
    {ORTH: "tisk.", NORM: "tiskarstvo"},
    {ORTH: "tj.", NORM: "to je"},
    {ORTH: "tož.", NORM: "tožilnik"},
    {ORTH: "trg.", NORM: "trgovina"},
    {ORTH: "ukr.", NORM: "ukrajinski"},
    {ORTH: "um.", NORM: "umetnost"},
    {ORTH: "vel.", NORM: "velelnik"},
    {ORTH: "vet.", NORM: "veterina"},
    {ORTH: "vez.", NORM: "veznik"},
    {ORTH: "vn.", NORM: "visokonemško"},
    {ORTH: "voj.", NORM: "vojska"},
    {ORTH: "vrtn.", NORM: "vrtnarstvo"},
    {ORTH: "vulg.", NORM: "vulgarno"},
    {ORTH: "vznes.", NORM: "vzneseno"},
    {ORTH: "zal.", NORM: "založništvo"},
    {ORTH: "zastar.", NORM: "zastarelo"},
    {ORTH: "zgod.", NORM: "zgodovina"},
    {ORTH: "zool.", NORM: "zoologija"},
    {ORTH: "čeb.", NORM: "čebelarstvo"},
    {ORTH: "češ.", NORM: "češki"},
    {ORTH: "člov.", NORM: "človeškost"},
    {ORTH: "šah.", NORM: "šahovski"},
    {ORTH: "šalj.", NORM: "šaljivo"},
    {ORTH: "šp.", NORM: "španski"},
    {ORTH: "špan.", NORM: "špansko"},
    {ORTH: "šport.", NORM: "športni"},
    {ORTH: "štev.", NORM: "števnik"},
    {ORTH: "šved.", NORM: "švedsko"},
    {ORTH: "švic.", NORM: "švicarsko"},
    {ORTH: "ž.", NORM: "ženski"},
    {ORTH: "žarg.", NORM: "žargonsko"},
    {ORTH: "žel.", NORM: "železnica"},
    {ORTH: "živ.", NORM: "živost"},
 ]:
    _exc[exc_data[ORTH]] = [exc_data]
 abbrv = """
 Co. Ch. DIPL. DR. Dr. Ev. Inc. Jr. Kr. Mag. M. MR. Mr. Mt. Murr. Npr. OZ. 
 Opr. Osn. Prim. Roj. ST. Sim. Sp. Sred. St. Sv. Škofl. Tel. UR. Zb. 
 a. aa. ab. abc. abit. abl. abs. abt. acc. accel. add. adj. adv. aet. afr. akad. al. alban. all. alleg. 
 alp. alt. alter. alžir. am. an. andr. ang. anh. anon. ans. antrop. apoc. app. approx. apt. ar. arc. arch. 
 arh. arr. as. asist. assist. assoc. asst. astr. attn. aug. avstral. az. b. bab. bal. bbl. bd. belg. bioinf. 
 biomed. bk. bl. bn. borg. bp. br. braz. brit. bros. broš. bt. bu. c. ca. cal. can. cand. cantab. cap. capt.
 cat. cath. cc. cca. cd. cdr. cdre. cent. cerkv. cert. cf. cfr. ch. chap. chem. chr. chs. cic. circ. civ. cl.
 cm. cmd. cnr. co. cod. col. coll. colo. com. comp. con. conc. cond. conn. cons. cont. coop. corr. cost. cp.
 cpl. cr. crd. cres. cresc. ct. cu. d. dan. dat. davč. ddr. dec. ded. def. dem. dent. dept. dia. dip. dipl. 
 dir. disp. diss. div. do. doc. dok. dol. doo. dop. dott. dr. dram. druž. družb. drž. dt. duh. dur. dvr. dwt. e.
 ea. ecc. eccl. eccles. econ. edn. egipt. egr. ekon. eksp. el. em. enc. eng. eo. ep. err. esp. esq. est.
 et. etc. etnogr. etnol. ev. evfem. evr. ex. exc. excl. exp. expl. ext. exx. f. fa. facs. fak. faks. fas.
 fasc. fco. fcp. feb. febr. fec. fed. fem. ff. fff. fid. fig. fil. film. fiziol. fiziot. flam. fm. fo. fol. folk.
 frag. fran. franc. fsc. g. ga. gal. gdč. ge. gen. geod. geog. geotehnol. gg. gimn. glas. glav. gnr. go. gor.
 gosp. gp. graf. gram. gren. grš. gs. h. hab. hf. hist. ho. hort. i. ia. ib. ibid. id. idr. idridr. ill. imen.
 imp. impf. impr. in. inc. incl. ind. indus. inf. inform. ing. init. ins. int. inv. inšp. inštr. inž. is. islam.
 ist. ital. iur. iz. izbr. izd. izg. izgr. izr. izv. j. jak. jam. jan. jav. je. jez. jr. jsl. jud. jug.
 jugoslovan. jur. juž. jv. jz. k. kal. kan. kand. kat. kdo. kem. kip. kmet. kol. kom. komp. konf. kont. kost. kov. 
 kp. kpfw. kr. kraj. krat. kub. kult. kv. kval. l. la. lab. lb. ld. let. lib. lik. litt. lj. ljud. ll. loc. log. 
 loč. lt. ma. madž. mag. manag. manjš. masc. mass. mater. max. maxmax. mb. md. mech. medic. medij. medn. 
 mehč. mem. menedž. mes. mess. metal. meteor. meteorol. mex. mi. mikr. mil. minn. mio. misc. miss. mit. mk. 
 mkt. ml. mlad. mlle. mlr. mm. mme. množ. mo. moj. moš. možn. mr. mrd. mrs. ms. msc. msgr. mt. murr. mus. mut. 
 n. na. nad. nadalj. nadom. nagl. nakl. namer. nan. naniz. nasl. nat. navt. nač. ned. nem. nik. nizoz. nm. nn. 
 no. nom. norv. notr. nov. novogr. ns. o. ob. obd. obj. oblač. obl. oblik. obr. obraz. obs. obst. obt. obč. oc. 
 oct. od. odd. odg. odn. odst. odv. oec. off. ok. okla. okr. ont. oo. op. opis. opp. opr. orch. ord. ore. oreg. 
 org. orient. orig. ork. ort. oseb. osn. ot. ozir. ošk. p. pag. par. para. parc. parl. part. past. pat. pdk. 
 pen. perf. pert. perz. pesn. pet. pev. pf. pfc. ph. pharm. phil. pis. pl. po. pod. podr. podaljš. pogl. pogoj. pojm. 
 pok. pokr. pol. poljed. poljub. polu. pom. pomen. pon. ponov. pop. por. port. pos. posl. posn. pov. pp. ppl. pr. 
 praet. prav. pravopis. pravosl. preb. pred. predl. predm. predp. preds. pref. pregib. prel. prem. premen. prep. 
 pres. pret. prev. pribl. prih. pril. primerj. primor. prip. pripor. prir. prist. priv. proc. prof. prog. proiz. 
 prom. pron. prop. prot. protest. prov. ps. pss. pt. publ. pz. q. qld. qu. quad. que. r. racc. rastl. razgl. 
 razl. razv. rd. red. ref. reg. rel. relig. rep. repr. rer. resp. rest. ret. rev. revol. rež. rim. rist. rkp. rm. 
 roj. rom. romun. rp. rr. rt. rud. ruš. ry. sal. samogl. san. sc. scen. sci. scr. sdv. seg. sek. sen. sept. ser. 
 sev. sg. sgt. sh. sig. sigg. sign. sim. sin. sing. sinh. skand. skl. sklad. sklanj. sklep. skr. sl. slik. slov. 
 slovak. slovn. sn. so. sob. soc. sociol. sod. sopomen. sopr. sor. sov. sovj. sp. spec. spl. spr. spreg. sq. sr. 
 sre. sred. sredoz. srh. ss. ssp. st. sta. stan. stanstar. stcsl. ste. stim. stol. stom. str. stroj. strok. stsl. 
 stud. sup. supl. suppl. svet. sz. t. tab. tech. ted. tehn. tehnol. tek. teks. tekst. tel. temp. ten. teol. ter. 
 term. test. th. theol. tim. tip. tisočl. tit. tl. tol. tolmač. tom. tor. tov. tr. trad. traj. trans. tren. 
 trib. tril. trop. trp. trž. ts. tt. tu. tur. turiz. tvor. tvorb. tč. u. ul. umet. un. univ. up. upr. ur. urad. 
 us. ust. utr. v. va. val. var. varn. ven. ver. verb. vest. vezal. vic. vis. viv. viz. viš. vod. vok. vol. vpr. 
 vrst. vrstil. vs. vv. vzd. vzg. vzh. vzor. w. wed. wg. wk. x. y. z. zah. zaim. zak. zap. zasl. zavar. zač. zb. 
 združ. zg. zn. znan. znanstv. zoot. zun. zv. zvd. á. é. ć. č. čas. čet. čl. člen. čustv. đ. ľ. ł. ş. ŠT. š. šir. 
 škofl. škot. šol. št. števil. štud. ů. ű. žen. žival. 
 """.split()
 for orth in abbrv:
    _exc[orth] = [{ORTH: orth}]
 TOKENIZER_EXCEPTIONS = update_exc(BASE_EXCEPTIONS, _exc)
--- a/spacy/tests/lang/sl/test_text.py
+++ b/spacy/tests/lang/sl/test_text.py
@ -20,7 +20,6 @@ od katerih so te svoboščine odvisne,
    assert len(tokens) == 116
@pytest.mark.xfail
 def test_ordinal_number(sl_tokenizer):
    text = "10. decembra 1948"
    tokens = sl_tokenizer(text)