💫 Add base Language classes for more languages (#3276)

* Add base classes for more languages * Add test for language class initialization Make sure language can be initialize – otherwise, it's difficult to catch serious errors in the test suite, because languages are lazy-loaded
2025-11-03 01:17:52 +03:00 · 2019-02-14 15:31:19 +01:00 · 2019-02-14 15:31:19 +01:00 · 2e31921d0a
commit 2e31921d0a
parent 743ecf728c
21 changed files with 2601 additions and 0 deletions
--- a/spacy/lang/af/init.py
+++ b/spacy/lang/af/init.py
@ -0,0 +1,20 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from .stop_words import STOP_WORDS
+from ...language import Language
+from ...attrs import LANG
+
+
+class AfrikaansDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: "af"
+    stop_words = STOP_WORDS
+
+
+class Afrikaans(Language):
+    lang = "af"
+    Defaults = AfrikaansDefaults
+
+
+__all__ = ["Afrikaans"]
--- a/spacy/lang/af/stop_words.py
+++ b/spacy/lang/af/stop_words.py
@ -0,0 +1,61 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+
+# Source: https://github.com/stopwords-iso/stopwords-af
+
+STOP_WORDS = set(
+    """
+'n
+aan
+af
+al
+as
+baie
+by
+daar
+dag
+dat
+die
+dit
+een
+ek
+en
+gaan
+gesê
+haar
+het
+hom
+hulle
+hy
+in
+is
+jou
+jy
+kan
+kom
+ma
+maar
+met
+my
+na
+nie
+om
+ons
+op
+saam
+sal
+se
+sien
+so
+sy
+te
+toe
+uit
+van
+vir
+was
+wat
+ŉ
+""".split()
+)
--- a/spacy/lang/bg/init.py
+++ b/spacy/lang/bg/init.py
@ -0,0 +1,20 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from .stop_words import STOP_WORDS
+from ...language import Language
+from ...attrs import LANG
+
+
+class BulgarianDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: "bg"
+    stop_words = STOP_WORDS
+
+
+class Bulgarian(Language):
+    lang = "bg"
+    Defaults = BulgarianDefaults
+
+
+__all__ = ["Bulgarian"]
--- a/spacy/lang/bg/stop_words.py
+++ b/spacy/lang/bg/stop_words.py
@ -0,0 +1,269 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+
+# Source: https://github.com/Alir3z4/stop-words
+
+STOP_WORDS = set(
+    """
+а
+автентичен
+аз
+ако
+ала
+бе
+без
+беше
+би
+бивш
+бивша
+бившо
+бил
+била
+били
+било
+благодаря
+близо
+бъдат
+бъде
+бяха
+в
+вас
+ваш
+ваша
+вероятно
+вече
+взема
+ви
+вие
+винаги
+внимава
+време
+все
+всеки
+всички
+всичко
+всяка
+във
+въпреки
+върху
+г
+ги
+главен
+главна
+главно
+глас
+го
+година
+години
+годишен
+д
+да
+дали
+два
+двама
+двамата
+две
+двете
+ден
+днес
+дни
+до
+добра
+добре
+добро
+добър
+докато
+докога
+дори
+досега
+доста
+друг
+друга
+други
+е
+евтин
+едва
+един
+една
+еднаква
+еднакви
+еднакъв
+едно
+екип
+ето
+живот
+за
+забавям
+зад
+заедно
+заради
+засега
+заспал
+затова
+защо
+защото
+и
+из
+или
+им
+има
+имат
+иска
+й
+каза
+как
+каква
+какво
+както
+какъв
+като
+кога
+когато
+което
+които
+кой
+който
+колко
+която
+къде
+където
+към
+лесен
+лесно
+ли
+лош
+м
+май
+малко
+ме
+между
+мек
+мен
+месец
+ми
+много
+мнозина
+мога
+могат
+може
+мокър
+моля
+момента
+му
+н
+на
+над
+назад
+най
+направи
+напред
+например
+нас
+не
+него
+нещо
+нея
+ни
+ние
+никой
+нито
+нищо
+но
+нов
+нова
+нови
+новина
+някои
+някой
+няколко
+няма
+обаче
+около
+освен
+особено
+от
+отгоре
+отново
+още
+пак
+по
+повече
+повечето
+под
+поне
+поради
+после
+почти
+прави
+пред
+преди
+през
+при
+пък
+първата
+първи
+първо
+пъти
+равен
+равна
+с
+са
+сам
+само
+се
+сега
+си
+син
+скоро
+след
+следващ
+сме
+смях
+според
+сред
+срещу
+сте
+съм
+със
+също
+т
+тази
+така
+такива
+такъв
+там
+твой
+те
+тези
+ти
+т.н.
+то
+това
+тогава
+този
+той
+толкова
+точно
+три
+трябва
+тук
+тъй
+тя
+тях
+у
+утре
+харесва
+хиляди
+ч
+часа
+че
+често
+чрез
+ще
+щом
+юмрук
+я
+як
+""".split()
+)
--- a/spacy/lang/cs/init.py
+++ b/spacy/lang/cs/init.py
@ -0,0 +1,20 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from .stop_words import STOP_WORDS
+from ...language import Language
+from ...attrs import LANG
+
+
+class CzechDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: "cs"
+    stop_words = STOP_WORDS
+
+
+class Czech(Language):
+    lang = "cs"
+    Defaults = CzechDefaults
+
+
+__all__ = ["Czech"]
--- a/spacy/lang/cs/stop_words.py
+++ b/spacy/lang/cs/stop_words.py
@ -0,0 +1,266 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+
+# Source: https://github.com/Alir3z4/stop-words
+
+STOP_WORDS = set(
+    """
+ačkoli
+ahoj
+ale
+anebo
+ano
+asi
+aspoň
+během
+bez
+beze
+blízko
+bohužel
+brzo
+bude
+budeme
+budeš
+budete
+budou
+budu
+byl
+byla
+byli
+bylo
+byly
+bys
+čau
+chce
+chceme
+chceš
+chcete
+chci
+chtějí
+chtít
+chut'
+chuti
+co
+čtrnáct
+čtyři
+dál
+dále
+daleko
+děkovat
+děkujeme
+děkuji
+den
+deset
+devatenáct
+devět
+do
+dobrý
+docela
+dva
+dvacet
+dvanáct
+dvě
+hodně
+já
+jak
+jde
+je
+jeden
+jedenáct
+jedna
+jedno
+jednou
+jedou
+jeho
+její
+jejich
+jemu
+jen
+jenom
+ještě
+jestli
+jestliže
+jí
+jich
+jím
+jimi
+jinak
+jsem
+jsi
+jsme
+jsou
+jste
+kam
+kde
+kdo
+kdy
+když
+ke
+kolik
+kromě
+která
+které
+kteří
+který
+kvůli
+má
+mají
+málo
+mám
+máme
+máš
+máte
+mé
+mě
+mezi
+mí
+mít
+mně
+mnou
+moc
+mohl
+mohou
+moje
+moji
+možná
+můj
+musí
+může
+my
+na
+nad
+nade
+nám
+námi
+naproti
+nás
+náš
+naše
+naši
+ne
+ně
+nebo
+nebyl
+nebyla
+nebyli
+nebyly
+něco
+nedělá
+nedělají
+nedělám
+neděláme
+neděláš
+neděláte
+nějak
+nejsi
+někde
+někdo
+nemají
+nemáme
+nemáte
+neměl
+němu
+není
+nestačí
+nevadí
+než
+nic
+nich
+ním
+nimi
+nula
+od
+ode
+on
+ona
+oni
+ono
+ony
+osm
+osmnáct
+pak
+patnáct
+pět
+po
+pořád
+potom
+pozdě
+před
+přes
+přese
+pro
+proč
+prosím
+prostě
+proti
+protože
+rovně
+se
+sedm
+sedmnáct
+šest
+šestnáct
+skoro
+smějí
+smí
+snad
+spolu
+sta
+sté
+sto
+ta
+tady
+tak
+takhle
+taky
+tam
+tamhle
+tamhleto
+tamto
+tě
+tebe
+tebou
+ted'
+tedy
+ten
+ti
+tisíc
+tisíce
+to
+tobě
+tohle
+toto
+třeba
+tři
+třináct
+trošku
+tvá
+tvé
+tvoje
+tvůj
+ty
+určitě
+už
+vám
+vámi
+vás
+váš
+vaše
+vaši
+ve
+večer
+vedle
+vlastně
+všechno
+všichni
+vůbec
+vy
+vždy
+za
+zač
+zatímco
+ze
+že
+""".split()
+)
--- a/spacy/lang/et/init.py
+++ b/spacy/lang/et/init.py
@ -0,0 +1,20 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from .stop_words import STOP_WORDS
+from ...language import Language
+from ...attrs import LANG
+
+
+class EstonianDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: "et"
+    stop_words = STOP_WORDS
+
+
+class Estonian(Language):
+    lang = "et"
+    Defaults = EstonianDefaults
+
+
+__all__ = ["Estonian"]
--- a/spacy/lang/et/stop_words.py
+++ b/spacy/lang/et/stop_words.py
@ -0,0 +1,45 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+
+# Source: https://github.com/stopwords-iso/stopwords-et
+
+STOP_WORDS = set(
+    """
+aga
+ei
+et
+ja
+jah
+kas
+kui
+kõik
+ma
+me
+mida
+midagi
+mind
+minu
+mis
+mu
+mul
+mulle
+nad
+nii
+oled
+olen
+oli
+oma
+on
+pole
+sa
+seda
+see
+selle
+siin
+siis
+ta
+te
+ära
+""".split()
+)
--- a/spacy/lang/is/init.py
+++ b/spacy/lang/is/init.py
@ -0,0 +1,20 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from .stop_words import STOP_WORDS
+from ...language import Language
+from ...attrs import LANG
+
+
+class IcelandicDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: "is"
+    stop_words = STOP_WORDS
+
+
+class Icelandic(Language):
+    lang = "is"
+    Defaults = IcelandicDefaults
+
+
+__all__ = ["Icelandic"]
--- a/spacy/lang/is/stop_words.py
+++ b/spacy/lang/is/stop_words.py
@ -0,0 +1,162 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+
+# Source: https://github.com/Xangis/extra-stopwords
+
+STOP_WORDS = set(
+    """
+afhverju
+aftan
+aftur
+afþví
+aldrei
+allir
+allt
+alveg
+annað
+annars
+bara
+dag
+eða
+eftir
+eiga
+einhver
+einhverjir
+einhvers
+eins
+einu
+eitthvað
+ekkert
+ekki
+ennþá
+eru
+fara
+fer
+finna
+fjöldi
+fólk
+framan
+frá
+frekar
+fyrir
+gegnum
+geta
+getur
+gmg
+gott
+hann
+hafa
+hef
+hefur
+heyra
+hér
+hérna
+hjá
+hún
+hvað
+hvar
+hver
+hverjir
+hverjum
+hvernig
+hvor
+hvort
+hægt
+img
+inn
+kannski
+koma
+líka
+lol
+maður
+mátt
+mér
+með
+mega
+meira
+mig
+mikið
+minna
+minni
+missa
+mjög
+nei
+niður
+núna
+oft
+okkar
+okkur
+póst
+póstur
+rofl
+saman
+sem
+sér
+sig
+sinni
+síðan
+sjá
+smá
+smátt
+spurja
+spyrja
+staðar
+stórt
+svo
+svona
+sælir
+sæll
+taka
+takk
+til
+tilvitnun
+titlar
+upp
+var
+vel
+velkomin
+velkominn
+vera
+verður
+verið
+vel
+við
+vil
+vilja
+vill
+vita
+væri
+yfir
+ykkar
+það
+þakka
+þakkir
+þannig
+það
+þar
+þarf
+þau
+þeim
+þeir
+þeirra
+þeirra
+þegar
+þess
+þessa
+þessi
+þessu
+þessum
+þetta
+þér
+þið
+þinn
+þitt
+þín
+þráð
+þráður
+því
+þær
+ætti
+""".split()
+)
--- a/spacy/lang/lt/init.py
+++ b/spacy/lang/lt/init.py
@ -0,0 +1,20 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from .stop_words import STOP_WORDS
+from ...language import Language
+from ...attrs import LANG
+
+
+class LithuanianDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: "lt"
+    stop_words = STOP_WORDS
+
+
+class Lithuanian(Language):
+    lang = "lt"
+    Defaults = LithuanianDefaults
+
+
+__all__ = ["Lithuanian"]
--- a/spacy/lang/lt/stop_words.py
+++ b/spacy/lang/lt/stop_words.py
@ -0,0 +1,484 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+
+# Source: https://github.com/stopwords-iso/stopwords-lt
+
+STOP_WORDS = set(
+    """
+abi
+abidvi
+abiejose
+abiejuose
+abiejø
+abiem
+abigaliai
+abipus
+abu
+abudu
+ai
+ana
+anaiptol
+anaisiais
+anajai
+anajam
+anajame
+anapus
+anas
+anasai
+anasis
+anei
+aniedvi
+anieji
+aniesiems
+anoji
+anojo
+anojoje
+anokia
+anoks
+anosiomis
+anosioms
+anosios
+anosiose
+anot
+ant
+antai
+anuodu
+anuoju
+anuosiuose
+anuosius
+anàja
+anàjà
+anàjá
+anàsias
+anøjø
+apie
+aplink
+ar
+arba
+argi
+arti
+aukðèiau
+að
+be
+bei
+beje
+bemaþ
+bent
+bet
+betgi
+beveik
+dar
+dargi
+daugmaþ
+deja
+dëka
+dël
+dëlei
+dëlto
+ech
+et
+gal
+galbût
+galgi
+gan
+gana
+gi
+greta
+idant
+iki
+ir
+irgi
+it
+itin
+ið
+iðilgai
+iðvis
+jaisiais
+jajai
+jajam
+jajame
+jei
+jeigu
+ji
+jiedu
+jiedvi
+jieji
+jiesiems
+jinai
+jis
+jisai
+jog
+joji
+jojo
+jojoje
+jokia
+joks
+josiomis
+josioms
+josios
+josiose
+judu
+judvi
+juk
+jumis
+jums
+jumyse
+juodu
+juoju
+juosiuose
+juosius
+jus
+jàja
+jàjà
+jàsias
+jájá
+jøjø
+jûs
+jûsiðkis
+jûsiðkë
+jûsø
+kad
+kada
+kadangi
+kai
+kaip
+kaipgi
+kas
+katra
+katras
+katriedvi
+katruodu
+kaþin
+kaþkas
+kaþkatra
+kaþkatras
+kaþkokia
+kaþkoks
+kaþkuri
+kaþkuris
+kiaurai
+kiek
+kiekvienas
+kieno
+kita
+kitas
+kitokia
+kitoks
+kodël
+kokia
+koks
+kol
+kolei
+kone
+kuomet
+kur
+kurgi
+kuri
+kuriedvi
+kuris
+kuriuodu
+lai
+lig
+ligi
+link
+lyg
+man
+manaisiais
+manajai
+manajam
+manajame
+manas
+manasai
+manasis
+mane
+manieji
+maniesiems
+manim
+manimi
+maniðkis
+maniðkë
+mano
+manoji
+manojo
+manojoje
+manosiomis
+manosioms
+manosios
+manosiose
+manuoju
+manuosiuose
+manuosius
+manyje
+manàja
+manàjà
+manàjá
+manàsias
+manæs
+manøjø
+mat
+maþdaug
+maþne
+mes
+mudu
+mudvi
+mumis
+mums
+mumyse
+mus
+mûsiðkis
+mûsiðkë
+mûsø
+na
+nagi
+ne
+nebe
+nebent
+negi
+negu
+nei
+nejau
+nejaugi
+nekaip
+nelyginant
+nes
+net
+netgi
+netoli
+neva
+nors
+nuo
+në
+o
+ogi
+oi
+paeiliui
+pagal
+pakeliui
+palaipsniui
+palei
+pas
+pasak
+paskos
+paskui
+paskum
+pat
+pati
+patiems
+paties
+pats
+patys
+patá
+paèiais
+paèiam
+paèiame
+paèiu
+paèiuose
+paèius
+paèiø
+per
+pernelyg
+pirm
+pirma
+pirmiau
+po
+prie
+prieð
+prieðais
+pro
+pusiau
+rasi
+rodos
+sau
+savaisiais
+savajai
+savajam
+savajame
+savas
+savasai
+savasis
+save
+savieji
+saviesiems
+savimi
+saviðkis
+saviðkë
+savo
+savoji
+savojo
+savojoje
+savosiomis
+savosioms
+savosios
+savosiose
+savuoju
+savuosiuose
+savuosius
+savyje
+savàja
+savàjà
+savàjá
+savàsias
+savæs
+savøjø
+skersai
+skradþiai
+staèiai
+su
+sulig
+ta
+tad
+tai
+taigi
+taip
+taipogi
+taisiais
+tajai
+tajam
+tajame
+tamsta
+tarp
+tarsi
+tartum
+tarytum
+tas
+tasai
+tau
+tavaisiais
+tavajai
+tavajam
+tavajame
+tavas
+tavasai
+tavasis
+tave
+tavieji
+taviesiems
+tavimi
+taviðkis
+taviðkë
+tavo
+tavoji
+tavojo
+tavojoje
+tavosiomis
+tavosioms
+tavosios
+tavosiose
+tavuoju
+tavuosiuose
+tavuosius
+tavyje
+tavàja
+tavàjà
+tavàjá
+tavàsias
+tavæs
+tavøjø
+taèiau
+te
+tegu
+tegul
+tiedvi
+tieji
+ties
+tiesiems
+tiesiog
+tik
+tikriausiai
+tiktai
+toji
+tojo
+tojoje
+tokia
+toks
+tol
+tolei
+toliau
+tosiomis
+tosioms
+tosios
+tosiose
+tu
+tuodu
+tuoju
+tuosiuose
+tuosius
+turbût
+tàja
+tàjà
+tàjá
+tàsias
+tøjø
+tûlas
+uþ
+uþtat
+uþvis
+va
+vai
+viduj
+vidury
+vien
+vienas
+vienokia
+vienoks
+vietoj
+virð
+virðuj
+virðum
+vis
+vis dëlto
+visa
+visas
+visgi
+visokia
+visoks
+vos
+vël
+vëlgi
+ypaè
+á
+ákypai
+ástriþai
+ðalia
+ðe
+ði
+ðiaisiais
+ðiajai
+ðiajam
+ðiajame
+ðiapus
+ðiedvi
+ðieji
+ðiesiems
+ðioji
+ðiojo
+ðiojoje
+ðiokia
+ðioks
+ðiosiomis
+ðiosioms
+ðiosios
+ðiosiose
+ðis
+ðisai
+ðit
+ðita
+ðitas
+ðitiedvi
+ðitokia
+ðitoks
+ðituodu
+ðiuodu
+ðiuoju
+ðiuosiuose
+ðiuosius
+ðiàja
+ðiàjà
+ðiàsias
+ðiøjø
+ðtai
+ðájá
+þemiau
+""".split()
+)
--- a/spacy/lang/lv/init.py
+++ b/spacy/lang/lv/init.py
@ -0,0 +1,20 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from .stop_words import STOP_WORDS
+from ...language import Language
+from ...attrs import LANG
+
+
+class LatvianDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: "lv"
+    stop_words = STOP_WORDS
+
+
+class Latvian(Language):
+    lang = "lv"
+    Defaults = LatvianDefaults
+
+
+__all__ = ["Latvian"]
--- a/spacy/lang/lv/stop_words.py
+++ b/spacy/lang/lv/stop_words.py
@ -0,0 +1,171 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+
+# Source: https://github.com/stopwords-iso/stopwords-lv
+
+STOP_WORDS = set(
+    """
+aiz
+ap
+apakš
+apakšpus
+ar
+arī
+augšpus
+bet
+bez
+bija
+biji
+biju
+bijām
+bijāt
+būs
+būsi
+būsiet
+būsim
+būt
+būšu
+caur
+diemžēl
+diezin
+droši
+dēļ
+esam
+esat
+esi
+esmu
+gan
+gar
+iekam
+iekams
+iekām
+iekāms
+iekš
+iekšpus
+ik
+ir
+it
+itin
+iz
+ja
+jau
+jeb
+jebšu
+jel
+jo
+jā
+ka
+kamēr
+kaut
+kolīdz
+kopš
+kā
+kļuva
+kļuvi
+kļuvu
+kļuvām
+kļuvāt
+kļūs
+kļūsi
+kļūsiet
+kļūsim
+kļūst
+kļūstam
+kļūstat
+kļūsti
+kļūstu
+kļūt
+kļūšu
+labad
+lai
+lejpus
+līdz
+līdzko
+ne
+nebūt
+nedz
+nekā
+nevis
+nezin
+no
+nu
+nē
+otrpus
+pa
+par
+pat
+pie
+pirms
+pret
+priekš
+pār
+pēc
+starp
+tad
+tak
+tapi
+taps
+tapsi
+tapsiet
+tapsim
+tapt
+tapāt
+tapšu
+taču
+te
+tiec
+tiek
+tiekam
+tiekat
+tieku
+tik
+tika
+tikai
+tiki
+tikko
+tiklab
+tiklīdz
+tiks
+tiksiet
+tiksim
+tikt
+tiku
+tikvien
+tikām
+tikāt
+tikšu
+tomēr
+topat
+turpretim
+turpretī
+tā
+tādēļ
+tālab
+tāpēc
+un
+uz
+vai
+var
+varat
+varēja
+varēji
+varēju
+varējām
+varējāt
+varēs
+varēsi
+varēsiet
+varēsim
+varēt
+varēšu
+vien
+virs
+virspus
+vis
+viņpus
+zem
+ārpus
+šaipus
+""".split()
+)
--- a/spacy/lang/sk/init.py
+++ b/spacy/lang/sk/init.py
@ -0,0 +1,20 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from .stop_words import STOP_WORDS
+from ...language import Language
+from ...attrs import LANG
+
+
+class SlovakDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: "sk"
+    stop_words = STOP_WORDS
+
+
+class Slovak(Language):
+    lang = "sk"
+    Defaults = SlovakDefaults
+
+
+__all__ = ["Slovak"]
--- a/spacy/lang/sk/stop_words.py
+++ b/spacy/lang/sk/stop_words.py
@ -0,0 +1,231 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+
+# Source: https://github.com/stopwords-iso/stopwords-sk
+
+STOP_WORDS = set(
+    """
+a
+aby
+aj
+ak
+ako
+aký
+ale
+alebo
+and
+ani
+asi
+avšak
+až
+ba
+bez
+bol
+bola
+boli
+bolo
+bude
+budem
+budeme
+budete
+budeš
+budú
+buï
+buď
+by
+byť
+cez
+dnes
+do
+ešte
+for
+ho
+hoci
+i
+iba
+ich
+im
+iné
+iný
+ja
+je
+jeho
+jej
+jemu
+ju
+k
+kam
+každá
+každé
+každí
+každý
+kde
+kedže
+keï
+keď
+kto
+ktorou
+ktorá
+ktoré
+ktorí
+ktorý
+ku
+lebo
+len
+ma
+mať
+medzi
+menej
+mi
+mna
+mne
+mnou
+moja
+moje
+mu
+musieť
+my
+má
+máte
+mòa
+môcť
+môj
+môže
+na
+nad
+nami
+naši
+nech
+neho
+nej
+nemu
+než
+nich
+nie
+niektorý
+nielen
+nim
+nič
+no
+nová
+nové
+noví
+nový
+nám
+nás
+náš
+ním
+o
+od
+odo
+of
+on
+ona
+oni
+ono
+ony
+po
+pod
+podľa
+pokiaľ
+potom
+pre
+pred
+predo
+preto
+pretože
+prečo
+pri
+prvá
+prvé
+prví
+prvý
+práve
+pýta
+s
+sa
+seba
+sem
+si
+sme
+so
+som
+späť
+ste
+svoj
+svoje
+svojich
+svojím
+svojími
+sú
+ta
+tak
+taký
+takže
+tam
+te
+teba
+tebe
+tebou
+teda
+tej
+ten
+tento
+the
+ti
+tie
+tieto
+tiež
+to
+toho
+tohoto
+tom
+tomto
+tomu
+tomuto
+toto
+tou
+tu
+tvoj
+tvojími
+ty
+tá
+táto
+tú
+túto
+tým
+týmto
+tě
+už
+v
+vami
+vaše
+veï
+viac
+vo
+vy
+vám
+vás
+váš
+však
+všetok
+z
+za
+zo
+a
+áno
+èi
+èo
+èí
+òom
+òou
+òu
+či
+čo
+ďalšia
+ďalšie
+ďalší
+že
+""".split()
+)
--- a/spacy/lang/sl/init.py
+++ b/spacy/lang/sl/init.py
@ -0,0 +1,20 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from .stop_words import STOP_WORDS
+from ...language import Language
+from ...attrs import LANG
+
+
+class SlovenianDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: "sl"
+    stop_words = STOP_WORDS
+
+
+class Slovenian(Language):
+    lang = "sl"
+    Defaults = SlovenianDefaults
+
+
+__all__ = ["Slovenian"]
--- a/spacy/lang/sl/stop_words.py
+++ b/spacy/lang/sl/stop_words.py
@ -0,0 +1,458 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+
+# Source: https://github.com/stopwords-iso/stopwords-sl
+# TODO: probably needs to be tidied up – the list seems to have month names in
+# it, which shouldn't be considered stop words.
+
+STOP_WORDS = set(
+    """
+a
+ali
+april
+avgust
+b
+bi
+bil
+bila
+bile
+bili
+bilo
+biti
+blizu
+bo
+bodo
+bojo
+bolj
+bom
+bomo
+boste
+bova
+boš
+brez
+c
+cel
+cela
+celi
+celo
+d
+da
+daleč
+dan
+danes
+datum
+december
+deset
+deseta
+deseti
+deseto
+devet
+deveta
+deveti
+deveto
+do
+dober
+dobra
+dobri
+dobro
+dokler
+dol
+dolg
+dolga
+dolgi
+dovolj
+drug
+druga
+drugi
+drugo
+dva
+dve
+e
+eden
+en
+ena
+ene
+eni
+enkrat
+eno
+etc.
+f
+februar
+g
+g.
+ga
+ga.
+gor
+gospa
+gospod
+h
+halo
+i
+idr.
+ii
+iii
+in
+iv
+ix
+iz
+j
+januar
+jaz
+je
+ji
+jih
+jim
+jo
+julij
+junij
+jutri
+k
+kadarkoli
+kaj
+kajti
+kako
+kakor
+kamor
+kamorkoli
+kar
+karkoli
+katerikoli
+kdaj
+kdo
+kdorkoli
+ker
+ki
+kje
+kjer
+kjerkoli
+ko
+koder
+koderkoli
+koga
+komu
+kot
+kratek
+kratka
+kratke
+kratki
+l
+lahka
+lahke
+lahki
+lahko
+le
+lep
+lepa
+lepe
+lepi
+lepo
+leto
+m
+maj
+majhen
+majhna
+majhni
+malce
+malo
+manj
+marec
+me
+med
+medtem
+mene
+mesec
+mi
+midva
+midve
+mnogo
+moj
+moja
+moje
+mora
+morajo
+moram
+moramo
+morate
+moraš
+morem
+mu
+n
+na
+nad
+naj
+najina
+najino
+najmanj
+naju
+največ
+nam
+narobe
+nas
+nato
+nazaj
+naš
+naša
+naše
+ne
+nedavno
+nedelja
+nek
+neka
+nekaj
+nekatere
+nekateri
+nekatero
+nekdo
+neke
+nekega
+neki
+nekje
+neko
+nekoga
+nekoč
+ni
+nikamor
+nikdar
+nikjer
+nikoli
+nič
+nje
+njega
+njegov
+njegova
+njegovo
+njej
+njemu
+njen
+njena
+njeno
+nji
+njih
+njihov
+njihova
+njihovo
+njiju
+njim
+njo
+njun
+njuna
+njuno
+no
+nocoj
+november
+npr.
+o
+ob
+oba
+obe
+oboje
+od
+odprt
+odprta
+odprti
+okoli
+oktober
+on
+onadva
+one
+oni
+onidve
+osem
+osma
+osmi
+osmo
+oz.
+p
+pa
+pet
+peta
+petek
+peti
+peto
+po
+pod
+pogosto
+poleg
+poln
+polna
+polni
+polno
+ponavadi
+ponedeljek
+ponovno
+potem
+povsod
+pozdravljen
+pozdravljeni
+prav
+prava
+prave
+pravi
+pravo
+prazen
+prazna
+prazno
+prbl.
+precej
+pred
+prej
+preko
+pri
+pribl.
+približno
+primer
+pripravljen
+pripravljena
+pripravljeni
+proti
+prva
+prvi
+prvo
+r
+ravno
+redko
+res
+reč
+s
+saj
+sam
+sama
+same
+sami
+samo
+se
+sebe
+sebi
+sedaj
+sedem
+sedma
+sedmi
+sedmo
+sem
+september
+seveda
+si
+sicer
+skoraj
+skozi
+slab
+smo
+so
+sobota
+spet
+sreda
+srednja
+srednji
+sta
+ste
+stran
+stvar
+sva
+t
+ta
+tak
+taka
+take
+taki
+tako
+takoj
+tam
+te
+tebe
+tebi
+tega
+težak
+težka
+težki
+težko
+ti
+tista
+tiste
+tisti
+tisto
+tj.
+tja
+to
+toda
+torek
+tretja
+tretje
+tretji
+tri
+tu
+tudi
+tukaj
+tvoj
+tvoja
+tvoje
+u
+v
+vaju
+vam
+vas
+vaš
+vaša
+vaše
+ve
+vedno
+velik
+velika
+veliki
+veliko
+vendar
+ves
+več
+vi
+vidva
+vii
+viii
+visok
+visoka
+visoke
+visoki
+vsa
+vsaj
+vsak
+vsaka
+vsakdo
+vsake
+vsaki
+vsakomur
+vse
+vsega
+vsi
+vso
+včasih
+včeraj
+x
+z
+za
+zadaj
+zadnji
+zakaj
+zaprta
+zaprti
+zaprto
+zdaj
+zelo
+zunaj
+č
+če
+često
+četrta
+četrtek
+četrti
+četrto
+čez
+čigav
+š
+šest
+šesta
+šesti
+šesto
+štiri
+ž
+že
+""".split()
+)
--- a/spacy/lang/sq/init.py
+++ b/spacy/lang/sq/init.py
@ -0,0 +1,20 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from .stop_words import STOP_WORDS
+from ...language import Language
+from ...attrs import LANG
+
+
+class AlbanianDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: "sq"
+    stop_words = STOP_WORDS
+
+
+class Albanian(Language):
+    lang = "sq"
+    Defaults = AlbanianDefaults
+
+
+__all__ = ["Albanian"]
--- a/spacy/lang/sq/stop_words.py
+++ b/spacy/lang/sq/stop_words.py
@ -0,0 +1,233 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+
+# Source: https://github.com/andrixh/index-albanian
+
+STOP_WORDS = set(
+    """
+a
+afert
+ai
+ajo
+andej
+anes
+aq
+as
+asaj
+ashtu
+ata
+ate
+atij
+atje
+ato
+aty
+atyre
+b
+be
+behem
+behet
+bej
+beje
+bejne
+ben
+bene
+bere
+beri
+bie
+c
+ca
+cdo
+cfare
+cila
+cilat
+cilave
+cilen
+ciles
+cilet
+cili
+cilin
+cilit
+deri
+dhe
+dic
+dicka
+dickaje
+dike
+dikujt
+dikush
+disa
+do
+dot
+drejt
+duke
+dy
+e
+edhe
+ende
+eshte
+etj
+fare
+gjate
+gje
+gjitha
+gjithcka
+gjithe
+gjithnje
+here
+i
+ia
+ishin
+ishte
+iu
+ja
+jam
+jane
+jap
+je
+jemi
+jo
+ju
+k
+ka
+kam
+kane
+kem
+kemi
+keq
+kesaj
+keshtu
+kete
+ketej
+ketij
+keto
+ketu
+ketyre
+kishin
+kishte
+kjo
+krejt
+kryer
+kryesisht
+kryhet
+ku
+kudo
+kundrejt
+kur
+kurre
+kush
+ky
+la
+le
+lloj
+m
+ma
+madhe
+marr
+marre
+mban
+mbi
+me
+menjehere
+merr
+merret
+mes
+mi
+midis
+mire
+mjaft
+mori
+mos
+mua
+mund
+na
+ndaj
+nder
+ndermjet
+ndersa
+ndonje
+ndryshe
+ne
+nen
+neper
+nepermjet
+nese
+nga
+nje
+njera
+nuk
+ose
+pa
+pak
+papritur
+para
+pas
+pasi
+pasur
+per
+perbashket
+perpara
+po
+por
+prane
+prapa
+prej
+pse
+qe
+qene
+qenet
+rralle
+rreth
+rri
+s
+sa
+saj
+sapo
+se
+secila
+sepse
+sh
+shih
+shume
+si
+sic
+sikur
+sipas
+siper
+sone
+t
+ta
+tani
+te
+tej
+tek
+teper
+tere
+ti
+tij
+tilla
+tille
+tjera
+tjeret
+tjeter
+tjetren
+to
+tone
+ty
+tyre
+u
+ua
+une
+vazhdimisht
+vend
+vet
+veta
+vete
+vetem
+veten
+vetes
+vjen
+yne
+zakonisht
+""".split()
+)
--- a/spacy/tests/lang/test_initialize.py
+++ b/spacy/tests/lang/test_initialize.py
@ -0,0 +1,21 @@
+# coding: utf-8
+from __future__ import unicode_literals
+
+import pytest
+from spacy.util import get_lang_class
+
+
+# fmt: off
+# Only include languages with no external dependencies
+# excluded: ja, ru, th, uk, vi, zh
+LANGUAGES = ["af", "ar", "bg", "bn", "ca", "cs", "da", "de", "el", "en", "es",
+             "et", "fa", "fi", "fr", "ga", "he", "hi", "hr", "hu", "id", "is",
+             "it", "kn", "lt", "lv", "nb", "nl", "pl", "pt", "ro", "si", "sk",
+             "sl", "sq", "sv", "ta", "te", "tl", "tr", "tt", "ur"]
+# fmt: on
+
+
+@pytest.mark.parametrize("lang", LANGUAGES)
+def test_lang_initialize(lang):
+    """Test that languages can be initialized."""
+    lang_cls = get_lang_class(lang)()