mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-24 17:06:29 +03:00
💫 Add base Language classes for more languages (#3276)
* Add base classes for more languages * Add test for language class initialization Make sure language can be initialize – otherwise, it's difficult to catch serious errors in the test suite, because languages are lazy-loaded
This commit is contained in:
parent
743ecf728c
commit
2e31921d0a
20
spacy/lang/af/__init__.py
Normal file
20
spacy/lang/af/__init__.py
Normal file
|
@ -0,0 +1,20 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language
|
||||
from ...attrs import LANG
|
||||
|
||||
|
||||
class AfrikaansDefaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: "af"
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Afrikaans(Language):
|
||||
lang = "af"
|
||||
Defaults = AfrikaansDefaults
|
||||
|
||||
|
||||
__all__ = ["Afrikaans"]
|
61
spacy/lang/af/stop_words.py
Normal file
61
spacy/lang/af/stop_words.py
Normal file
|
@ -0,0 +1,61 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
# Source: https://github.com/stopwords-iso/stopwords-af
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
'n
|
||||
aan
|
||||
af
|
||||
al
|
||||
as
|
||||
baie
|
||||
by
|
||||
daar
|
||||
dag
|
||||
dat
|
||||
die
|
||||
dit
|
||||
een
|
||||
ek
|
||||
en
|
||||
gaan
|
||||
gesê
|
||||
haar
|
||||
het
|
||||
hom
|
||||
hulle
|
||||
hy
|
||||
in
|
||||
is
|
||||
jou
|
||||
jy
|
||||
kan
|
||||
kom
|
||||
ma
|
||||
maar
|
||||
met
|
||||
my
|
||||
na
|
||||
nie
|
||||
om
|
||||
ons
|
||||
op
|
||||
saam
|
||||
sal
|
||||
se
|
||||
sien
|
||||
so
|
||||
sy
|
||||
te
|
||||
toe
|
||||
uit
|
||||
van
|
||||
vir
|
||||
was
|
||||
wat
|
||||
ʼn
|
||||
""".split()
|
||||
)
|
20
spacy/lang/bg/__init__.py
Normal file
20
spacy/lang/bg/__init__.py
Normal file
|
@ -0,0 +1,20 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language
|
||||
from ...attrs import LANG
|
||||
|
||||
|
||||
class BulgarianDefaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: "bg"
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Bulgarian(Language):
|
||||
lang = "bg"
|
||||
Defaults = BulgarianDefaults
|
||||
|
||||
|
||||
__all__ = ["Bulgarian"]
|
269
spacy/lang/bg/stop_words.py
Normal file
269
spacy/lang/bg/stop_words.py
Normal file
|
@ -0,0 +1,269 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
# Source: https://github.com/Alir3z4/stop-words
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
а
|
||||
автентичен
|
||||
аз
|
||||
ако
|
||||
ала
|
||||
бе
|
||||
без
|
||||
беше
|
||||
би
|
||||
бивш
|
||||
бивша
|
||||
бившо
|
||||
бил
|
||||
била
|
||||
били
|
||||
било
|
||||
благодаря
|
||||
близо
|
||||
бъдат
|
||||
бъде
|
||||
бяха
|
||||
в
|
||||
вас
|
||||
ваш
|
||||
ваша
|
||||
вероятно
|
||||
вече
|
||||
взема
|
||||
ви
|
||||
вие
|
||||
винаги
|
||||
внимава
|
||||
време
|
||||
все
|
||||
всеки
|
||||
всички
|
||||
всичко
|
||||
всяка
|
||||
във
|
||||
въпреки
|
||||
върху
|
||||
г
|
||||
ги
|
||||
главен
|
||||
главна
|
||||
главно
|
||||
глас
|
||||
го
|
||||
година
|
||||
години
|
||||
годишен
|
||||
д
|
||||
да
|
||||
дали
|
||||
два
|
||||
двама
|
||||
двамата
|
||||
две
|
||||
двете
|
||||
ден
|
||||
днес
|
||||
дни
|
||||
до
|
||||
добра
|
||||
добре
|
||||
добро
|
||||
добър
|
||||
докато
|
||||
докога
|
||||
дори
|
||||
досега
|
||||
доста
|
||||
друг
|
||||
друга
|
||||
други
|
||||
е
|
||||
евтин
|
||||
едва
|
||||
един
|
||||
една
|
||||
еднаква
|
||||
еднакви
|
||||
еднакъв
|
||||
едно
|
||||
екип
|
||||
ето
|
||||
живот
|
||||
за
|
||||
забавям
|
||||
зад
|
||||
заедно
|
||||
заради
|
||||
засега
|
||||
заспал
|
||||
затова
|
||||
защо
|
||||
защото
|
||||
и
|
||||
из
|
||||
или
|
||||
им
|
||||
има
|
||||
имат
|
||||
иска
|
||||
й
|
||||
каза
|
||||
как
|
||||
каква
|
||||
какво
|
||||
както
|
||||
какъв
|
||||
като
|
||||
кога
|
||||
когато
|
||||
което
|
||||
които
|
||||
кой
|
||||
който
|
||||
колко
|
||||
която
|
||||
къде
|
||||
където
|
||||
към
|
||||
лесен
|
||||
лесно
|
||||
ли
|
||||
лош
|
||||
м
|
||||
май
|
||||
малко
|
||||
ме
|
||||
между
|
||||
мек
|
||||
мен
|
||||
месец
|
||||
ми
|
||||
много
|
||||
мнозина
|
||||
мога
|
||||
могат
|
||||
може
|
||||
мокър
|
||||
моля
|
||||
момента
|
||||
му
|
||||
н
|
||||
на
|
||||
над
|
||||
назад
|
||||
най
|
||||
направи
|
||||
напред
|
||||
например
|
||||
нас
|
||||
не
|
||||
него
|
||||
нещо
|
||||
нея
|
||||
ни
|
||||
ние
|
||||
никой
|
||||
нито
|
||||
нищо
|
||||
но
|
||||
нов
|
||||
нова
|
||||
нови
|
||||
новина
|
||||
някои
|
||||
някой
|
||||
няколко
|
||||
няма
|
||||
обаче
|
||||
около
|
||||
освен
|
||||
особено
|
||||
от
|
||||
отгоре
|
||||
отново
|
||||
още
|
||||
пак
|
||||
по
|
||||
повече
|
||||
повечето
|
||||
под
|
||||
поне
|
||||
поради
|
||||
после
|
||||
почти
|
||||
прави
|
||||
пред
|
||||
преди
|
||||
през
|
||||
при
|
||||
пък
|
||||
първата
|
||||
първи
|
||||
първо
|
||||
пъти
|
||||
равен
|
||||
равна
|
||||
с
|
||||
са
|
||||
сам
|
||||
само
|
||||
се
|
||||
сега
|
||||
си
|
||||
син
|
||||
скоро
|
||||
след
|
||||
следващ
|
||||
сме
|
||||
смях
|
||||
според
|
||||
сред
|
||||
срещу
|
||||
сте
|
||||
съм
|
||||
със
|
||||
също
|
||||
т
|
||||
тази
|
||||
така
|
||||
такива
|
||||
такъв
|
||||
там
|
||||
твой
|
||||
те
|
||||
тези
|
||||
ти
|
||||
т.н.
|
||||
то
|
||||
това
|
||||
тогава
|
||||
този
|
||||
той
|
||||
толкова
|
||||
точно
|
||||
три
|
||||
трябва
|
||||
тук
|
||||
тъй
|
||||
тя
|
||||
тях
|
||||
у
|
||||
утре
|
||||
харесва
|
||||
хиляди
|
||||
ч
|
||||
часа
|
||||
че
|
||||
често
|
||||
чрез
|
||||
ще
|
||||
щом
|
||||
юмрук
|
||||
я
|
||||
як
|
||||
""".split()
|
||||
)
|
20
spacy/lang/cs/__init__.py
Normal file
20
spacy/lang/cs/__init__.py
Normal file
|
@ -0,0 +1,20 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language
|
||||
from ...attrs import LANG
|
||||
|
||||
|
||||
class CzechDefaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: "cs"
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Czech(Language):
|
||||
lang = "cs"
|
||||
Defaults = CzechDefaults
|
||||
|
||||
|
||||
__all__ = ["Czech"]
|
266
spacy/lang/cs/stop_words.py
Normal file
266
spacy/lang/cs/stop_words.py
Normal file
|
@ -0,0 +1,266 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
# Source: https://github.com/Alir3z4/stop-words
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
ačkoli
|
||||
ahoj
|
||||
ale
|
||||
anebo
|
||||
ano
|
||||
asi
|
||||
aspoň
|
||||
během
|
||||
bez
|
||||
beze
|
||||
blízko
|
||||
bohužel
|
||||
brzo
|
||||
bude
|
||||
budeme
|
||||
budeš
|
||||
budete
|
||||
budou
|
||||
budu
|
||||
byl
|
||||
byla
|
||||
byli
|
||||
bylo
|
||||
byly
|
||||
bys
|
||||
čau
|
||||
chce
|
||||
chceme
|
||||
chceš
|
||||
chcete
|
||||
chci
|
||||
chtějí
|
||||
chtít
|
||||
chut'
|
||||
chuti
|
||||
co
|
||||
čtrnáct
|
||||
čtyři
|
||||
dál
|
||||
dále
|
||||
daleko
|
||||
děkovat
|
||||
děkujeme
|
||||
děkuji
|
||||
den
|
||||
deset
|
||||
devatenáct
|
||||
devět
|
||||
do
|
||||
dobrý
|
||||
docela
|
||||
dva
|
||||
dvacet
|
||||
dvanáct
|
||||
dvě
|
||||
hodně
|
||||
já
|
||||
jak
|
||||
jde
|
||||
je
|
||||
jeden
|
||||
jedenáct
|
||||
jedna
|
||||
jedno
|
||||
jednou
|
||||
jedou
|
||||
jeho
|
||||
její
|
||||
jejich
|
||||
jemu
|
||||
jen
|
||||
jenom
|
||||
ještě
|
||||
jestli
|
||||
jestliže
|
||||
jí
|
||||
jich
|
||||
jím
|
||||
jimi
|
||||
jinak
|
||||
jsem
|
||||
jsi
|
||||
jsme
|
||||
jsou
|
||||
jste
|
||||
kam
|
||||
kde
|
||||
kdo
|
||||
kdy
|
||||
když
|
||||
ke
|
||||
kolik
|
||||
kromě
|
||||
která
|
||||
které
|
||||
kteří
|
||||
který
|
||||
kvůli
|
||||
má
|
||||
mají
|
||||
málo
|
||||
mám
|
||||
máme
|
||||
máš
|
||||
máte
|
||||
mé
|
||||
mě
|
||||
mezi
|
||||
mí
|
||||
mít
|
||||
mně
|
||||
mnou
|
||||
moc
|
||||
mohl
|
||||
mohou
|
||||
moje
|
||||
moji
|
||||
možná
|
||||
můj
|
||||
musí
|
||||
může
|
||||
my
|
||||
na
|
||||
nad
|
||||
nade
|
||||
nám
|
||||
námi
|
||||
naproti
|
||||
nás
|
||||
náš
|
||||
naše
|
||||
naši
|
||||
ne
|
||||
ně
|
||||
nebo
|
||||
nebyl
|
||||
nebyla
|
||||
nebyli
|
||||
nebyly
|
||||
něco
|
||||
nedělá
|
||||
nedělají
|
||||
nedělám
|
||||
neděláme
|
||||
neděláš
|
||||
neděláte
|
||||
nějak
|
||||
nejsi
|
||||
někde
|
||||
někdo
|
||||
nemají
|
||||
nemáme
|
||||
nemáte
|
||||
neměl
|
||||
němu
|
||||
není
|
||||
nestačí
|
||||
nevadí
|
||||
než
|
||||
nic
|
||||
nich
|
||||
ním
|
||||
nimi
|
||||
nula
|
||||
od
|
||||
ode
|
||||
on
|
||||
ona
|
||||
oni
|
||||
ono
|
||||
ony
|
||||
osm
|
||||
osmnáct
|
||||
pak
|
||||
patnáct
|
||||
pět
|
||||
po
|
||||
pořád
|
||||
potom
|
||||
pozdě
|
||||
před
|
||||
přes
|
||||
přese
|
||||
pro
|
||||
proč
|
||||
prosím
|
||||
prostě
|
||||
proti
|
||||
protože
|
||||
rovně
|
||||
se
|
||||
sedm
|
||||
sedmnáct
|
||||
šest
|
||||
šestnáct
|
||||
skoro
|
||||
smějí
|
||||
smí
|
||||
snad
|
||||
spolu
|
||||
sta
|
||||
sté
|
||||
sto
|
||||
ta
|
||||
tady
|
||||
tak
|
||||
takhle
|
||||
taky
|
||||
tam
|
||||
tamhle
|
||||
tamhleto
|
||||
tamto
|
||||
tě
|
||||
tebe
|
||||
tebou
|
||||
ted'
|
||||
tedy
|
||||
ten
|
||||
ti
|
||||
tisíc
|
||||
tisíce
|
||||
to
|
||||
tobě
|
||||
tohle
|
||||
toto
|
||||
třeba
|
||||
tři
|
||||
třináct
|
||||
trošku
|
||||
tvá
|
||||
tvé
|
||||
tvoje
|
||||
tvůj
|
||||
ty
|
||||
určitě
|
||||
už
|
||||
vám
|
||||
vámi
|
||||
vás
|
||||
váš
|
||||
vaše
|
||||
vaši
|
||||
ve
|
||||
večer
|
||||
vedle
|
||||
vlastně
|
||||
všechno
|
||||
všichni
|
||||
vůbec
|
||||
vy
|
||||
vždy
|
||||
za
|
||||
zač
|
||||
zatímco
|
||||
ze
|
||||
že
|
||||
""".split()
|
||||
)
|
20
spacy/lang/et/__init__.py
Normal file
20
spacy/lang/et/__init__.py
Normal file
|
@ -0,0 +1,20 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language
|
||||
from ...attrs import LANG
|
||||
|
||||
|
||||
class EstonianDefaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: "et"
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Estonian(Language):
|
||||
lang = "et"
|
||||
Defaults = EstonianDefaults
|
||||
|
||||
|
||||
__all__ = ["Estonian"]
|
45
spacy/lang/et/stop_words.py
Normal file
45
spacy/lang/et/stop_words.py
Normal file
|
@ -0,0 +1,45 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
# Source: https://github.com/stopwords-iso/stopwords-et
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
aga
|
||||
ei
|
||||
et
|
||||
ja
|
||||
jah
|
||||
kas
|
||||
kui
|
||||
kõik
|
||||
ma
|
||||
me
|
||||
mida
|
||||
midagi
|
||||
mind
|
||||
minu
|
||||
mis
|
||||
mu
|
||||
mul
|
||||
mulle
|
||||
nad
|
||||
nii
|
||||
oled
|
||||
olen
|
||||
oli
|
||||
oma
|
||||
on
|
||||
pole
|
||||
sa
|
||||
seda
|
||||
see
|
||||
selle
|
||||
siin
|
||||
siis
|
||||
ta
|
||||
te
|
||||
ära
|
||||
""".split()
|
||||
)
|
20
spacy/lang/is/__init__.py
Normal file
20
spacy/lang/is/__init__.py
Normal file
|
@ -0,0 +1,20 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language
|
||||
from ...attrs import LANG
|
||||
|
||||
|
||||
class IcelandicDefaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: "is"
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Icelandic(Language):
|
||||
lang = "is"
|
||||
Defaults = IcelandicDefaults
|
||||
|
||||
|
||||
__all__ = ["Icelandic"]
|
162
spacy/lang/is/stop_words.py
Normal file
162
spacy/lang/is/stop_words.py
Normal file
|
@ -0,0 +1,162 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
# Source: https://github.com/Xangis/extra-stopwords
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
afhverju
|
||||
aftan
|
||||
aftur
|
||||
afþví
|
||||
aldrei
|
||||
allir
|
||||
allt
|
||||
alveg
|
||||
annað
|
||||
annars
|
||||
bara
|
||||
dag
|
||||
eða
|
||||
eftir
|
||||
eiga
|
||||
einhver
|
||||
einhverjir
|
||||
einhvers
|
||||
eins
|
||||
einu
|
||||
eitthvað
|
||||
ekkert
|
||||
ekki
|
||||
ennþá
|
||||
eru
|
||||
fara
|
||||
fer
|
||||
finna
|
||||
fjöldi
|
||||
fólk
|
||||
framan
|
||||
frá
|
||||
frekar
|
||||
fyrir
|
||||
gegnum
|
||||
geta
|
||||
getur
|
||||
gmg
|
||||
gott
|
||||
hann
|
||||
hafa
|
||||
hef
|
||||
hefur
|
||||
heyra
|
||||
hér
|
||||
hérna
|
||||
hjá
|
||||
hún
|
||||
hvað
|
||||
hvar
|
||||
hver
|
||||
hverjir
|
||||
hverjum
|
||||
hvernig
|
||||
hvor
|
||||
hvort
|
||||
hægt
|
||||
img
|
||||
inn
|
||||
kannski
|
||||
koma
|
||||
líka
|
||||
lol
|
||||
maður
|
||||
mátt
|
||||
mér
|
||||
með
|
||||
mega
|
||||
meira
|
||||
mig
|
||||
mikið
|
||||
minna
|
||||
minni
|
||||
missa
|
||||
mjög
|
||||
nei
|
||||
niður
|
||||
núna
|
||||
oft
|
||||
okkar
|
||||
okkur
|
||||
póst
|
||||
póstur
|
||||
rofl
|
||||
saman
|
||||
sem
|
||||
sér
|
||||
sig
|
||||
sinni
|
||||
síðan
|
||||
sjá
|
||||
smá
|
||||
smátt
|
||||
spurja
|
||||
spyrja
|
||||
staðar
|
||||
stórt
|
||||
svo
|
||||
svona
|
||||
sælir
|
||||
sæll
|
||||
taka
|
||||
takk
|
||||
til
|
||||
tilvitnun
|
||||
titlar
|
||||
upp
|
||||
var
|
||||
vel
|
||||
velkomin
|
||||
velkominn
|
||||
vera
|
||||
verður
|
||||
verið
|
||||
vel
|
||||
við
|
||||
vil
|
||||
vilja
|
||||
vill
|
||||
vita
|
||||
væri
|
||||
yfir
|
||||
ykkar
|
||||
það
|
||||
þakka
|
||||
þakkir
|
||||
þannig
|
||||
það
|
||||
þar
|
||||
þarf
|
||||
þau
|
||||
þeim
|
||||
þeir
|
||||
þeirra
|
||||
þeirra
|
||||
þegar
|
||||
þess
|
||||
þessa
|
||||
þessi
|
||||
þessu
|
||||
þessum
|
||||
þetta
|
||||
þér
|
||||
þið
|
||||
þinn
|
||||
þitt
|
||||
þín
|
||||
þráð
|
||||
þráður
|
||||
því
|
||||
þær
|
||||
ætti
|
||||
""".split()
|
||||
)
|
20
spacy/lang/lt/__init__.py
Normal file
20
spacy/lang/lt/__init__.py
Normal file
|
@ -0,0 +1,20 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language
|
||||
from ...attrs import LANG
|
||||
|
||||
|
||||
class LithuanianDefaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: "lt"
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Lithuanian(Language):
|
||||
lang = "lt"
|
||||
Defaults = LithuanianDefaults
|
||||
|
||||
|
||||
__all__ = ["Lithuanian"]
|
484
spacy/lang/lt/stop_words.py
Normal file
484
spacy/lang/lt/stop_words.py
Normal file
|
@ -0,0 +1,484 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
# Source: https://github.com/stopwords-iso/stopwords-lt
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
abi
|
||||
abidvi
|
||||
abiejose
|
||||
abiejuose
|
||||
abiejø
|
||||
abiem
|
||||
abigaliai
|
||||
abipus
|
||||
abu
|
||||
abudu
|
||||
ai
|
||||
ana
|
||||
anaiptol
|
||||
anaisiais
|
||||
anajai
|
||||
anajam
|
||||
anajame
|
||||
anapus
|
||||
anas
|
||||
anasai
|
||||
anasis
|
||||
anei
|
||||
aniedvi
|
||||
anieji
|
||||
aniesiems
|
||||
anoji
|
||||
anojo
|
||||
anojoje
|
||||
anokia
|
||||
anoks
|
||||
anosiomis
|
||||
anosioms
|
||||
anosios
|
||||
anosiose
|
||||
anot
|
||||
ant
|
||||
antai
|
||||
anuodu
|
||||
anuoju
|
||||
anuosiuose
|
||||
anuosius
|
||||
anàja
|
||||
anàjà
|
||||
anàjá
|
||||
anàsias
|
||||
anøjø
|
||||
apie
|
||||
aplink
|
||||
ar
|
||||
arba
|
||||
argi
|
||||
arti
|
||||
aukðèiau
|
||||
að
|
||||
be
|
||||
bei
|
||||
beje
|
||||
bemaþ
|
||||
bent
|
||||
bet
|
||||
betgi
|
||||
beveik
|
||||
dar
|
||||
dargi
|
||||
daugmaþ
|
||||
deja
|
||||
dëka
|
||||
dël
|
||||
dëlei
|
||||
dëlto
|
||||
ech
|
||||
et
|
||||
gal
|
||||
galbût
|
||||
galgi
|
||||
gan
|
||||
gana
|
||||
gi
|
||||
greta
|
||||
idant
|
||||
iki
|
||||
ir
|
||||
irgi
|
||||
it
|
||||
itin
|
||||
ið
|
||||
iðilgai
|
||||
iðvis
|
||||
jaisiais
|
||||
jajai
|
||||
jajam
|
||||
jajame
|
||||
jei
|
||||
jeigu
|
||||
ji
|
||||
jiedu
|
||||
jiedvi
|
||||
jieji
|
||||
jiesiems
|
||||
jinai
|
||||
jis
|
||||
jisai
|
||||
jog
|
||||
joji
|
||||
jojo
|
||||
jojoje
|
||||
jokia
|
||||
joks
|
||||
josiomis
|
||||
josioms
|
||||
josios
|
||||
josiose
|
||||
judu
|
||||
judvi
|
||||
juk
|
||||
jumis
|
||||
jums
|
||||
jumyse
|
||||
juodu
|
||||
juoju
|
||||
juosiuose
|
||||
juosius
|
||||
jus
|
||||
jàja
|
||||
jàjà
|
||||
jàsias
|
||||
jájá
|
||||
jøjø
|
||||
jûs
|
||||
jûsiðkis
|
||||
jûsiðkë
|
||||
jûsø
|
||||
kad
|
||||
kada
|
||||
kadangi
|
||||
kai
|
||||
kaip
|
||||
kaipgi
|
||||
kas
|
||||
katra
|
||||
katras
|
||||
katriedvi
|
||||
katruodu
|
||||
kaþin
|
||||
kaþkas
|
||||
kaþkatra
|
||||
kaþkatras
|
||||
kaþkokia
|
||||
kaþkoks
|
||||
kaþkuri
|
||||
kaþkuris
|
||||
kiaurai
|
||||
kiek
|
||||
kiekvienas
|
||||
kieno
|
||||
kita
|
||||
kitas
|
||||
kitokia
|
||||
kitoks
|
||||
kodël
|
||||
kokia
|
||||
koks
|
||||
kol
|
||||
kolei
|
||||
kone
|
||||
kuomet
|
||||
kur
|
||||
kurgi
|
||||
kuri
|
||||
kuriedvi
|
||||
kuris
|
||||
kuriuodu
|
||||
lai
|
||||
lig
|
||||
ligi
|
||||
link
|
||||
lyg
|
||||
man
|
||||
manaisiais
|
||||
manajai
|
||||
manajam
|
||||
manajame
|
||||
manas
|
||||
manasai
|
||||
manasis
|
||||
mane
|
||||
manieji
|
||||
maniesiems
|
||||
manim
|
||||
manimi
|
||||
maniðkis
|
||||
maniðkë
|
||||
mano
|
||||
manoji
|
||||
manojo
|
||||
manojoje
|
||||
manosiomis
|
||||
manosioms
|
||||
manosios
|
||||
manosiose
|
||||
manuoju
|
||||
manuosiuose
|
||||
manuosius
|
||||
manyje
|
||||
manàja
|
||||
manàjà
|
||||
manàjá
|
||||
manàsias
|
||||
manæs
|
||||
manøjø
|
||||
mat
|
||||
maþdaug
|
||||
maþne
|
||||
mes
|
||||
mudu
|
||||
mudvi
|
||||
mumis
|
||||
mums
|
||||
mumyse
|
||||
mus
|
||||
mûsiðkis
|
||||
mûsiðkë
|
||||
mûsø
|
||||
na
|
||||
nagi
|
||||
ne
|
||||
nebe
|
||||
nebent
|
||||
negi
|
||||
negu
|
||||
nei
|
||||
nejau
|
||||
nejaugi
|
||||
nekaip
|
||||
nelyginant
|
||||
nes
|
||||
net
|
||||
netgi
|
||||
netoli
|
||||
neva
|
||||
nors
|
||||
nuo
|
||||
në
|
||||
o
|
||||
ogi
|
||||
oi
|
||||
paeiliui
|
||||
pagal
|
||||
pakeliui
|
||||
palaipsniui
|
||||
palei
|
||||
pas
|
||||
pasak
|
||||
paskos
|
||||
paskui
|
||||
paskum
|
||||
pat
|
||||
pati
|
||||
patiems
|
||||
paties
|
||||
pats
|
||||
patys
|
||||
patá
|
||||
paèiais
|
||||
paèiam
|
||||
paèiame
|
||||
paèiu
|
||||
paèiuose
|
||||
paèius
|
||||
paèiø
|
||||
per
|
||||
pernelyg
|
||||
pirm
|
||||
pirma
|
||||
pirmiau
|
||||
po
|
||||
prie
|
||||
prieð
|
||||
prieðais
|
||||
pro
|
||||
pusiau
|
||||
rasi
|
||||
rodos
|
||||
sau
|
||||
savaisiais
|
||||
savajai
|
||||
savajam
|
||||
savajame
|
||||
savas
|
||||
savasai
|
||||
savasis
|
||||
save
|
||||
savieji
|
||||
saviesiems
|
||||
savimi
|
||||
saviðkis
|
||||
saviðkë
|
||||
savo
|
||||
savoji
|
||||
savojo
|
||||
savojoje
|
||||
savosiomis
|
||||
savosioms
|
||||
savosios
|
||||
savosiose
|
||||
savuoju
|
||||
savuosiuose
|
||||
savuosius
|
||||
savyje
|
||||
savàja
|
||||
savàjà
|
||||
savàjá
|
||||
savàsias
|
||||
savæs
|
||||
savøjø
|
||||
skersai
|
||||
skradþiai
|
||||
staèiai
|
||||
su
|
||||
sulig
|
||||
ta
|
||||
tad
|
||||
tai
|
||||
taigi
|
||||
taip
|
||||
taipogi
|
||||
taisiais
|
||||
tajai
|
||||
tajam
|
||||
tajame
|
||||
tamsta
|
||||
tarp
|
||||
tarsi
|
||||
tartum
|
||||
tarytum
|
||||
tas
|
||||
tasai
|
||||
tau
|
||||
tavaisiais
|
||||
tavajai
|
||||
tavajam
|
||||
tavajame
|
||||
tavas
|
||||
tavasai
|
||||
tavasis
|
||||
tave
|
||||
tavieji
|
||||
taviesiems
|
||||
tavimi
|
||||
taviðkis
|
||||
taviðkë
|
||||
tavo
|
||||
tavoji
|
||||
tavojo
|
||||
tavojoje
|
||||
tavosiomis
|
||||
tavosioms
|
||||
tavosios
|
||||
tavosiose
|
||||
tavuoju
|
||||
tavuosiuose
|
||||
tavuosius
|
||||
tavyje
|
||||
tavàja
|
||||
tavàjà
|
||||
tavàjá
|
||||
tavàsias
|
||||
tavæs
|
||||
tavøjø
|
||||
taèiau
|
||||
te
|
||||
tegu
|
||||
tegul
|
||||
tiedvi
|
||||
tieji
|
||||
ties
|
||||
tiesiems
|
||||
tiesiog
|
||||
tik
|
||||
tikriausiai
|
||||
tiktai
|
||||
toji
|
||||
tojo
|
||||
tojoje
|
||||
tokia
|
||||
toks
|
||||
tol
|
||||
tolei
|
||||
toliau
|
||||
tosiomis
|
||||
tosioms
|
||||
tosios
|
||||
tosiose
|
||||
tu
|
||||
tuodu
|
||||
tuoju
|
||||
tuosiuose
|
||||
tuosius
|
||||
turbût
|
||||
tàja
|
||||
tàjà
|
||||
tàjá
|
||||
tàsias
|
||||
tøjø
|
||||
tûlas
|
||||
uþ
|
||||
uþtat
|
||||
uþvis
|
||||
va
|
||||
vai
|
||||
viduj
|
||||
vidury
|
||||
vien
|
||||
vienas
|
||||
vienokia
|
||||
vienoks
|
||||
vietoj
|
||||
virð
|
||||
virðuj
|
||||
virðum
|
||||
vis
|
||||
vis dëlto
|
||||
visa
|
||||
visas
|
||||
visgi
|
||||
visokia
|
||||
visoks
|
||||
vos
|
||||
vël
|
||||
vëlgi
|
||||
ypaè
|
||||
á
|
||||
ákypai
|
||||
ástriþai
|
||||
ðalia
|
||||
ðe
|
||||
ði
|
||||
ðiaisiais
|
||||
ðiajai
|
||||
ðiajam
|
||||
ðiajame
|
||||
ðiapus
|
||||
ðiedvi
|
||||
ðieji
|
||||
ðiesiems
|
||||
ðioji
|
||||
ðiojo
|
||||
ðiojoje
|
||||
ðiokia
|
||||
ðioks
|
||||
ðiosiomis
|
||||
ðiosioms
|
||||
ðiosios
|
||||
ðiosiose
|
||||
ðis
|
||||
ðisai
|
||||
ðit
|
||||
ðita
|
||||
ðitas
|
||||
ðitiedvi
|
||||
ðitokia
|
||||
ðitoks
|
||||
ðituodu
|
||||
ðiuodu
|
||||
ðiuoju
|
||||
ðiuosiuose
|
||||
ðiuosius
|
||||
ðiàja
|
||||
ðiàjà
|
||||
ðiàsias
|
||||
ðiøjø
|
||||
ðtai
|
||||
ðájá
|
||||
þemiau
|
||||
""".split()
|
||||
)
|
20
spacy/lang/lv/__init__.py
Normal file
20
spacy/lang/lv/__init__.py
Normal file
|
@ -0,0 +1,20 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language
|
||||
from ...attrs import LANG
|
||||
|
||||
|
||||
class LatvianDefaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: "lv"
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Latvian(Language):
|
||||
lang = "lv"
|
||||
Defaults = LatvianDefaults
|
||||
|
||||
|
||||
__all__ = ["Latvian"]
|
171
spacy/lang/lv/stop_words.py
Normal file
171
spacy/lang/lv/stop_words.py
Normal file
|
@ -0,0 +1,171 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
# Source: https://github.com/stopwords-iso/stopwords-lv
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
aiz
|
||||
ap
|
||||
apakš
|
||||
apakšpus
|
||||
ar
|
||||
arī
|
||||
augšpus
|
||||
bet
|
||||
bez
|
||||
bija
|
||||
biji
|
||||
biju
|
||||
bijām
|
||||
bijāt
|
||||
būs
|
||||
būsi
|
||||
būsiet
|
||||
būsim
|
||||
būt
|
||||
būšu
|
||||
caur
|
||||
diemžēl
|
||||
diezin
|
||||
droši
|
||||
dēļ
|
||||
esam
|
||||
esat
|
||||
esi
|
||||
esmu
|
||||
gan
|
||||
gar
|
||||
iekam
|
||||
iekams
|
||||
iekām
|
||||
iekāms
|
||||
iekš
|
||||
iekšpus
|
||||
ik
|
||||
ir
|
||||
it
|
||||
itin
|
||||
iz
|
||||
ja
|
||||
jau
|
||||
jeb
|
||||
jebšu
|
||||
jel
|
||||
jo
|
||||
jā
|
||||
ka
|
||||
kamēr
|
||||
kaut
|
||||
kolīdz
|
||||
kopš
|
||||
kā
|
||||
kļuva
|
||||
kļuvi
|
||||
kļuvu
|
||||
kļuvām
|
||||
kļuvāt
|
||||
kļūs
|
||||
kļūsi
|
||||
kļūsiet
|
||||
kļūsim
|
||||
kļūst
|
||||
kļūstam
|
||||
kļūstat
|
||||
kļūsti
|
||||
kļūstu
|
||||
kļūt
|
||||
kļūšu
|
||||
labad
|
||||
lai
|
||||
lejpus
|
||||
līdz
|
||||
līdzko
|
||||
ne
|
||||
nebūt
|
||||
nedz
|
||||
nekā
|
||||
nevis
|
||||
nezin
|
||||
no
|
||||
nu
|
||||
nē
|
||||
otrpus
|
||||
pa
|
||||
par
|
||||
pat
|
||||
pie
|
||||
pirms
|
||||
pret
|
||||
priekš
|
||||
pār
|
||||
pēc
|
||||
starp
|
||||
tad
|
||||
tak
|
||||
tapi
|
||||
taps
|
||||
tapsi
|
||||
tapsiet
|
||||
tapsim
|
||||
tapt
|
||||
tapāt
|
||||
tapšu
|
||||
taču
|
||||
te
|
||||
tiec
|
||||
tiek
|
||||
tiekam
|
||||
tiekat
|
||||
tieku
|
||||
tik
|
||||
tika
|
||||
tikai
|
||||
tiki
|
||||
tikko
|
||||
tiklab
|
||||
tiklīdz
|
||||
tiks
|
||||
tiksiet
|
||||
tiksim
|
||||
tikt
|
||||
tiku
|
||||
tikvien
|
||||
tikām
|
||||
tikāt
|
||||
tikšu
|
||||
tomēr
|
||||
topat
|
||||
turpretim
|
||||
turpretī
|
||||
tā
|
||||
tādēļ
|
||||
tālab
|
||||
tāpēc
|
||||
un
|
||||
uz
|
||||
vai
|
||||
var
|
||||
varat
|
||||
varēja
|
||||
varēji
|
||||
varēju
|
||||
varējām
|
||||
varējāt
|
||||
varēs
|
||||
varēsi
|
||||
varēsiet
|
||||
varēsim
|
||||
varēt
|
||||
varēšu
|
||||
vien
|
||||
virs
|
||||
virspus
|
||||
vis
|
||||
viņpus
|
||||
zem
|
||||
ārpus
|
||||
šaipus
|
||||
""".split()
|
||||
)
|
20
spacy/lang/sk/__init__.py
Normal file
20
spacy/lang/sk/__init__.py
Normal file
|
@ -0,0 +1,20 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language
|
||||
from ...attrs import LANG
|
||||
|
||||
|
||||
class SlovakDefaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: "sk"
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Slovak(Language):
|
||||
lang = "sk"
|
||||
Defaults = SlovakDefaults
|
||||
|
||||
|
||||
__all__ = ["Slovak"]
|
231
spacy/lang/sk/stop_words.py
Normal file
231
spacy/lang/sk/stop_words.py
Normal file
|
@ -0,0 +1,231 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
# Source: https://github.com/stopwords-iso/stopwords-sk
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
a
|
||||
aby
|
||||
aj
|
||||
ak
|
||||
ako
|
||||
aký
|
||||
ale
|
||||
alebo
|
||||
and
|
||||
ani
|
||||
asi
|
||||
avšak
|
||||
až
|
||||
ba
|
||||
bez
|
||||
bol
|
||||
bola
|
||||
boli
|
||||
bolo
|
||||
bude
|
||||
budem
|
||||
budeme
|
||||
budete
|
||||
budeš
|
||||
budú
|
||||
buï
|
||||
buď
|
||||
by
|
||||
byť
|
||||
cez
|
||||
dnes
|
||||
do
|
||||
ešte
|
||||
for
|
||||
ho
|
||||
hoci
|
||||
i
|
||||
iba
|
||||
ich
|
||||
im
|
||||
iné
|
||||
iný
|
||||
ja
|
||||
je
|
||||
jeho
|
||||
jej
|
||||
jemu
|
||||
ju
|
||||
k
|
||||
kam
|
||||
každá
|
||||
každé
|
||||
každí
|
||||
každý
|
||||
kde
|
||||
kedže
|
||||
keï
|
||||
keď
|
||||
kto
|
||||
ktorou
|
||||
ktorá
|
||||
ktoré
|
||||
ktorí
|
||||
ktorý
|
||||
ku
|
||||
lebo
|
||||
len
|
||||
ma
|
||||
mať
|
||||
medzi
|
||||
menej
|
||||
mi
|
||||
mna
|
||||
mne
|
||||
mnou
|
||||
moja
|
||||
moje
|
||||
mu
|
||||
musieť
|
||||
my
|
||||
má
|
||||
máte
|
||||
mòa
|
||||
môcť
|
||||
môj
|
||||
môže
|
||||
na
|
||||
nad
|
||||
nami
|
||||
naši
|
||||
nech
|
||||
neho
|
||||
nej
|
||||
nemu
|
||||
než
|
||||
nich
|
||||
nie
|
||||
niektorý
|
||||
nielen
|
||||
nim
|
||||
nič
|
||||
no
|
||||
nová
|
||||
nové
|
||||
noví
|
||||
nový
|
||||
nám
|
||||
nás
|
||||
náš
|
||||
ním
|
||||
o
|
||||
od
|
||||
odo
|
||||
of
|
||||
on
|
||||
ona
|
||||
oni
|
||||
ono
|
||||
ony
|
||||
po
|
||||
pod
|
||||
podľa
|
||||
pokiaľ
|
||||
potom
|
||||
pre
|
||||
pred
|
||||
predo
|
||||
preto
|
||||
pretože
|
||||
prečo
|
||||
pri
|
||||
prvá
|
||||
prvé
|
||||
prví
|
||||
prvý
|
||||
práve
|
||||
pýta
|
||||
s
|
||||
sa
|
||||
seba
|
||||
sem
|
||||
si
|
||||
sme
|
||||
so
|
||||
som
|
||||
späť
|
||||
ste
|
||||
svoj
|
||||
svoje
|
||||
svojich
|
||||
svojím
|
||||
svojími
|
||||
sú
|
||||
ta
|
||||
tak
|
||||
taký
|
||||
takže
|
||||
tam
|
||||
te
|
||||
teba
|
||||
tebe
|
||||
tebou
|
||||
teda
|
||||
tej
|
||||
ten
|
||||
tento
|
||||
the
|
||||
ti
|
||||
tie
|
||||
tieto
|
||||
tiež
|
||||
to
|
||||
toho
|
||||
tohoto
|
||||
tom
|
||||
tomto
|
||||
tomu
|
||||
tomuto
|
||||
toto
|
||||
tou
|
||||
tu
|
||||
tvoj
|
||||
tvojími
|
||||
ty
|
||||
tá
|
||||
táto
|
||||
tú
|
||||
túto
|
||||
tým
|
||||
týmto
|
||||
tě
|
||||
už
|
||||
v
|
||||
vami
|
||||
vaše
|
||||
veï
|
||||
viac
|
||||
vo
|
||||
vy
|
||||
vám
|
||||
vás
|
||||
váš
|
||||
však
|
||||
všetok
|
||||
z
|
||||
za
|
||||
zo
|
||||
a
|
||||
áno
|
||||
èi
|
||||
èo
|
||||
èí
|
||||
òom
|
||||
òou
|
||||
òu
|
||||
či
|
||||
čo
|
||||
ďalšia
|
||||
ďalšie
|
||||
ďalší
|
||||
že
|
||||
""".split()
|
||||
)
|
20
spacy/lang/sl/__init__.py
Normal file
20
spacy/lang/sl/__init__.py
Normal file
|
@ -0,0 +1,20 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language
|
||||
from ...attrs import LANG
|
||||
|
||||
|
||||
class SlovenianDefaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: "sl"
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Slovenian(Language):
|
||||
lang = "sl"
|
||||
Defaults = SlovenianDefaults
|
||||
|
||||
|
||||
__all__ = ["Slovenian"]
|
458
spacy/lang/sl/stop_words.py
Normal file
458
spacy/lang/sl/stop_words.py
Normal file
|
@ -0,0 +1,458 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
# Source: https://github.com/stopwords-iso/stopwords-sl
|
||||
# TODO: probably needs to be tidied up – the list seems to have month names in
|
||||
# it, which shouldn't be considered stop words.
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
a
|
||||
ali
|
||||
april
|
||||
avgust
|
||||
b
|
||||
bi
|
||||
bil
|
||||
bila
|
||||
bile
|
||||
bili
|
||||
bilo
|
||||
biti
|
||||
blizu
|
||||
bo
|
||||
bodo
|
||||
bojo
|
||||
bolj
|
||||
bom
|
||||
bomo
|
||||
boste
|
||||
bova
|
||||
boš
|
||||
brez
|
||||
c
|
||||
cel
|
||||
cela
|
||||
celi
|
||||
celo
|
||||
d
|
||||
da
|
||||
daleč
|
||||
dan
|
||||
danes
|
||||
datum
|
||||
december
|
||||
deset
|
||||
deseta
|
||||
deseti
|
||||
deseto
|
||||
devet
|
||||
deveta
|
||||
deveti
|
||||
deveto
|
||||
do
|
||||
dober
|
||||
dobra
|
||||
dobri
|
||||
dobro
|
||||
dokler
|
||||
dol
|
||||
dolg
|
||||
dolga
|
||||
dolgi
|
||||
dovolj
|
||||
drug
|
||||
druga
|
||||
drugi
|
||||
drugo
|
||||
dva
|
||||
dve
|
||||
e
|
||||
eden
|
||||
en
|
||||
ena
|
||||
ene
|
||||
eni
|
||||
enkrat
|
||||
eno
|
||||
etc.
|
||||
f
|
||||
februar
|
||||
g
|
||||
g.
|
||||
ga
|
||||
ga.
|
||||
gor
|
||||
gospa
|
||||
gospod
|
||||
h
|
||||
halo
|
||||
i
|
||||
idr.
|
||||
ii
|
||||
iii
|
||||
in
|
||||
iv
|
||||
ix
|
||||
iz
|
||||
j
|
||||
januar
|
||||
jaz
|
||||
je
|
||||
ji
|
||||
jih
|
||||
jim
|
||||
jo
|
||||
julij
|
||||
junij
|
||||
jutri
|
||||
k
|
||||
kadarkoli
|
||||
kaj
|
||||
kajti
|
||||
kako
|
||||
kakor
|
||||
kamor
|
||||
kamorkoli
|
||||
kar
|
||||
karkoli
|
||||
katerikoli
|
||||
kdaj
|
||||
kdo
|
||||
kdorkoli
|
||||
ker
|
||||
ki
|
||||
kje
|
||||
kjer
|
||||
kjerkoli
|
||||
ko
|
||||
koder
|
||||
koderkoli
|
||||
koga
|
||||
komu
|
||||
kot
|
||||
kratek
|
||||
kratka
|
||||
kratke
|
||||
kratki
|
||||
l
|
||||
lahka
|
||||
lahke
|
||||
lahki
|
||||
lahko
|
||||
le
|
||||
lep
|
||||
lepa
|
||||
lepe
|
||||
lepi
|
||||
lepo
|
||||
leto
|
||||
m
|
||||
maj
|
||||
majhen
|
||||
majhna
|
||||
majhni
|
||||
malce
|
||||
malo
|
||||
manj
|
||||
marec
|
||||
me
|
||||
med
|
||||
medtem
|
||||
mene
|
||||
mesec
|
||||
mi
|
||||
midva
|
||||
midve
|
||||
mnogo
|
||||
moj
|
||||
moja
|
||||
moje
|
||||
mora
|
||||
morajo
|
||||
moram
|
||||
moramo
|
||||
morate
|
||||
moraš
|
||||
morem
|
||||
mu
|
||||
n
|
||||
na
|
||||
nad
|
||||
naj
|
||||
najina
|
||||
najino
|
||||
najmanj
|
||||
naju
|
||||
največ
|
||||
nam
|
||||
narobe
|
||||
nas
|
||||
nato
|
||||
nazaj
|
||||
naš
|
||||
naša
|
||||
naše
|
||||
ne
|
||||
nedavno
|
||||
nedelja
|
||||
nek
|
||||
neka
|
||||
nekaj
|
||||
nekatere
|
||||
nekateri
|
||||
nekatero
|
||||
nekdo
|
||||
neke
|
||||
nekega
|
||||
neki
|
||||
nekje
|
||||
neko
|
||||
nekoga
|
||||
nekoč
|
||||
ni
|
||||
nikamor
|
||||
nikdar
|
||||
nikjer
|
||||
nikoli
|
||||
nič
|
||||
nje
|
||||
njega
|
||||
njegov
|
||||
njegova
|
||||
njegovo
|
||||
njej
|
||||
njemu
|
||||
njen
|
||||
njena
|
||||
njeno
|
||||
nji
|
||||
njih
|
||||
njihov
|
||||
njihova
|
||||
njihovo
|
||||
njiju
|
||||
njim
|
||||
njo
|
||||
njun
|
||||
njuna
|
||||
njuno
|
||||
no
|
||||
nocoj
|
||||
november
|
||||
npr.
|
||||
o
|
||||
ob
|
||||
oba
|
||||
obe
|
||||
oboje
|
||||
od
|
||||
odprt
|
||||
odprta
|
||||
odprti
|
||||
okoli
|
||||
oktober
|
||||
on
|
||||
onadva
|
||||
one
|
||||
oni
|
||||
onidve
|
||||
osem
|
||||
osma
|
||||
osmi
|
||||
osmo
|
||||
oz.
|
||||
p
|
||||
pa
|
||||
pet
|
||||
peta
|
||||
petek
|
||||
peti
|
||||
peto
|
||||
po
|
||||
pod
|
||||
pogosto
|
||||
poleg
|
||||
poln
|
||||
polna
|
||||
polni
|
||||
polno
|
||||
ponavadi
|
||||
ponedeljek
|
||||
ponovno
|
||||
potem
|
||||
povsod
|
||||
pozdravljen
|
||||
pozdravljeni
|
||||
prav
|
||||
prava
|
||||
prave
|
||||
pravi
|
||||
pravo
|
||||
prazen
|
||||
prazna
|
||||
prazno
|
||||
prbl.
|
||||
precej
|
||||
pred
|
||||
prej
|
||||
preko
|
||||
pri
|
||||
pribl.
|
||||
približno
|
||||
primer
|
||||
pripravljen
|
||||
pripravljena
|
||||
pripravljeni
|
||||
proti
|
||||
prva
|
||||
prvi
|
||||
prvo
|
||||
r
|
||||
ravno
|
||||
redko
|
||||
res
|
||||
reč
|
||||
s
|
||||
saj
|
||||
sam
|
||||
sama
|
||||
same
|
||||
sami
|
||||
samo
|
||||
se
|
||||
sebe
|
||||
sebi
|
||||
sedaj
|
||||
sedem
|
||||
sedma
|
||||
sedmi
|
||||
sedmo
|
||||
sem
|
||||
september
|
||||
seveda
|
||||
si
|
||||
sicer
|
||||
skoraj
|
||||
skozi
|
||||
slab
|
||||
smo
|
||||
so
|
||||
sobota
|
||||
spet
|
||||
sreda
|
||||
srednja
|
||||
srednji
|
||||
sta
|
||||
ste
|
||||
stran
|
||||
stvar
|
||||
sva
|
||||
t
|
||||
ta
|
||||
tak
|
||||
taka
|
||||
take
|
||||
taki
|
||||
tako
|
||||
takoj
|
||||
tam
|
||||
te
|
||||
tebe
|
||||
tebi
|
||||
tega
|
||||
težak
|
||||
težka
|
||||
težki
|
||||
težko
|
||||
ti
|
||||
tista
|
||||
tiste
|
||||
tisti
|
||||
tisto
|
||||
tj.
|
||||
tja
|
||||
to
|
||||
toda
|
||||
torek
|
||||
tretja
|
||||
tretje
|
||||
tretji
|
||||
tri
|
||||
tu
|
||||
tudi
|
||||
tukaj
|
||||
tvoj
|
||||
tvoja
|
||||
tvoje
|
||||
u
|
||||
v
|
||||
vaju
|
||||
vam
|
||||
vas
|
||||
vaš
|
||||
vaša
|
||||
vaše
|
||||
ve
|
||||
vedno
|
||||
velik
|
||||
velika
|
||||
veliki
|
||||
veliko
|
||||
vendar
|
||||
ves
|
||||
več
|
||||
vi
|
||||
vidva
|
||||
vii
|
||||
viii
|
||||
visok
|
||||
visoka
|
||||
visoke
|
||||
visoki
|
||||
vsa
|
||||
vsaj
|
||||
vsak
|
||||
vsaka
|
||||
vsakdo
|
||||
vsake
|
||||
vsaki
|
||||
vsakomur
|
||||
vse
|
||||
vsega
|
||||
vsi
|
||||
vso
|
||||
včasih
|
||||
včeraj
|
||||
x
|
||||
z
|
||||
za
|
||||
zadaj
|
||||
zadnji
|
||||
zakaj
|
||||
zaprta
|
||||
zaprti
|
||||
zaprto
|
||||
zdaj
|
||||
zelo
|
||||
zunaj
|
||||
č
|
||||
če
|
||||
često
|
||||
četrta
|
||||
četrtek
|
||||
četrti
|
||||
četrto
|
||||
čez
|
||||
čigav
|
||||
š
|
||||
šest
|
||||
šesta
|
||||
šesti
|
||||
šesto
|
||||
štiri
|
||||
ž
|
||||
že
|
||||
""".split()
|
||||
)
|
20
spacy/lang/sq/__init__.py
Normal file
20
spacy/lang/sq/__init__.py
Normal file
|
@ -0,0 +1,20 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language
|
||||
from ...attrs import LANG
|
||||
|
||||
|
||||
class AlbanianDefaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: "sq"
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Albanian(Language):
|
||||
lang = "sq"
|
||||
Defaults = AlbanianDefaults
|
||||
|
||||
|
||||
__all__ = ["Albanian"]
|
233
spacy/lang/sq/stop_words.py
Normal file
233
spacy/lang/sq/stop_words.py
Normal file
|
@ -0,0 +1,233 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
# Source: https://github.com/andrixh/index-albanian
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
a
|
||||
afert
|
||||
ai
|
||||
ajo
|
||||
andej
|
||||
anes
|
||||
aq
|
||||
as
|
||||
asaj
|
||||
ashtu
|
||||
ata
|
||||
ate
|
||||
atij
|
||||
atje
|
||||
ato
|
||||
aty
|
||||
atyre
|
||||
b
|
||||
be
|
||||
behem
|
||||
behet
|
||||
bej
|
||||
beje
|
||||
bejne
|
||||
ben
|
||||
bene
|
||||
bere
|
||||
beri
|
||||
bie
|
||||
c
|
||||
ca
|
||||
cdo
|
||||
cfare
|
||||
cila
|
||||
cilat
|
||||
cilave
|
||||
cilen
|
||||
ciles
|
||||
cilet
|
||||
cili
|
||||
cilin
|
||||
cilit
|
||||
deri
|
||||
dhe
|
||||
dic
|
||||
dicka
|
||||
dickaje
|
||||
dike
|
||||
dikujt
|
||||
dikush
|
||||
disa
|
||||
do
|
||||
dot
|
||||
drejt
|
||||
duke
|
||||
dy
|
||||
e
|
||||
edhe
|
||||
ende
|
||||
eshte
|
||||
etj
|
||||
fare
|
||||
gjate
|
||||
gje
|
||||
gjitha
|
||||
gjithcka
|
||||
gjithe
|
||||
gjithnje
|
||||
here
|
||||
i
|
||||
ia
|
||||
ishin
|
||||
ishte
|
||||
iu
|
||||
ja
|
||||
jam
|
||||
jane
|
||||
jap
|
||||
je
|
||||
jemi
|
||||
jo
|
||||
ju
|
||||
k
|
||||
ka
|
||||
kam
|
||||
kane
|
||||
kem
|
||||
kemi
|
||||
keq
|
||||
kesaj
|
||||
keshtu
|
||||
kete
|
||||
ketej
|
||||
ketij
|
||||
keto
|
||||
ketu
|
||||
ketyre
|
||||
kishin
|
||||
kishte
|
||||
kjo
|
||||
krejt
|
||||
kryer
|
||||
kryesisht
|
||||
kryhet
|
||||
ku
|
||||
kudo
|
||||
kundrejt
|
||||
kur
|
||||
kurre
|
||||
kush
|
||||
ky
|
||||
la
|
||||
le
|
||||
lloj
|
||||
m
|
||||
ma
|
||||
madhe
|
||||
marr
|
||||
marre
|
||||
mban
|
||||
mbi
|
||||
me
|
||||
menjehere
|
||||
merr
|
||||
merret
|
||||
mes
|
||||
mi
|
||||
midis
|
||||
mire
|
||||
mjaft
|
||||
mori
|
||||
mos
|
||||
mua
|
||||
mund
|
||||
na
|
||||
ndaj
|
||||
nder
|
||||
ndermjet
|
||||
ndersa
|
||||
ndonje
|
||||
ndryshe
|
||||
ne
|
||||
nen
|
||||
neper
|
||||
nepermjet
|
||||
nese
|
||||
nga
|
||||
nje
|
||||
njera
|
||||
nuk
|
||||
ose
|
||||
pa
|
||||
pak
|
||||
papritur
|
||||
para
|
||||
pas
|
||||
pasi
|
||||
pasur
|
||||
per
|
||||
perbashket
|
||||
perpara
|
||||
po
|
||||
por
|
||||
prane
|
||||
prapa
|
||||
prej
|
||||
pse
|
||||
qe
|
||||
qene
|
||||
qenet
|
||||
rralle
|
||||
rreth
|
||||
rri
|
||||
s
|
||||
sa
|
||||
saj
|
||||
sapo
|
||||
se
|
||||
secila
|
||||
sepse
|
||||
sh
|
||||
shih
|
||||
shume
|
||||
si
|
||||
sic
|
||||
sikur
|
||||
sipas
|
||||
siper
|
||||
sone
|
||||
t
|
||||
ta
|
||||
tani
|
||||
te
|
||||
tej
|
||||
tek
|
||||
teper
|
||||
tere
|
||||
ti
|
||||
tij
|
||||
tilla
|
||||
tille
|
||||
tjera
|
||||
tjeret
|
||||
tjeter
|
||||
tjetren
|
||||
to
|
||||
tone
|
||||
ty
|
||||
tyre
|
||||
u
|
||||
ua
|
||||
une
|
||||
vazhdimisht
|
||||
vend
|
||||
vet
|
||||
veta
|
||||
vete
|
||||
vetem
|
||||
veten
|
||||
vetes
|
||||
vjen
|
||||
yne
|
||||
zakonisht
|
||||
""".split()
|
||||
)
|
21
spacy/tests/lang/test_initialize.py
Normal file
21
spacy/tests/lang/test_initialize.py
Normal file
|
@ -0,0 +1,21 @@
|
|||
# coding: utf-8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
import pytest
|
||||
from spacy.util import get_lang_class
|
||||
|
||||
|
||||
# fmt: off
|
||||
# Only include languages with no external dependencies
|
||||
# excluded: ja, ru, th, uk, vi, zh
|
||||
LANGUAGES = ["af", "ar", "bg", "bn", "ca", "cs", "da", "de", "el", "en", "es",
|
||||
"et", "fa", "fi", "fr", "ga", "he", "hi", "hr", "hu", "id", "is",
|
||||
"it", "kn", "lt", "lv", "nb", "nl", "pl", "pt", "ro", "si", "sk",
|
||||
"sl", "sq", "sv", "ta", "te", "tl", "tr", "tt", "ur"]
|
||||
# fmt: on
|
||||
|
||||
|
||||
@pytest.mark.parametrize("lang", LANGUAGES)
|
||||
def test_lang_initialize(lang):
|
||||
"""Test that languages can be initialized."""
|
||||
lang_cls = get_lang_class(lang)()
|
Loading…
Reference in New Issue
Block a user