mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-30 20:06:30 +03:00
2e31921d0a
* Add base classes for more languages * Add test for language class initialization Make sure language can be initialize – otherwise, it's difficult to catch serious errors in the test suite, because languages are lazy-loaded
234 lines
1.2 KiB
Python
234 lines
1.2 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
# Source: https://github.com/andrixh/index-albanian
|
|
|
|
STOP_WORDS = set(
|
|
"""
|
|
a
|
|
afert
|
|
ai
|
|
ajo
|
|
andej
|
|
anes
|
|
aq
|
|
as
|
|
asaj
|
|
ashtu
|
|
ata
|
|
ate
|
|
atij
|
|
atje
|
|
ato
|
|
aty
|
|
atyre
|
|
b
|
|
be
|
|
behem
|
|
behet
|
|
bej
|
|
beje
|
|
bejne
|
|
ben
|
|
bene
|
|
bere
|
|
beri
|
|
bie
|
|
c
|
|
ca
|
|
cdo
|
|
cfare
|
|
cila
|
|
cilat
|
|
cilave
|
|
cilen
|
|
ciles
|
|
cilet
|
|
cili
|
|
cilin
|
|
cilit
|
|
deri
|
|
dhe
|
|
dic
|
|
dicka
|
|
dickaje
|
|
dike
|
|
dikujt
|
|
dikush
|
|
disa
|
|
do
|
|
dot
|
|
drejt
|
|
duke
|
|
dy
|
|
e
|
|
edhe
|
|
ende
|
|
eshte
|
|
etj
|
|
fare
|
|
gjate
|
|
gje
|
|
gjitha
|
|
gjithcka
|
|
gjithe
|
|
gjithnje
|
|
here
|
|
i
|
|
ia
|
|
ishin
|
|
ishte
|
|
iu
|
|
ja
|
|
jam
|
|
jane
|
|
jap
|
|
je
|
|
jemi
|
|
jo
|
|
ju
|
|
k
|
|
ka
|
|
kam
|
|
kane
|
|
kem
|
|
kemi
|
|
keq
|
|
kesaj
|
|
keshtu
|
|
kete
|
|
ketej
|
|
ketij
|
|
keto
|
|
ketu
|
|
ketyre
|
|
kishin
|
|
kishte
|
|
kjo
|
|
krejt
|
|
kryer
|
|
kryesisht
|
|
kryhet
|
|
ku
|
|
kudo
|
|
kundrejt
|
|
kur
|
|
kurre
|
|
kush
|
|
ky
|
|
la
|
|
le
|
|
lloj
|
|
m
|
|
ma
|
|
madhe
|
|
marr
|
|
marre
|
|
mban
|
|
mbi
|
|
me
|
|
menjehere
|
|
merr
|
|
merret
|
|
mes
|
|
mi
|
|
midis
|
|
mire
|
|
mjaft
|
|
mori
|
|
mos
|
|
mua
|
|
mund
|
|
na
|
|
ndaj
|
|
nder
|
|
ndermjet
|
|
ndersa
|
|
ndonje
|
|
ndryshe
|
|
ne
|
|
nen
|
|
neper
|
|
nepermjet
|
|
nese
|
|
nga
|
|
nje
|
|
njera
|
|
nuk
|
|
ose
|
|
pa
|
|
pak
|
|
papritur
|
|
para
|
|
pas
|
|
pasi
|
|
pasur
|
|
per
|
|
perbashket
|
|
perpara
|
|
po
|
|
por
|
|
prane
|
|
prapa
|
|
prej
|
|
pse
|
|
qe
|
|
qene
|
|
qenet
|
|
rralle
|
|
rreth
|
|
rri
|
|
s
|
|
sa
|
|
saj
|
|
sapo
|
|
se
|
|
secila
|
|
sepse
|
|
sh
|
|
shih
|
|
shume
|
|
si
|
|
sic
|
|
sikur
|
|
sipas
|
|
siper
|
|
sone
|
|
t
|
|
ta
|
|
tani
|
|
te
|
|
tej
|
|
tek
|
|
teper
|
|
tere
|
|
ti
|
|
tij
|
|
tilla
|
|
tille
|
|
tjera
|
|
tjeret
|
|
tjeter
|
|
tjetren
|
|
to
|
|
tone
|
|
ty
|
|
tyre
|
|
u
|
|
ua
|
|
une
|
|
vazhdimisht
|
|
vend
|
|
vet
|
|
veta
|
|
vete
|
|
vetem
|
|
veten
|
|
vetes
|
|
vjen
|
|
yne
|
|
zakonisht
|
|
""".split()
|
|
)
|