mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-11-04 01:48:04 +03:00 
			
		
		
		
	* Add base classes for more languages * Add test for language class initialization Make sure language can be initialize – otherwise, it's difficult to catch serious errors in the test suite, because languages are lazy-loaded
		
			
				
	
	
		
			234 lines
		
	
	
		
			1.2 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			234 lines
		
	
	
		
			1.2 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
# coding: utf8
 | 
						|
from __future__ import unicode_literals
 | 
						|
 | 
						|
 | 
						|
# Source: https://github.com/andrixh/index-albanian
 | 
						|
 | 
						|
STOP_WORDS = set(
 | 
						|
    """
 | 
						|
a
 | 
						|
afert
 | 
						|
ai
 | 
						|
ajo
 | 
						|
andej
 | 
						|
anes
 | 
						|
aq
 | 
						|
as
 | 
						|
asaj
 | 
						|
ashtu
 | 
						|
ata
 | 
						|
ate
 | 
						|
atij
 | 
						|
atje
 | 
						|
ato
 | 
						|
aty
 | 
						|
atyre
 | 
						|
b
 | 
						|
be
 | 
						|
behem
 | 
						|
behet
 | 
						|
bej
 | 
						|
beje
 | 
						|
bejne
 | 
						|
ben
 | 
						|
bene
 | 
						|
bere
 | 
						|
beri
 | 
						|
bie
 | 
						|
c
 | 
						|
ca
 | 
						|
cdo
 | 
						|
cfare
 | 
						|
cila
 | 
						|
cilat
 | 
						|
cilave
 | 
						|
cilen
 | 
						|
ciles
 | 
						|
cilet
 | 
						|
cili
 | 
						|
cilin
 | 
						|
cilit
 | 
						|
deri
 | 
						|
dhe
 | 
						|
dic
 | 
						|
dicka
 | 
						|
dickaje
 | 
						|
dike
 | 
						|
dikujt
 | 
						|
dikush
 | 
						|
disa
 | 
						|
do
 | 
						|
dot
 | 
						|
drejt
 | 
						|
duke
 | 
						|
dy
 | 
						|
e
 | 
						|
edhe
 | 
						|
ende
 | 
						|
eshte
 | 
						|
etj
 | 
						|
fare
 | 
						|
gjate
 | 
						|
gje
 | 
						|
gjitha
 | 
						|
gjithcka
 | 
						|
gjithe
 | 
						|
gjithnje
 | 
						|
here
 | 
						|
i
 | 
						|
ia
 | 
						|
ishin
 | 
						|
ishte
 | 
						|
iu
 | 
						|
ja
 | 
						|
jam
 | 
						|
jane
 | 
						|
jap
 | 
						|
je
 | 
						|
jemi
 | 
						|
jo
 | 
						|
ju
 | 
						|
k
 | 
						|
ka
 | 
						|
kam
 | 
						|
kane
 | 
						|
kem
 | 
						|
kemi
 | 
						|
keq
 | 
						|
kesaj
 | 
						|
keshtu
 | 
						|
kete
 | 
						|
ketej
 | 
						|
ketij
 | 
						|
keto
 | 
						|
ketu
 | 
						|
ketyre
 | 
						|
kishin
 | 
						|
kishte
 | 
						|
kjo
 | 
						|
krejt
 | 
						|
kryer
 | 
						|
kryesisht
 | 
						|
kryhet
 | 
						|
ku
 | 
						|
kudo
 | 
						|
kundrejt
 | 
						|
kur
 | 
						|
kurre
 | 
						|
kush
 | 
						|
ky
 | 
						|
la
 | 
						|
le
 | 
						|
lloj
 | 
						|
m
 | 
						|
ma
 | 
						|
madhe
 | 
						|
marr
 | 
						|
marre
 | 
						|
mban
 | 
						|
mbi
 | 
						|
me
 | 
						|
menjehere
 | 
						|
merr
 | 
						|
merret
 | 
						|
mes
 | 
						|
mi
 | 
						|
midis
 | 
						|
mire
 | 
						|
mjaft
 | 
						|
mori
 | 
						|
mos
 | 
						|
mua
 | 
						|
mund
 | 
						|
na
 | 
						|
ndaj
 | 
						|
nder
 | 
						|
ndermjet
 | 
						|
ndersa
 | 
						|
ndonje
 | 
						|
ndryshe
 | 
						|
ne
 | 
						|
nen
 | 
						|
neper
 | 
						|
nepermjet
 | 
						|
nese
 | 
						|
nga
 | 
						|
nje
 | 
						|
njera
 | 
						|
nuk
 | 
						|
ose
 | 
						|
pa
 | 
						|
pak
 | 
						|
papritur
 | 
						|
para
 | 
						|
pas
 | 
						|
pasi
 | 
						|
pasur
 | 
						|
per
 | 
						|
perbashket
 | 
						|
perpara
 | 
						|
po
 | 
						|
por
 | 
						|
prane
 | 
						|
prapa
 | 
						|
prej
 | 
						|
pse
 | 
						|
qe
 | 
						|
qene
 | 
						|
qenet
 | 
						|
rralle
 | 
						|
rreth
 | 
						|
rri
 | 
						|
s
 | 
						|
sa
 | 
						|
saj
 | 
						|
sapo
 | 
						|
se
 | 
						|
secila
 | 
						|
sepse
 | 
						|
sh
 | 
						|
shih
 | 
						|
shume
 | 
						|
si
 | 
						|
sic
 | 
						|
sikur
 | 
						|
sipas
 | 
						|
siper
 | 
						|
sone
 | 
						|
t
 | 
						|
ta
 | 
						|
tani
 | 
						|
te
 | 
						|
tej
 | 
						|
tek
 | 
						|
teper
 | 
						|
tere
 | 
						|
ti
 | 
						|
tij
 | 
						|
tilla
 | 
						|
tille
 | 
						|
tjera
 | 
						|
tjeret
 | 
						|
tjeter
 | 
						|
tjetren
 | 
						|
to
 | 
						|
tone
 | 
						|
ty
 | 
						|
tyre
 | 
						|
u
 | 
						|
ua
 | 
						|
une
 | 
						|
vazhdimisht
 | 
						|
vend
 | 
						|
vet
 | 
						|
veta
 | 
						|
vete
 | 
						|
vetem
 | 
						|
veten
 | 
						|
vetes
 | 
						|
vjen
 | 
						|
yne
 | 
						|
zakonisht
 | 
						|
""".split()
 | 
						|
)
 |