mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-11-04 01:48:04 +03:00 
			
		
		
		
	* Add base classes for more languages * Add test for language class initialization Make sure language can be initialize – otherwise, it's difficult to catch serious errors in the test suite, because languages are lazy-loaded
		
			
				
	
	
		
			267 lines
		
	
	
		
			1.6 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			267 lines
		
	
	
		
			1.6 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
# coding: utf8
 | 
						|
from __future__ import unicode_literals
 | 
						|
 | 
						|
 | 
						|
# Source: https://github.com/Alir3z4/stop-words
 | 
						|
 | 
						|
STOP_WORDS = set(
 | 
						|
    """
 | 
						|
ačkoli
 | 
						|
ahoj
 | 
						|
ale
 | 
						|
anebo
 | 
						|
ano
 | 
						|
asi
 | 
						|
aspoň
 | 
						|
během
 | 
						|
bez
 | 
						|
beze
 | 
						|
blízko
 | 
						|
bohužel
 | 
						|
brzo
 | 
						|
bude
 | 
						|
budeme
 | 
						|
budeš
 | 
						|
budete
 | 
						|
budou
 | 
						|
budu
 | 
						|
byl
 | 
						|
byla
 | 
						|
byli
 | 
						|
bylo
 | 
						|
byly
 | 
						|
bys
 | 
						|
čau
 | 
						|
chce
 | 
						|
chceme
 | 
						|
chceš
 | 
						|
chcete
 | 
						|
chci
 | 
						|
chtějí
 | 
						|
chtít
 | 
						|
chut'
 | 
						|
chuti
 | 
						|
co
 | 
						|
čtrnáct
 | 
						|
čtyři
 | 
						|
dál
 | 
						|
dále
 | 
						|
daleko
 | 
						|
děkovat
 | 
						|
děkujeme
 | 
						|
děkuji
 | 
						|
den
 | 
						|
deset
 | 
						|
devatenáct
 | 
						|
devět
 | 
						|
do
 | 
						|
dobrý
 | 
						|
docela
 | 
						|
dva
 | 
						|
dvacet
 | 
						|
dvanáct
 | 
						|
dvě
 | 
						|
hodně
 | 
						|
já
 | 
						|
jak
 | 
						|
jde
 | 
						|
je
 | 
						|
jeden
 | 
						|
jedenáct
 | 
						|
jedna
 | 
						|
jedno
 | 
						|
jednou
 | 
						|
jedou
 | 
						|
jeho
 | 
						|
její
 | 
						|
jejich
 | 
						|
jemu
 | 
						|
jen
 | 
						|
jenom
 | 
						|
ještě
 | 
						|
jestli
 | 
						|
jestliže
 | 
						|
jí
 | 
						|
jich
 | 
						|
jím
 | 
						|
jimi
 | 
						|
jinak
 | 
						|
jsem
 | 
						|
jsi
 | 
						|
jsme
 | 
						|
jsou
 | 
						|
jste
 | 
						|
kam
 | 
						|
kde
 | 
						|
kdo
 | 
						|
kdy
 | 
						|
když
 | 
						|
ke
 | 
						|
kolik
 | 
						|
kromě
 | 
						|
která
 | 
						|
které
 | 
						|
kteří
 | 
						|
který
 | 
						|
kvůli
 | 
						|
má
 | 
						|
mají
 | 
						|
málo
 | 
						|
mám
 | 
						|
máme
 | 
						|
máš
 | 
						|
máte
 | 
						|
mé
 | 
						|
mě
 | 
						|
mezi
 | 
						|
mí
 | 
						|
mít
 | 
						|
mně
 | 
						|
mnou
 | 
						|
moc
 | 
						|
mohl
 | 
						|
mohou
 | 
						|
moje
 | 
						|
moji
 | 
						|
možná
 | 
						|
můj
 | 
						|
musí
 | 
						|
může
 | 
						|
my
 | 
						|
na
 | 
						|
nad
 | 
						|
nade
 | 
						|
nám
 | 
						|
námi
 | 
						|
naproti
 | 
						|
nás
 | 
						|
náš
 | 
						|
naše
 | 
						|
naši
 | 
						|
ne
 | 
						|
ně
 | 
						|
nebo
 | 
						|
nebyl
 | 
						|
nebyla
 | 
						|
nebyli
 | 
						|
nebyly
 | 
						|
něco
 | 
						|
nedělá
 | 
						|
nedělají
 | 
						|
nedělám
 | 
						|
neděláme
 | 
						|
neděláš
 | 
						|
neděláte
 | 
						|
nějak
 | 
						|
nejsi
 | 
						|
někde
 | 
						|
někdo
 | 
						|
nemají
 | 
						|
nemáme
 | 
						|
nemáte
 | 
						|
neměl
 | 
						|
němu
 | 
						|
není
 | 
						|
nestačí
 | 
						|
nevadí
 | 
						|
než
 | 
						|
nic
 | 
						|
nich
 | 
						|
ním
 | 
						|
nimi
 | 
						|
nula
 | 
						|
od
 | 
						|
ode
 | 
						|
on
 | 
						|
ona
 | 
						|
oni
 | 
						|
ono
 | 
						|
ony
 | 
						|
osm
 | 
						|
osmnáct
 | 
						|
pak
 | 
						|
patnáct
 | 
						|
pět
 | 
						|
po
 | 
						|
pořád
 | 
						|
potom
 | 
						|
pozdě
 | 
						|
před
 | 
						|
přes
 | 
						|
přese
 | 
						|
pro
 | 
						|
proč
 | 
						|
prosím
 | 
						|
prostě
 | 
						|
proti
 | 
						|
protože
 | 
						|
rovně
 | 
						|
se
 | 
						|
sedm
 | 
						|
sedmnáct
 | 
						|
šest
 | 
						|
šestnáct
 | 
						|
skoro
 | 
						|
smějí
 | 
						|
smí
 | 
						|
snad
 | 
						|
spolu
 | 
						|
sta
 | 
						|
sté
 | 
						|
sto
 | 
						|
ta
 | 
						|
tady
 | 
						|
tak
 | 
						|
takhle
 | 
						|
taky
 | 
						|
tam
 | 
						|
tamhle
 | 
						|
tamhleto
 | 
						|
tamto
 | 
						|
tě
 | 
						|
tebe
 | 
						|
tebou
 | 
						|
ted'
 | 
						|
tedy
 | 
						|
ten
 | 
						|
ti
 | 
						|
tisíc
 | 
						|
tisíce
 | 
						|
to
 | 
						|
tobě
 | 
						|
tohle
 | 
						|
toto
 | 
						|
třeba
 | 
						|
tři
 | 
						|
třináct
 | 
						|
trošku
 | 
						|
tvá
 | 
						|
tvé
 | 
						|
tvoje
 | 
						|
tvůj
 | 
						|
ty
 | 
						|
určitě
 | 
						|
už
 | 
						|
vám
 | 
						|
vámi
 | 
						|
vás
 | 
						|
váš
 | 
						|
vaše
 | 
						|
vaši
 | 
						|
ve
 | 
						|
večer
 | 
						|
vedle
 | 
						|
vlastně
 | 
						|
všechno
 | 
						|
všichni
 | 
						|
vůbec
 | 
						|
vy
 | 
						|
vždy
 | 
						|
za
 | 
						|
zač
 | 
						|
zatímco
 | 
						|
ze
 | 
						|
že
 | 
						|
""".split()
 | 
						|
)
 |