spaCy/spacy/lang/cs/stop_words.py

267 lines
1.6 KiB
Python
Raw Normal View History

# coding: utf8
from __future__ import unicode_literals
# Source: https://github.com/Alir3z4/stop-words
STOP_WORDS = set(
"""
ačkoli
ahoj
ale
anebo
ano
asi
aspoň
během
bez
beze
blízko
bohužel
brzo
bude
budeme
budeš
budete
budou
budu
byl
byla
byli
bylo
byly
bys
čau
chce
chceme
chceš
chcete
chci
chtějí
chtít
chut'
chuti
co
čtrnáct
čtyři
dál
dále
daleko
děkovat
děkujeme
děkuji
den
deset
devatenáct
devět
do
dobrý
docela
dva
dvacet
dvanáct
dvě
hodně
jak
jde
je
jeden
jedenáct
jedna
jedno
jednou
jedou
jeho
její
jejich
jemu
jen
jenom
ještě
jestli
jestliže
jich
jím
jimi
jinak
jsem
jsi
jsme
jsou
jste
kam
kde
kdo
kdy
když
ke
kolik
kromě
která
které
kteří
který
kvůli
mají
málo
mám
máme
máš
máte
mezi
mít
mně
mnou
moc
mohl
mohou
moje
moji
možná
můj
musí
může
my
na
nad
nade
nám
námi
naproti
nás
náš
naše
naši
ne
nebo
nebyl
nebyla
nebyli
nebyly
něco
nedělá
nedělají
nedělám
neděláme
neděláš
neděláte
nějak
nejsi
někde
někdo
nemají
nemáme
nemáte
neměl
němu
není
nestačí
nevadí
než
nic
nich
ním
nimi
nula
od
ode
on
ona
oni
ono
ony
osm
osmnáct
pak
patnáct
pět
po
pořád
potom
pozdě
před
přes
přese
pro
proč
prosím
prostě
proti
protože
rovně
se
sedm
sedmnáct
šest
šestnáct
skoro
smějí
smí
snad
spolu
sta
sté
sto
ta
tady
tak
takhle
taky
tam
tamhle
tamhleto
tamto
tebe
tebou
ted'
tedy
ten
ti
tisíc
tisíce
to
tobě
tohle
toto
třeba
tři
třináct
trošku
tvá
tvé
tvoje
tvůj
ty
určitě
vám
vámi
vás
váš
vaše
vaši
ve
večer
vedle
vlastně
všechno
všichni
vůbec
vy
vždy
za
zač
zatímco
ze
že
""".split()
)