mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-16 06:37:04 +03:00
a341b4ef09
* Create lex_attrs.py Hello, I am missing a CZECH language in SpaCy. So I would like to help to push it a little. This file is base on others lex_attrs.py files just with translation to Czech. * Update __init__.py Updated for use with new Czech Lex_attrs file * Update stop_words.py * Create test_text.py Co-authored-by: Vladimír Holubec <vholubec@arcdata.cz>
369 lines
2.3 KiB
Python
369 lines
2.3 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
# Source: https://github.com/Alir3z4/stop-words
|
|
# Source: https://github.com/stopwords-iso/stopwords-cs/blob/master/stopwords-cs.txt
|
|
|
|
STOP_WORDS = set(
|
|
"""
|
|
a
|
|
aby
|
|
ahoj
|
|
ačkoli
|
|
ale
|
|
alespoň
|
|
anebo
|
|
ani
|
|
aniž
|
|
ano
|
|
atd.
|
|
atp.
|
|
asi
|
|
aspoň
|
|
až
|
|
během
|
|
bez
|
|
beze
|
|
blízko
|
|
bohužel
|
|
brzo
|
|
bude
|
|
budeme
|
|
budeš
|
|
budete
|
|
budou
|
|
budu
|
|
by
|
|
byl
|
|
byla
|
|
byli
|
|
bylo
|
|
byly
|
|
bys
|
|
být
|
|
čau
|
|
chce
|
|
chceme
|
|
chceš
|
|
chcete
|
|
chci
|
|
chtějí
|
|
chtít
|
|
chuť
|
|
chuti
|
|
co
|
|
což
|
|
cz
|
|
či
|
|
článek
|
|
článku
|
|
články
|
|
čtrnáct
|
|
čtyři
|
|
dál
|
|
dále
|
|
daleko
|
|
další
|
|
děkovat
|
|
děkujeme
|
|
děkuji
|
|
den
|
|
deset
|
|
devatenáct
|
|
devět
|
|
dnes
|
|
do
|
|
dobrý
|
|
docela
|
|
dva
|
|
dvacet
|
|
dvanáct
|
|
dvě
|
|
email
|
|
ho
|
|
hodně
|
|
i
|
|
já
|
|
jak
|
|
jakmile
|
|
jako
|
|
jakož
|
|
jde
|
|
je
|
|
jeden
|
|
jedenáct
|
|
jedna
|
|
jedno
|
|
jednou
|
|
jedou
|
|
jeho
|
|
jehož
|
|
jej
|
|
její
|
|
jejich
|
|
jejichž
|
|
jehož
|
|
jelikož
|
|
jemu
|
|
jen
|
|
jenom
|
|
jenž
|
|
jež
|
|
ještě
|
|
jestli
|
|
jestliže
|
|
ještě
|
|
ji
|
|
jí
|
|
jich
|
|
jím
|
|
jim
|
|
jimi
|
|
jinak
|
|
jiné
|
|
již
|
|
jsi
|
|
jsme
|
|
jsem
|
|
jsou
|
|
jste
|
|
k
|
|
kam
|
|
každý
|
|
kde
|
|
kdo
|
|
kdy
|
|
když
|
|
ke
|
|
kolik
|
|
kromě
|
|
která
|
|
kterak
|
|
kterou
|
|
které
|
|
kteří
|
|
který
|
|
kvůli
|
|
ku
|
|
má
|
|
mají
|
|
málo
|
|
mám
|
|
máme
|
|
máš
|
|
máte
|
|
mé
|
|
mě
|
|
mezi
|
|
mi
|
|
mí
|
|
mít
|
|
mne
|
|
mně
|
|
mnou
|
|
moc
|
|
mohl
|
|
mohou
|
|
moje
|
|
moji
|
|
možná
|
|
můj
|
|
musí
|
|
může
|
|
my
|
|
na
|
|
nad
|
|
nade
|
|
nám
|
|
námi
|
|
naproti
|
|
nás
|
|
náš
|
|
naše
|
|
naši
|
|
načež
|
|
ne
|
|
ně
|
|
nebo
|
|
nebyl
|
|
nebyla
|
|
nebyli
|
|
nebyly
|
|
nechť
|
|
něco
|
|
nedělá
|
|
nedělají
|
|
nedělám
|
|
neděláme
|
|
neděláš
|
|
neděláte
|
|
nějak
|
|
nejsi
|
|
nejsou
|
|
někde
|
|
někdo
|
|
nemají
|
|
nemáme
|
|
nemáte
|
|
neměl
|
|
němu
|
|
němuž
|
|
není
|
|
nestačí
|
|
ně
|
|
nevadí
|
|
nové
|
|
nový
|
|
noví
|
|
než
|
|
nic
|
|
nich
|
|
ní
|
|
ním
|
|
nimi
|
|
nula
|
|
o
|
|
od
|
|
ode
|
|
on
|
|
ona
|
|
oni
|
|
ono
|
|
ony
|
|
osm
|
|
osmnáct
|
|
pak
|
|
patnáct
|
|
pět
|
|
po
|
|
pod
|
|
pokud
|
|
pořád
|
|
pouze
|
|
potom
|
|
pozdě
|
|
pravé
|
|
před
|
|
přede
|
|
přes
|
|
přece
|
|
pro
|
|
proč
|
|
prosím
|
|
prostě
|
|
proto
|
|
proti
|
|
první
|
|
právě
|
|
protože
|
|
při
|
|
přičemž
|
|
rovně
|
|
s
|
|
se
|
|
sedm
|
|
sedmnáct
|
|
si
|
|
sice
|
|
skoro
|
|
sic
|
|
šest
|
|
šestnáct
|
|
skoro
|
|
smějí
|
|
smí
|
|
snad
|
|
spolu
|
|
sta
|
|
svůj
|
|
své
|
|
svá
|
|
svých
|
|
svým
|
|
svými
|
|
svůj
|
|
sté
|
|
sto
|
|
strana
|
|
ta
|
|
tady
|
|
tak
|
|
takhle
|
|
taky
|
|
také
|
|
takže
|
|
tam
|
|
támhle
|
|
támhleto
|
|
tamto
|
|
tě
|
|
tebe
|
|
tebou
|
|
teď
|
|
tedy
|
|
ten
|
|
tento
|
|
této
|
|
ti
|
|
tím
|
|
tímto
|
|
tisíc
|
|
tisíce
|
|
to
|
|
tobě
|
|
tohle
|
|
tohoto
|
|
tom
|
|
tomto
|
|
tomu
|
|
tomuto
|
|
toto
|
|
třeba
|
|
tři
|
|
třináct
|
|
trošku
|
|
trochu
|
|
tu
|
|
tuto
|
|
tvá
|
|
tvé
|
|
tvoje
|
|
tvůj
|
|
ty
|
|
tyto
|
|
těm
|
|
těma
|
|
těmi
|
|
u
|
|
určitě
|
|
už
|
|
v
|
|
vám
|
|
vámi
|
|
vás
|
|
váš
|
|
vaše
|
|
vaši
|
|
ve
|
|
večer
|
|
vedle
|
|
více
|
|
vlastně
|
|
však
|
|
všechen
|
|
všechno
|
|
všichni
|
|
vůbec
|
|
vy
|
|
vždy
|
|
z
|
|
zda
|
|
za
|
|
zde
|
|
zač
|
|
zatímco
|
|
ze
|
|
že
|
|
""".split()
|
|
)
|