mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-14 21:57:15 +03:00
232 lines
1.2 KiB
Python
232 lines
1.2 KiB
Python
|
# coding: utf8
|
|||
|
from __future__ import unicode_literals
|
|||
|
|
|||
|
|
|||
|
# Source: https://github.com/stopwords-iso/stopwords-sk
|
|||
|
|
|||
|
STOP_WORDS = set(
|
|||
|
"""
|
|||
|
a
|
|||
|
aby
|
|||
|
aj
|
|||
|
ak
|
|||
|
ako
|
|||
|
aký
|
|||
|
ale
|
|||
|
alebo
|
|||
|
and
|
|||
|
ani
|
|||
|
asi
|
|||
|
avšak
|
|||
|
až
|
|||
|
ba
|
|||
|
bez
|
|||
|
bol
|
|||
|
bola
|
|||
|
boli
|
|||
|
bolo
|
|||
|
bude
|
|||
|
budem
|
|||
|
budeme
|
|||
|
budete
|
|||
|
budeš
|
|||
|
budú
|
|||
|
buï
|
|||
|
buď
|
|||
|
by
|
|||
|
byť
|
|||
|
cez
|
|||
|
dnes
|
|||
|
do
|
|||
|
ešte
|
|||
|
for
|
|||
|
ho
|
|||
|
hoci
|
|||
|
i
|
|||
|
iba
|
|||
|
ich
|
|||
|
im
|
|||
|
iné
|
|||
|
iný
|
|||
|
ja
|
|||
|
je
|
|||
|
jeho
|
|||
|
jej
|
|||
|
jemu
|
|||
|
ju
|
|||
|
k
|
|||
|
kam
|
|||
|
každá
|
|||
|
každé
|
|||
|
každí
|
|||
|
každý
|
|||
|
kde
|
|||
|
kedže
|
|||
|
keï
|
|||
|
keď
|
|||
|
kto
|
|||
|
ktorou
|
|||
|
ktorá
|
|||
|
ktoré
|
|||
|
ktorí
|
|||
|
ktorý
|
|||
|
ku
|
|||
|
lebo
|
|||
|
len
|
|||
|
ma
|
|||
|
mať
|
|||
|
medzi
|
|||
|
menej
|
|||
|
mi
|
|||
|
mna
|
|||
|
mne
|
|||
|
mnou
|
|||
|
moja
|
|||
|
moje
|
|||
|
mu
|
|||
|
musieť
|
|||
|
my
|
|||
|
má
|
|||
|
máte
|
|||
|
mòa
|
|||
|
môcť
|
|||
|
môj
|
|||
|
môže
|
|||
|
na
|
|||
|
nad
|
|||
|
nami
|
|||
|
naši
|
|||
|
nech
|
|||
|
neho
|
|||
|
nej
|
|||
|
nemu
|
|||
|
než
|
|||
|
nich
|
|||
|
nie
|
|||
|
niektorý
|
|||
|
nielen
|
|||
|
nim
|
|||
|
nič
|
|||
|
no
|
|||
|
nová
|
|||
|
nové
|
|||
|
noví
|
|||
|
nový
|
|||
|
nám
|
|||
|
nás
|
|||
|
náš
|
|||
|
ním
|
|||
|
o
|
|||
|
od
|
|||
|
odo
|
|||
|
of
|
|||
|
on
|
|||
|
ona
|
|||
|
oni
|
|||
|
ono
|
|||
|
ony
|
|||
|
po
|
|||
|
pod
|
|||
|
podľa
|
|||
|
pokiaľ
|
|||
|
potom
|
|||
|
pre
|
|||
|
pred
|
|||
|
predo
|
|||
|
preto
|
|||
|
pretože
|
|||
|
prečo
|
|||
|
pri
|
|||
|
prvá
|
|||
|
prvé
|
|||
|
prví
|
|||
|
prvý
|
|||
|
práve
|
|||
|
pýta
|
|||
|
s
|
|||
|
sa
|
|||
|
seba
|
|||
|
sem
|
|||
|
si
|
|||
|
sme
|
|||
|
so
|
|||
|
som
|
|||
|
späť
|
|||
|
ste
|
|||
|
svoj
|
|||
|
svoje
|
|||
|
svojich
|
|||
|
svojím
|
|||
|
svojími
|
|||
|
sú
|
|||
|
ta
|
|||
|
tak
|
|||
|
taký
|
|||
|
takže
|
|||
|
tam
|
|||
|
te
|
|||
|
teba
|
|||
|
tebe
|
|||
|
tebou
|
|||
|
teda
|
|||
|
tej
|
|||
|
ten
|
|||
|
tento
|
|||
|
the
|
|||
|
ti
|
|||
|
tie
|
|||
|
tieto
|
|||
|
tiež
|
|||
|
to
|
|||
|
toho
|
|||
|
tohoto
|
|||
|
tom
|
|||
|
tomto
|
|||
|
tomu
|
|||
|
tomuto
|
|||
|
toto
|
|||
|
tou
|
|||
|
tu
|
|||
|
tvoj
|
|||
|
tvojími
|
|||
|
ty
|
|||
|
tá
|
|||
|
táto
|
|||
|
tú
|
|||
|
túto
|
|||
|
tým
|
|||
|
týmto
|
|||
|
tě
|
|||
|
už
|
|||
|
v
|
|||
|
vami
|
|||
|
vaše
|
|||
|
veï
|
|||
|
viac
|
|||
|
vo
|
|||
|
vy
|
|||
|
vám
|
|||
|
vás
|
|||
|
váš
|
|||
|
však
|
|||
|
všetok
|
|||
|
z
|
|||
|
za
|
|||
|
zo
|
|||
|
a
|
|||
|
áno
|
|||
|
èi
|
|||
|
èo
|
|||
|
èí
|
|||
|
òom
|
|||
|
òou
|
|||
|
òu
|
|||
|
či
|
|||
|
čo
|
|||
|
ďalšia
|
|||
|
ďalšie
|
|||
|
ďalší
|
|||
|
že
|
|||
|
""".split()
|
|||
|
)
|