mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-15 22:27:12 +03:00
eddeb36c96
<!--- Provide a general summary of your changes in the title. --> ## Description - [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files. - [x] Update flake8 config to exclude very large files (lemmatization tables etc.) - [x] Update code to be compatible with flake8 rules - [x] Fix various small bugs, inconsistencies and messy stuff in the language data - [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means) Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results. At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information. ### Types of change enhancement, code style ## Checklist <!--- Before you submit the PR, go over this checklist and make sure you can tick off all the boxes. [] -> [x] --> - [x] I have submitted the spaCy Contributor Agreement. - [x] I ran the tests, and all new and existing tests passed. - [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
349 lines
2.0 KiB
Python
349 lines
2.0 KiB
Python
# encoding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
# Source: https://github.com/stopwords-iso/stopwords-hr
|
|
STOP_WORDS = set(
|
|
"""
|
|
a
|
|
ah
|
|
aha
|
|
aj
|
|
ako
|
|
al
|
|
ali
|
|
arh
|
|
au
|
|
avaj
|
|
bar
|
|
baš
|
|
bez
|
|
bi
|
|
bih
|
|
bijah
|
|
bijahu
|
|
bijaše
|
|
bijasmo
|
|
bijaste
|
|
bila
|
|
bili
|
|
bilo
|
|
bio
|
|
bismo
|
|
biste
|
|
biti
|
|
brr
|
|
buć
|
|
budavši
|
|
bude
|
|
budimo
|
|
budite
|
|
budu
|
|
budući
|
|
bum
|
|
bumo
|
|
će
|
|
ćemo
|
|
ćeš
|
|
ćete
|
|
čijem
|
|
čijim
|
|
čijima
|
|
ću
|
|
da
|
|
daj
|
|
dakle
|
|
de
|
|
deder
|
|
dem
|
|
djelomice
|
|
djelomično
|
|
do
|
|
doista
|
|
dok
|
|
dokle
|
|
donekle
|
|
dosad
|
|
doskoro
|
|
dotad
|
|
dotle
|
|
dovečer
|
|
drugamo
|
|
drugdje
|
|
duž
|
|
e
|
|
eh
|
|
ehe
|
|
ej
|
|
eno
|
|
eto
|
|
evo
|
|
ga
|
|
gdjekakav
|
|
gdjekoje
|
|
gic
|
|
god
|
|
halo
|
|
hej
|
|
hm
|
|
hoće
|
|
hoćemo
|
|
hoćeš
|
|
hoćete
|
|
hoću
|
|
hop
|
|
htijahu
|
|
htijasmo
|
|
htijaste
|
|
htio
|
|
htjedoh
|
|
htjedoše
|
|
htjedoste
|
|
htjela
|
|
htjele
|
|
htjeli
|
|
hura
|
|
i
|
|
iako
|
|
ih
|
|
iju
|
|
ijuju
|
|
ikada
|
|
ikakav
|
|
ikakva
|
|
ikakve
|
|
ikakvi
|
|
ikakvih
|
|
ikakvim
|
|
ikakvima
|
|
ikakvo
|
|
ikakvog
|
|
ikakvoga
|
|
ikakvoj
|
|
ikakvom
|
|
ikakvome
|
|
ili
|
|
im
|
|
iz
|
|
ja
|
|
je
|
|
jedna
|
|
jedne
|
|
jedni
|
|
jedno
|
|
jer
|
|
jesam
|
|
jesi
|
|
jesmo
|
|
jest
|
|
jeste
|
|
jesu
|
|
jim
|
|
joj
|
|
još
|
|
ju
|
|
kada
|
|
kako
|
|
kao
|
|
koja
|
|
koje
|
|
koji
|
|
kojima
|
|
koju
|
|
kroz
|
|
lani
|
|
li
|
|
me
|
|
mene
|
|
meni
|
|
mi
|
|
mimo
|
|
moj
|
|
moja
|
|
moje
|
|
moji
|
|
moju
|
|
mu
|
|
na
|
|
nad
|
|
nakon
|
|
nam
|
|
nama
|
|
nas
|
|
naš
|
|
naša
|
|
naše
|
|
našeg
|
|
naši
|
|
ne
|
|
neće
|
|
nećemo
|
|
nećeš
|
|
nećete
|
|
neću
|
|
nego
|
|
neka
|
|
neke
|
|
neki
|
|
nekog
|
|
neku
|
|
nema
|
|
nešto
|
|
netko
|
|
ni
|
|
nije
|
|
nikoga
|
|
nikoje
|
|
nikoji
|
|
nikoju
|
|
nisam
|
|
nisi
|
|
nismo
|
|
niste
|
|
nisu
|
|
njega
|
|
njegov
|
|
njegova
|
|
njegovo
|
|
njemu
|
|
njezin
|
|
njezina
|
|
njezino
|
|
njih
|
|
njihov
|
|
njihova
|
|
njihovo
|
|
njim
|
|
njima
|
|
njoj
|
|
nju
|
|
no
|
|
o
|
|
od
|
|
odmah
|
|
on
|
|
ona
|
|
one
|
|
oni
|
|
ono
|
|
onu
|
|
onoj
|
|
onom
|
|
onim
|
|
onima
|
|
ova
|
|
ovaj
|
|
ovim
|
|
ovima
|
|
ovoj
|
|
pa
|
|
pak
|
|
pljus
|
|
po
|
|
pod
|
|
podalje
|
|
poimence
|
|
poizdalje
|
|
ponekad
|
|
pored
|
|
postrance
|
|
potajice
|
|
potrbuške
|
|
pouzdano
|
|
prije
|
|
s
|
|
sa
|
|
sam
|
|
samo
|
|
sasvim
|
|
sav
|
|
se
|
|
sebe
|
|
sebi
|
|
si
|
|
šic
|
|
smo
|
|
ste
|
|
što
|
|
šta
|
|
štogod
|
|
štagod
|
|
su
|
|
sva
|
|
sve
|
|
svi
|
|
svi
|
|
svog
|
|
svoj
|
|
svoja
|
|
svoje
|
|
svoju
|
|
svom
|
|
svu
|
|
ta
|
|
tada
|
|
taj
|
|
tako
|
|
te
|
|
tebe
|
|
tebi
|
|
ti
|
|
tim
|
|
tima
|
|
to
|
|
toj
|
|
tome
|
|
tu
|
|
tvoj
|
|
tvoja
|
|
tvoje
|
|
tvoji
|
|
tvoju
|
|
u
|
|
usprkos
|
|
utaman
|
|
uvijek
|
|
uz
|
|
uza
|
|
uzagrapce
|
|
uzalud
|
|
uzduž
|
|
valjda
|
|
vam
|
|
vama
|
|
vas
|
|
vaš
|
|
vaša
|
|
vaše
|
|
vašim
|
|
vašima
|
|
već
|
|
vi
|
|
vjerojatno
|
|
vjerovatno
|
|
vrh
|
|
vrlo
|
|
za
|
|
zaista
|
|
zar
|
|
zatim
|
|
zato
|
|
zbija
|
|
zbog
|
|
želeći
|
|
željah
|
|
željela
|
|
željele
|
|
željeli
|
|
željelo
|
|
željen
|
|
željena
|
|
željene
|
|
željeni
|
|
željenu
|
|
željeo
|
|
zimus
|
|
zum
|
|
""".split()
|
|
)
|