mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-30 20:06:30 +03:00
eddeb36c96
<!--- Provide a general summary of your changes in the title. --> ## Description - [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files. - [x] Update flake8 config to exclude very large files (lemmatization tables etc.) - [x] Update code to be compatible with flake8 rules - [x] Fix various small bugs, inconsistencies and messy stuff in the language data - [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means) Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results. At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information. ### Types of change enhancement, code style ## Checklist <!--- Before you submit the PR, go over this checklist and make sure you can tick off all the boxes. [] -> [x] --> - [x] I have submitted the spaCy Contributor Agreement. - [x] I ran the tests, and all new and existing tests passed. - [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
115 lines
6.3 KiB
Python
115 lines
6.3 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
# Source https://github.com/stopwords-iso/stopwords-fi/blob/master/stopwords-fi.txt
|
|
# Reformatted with some minor corrections
|
|
STOP_WORDS = set(
|
|
"""
|
|
aiemmin aika aikaa aikaan aikaisemmin aikaisin aikana aikoina aikoo aikovat
|
|
aina ainakaan ainakin ainoa ainoat aiomme aion aiotte aivan ajan alas alemmas
|
|
alkuisin alkuun alla alle aloitamme aloitan aloitat aloitatte aloitattivat
|
|
aloitettava aloitettavaksi aloitettu aloitimme aloitin aloitit aloititte
|
|
aloittaa aloittamatta aloitti aloittivat alta aluksi alussa alusta annettavaksi
|
|
annettava annettu ansiosta antaa antamatta antoi apu asia asiaa asian asiasta
|
|
asiat asioiden asioihin asioita asti avuksi avulla avun avutta
|
|
|
|
edelle edelleen edellÀ edeltÀ edemmÀs edes edessÀ edestÀ ehkÀ ei eikÀ eilen
|
|
eivÀt eli ellei elleivÀt ellemme ellen ellet ellette emme en enemmÀn eniten
|
|
ennen ensi ensimmÀinen ensimmÀiseksi ensimmÀisen ensimmÀisenÀ ensimmÀiset
|
|
ensimmÀisiksi ensimmÀisinÀ ensimmÀisiÀ ensimmÀistÀ ensin entinen entisen
|
|
entisiÀ entisten entistÀ enÀÀ eri erittÀin erityisesti erÀiden erÀs erÀÀt esi
|
|
esiin esillÀ esimerkiksi et eteen etenkin ette ettei ettÀ
|
|
|
|
halua haluaa haluamatta haluamme haluan haluat haluatte haluavat halunnut
|
|
halusi halusimme halusin halusit halusitte halusivat halutessa haluton he hei
|
|
heidÀn heidÀt heihin heille heillÀ heiltÀ heissÀ heistÀ heitÀ helposti heti
|
|
hetkellÀ hieman hitaasti huolimatta huomenna hyvien hyviin hyviksi hyville
|
|
hyviltÀ hyvin hyvinÀ hyvissÀ hyvistÀ hyviÀ hyvÀ hyvÀt hyvÀÀ hÀn hÀneen hÀnelle
|
|
hÀnellÀ hÀneltÀ hÀnen hÀnessÀ hÀnestÀ hÀnet hÀntÀ
|
|
|
|
ihan ilman ilmeisesti itse itsensÀ itseÀÀn
|
|
|
|
ja jo johon joiden joihin joiksi joilla joille joilta joina joissa joista joita
|
|
joka jokainen jokin joko joksi joku jolla jolle jolloin jolta jompikumpi jona
|
|
jonka jonkin jonne joo jopa jos joskus jossa josta jota jotain joten jotenkin
|
|
jotenkuten jotka jotta jouduimme jouduin jouduit jouduitte joudumme joudun
|
|
joudutte joukkoon joukossa joukosta joutua joutui joutuivat joutumaan joutuu
|
|
joutuvat juuri jÀlkeen jÀlleen jÀÀ
|
|
|
|
kahdeksan kahdeksannen kahdella kahdelle kahdelta kahden kahdessa kahdesta
|
|
kahta kahteen kai kaiken kaikille kaikilta kaikkea kaikki kaikkia kaikkiaan
|
|
kaikkialla kaikkialle kaikkialta kaikkien kaikkiin kaksi kannalta kannattaa
|
|
kanssa kanssaan kanssamme kanssani kanssanne kanssasi kauan kauemmas kaukana
|
|
kautta kehen keiden keihin keiksi keille keillÀ keiltÀ keinÀ keissÀ keistÀ
|
|
keitten keittÀ keitÀ keneen keneksi kenelle kenellÀ keneltÀ kenen kenenÀ
|
|
kenessÀ kenestÀ kenet kenettÀ kenties kerran kerta kertaa keskellÀ kesken
|
|
keskimÀÀrin ketkÀ ketÀ kiitos kohti koko kokonaan kolmas kolme kolmen kolmesti
|
|
koska koskaan kovin kuin kuinka kuinkaan kuitenkaan kuitenkin kuka kukaan kukin
|
|
kumpainen kumpainenkaan kumpi kumpikaan kumpikin kun kuten kuuden kuusi kuutta
|
|
kylliksi kyllÀ kymmenen kyse
|
|
|
|
liian liki lisÀksi lisÀÀ lla luo luona lÀhekkÀin lÀhelle lÀhellÀ lÀheltÀ
|
|
lÀhemmÀs lÀhes lÀhinnÀ lÀhtien lÀpi
|
|
|
|
mahdollisimman mahdollista me meidÀn meidÀt meihin meille meillÀ meiltÀ meissÀ
|
|
meistÀ meitÀ melkein melko menee menemme menen menet menette menevÀt meni
|
|
menimme menin menit menivÀt mennessÀ mennyt menossa mihin miksi mikÀ mikÀli
|
|
mikÀÀn mille milloin milloinkan millÀ miltÀ minkÀ minne minua minulla minulle
|
|
minulta minun minussa minusta minut minuun minÀ missÀ mistÀ miten mitkÀ mitÀ
|
|
mitÀÀn moi molemmat mones monesti monet moni moniaalla moniaalle moniaalta
|
|
monta muassa muiden muita muka mukaan mukaansa mukana mutta muu muualla muualle
|
|
muualta muuanne muulloin muun muut muuta muutama muutaman muuten myöhemmin myös
|
|
myöskin myöskÀÀn myötÀ
|
|
|
|
ne neljÀ neljÀn neljÀÀ niiden niihin niiksi niille niillÀ niiltÀ niin niinÀ
|
|
niissÀ niistÀ niitÀ noiden noihin noiksi noilla noille noilta noin noina noissa
|
|
noista noita nopeammin nopeasti nopeiten nro nuo nyt nÀiden nÀihin nÀiksi
|
|
nÀille nÀillÀ nÀiltÀ nÀin nÀinÀ nÀissÀ nÀistÀ nÀitÀ nÀmÀ
|
|
|
|
ohi oikea oikealla oikein ole olemme olen olet olette oleva olevan olevat oli
|
|
olimme olin olisi olisimme olisin olisit olisitte olisivat olit olitte olivat
|
|
olla olleet ollut oma omaa omaan omaksi omalle omalta oman omassa omat omia
|
|
omien omiin omiksi omille omilta omissa omista on onkin onko ovat
|
|
|
|
paikoittain paitsi pakosti paljon paremmin parempi parhaillaan parhaiten
|
|
perusteella perÀti pian pieneen pieneksi pienelle pienellÀ pieneltÀ pienempi
|
|
pienestÀ pieni pienin poikki puolesta puolestaan pÀÀlle
|
|
|
|
runsaasti
|
|
|
|
saakka sama samaa samaan samalla saman samat samoin satojen se
|
|
seitsemÀn sekÀ sen seuraavat siellÀ sieltÀ siihen siinÀ siis siitÀ sijaan siksi
|
|
sille silloin sillÀ silti siltÀ sinne sinua sinulla sinulle sinulta sinun
|
|
sinussa sinusta sinut sinuun sinÀ sisÀkkÀin sisÀllÀ siten sitten sitÀ ssa sta
|
|
suoraan suuntaan suuren suuret suuri suuria suurin suurten
|
|
|
|
taa taas taemmas tahansa tai takaa takaisin takana takia tallÀ tapauksessa
|
|
tarpeeksi tavalla tavoitteena te teidÀn teidÀt teihin teille teillÀ teiltÀ
|
|
teissÀ teistÀ teitÀ tietysti todella toinen toisaalla toisaalle toisaalta
|
|
toiseen toiseksi toisella toiselle toiselta toisemme toisen toisensa toisessa
|
|
toisesta toista toistaiseksi toki tosin tule tulee tulemme tulen
|
|
tulet tulette tulevat tulimme tulin tulisi tulisimme tulisin tulisit tulisitte
|
|
tulisivat tulit tulitte tulivat tulla tulleet tullut tuntuu tuo tuohon tuoksi
|
|
tuolla tuolle tuolloin tuolta tuon tuona tuonne tuossa tuosta tuota tuskin tykö
|
|
tÀhÀn tÀksi tÀlle tÀllÀ tÀllöin tÀltÀ tÀmÀ tÀmÀn tÀnne tÀnÀ tÀnÀÀn tÀssÀ tÀstÀ
|
|
tÀten tÀtÀ tÀysin tÀytyvÀt tÀytyy tÀÀllÀ tÀÀltÀ
|
|
|
|
ulkopuolella usea useasti useimmiten usein useita uudeksi uudelleen uuden uudet
|
|
uusi uusia uusien uusinta uuteen uutta
|
|
|
|
vaan vai vaiheessa vaikea vaikean vaikeat vaikeilla vaikeille vaikeilta
|
|
vaikeissa vaikeista vaikka vain varmasti varsin varsinkin varten vasen
|
|
vasemmalla vasta vastaan vastakkain vastan verran vielÀ vierekkÀin vieressÀ
|
|
vieri viiden viime viimeinen viimeisen viimeksi viisi voi voidaan voimme voin
|
|
voisi voit voitte voivat vuoden vuoksi vuosi vuosien vuosina vuotta vÀhemmÀn
|
|
vÀhintÀÀn vÀhiten vÀhÀn vÀlillÀ
|
|
|
|
yhdeksÀn yhden yhdessÀ yhteen yhteensÀ yhteydessÀ yhteyteen yhtÀ yhtÀÀlle
|
|
yhtÀÀllÀ yhtÀÀltÀ yhtÀÀn yhÀ yksi yksin yksittÀin yleensÀ ylemmÀs yli ylös
|
|
ympÀri
|
|
|
|
Àlköön ÀlÀ
|
|
""".split()
|
|
)
|