2017-05-12 10:25:37 +03:00
|
|
|
# encoding: utf8
|
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
from __future__ import unicode_literals
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 15:28:09 +03:00
|
|
|
# sources: https://github.com/bieli/stopwords/blob/master/polish.stopwords.txt and https://github.com/stopwords-iso/stopwords-pl
|
2017-05-12 10:25:37 +03:00
|
|
|
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
STOP_WORDS = set(
|
|
|
|
"""
|
2019-02-08 15:28:09 +03:00
|
|
|
a aby ach acz aczkolwiek aj albo ale alez
|
2019-02-08 06:27:21 +03:00
|
|
|
ależ ani az aż
|
|
|
|
|
|
|
|
bardziej bardzo beda bede bedzie bez bo bowiem by
|
|
|
|
byc byl byla byli bylo byly bym bynajmniej być był
|
|
|
|
była było były będzie będą będę
|
|
|
|
|
|
|
|
cala cali caly cała cały chce choć ci cie
|
|
|
|
ciebie cię co cokolwiek coraz cos coś czasami czasem czemu
|
|
|
|
czy czyli często
|
|
|
|
|
|
|
|
daleko dla dlaczego dlatego do dobrze dokad dokąd
|
|
|
|
dosc dość duzo dużo dwa dwaj dwie dwoje dzis
|
|
|
|
dzisiaj dziś
|
|
|
|
|
|
|
|
gdy gdyby gdyz gdyż gdzie gdziekolwiek gdzies gdzieś go
|
|
|
|
godz
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
i ich ile im inna inne inny
|
|
|
|
innych iv ix iz iż
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
ja jak jakas jakaś jakby jaki jakichs jakichś jakie
|
|
|
|
jakis jakiz jakiś jakiż jakkolwiek jako jakos jakoś je jeden
|
|
|
|
jedna jednak jednakze jednakże jedno jednym jedynie jego jej jemu
|
|
|
|
jesli jest jestem jeszcze jezeli jeśli jeżeli juz już ją
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
kazdy każdy kiedy kierunku kilka kilku kims kimś kto
|
|
|
|
ktokolwiek ktora ktore ktorego ktorej ktory ktorych ktorym ktorzy ktos
|
|
|
|
ktoś która które którego której który których którym którzy ku
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
lecz lub
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
ma mają mam mamy mało mi miał miedzy
|
|
|
|
mimo między mna mnie mną moga mogą moi moim moj
|
|
|
|
moja moje moze mozliwe mozna może możliwe można mu musi
|
|
|
|
my mój
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
na nad nam nami nas nasi nasz nasza nasze
|
|
|
|
naszego naszych natomiast natychmiast nawet nia nic nich nie niech
|
2019-02-08 15:28:09 +03:00
|
|
|
niego niej niemu nigdy nim nimi niz nią niż no
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
o obok od ok około on ona one
|
|
|
|
oni ono oraz oto owszem
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
pan pana pani po pod podczas pomimo ponad
|
|
|
|
poniewaz ponieważ powinien powinna powinni powinno poza prawie przeciez
|
|
|
|
przecież przed przede przedtem przez przy
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
raz razie roku rowniez również
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
sam sama sie się skad skąd soba sobie sobą
|
|
|
|
sposob sposób swoje są
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
ta tak taka taki takich takie takze także tam
|
|
|
|
te tego tej tel temu ten teraz też to toba
|
|
|
|
tobie tobą totez toteż totobą trzeba tu tutaj twoi twoim
|
|
|
|
twoj twoja twoje twym twój ty tych tylko tym tys
|
|
|
|
tzw tę
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
u
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
vi vii viii
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
w wam wami was wasi wasz wasza wasze we
|
|
|
|
według wie wiele wielu więc więcej wlasnie wszyscy wszystkich wszystkie
|
|
|
|
wszystkim wszystko wtedy wy właśnie wśród
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
xi xii xiii xiv xv
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 06:27:21 +03:00
|
|
|
z za zaden zadna zadne zadnych zapewne zawsze zaś
|
|
|
|
ze zeby znow znowu znów zostal został
|
2017-05-12 10:25:37 +03:00
|
|
|
|
2019-02-08 15:28:09 +03:00
|
|
|
żaden żadna żadne żadnych że żeby""".split()
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
)
|