2017-03-12 15:07:28 +03:00
|
|
|
# coding: utf8
|
2016-12-18 17:40:22 +03:00
|
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
|
|
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
STOP_WORDS = set(
|
|
|
|
"""
|
2016-12-18 17:40:22 +03:00
|
|
|
á a ab aber ach acht achte achten achter achtes ag alle allein allem allen
|
2019-05-01 13:01:35 +03:00
|
|
|
aller allerdings alles allgemeinen als also am an andere anderen anderem andern
|
|
|
|
anders auch auf aus ausser außer ausserdem außerdem
|
2016-12-18 17:40:22 +03:00
|
|
|
|
|
|
|
bald bei beide beiden beim beispiel bekannt bereits besonders besser besten bin
|
|
|
|
bis bisher bist
|
|
|
|
|
|
|
|
da dabei dadurch dafür dagegen daher dahin dahinter damals damit danach daneben
|
|
|
|
dank dann daran darauf daraus darf darfst darin darüber darum darunter das
|
|
|
|
dasein daselbst dass daß dasselbe davon davor dazu dazwischen dein deine deinem
|
|
|
|
deiner dem dementsprechend demgegenüber demgemäss demgemäß demselben demzufolge
|
|
|
|
den denen denn denselben der deren derjenige derjenigen dermassen dermaßen
|
|
|
|
derselbe derselben des deshalb desselben dessen deswegen dich die diejenige
|
|
|
|
diejenigen dies diese dieselbe dieselben diesem diesen dieser dieses dir doch
|
|
|
|
dort drei drin dritte dritten dritter drittes du durch durchaus dürfen dürft
|
|
|
|
durfte durften
|
|
|
|
|
|
|
|
eben ebenso ehrlich eigen eigene eigenen eigener eigenes ein einander eine
|
2020-02-17 20:59:22 +03:00
|
|
|
einem einen einer eines einige einigen einiger einiges einmal einmaleins elf en
|
2016-12-18 17:40:22 +03:00
|
|
|
ende endlich entweder er erst erste ersten erster erstes es etwa etwas euch
|
|
|
|
|
|
|
|
früher fünf fünfte fünften fünfter fünftes für
|
|
|
|
|
|
|
|
gab ganz ganze ganzen ganzer ganzes gar gedurft gegen gegenüber gehabt gehen
|
|
|
|
geht gekannt gekonnt gemacht gemocht gemusst genug gerade gern gesagt geschweige
|
2020-02-17 20:59:22 +03:00
|
|
|
gewesen gewollt geworden gibt ging gleich gross groß grosse große grossen
|
2016-12-18 17:40:22 +03:00
|
|
|
großen grosser großer grosses großes gut gute guter gutes
|
|
|
|
|
|
|
|
habe haben habt hast hat hatte hätte hatten hätten heisst heißt her heute hier
|
|
|
|
hin hinter hoch
|
|
|
|
|
2019-05-01 13:01:35 +03:00
|
|
|
ich ihm ihn ihnen ihr ihre ihrem ihren ihrer ihres im immer in indem
|
|
|
|
infolgedessen ins irgend ist
|
2016-12-18 17:40:22 +03:00
|
|
|
|
|
|
|
ja jahr jahre jahren je jede jedem jeden jeder jedermann jedermanns jedoch
|
|
|
|
jemand jemandem jemanden jene jenem jenen jener jenes jetzt
|
|
|
|
|
|
|
|
kam kann kannst kaum kein keine keinem keinen keiner kleine kleinen kleiner
|
|
|
|
kleines kommen kommt können könnt konnte könnte konnten kurz
|
|
|
|
|
|
|
|
lang lange leicht leider lieber los
|
|
|
|
|
|
|
|
machen macht machte mag magst man manche manchem manchen mancher manches mehr
|
2020-05-21 15:14:01 +03:00
|
|
|
mein meine meinem meinen meiner meines mich mir mit mittel mochte möchte mochten
|
2020-02-17 20:59:22 +03:00
|
|
|
mögen möglich mögt morgen muss muß müssen musst müsst musste mussten
|
2016-12-18 17:40:22 +03:00
|
|
|
|
|
|
|
na nach nachdem nahm natürlich neben nein neue neuen neun neunte neunten neunter
|
|
|
|
neuntes nicht nichts nie niemand niemandem niemanden noch nun nur
|
|
|
|
|
|
|
|
ob oben oder offen oft ohne
|
|
|
|
|
|
|
|
recht rechte rechten rechter rechtes richtig rund
|
|
|
|
|
|
|
|
sagt sagte sah satt schlecht schon sechs sechste sechsten sechster sechstes
|
|
|
|
sehr sei seid seien sein seine seinem seinen seiner seines seit seitdem selbst
|
|
|
|
selbst sich sie sieben siebente siebenten siebenter siebentes siebte siebten
|
|
|
|
siebter siebtes sind so solang solche solchem solchen solcher solches soll
|
|
|
|
sollen sollte sollten sondern sonst sowie später statt
|
|
|
|
|
|
|
|
tag tage tagen tat teil tel trotzdem tun
|
|
|
|
|
|
|
|
über überhaupt übrigens uhr um und uns unser unsere unserer unter
|
|
|
|
|
|
|
|
vergangene vergangenen viel viele vielem vielen vielleicht vier vierte vierten
|
|
|
|
vierter viertes vom von vor
|
|
|
|
|
|
|
|
wahr während währenddem währenddessen wann war wäre waren wart warum was wegen
|
|
|
|
weil weit weiter weitere weiteren weiteres welche welchem welchen welcher
|
|
|
|
welches wem wen wenig wenige weniger weniges wenigstens wenn wer werde werden
|
|
|
|
werdet wessen wie wieder will willst wir wird wirklich wirst wo wohl wollen
|
|
|
|
wollt wollte wollten worden wurde würde wurden würden
|
|
|
|
|
|
|
|
zehn zehnte zehnten zehnter zehntes zeit zu zuerst zugleich zum zunächst zur
|
|
|
|
zurück zusammen zwanzig zwar zwei zweite zweiten zweiter zweites zwischen
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
""".split()
|
|
|
|
)
|