2017-03-12 15:07:28 +03:00
|
|
|
|
# coding: utf8
|
2016-12-18 18:54:19 +03:00
|
|
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
|
|
|
|
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
|
STOP_WORDS = set(
|
|
|
|
|
"""
|
2021-01-08 03:36:22 +03:00
|
|
|
|
a à â abord afin ah ai aie ainsi ait allaient allons
|
|
|
|
|
alors anterieur anterieure anterieures apres après as assez attendu au
|
2016-12-18 18:54:19 +03:00
|
|
|
|
aucun aucune aujourd aujourd'hui aupres auquel aura auraient aurait auront
|
2021-01-08 03:36:22 +03:00
|
|
|
|
aussi autre autrement autres autrui aux auxquelles auxquels avaient
|
2016-12-18 18:54:19 +03:00
|
|
|
|
avais avait avant avec avoir avons ayant
|
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
bas basee bat
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2018-05-09 13:04:38 +03:00
|
|
|
|
c' c’ ça car ce ceci cela celle celle-ci celle-là celles celles-ci celles-là celui
|
2016-12-18 18:54:19 +03:00
|
|
|
|
celui-ci celui-là cent cependant certain certaine certaines certains certes ces
|
2021-01-08 03:36:22 +03:00
|
|
|
|
cet cette ceux ceux-ci ceux-là chacun chacune chaque chez ci cinq cinquantaine cinquante
|
|
|
|
|
cinquantième cinquième combien comme comment compris concernant
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
d' d’ da dans de debout dedans dehors deja delà depuis derriere
|
2016-12-18 18:54:19 +03:00
|
|
|
|
derrière des desormais desquelles desquels dessous dessus deux deuxième
|
|
|
|
|
deuxièmement devant devers devra different differentes differents différent
|
|
|
|
|
différente différentes différents dire directe directement dit dite dits divers
|
|
|
|
|
diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont
|
2021-01-08 03:36:22 +03:00
|
|
|
|
douze douzième du duquel durant dès désormais
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
|
|
|
|
effet egale egalement egales eh elle elle-même elles elles-mêmes en encore
|
|
|
|
|
enfin entre envers environ es ès est et etaient étaient etais étais etait était
|
2021-01-08 03:36:22 +03:00
|
|
|
|
etant étant etc été etre être eu eux eux-mêmes exactement excepté
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
fais faisaient faisant fait façon feront font
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
|
|
|
|
gens
|
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
ha hem hep hi ho hormis hors hou houp hue hui huit huitième
|
|
|
|
|
hé i il ils importe
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2018-05-09 13:04:38 +03:00
|
|
|
|
j' j’ je jusqu jusque juste
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
l' l’ la laisser laquelle le lequel les lesquelles lesquels leur leurs longtemps
|
2016-12-18 18:54:19 +03:00
|
|
|
|
lors lorsque lui lui-meme lui-même là lès
|
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
m' m’ ma maint maintenant mais malgre me meme memes merci mes mien
|
|
|
|
|
mienne miennes miens mille moi moi-meme moi-même moindres moins
|
|
|
|
|
mon même mêmes
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
n' n’ na ne neanmoins neuvième ni nombreuses nombreux nos notamment
|
|
|
|
|
notre nous nous-mêmes nouvea nul néanmoins nôtre nôtres
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
o ô on ont onze onzième ore ou ouias oust outre
|
2016-12-18 18:54:19 +03:00
|
|
|
|
ouvert ouverte ouverts où
|
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
par parce parfois parle parlent parler parmi parseme partant
|
|
|
|
|
pas pendant pense permet personne peu peut peuvent peux plus
|
|
|
|
|
plusieurs plutôt possible possibles pour pourquoi
|
2016-12-18 18:54:19 +03:00
|
|
|
|
pourrais pourrait pouvait prealable precisement premier première premièrement
|
2021-01-08 03:36:22 +03:00
|
|
|
|
pres procedant proche près pu puis puisque
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2018-05-09 13:04:38 +03:00
|
|
|
|
qu' qu’ quand quant quant-à-soi quanta quarante quatorze quatre quatre-vingt
|
2016-12-18 18:54:19 +03:00
|
|
|
|
quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque
|
|
|
|
|
quelques quels qui quiconque quinze quoi quoique
|
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
relative relativement rend rendre restant reste
|
|
|
|
|
restent retour revoici revoilà
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
s' s’ sa sait sans sauf se seize selon semblable semblaient
|
2016-12-18 18:54:19 +03:00
|
|
|
|
semble semblent sent sept septième sera seraient serait seront ses seul seule
|
|
|
|
|
seulement si sien sienne siennes siens sinon six sixième soi soi-même soit
|
2021-01-08 03:36:22 +03:00
|
|
|
|
soixante son sont sous souvent specifique specifiques stop
|
|
|
|
|
suffisant suffisante suffit suis suit suivant suivante
|
|
|
|
|
suivantes suivants suivre sur surtout
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
t' t’ ta tant te tel telle tellement telles tels tenant tend tenir tente
|
|
|
|
|
tes tien tienne tiennes tiens toi toi-même ton touchant toujours tous
|
|
|
|
|
tout toute toutes treize trente tres trois troisième troisièmement
|
|
|
|
|
tu té
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
un une unes uns
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2021-01-08 03:36:22 +03:00
|
|
|
|
va vais vas vers via vingt voici voilà vont vos
|
2016-12-18 18:54:19 +03:00
|
|
|
|
votre vous vous-mêmes vu vé vôtre vôtres
|
|
|
|
|
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
|
""".split()
|
|
|
|
|
)
|