2017-03-12 15:07:28 +03:00
|
|
|
|
# coding: utf8
|
2016-12-18 18:54:19 +03:00
|
|
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
|
|
|
|
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
|
STOP_WORDS = set(
|
|
|
|
|
"""
|
2016-12-18 18:54:19 +03:00
|
|
|
|
a à â abord absolument afin ah ai aie ailleurs ainsi ait allaient allo allons
|
|
|
|
|
allô alors anterieur anterieure anterieures apres après as assez attendu au
|
|
|
|
|
aucun aucune aujourd aujourd'hui aupres auquel aura auraient aurait auront
|
|
|
|
|
aussi autre autrefois autrement autres autrui aux auxquelles auxquels avaient
|
|
|
|
|
avais avait avant avec avoir avons ayant
|
|
|
|
|
|
|
|
|
|
bah bas basee bat beau beaucoup bien bigre boum bravo brrr
|
|
|
|
|
|
2018-05-09 13:04:38 +03:00
|
|
|
|
c' c’ ça car ce ceci cela celle celle-ci celle-là celles celles-ci celles-là celui
|
2016-12-18 18:54:19 +03:00
|
|
|
|
celui-ci celui-là cent cependant certain certaine certaines certains certes ces
|
|
|
|
|
cet cette ceux ceux-ci ceux-là chacun chacune chaque cher chers chez chiche
|
|
|
|
|
chut chère chères ci cinq cinquantaine cinquante cinquantième cinquième clac
|
|
|
|
|
clic combien comme comment comparable comparables compris concernant contre
|
|
|
|
|
couic crac
|
|
|
|
|
|
2018-05-09 13:04:38 +03:00
|
|
|
|
d' d’ da dans de debout dedans dehors deja delà depuis dernier derniere derriere
|
2016-12-18 18:54:19 +03:00
|
|
|
|
derrière des desormais desquelles desquels dessous dessus deux deuxième
|
|
|
|
|
deuxièmement devant devers devra different differentes differents différent
|
|
|
|
|
différente différentes différents dire directe directement dit dite dits divers
|
|
|
|
|
diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont
|
|
|
|
|
douze douzième dring du duquel durant dès désormais
|
|
|
|
|
|
|
|
|
|
effet egale egalement egales eh elle elle-même elles elles-mêmes en encore
|
|
|
|
|
enfin entre envers environ es ès est et etaient étaient etais étais etait était
|
|
|
|
|
etant étant etc été etre être eu euh eux eux-mêmes exactement excepté extenso
|
|
|
|
|
exterieur
|
|
|
|
|
|
|
|
|
|
fais faisaient faisant fait façon feront fi flac floc font
|
|
|
|
|
|
|
|
|
|
gens
|
|
|
|
|
|
|
|
|
|
ha hein hem hep hi ho holà hop hormis hors hou houp hue hui huit huitième hum
|
|
|
|
|
hurrah hé hélas i il ils importe
|
|
|
|
|
|
2018-05-09 13:04:38 +03:00
|
|
|
|
j' j’ je jusqu jusque juste
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2018-05-09 13:04:38 +03:00
|
|
|
|
l' l’ la laisser laquelle las le lequel les lesquelles lesquels leur leurs longtemps
|
2016-12-18 18:54:19 +03:00
|
|
|
|
lors lorsque lui lui-meme lui-même là lès
|
|
|
|
|
|
2018-05-09 13:04:38 +03:00
|
|
|
|
m' m’ ma maint maintenant mais malgre malgré maximale me meme memes merci mes mien
|
2016-12-18 18:54:19 +03:00
|
|
|
|
mienne miennes miens mille mince minimale moi moi-meme moi-même moindres moins
|
2018-07-25 00:41:51 +03:00
|
|
|
|
mon moyennant même mêmes
|
2016-12-18 18:54:19 +03:00
|
|
|
|
|
2018-05-09 13:04:38 +03:00
|
|
|
|
n' n’ na naturel naturelle naturelles ne neanmoins necessaire necessairement neuf
|
2016-12-18 18:54:19 +03:00
|
|
|
|
neuvième ni nombreuses nombreux non nos notamment notre nous nous-mêmes nouveau
|
|
|
|
|
nul néanmoins nôtre nôtres
|
|
|
|
|
|
|
|
|
|
o ô oh ohé ollé olé on ont onze onzième ore ou ouf ouias oust ouste outre
|
|
|
|
|
ouvert ouverte ouverts où
|
|
|
|
|
|
|
|
|
|
paf pan par parce parfois parle parlent parler parmi parseme partant
|
|
|
|
|
particulier particulière particulièrement pas passé pendant pense permet
|
|
|
|
|
personne peu peut peuvent peux pff pfft pfut pif pire plein plouf plus
|
|
|
|
|
plusieurs plutôt possessif possessifs possible possibles pouah pour pourquoi
|
|
|
|
|
pourrais pourrait pouvait prealable precisement premier première premièrement
|
|
|
|
|
pres probable probante procedant proche près psitt pu puis puisque pur pure
|
|
|
|
|
|
2018-05-09 13:04:38 +03:00
|
|
|
|
qu' qu’ quand quant quant-à-soi quanta quarante quatorze quatre quatre-vingt
|
2016-12-18 18:54:19 +03:00
|
|
|
|
quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque
|
|
|
|
|
quelques quels qui quiconque quinze quoi quoique
|
|
|
|
|
|
|
|
|
|
rare rarement rares relative relativement remarquable rend rendre restant reste
|
|
|
|
|
restent restrictif retour revoici revoilà rien
|
|
|
|
|
|
2018-05-09 13:04:38 +03:00
|
|
|
|
s' s’ sa sacrebleu sait sans sapristi sauf se sein seize selon semblable semblaient
|
2016-12-18 18:54:19 +03:00
|
|
|
|
semble semblent sent sept septième sera seraient serait seront ses seul seule
|
|
|
|
|
seulement si sien sienne siennes siens sinon six sixième soi soi-même soit
|
|
|
|
|
soixante son sont sous souvent specifique specifiques speculatif stop
|
|
|
|
|
strictement subtiles suffisant suffisante suffit suis suit suivant suivante
|
|
|
|
|
suivantes suivants suivre superpose sur surtout
|
|
|
|
|
|
2018-05-09 13:04:38 +03:00
|
|
|
|
t' t’ ta tac tant tardive te tel telle tellement telles tels tenant tend tenir tente
|
2016-12-18 18:54:19 +03:00
|
|
|
|
tes tic tien tienne tiennes tiens toc toi toi-même ton touchant toujours tous
|
|
|
|
|
tout toute toutefois toutes treize trente tres trois troisième troisièmement
|
|
|
|
|
trop très tsoin tsouin tu té
|
|
|
|
|
|
|
|
|
|
un une unes uniformement unique uniques uns
|
|
|
|
|
|
|
|
|
|
va vais vas vers via vif vifs vingt vivat vive vives vlan voici voilà vont vos
|
|
|
|
|
votre vous vous-mêmes vu vé vôtre vôtres
|
|
|
|
|
|
|
|
|
|
zut
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
|
""".split()
|
|
|
|
|
)
|