💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
STOP_WORDS = set(
|
|
|
|
"""
|
2016-12-18 18:54:19 +03:00
|
|
|
a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl
|
|
|
|
agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri
|
|
|
|
altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai
|
|
|
|
attesa attraverso avanti avemmo avendo avente aver avere averlo avesse
|
|
|
|
avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate
|
|
|
|
avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste
|
|
|
|
avresti avrete avrà avrò avuta avute avuti avuto
|
|
|
|
|
|
|
|
basta bene benissimo brava bravo
|
|
|
|
|
|
|
|
casa caso cento certa certe certi certo che chi chicchessia chiunque ci
|
|
|
|
ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto
|
|
|
|
cogli coi col colei coll coloro colui come cominci comunque con concernente
|
|
|
|
conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui
|
|
|
|
|
|
|
|
da dagl dagli dai dal dall dalla dalle dallo dappertutto davanti degl degli
|
|
|
|
dei del dell della delle dello dentro detto deve di dice dietro dire
|
|
|
|
dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due
|
|
|
|
dunque durante
|
|
|
|
|
|
|
|
ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era
|
|
|
|
erano eravamo eravate eri ero esempio esse essendo esser essere essi ex
|
|
|
|
|
|
|
|
fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero
|
|
|
|
facessi facessimo faceste facesti faceva facevamo facevano facevate facevi
|
|
|
|
facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo
|
|
|
|
fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente
|
|
|
|
finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra
|
|
|
|
frattempo fu fui fummo fuori furono futuro generale
|
|
|
|
|
|
|
|
gia già giacche giorni giorno gli gliela gliele glieli glielo gliene governo
|
|
|
|
grande grazie gruppo
|
|
|
|
|
|
|
|
ha haha hai hanno ho
|
|
|
|
|
|
|
|
ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io
|
|
|
|
|
|
|
|
la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo
|
|
|
|
|
|
|
|
ma macche magari maggior mai male malgrado malissimo mancanza marche me
|
|
|
|
medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi
|
|
|
|
milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto
|
|
|
|
|
|
|
|
nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun
|
|
|
|
nessuna nessuno niente no noi non nondimeno nonostante nonsia nostra nostre
|
|
|
|
nostri nostro novanta nove nulla nuovo
|
|
|
|
|
|
|
|
od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto
|
|
|
|
|
|
|
|
paese parecchi parecchie parecchio parte partendo peccato peggio per perche
|
|
|
|
perché percio perciò perfino pero persino persone però piedi pieno piglia piu
|
|
|
|
piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto
|
|
|
|
potrebbe preferibilmente presa press prima primo principalmente probabilmente
|
|
|
|
proprio puo può pure purtroppo
|
|
|
|
|
|
|
|
qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante
|
|
|
|
quanti quanto quantunque quasi quattro quel quella quelle quelli quello quest
|
|
|
|
questa queste questi questo qui quindi
|
|
|
|
|
|
|
|
realmente recente recentemente registrazione relativo riecco salvo
|
|
|
|
|
|
|
|
sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste
|
|
|
|
saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei
|
|
|
|
sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate
|
|
|
|
siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando
|
|
|
|
stanno starai staranno starebbe starebbero starei staremmo staremo stareste
|
|
|
|
staresti starete starà starò stata state stati stato stava stavamo stavano
|
|
|
|
stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso
|
|
|
|
steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua
|
|
|
|
subito successivamente successivo sue sugl sugli sui sul sull sulla sulle
|
|
|
|
sullo suo suoi
|
|
|
|
|
|
|
|
tale tali talvolta tanto te tempo ti titolo torino tra tranne tre trenta
|
|
|
|
troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto
|
|
|
|
|
|
|
|
uguali ulteriore ultimo un una uno uomo
|
|
|
|
|
|
|
|
va vale vari varia varie vario verso vi via vicino visto vita voi volta volte
|
|
|
|
vostra vostre vostri vostro
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
""".split()
|
|
|
|
)
|