💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
STOP_WORDS = set(
|
|
|
|
"""
|
2016-12-18 18:54:19 +03:00
|
|
|
actualmente acuerdo adelante ademas además adrede afirmó agregó ahi ahora ahí
|
|
|
|
al algo alguna algunas alguno algunos algún alli allí alrededor ambos ampleamos
|
|
|
|
antano antaño ante anterior antes apenas aproximadamente aquel aquella aquellas
|
|
|
|
aquello aquellos aqui aquél aquélla aquéllas aquéllos aquí arriba arribaabajo
|
|
|
|
aseguró asi así atras aun aunque ayer añadió aún
|
|
|
|
|
|
|
|
bajo bastante bien breve buen buena buenas bueno buenos
|
|
|
|
|
|
|
|
cada casi cerca cierta ciertas cierto ciertos cinco claro comentó como con
|
|
|
|
conmigo conocer conseguimos conseguir considera consideró consigo consigue
|
|
|
|
consiguen consigues contigo contra cosas creo cual cuales cualquier cuando
|
|
|
|
cuanta cuantas cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas
|
|
|
|
cuánto cuántos cómo
|
|
|
|
|
|
|
|
da dado dan dar de debajo debe deben debido decir dejó del delante demasiado
|
|
|
|
demás dentro deprisa desde despacio despues después detras detrás dia dias dice
|
|
|
|
dicen dicho dieron diferente diferentes dijeron dijo dio donde dos durante día
|
|
|
|
días dónde
|
|
|
|
|
|
|
|
ejemplo el ella ellas ello ellos embargo empleais emplean emplear empleas
|
|
|
|
empleo en encima encuentra enfrente enseguida entonces entre era eramos eran
|
|
|
|
eras eres es esa esas ese eso esos esta estaba estaban estado estados estais
|
|
|
|
estamos estan estar estará estas este esto estos estoy estuvo está están ex
|
|
|
|
excepto existe existen explicó expresó él ésa ésas ése ésos ésta éstas éste
|
|
|
|
éstos
|
|
|
|
|
|
|
|
fin final fue fuera fueron fui fuimos
|
|
|
|
|
|
|
|
general gran grandes gueno
|
|
|
|
|
|
|
|
ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer
|
|
|
|
hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron
|
|
|
|
hizo horas hoy hubo
|
|
|
|
|
|
|
|
igual incluso indicó informo informó intenta intentais intentamos intentan
|
|
|
|
intentar intentas intento ir
|
|
|
|
|
|
|
|
junto
|
|
|
|
|
|
|
|
la lado largo las le lejos les llegó lleva llevar lo los luego lugar
|
|
|
|
|
|
|
|
mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi
|
|
|
|
mia mias mientras mio mios mis misma mismas mismo mismos modo momento mucha
|
|
|
|
muchas mucho muchos muy más mí mía mías mío míos
|
|
|
|
|
|
|
|
nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros
|
|
|
|
nuestra nuestras nuestro nuestros nueva nuevas nuevo nuevos nunca
|
|
|
|
|
|
|
|
ocho os otra otras otro otros
|
|
|
|
|
|
|
|
pais para parece parte partir pasada pasado paìs peor pero pesar poca pocas
|
|
|
|
poco pocos podeis podemos poder podria podriais podriamos podrian podrias podrá
|
|
|
|
podrán podría podrían poner por porque posible primer primera primero primeros
|
|
|
|
principalmente pronto propia propias propio propios proximo próximo próximos
|
|
|
|
pudo pueda puede pueden puedo pues
|
|
|
|
|
|
|
|
qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién quiénes qué
|
|
|
|
|
|
|
|
raras realizado realizar realizó repente respecto
|
|
|
|
|
|
|
|
sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo
|
|
|
|
según seis ser sera será serán sería señaló si sido siempre siendo siete sigue
|
|
|
|
siguiente sin sino sobre sois sola solamente solas solo solos somos son soy
|
|
|
|
soyos su supuesto sus suya suyas suyo sé sí sólo
|
|
|
|
|
|
|
|
tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis
|
|
|
|
tenemos tener tenga tengo tenido tenía tercera ti tiempo tiene tienen toda
|
|
|
|
todas todavia todavía todo todos total trabaja trabajais trabajamos trabajan
|
|
|
|
trabajar trabajas trabajo tras trata través tres tu tus tuvo tuya tuyas tuyo
|
|
|
|
tuyos tú
|
|
|
|
|
|
|
|
ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes
|
|
|
|
última últimas último últimos
|
|
|
|
|
|
|
|
va vais valor vamos van varias varios vaya veces ver verdad verdadera verdadero
|
|
|
|
vez vosotras vosotros voy vuestra vuestras vuestro vuestros
|
|
|
|
|
|
|
|
ya yo
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
""".split()
|
|
|
|
)
|