mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-14 05:37:03 +03:00
eddeb36c96
<!--- Provide a general summary of your changes in the title. --> ## Description - [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files. - [x] Update flake8 config to exclude very large files (lemmatization tables etc.) - [x] Update code to be compatible with flake8 rules - [x] Fix various small bugs, inconsistencies and messy stuff in the language data - [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means) Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results. At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information. ### Types of change enhancement, code style ## Checklist <!--- Before you submit the PR, go over this checklist and make sure you can tick off all the boxes. [] -> [x] --> - [x] I have submitted the spaCy Contributor Agreement. - [x] I ran the tests, and all new and existing tests passed. - [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
47 lines
6.1 KiB
Python
47 lines
6.1 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
STOP_WORDS = set(
|
|
"""
|
|
āĻ
āĻ¤āĻāĻŦ āĻ
āĻĨāĻ āĻ
āĻĨāĻŦāĻž āĻ
āĻ¨ā§āĻ¯āĻžāĻ¯āĻŧā§ āĻ
āĻ¨ā§āĻ āĻ
āĻ¨ā§āĻā§ āĻ
āĻ¨ā§āĻā§āĻ āĻ
āĻ¨ā§āĻ¤āĻ¤ āĻ
āĻŦāĻ§āĻŋ āĻ
āĻŦāĻļā§āĻ¯ āĻ
āĻ°ā§āĻĨāĻžā§ āĻ
āĻ¨ā§āĻ¯ āĻ
āĻ¨ā§āĻ¯āĻžā§ā§ āĻ
āĻ°ā§āĻ§āĻāĻžāĻā§
|
|
āĻāĻāĻžāĻŽā§ āĻāĻā§ āĻāĻā§āĻ āĻāĻā§ āĻāĻ āĻāĻĻā§āĻ¯āĻāĻžāĻā§ āĻāĻĒāĻ¨āĻžāĻ° āĻāĻĒāĻ¨āĻŋ āĻāĻŦāĻžāĻ° āĻāĻŽāĻ°āĻž āĻāĻŽāĻžāĻā§ āĻāĻŽāĻžāĻĻā§āĻ° āĻāĻŽāĻžāĻ° āĻāĻŽāĻŋ āĻāĻ° āĻāĻ°āĻ
|
|
āĻāĻ¤ā§āĻ¯āĻžāĻĻāĻŋ āĻāĻšāĻž
|
|
āĻāĻāĻŋāĻ¤ āĻāĻ¨āĻŋ āĻāĻĒāĻ° āĻāĻĒāĻ°ā§ āĻāĻ¤ā§āĻ¤āĻ°
|
|
āĻ āĻāĻāĻĻā§āĻ° āĻāĻāĻ°āĻž āĻāĻ āĻāĻ āĻāĻāĻ āĻāĻāĻāĻ¨ āĻāĻāĻāĻž āĻāĻāĻāĻŋ āĻāĻāĻŦāĻžāĻ° āĻāĻā§ āĻāĻāĻ¨ āĻāĻāĻ¨āĻ āĻāĻāĻžāĻ¨ā§ āĻāĻāĻžāĻ¨ā§āĻ āĻāĻāĻž āĻāĻ¸ā§
|
|
āĻāĻāĻžāĻ āĻāĻāĻŋ āĻāĻ¤ āĻāĻ¤āĻāĻžāĻ āĻāĻ¤ā§ āĻāĻĻā§āĻ° āĻāĻŦāĻ āĻāĻŦāĻžāĻ° āĻāĻŽāĻ¨ āĻāĻŽāĻ¨āĻŋ āĻāĻŽāĻ¨āĻāĻŋ āĻāĻ° āĻāĻ°āĻž āĻāĻ˛ā§ āĻāĻ¸ āĻāĻ¸ā§
|
|
āĻ
|
|
āĻ āĻāĻāĻĻā§āĻ° āĻāĻāĻ° āĻāĻāĻ°āĻž āĻāĻ āĻāĻā§ āĻāĻāĻžāĻ¨ā§ āĻāĻĻā§āĻ° āĻāĻ° āĻāĻ°āĻž
|
|
āĻāĻāĻ¨āĻ āĻāĻ¤ āĻāĻĨāĻž āĻāĻŦā§ āĻāĻ¯āĻŧā§āĻ āĻāĻ¯āĻŧā§āĻāĻāĻŋ āĻāĻ°āĻā§ āĻāĻ°āĻā§āĻ¨ āĻāĻ°āĻ¤ā§ āĻāĻ°āĻŦā§ āĻāĻ°āĻŦā§āĻ¨ āĻāĻ°āĻ˛ā§ āĻā§ā§āĻ āĻā§ā§āĻāĻāĻŋ āĻāĻ°āĻŋā§ā§ āĻāĻ°āĻŋā§āĻž āĻāĻ°āĻžā§
|
|
āĻāĻ°āĻ˛ā§āĻ¨ āĻāĻ°āĻž āĻāĻ°āĻžāĻ āĻāĻ°āĻžāĻ¯āĻŧ āĻāĻ°āĻžāĻ° āĻāĻ°āĻŋ āĻāĻ°āĻŋāĻ¤ā§ āĻāĻ°āĻŋāĻ¯āĻŧāĻž āĻāĻ°āĻŋāĻ¯āĻŧā§ āĻāĻ°ā§ āĻāĻ°ā§āĻ āĻāĻ°ā§āĻāĻŋāĻ˛ā§āĻ¨ āĻāĻ°ā§āĻā§ āĻāĻ°ā§āĻā§āĻ¨ āĻāĻ°ā§āĻ¨ āĻāĻžāĻāĻā§
|
|
āĻāĻžāĻ āĻāĻžāĻā§ āĻāĻžāĻ āĻāĻžāĻā§ āĻāĻžāĻ°āĻ āĻāĻžāĻ°āĻŖ āĻāĻŋ āĻāĻŋāĻāĻŦāĻž āĻāĻŋāĻā§ āĻāĻŋāĻā§āĻ āĻāĻŋāĻ¨ā§āĻ¤ā§ āĻā§ āĻā§ āĻā§āĻ āĻā§āĻāĻ āĻā§āĻ¨ āĻā§āĻ¨ āĻā§āĻ¨āĻ āĻā§āĻ¨ā§ āĻā§āĻŽāĻ¨ā§ āĻā§āĻāĻŋ
|
|
āĻā§āĻˇā§āĻ¤ā§āĻ°ā§ āĻā§āĻŦ
|
|
āĻāĻŋāĻ¯āĻŧā§ āĻāĻŋāĻ¯āĻŧā§āĻā§ āĻā§āĻ˛āĻŋ āĻā§āĻā§ āĻā§āĻ˛ āĻā§āĻ˛ā§ āĻā§āĻāĻž āĻāĻŋā§ā§ āĻāĻŋā§ā§āĻā§
|
|
āĻāĻ˛ā§ āĻāĻžāĻ¨ āĻāĻžāĻ¯āĻŧ āĻā§āĻ¯āĻŧā§ āĻāĻžā§ āĻā§ā§ā§ āĻāĻžāĻ° āĻāĻžāĻ˛ā§ āĻā§āĻˇā§āĻāĻž
|
|
āĻāĻžāĻĄāĻŧāĻž āĻāĻžāĻĄāĻŧāĻžāĻ āĻāĻŋāĻ˛ āĻāĻŋāĻ˛ā§āĻ¨ āĻāĻžā§āĻž āĻāĻžā§āĻžāĻ
|
|
āĻāĻ¨ āĻāĻ¨āĻā§ āĻāĻ¨ā§āĻ° āĻāĻ¨ā§āĻ¯ āĻāĻ¨ā§āĻ¯ā§ āĻāĻžāĻ¨āĻ¤ā§ āĻāĻžāĻ¨āĻž āĻāĻžāĻ¨āĻžāĻ¨ā§ āĻāĻžāĻ¨āĻžāĻ¯āĻŧ āĻāĻžāĻ¨āĻŋāĻ¯āĻŧā§ āĻāĻžāĻ¨āĻŋāĻ¯āĻŧā§āĻā§ āĻāĻžāĻ¨āĻžā§ āĻāĻžāĻžāĻ¨āĻŋā§ā§ āĻāĻžāĻ¨āĻŋā§ā§āĻā§
|
|
āĻāĻŋ
|
|
āĻ āĻŋāĻ
|
|
āĻ¤āĻāĻ¨ āĻ¤āĻ¤ āĻ¤āĻĨāĻž āĻ¤āĻŦā§ āĻ¤āĻŦā§ āĻ¤āĻž āĻ¤āĻžāĻāĻā§ āĻ¤āĻžāĻāĻĻā§āĻ° āĻ¤āĻžāĻāĻ° āĻ¤āĻžāĻāĻ°āĻž āĻ¤āĻžāĻāĻšāĻžāĻ°āĻž āĻ¤āĻžāĻ āĻ¤āĻžāĻ āĻ¤āĻžāĻā§ āĻ¤āĻžāĻ¤ā§ āĻ¤āĻžāĻĻā§āĻ° āĻ¤āĻžāĻ° āĻ¤āĻžāĻ°āĻĒāĻ° āĻ¤āĻžāĻ°āĻž āĻ¤āĻžāĻ°āĻ āĻ¤āĻžāĻšāĻ˛ā§ āĻ¤āĻžāĻšāĻž āĻ¤āĻžāĻšāĻžāĻ¤ā§ āĻ¤āĻžāĻšāĻžāĻ° āĻ¤āĻŋāĻ¨āĻ
|
|
āĻ¤āĻŋāĻ¨āĻŋ āĻ¤āĻŋāĻ¨āĻŋāĻ āĻ¤ā§āĻŽāĻŋ āĻ¤ā§āĻ˛ā§ āĻ¤ā§āĻŽāĻ¨ āĻ¤ā§ āĻ¤ā§āĻŽāĻžāĻ° āĻ¤ā§āĻ āĻ¤ā§āĻ°āĻž āĻ¤ā§āĻ° āĻ¤ā§āĻŽāĻžāĻĻā§āĻ° āĻ¤ā§āĻĻā§āĻ°
|
|
āĻĨāĻžāĻāĻŦā§ āĻĨāĻžāĻāĻŦā§āĻ¨ āĻĨāĻžāĻāĻž āĻĨāĻžāĻāĻžāĻ¯āĻŧ āĻĨāĻžāĻā§ āĻĨāĻžāĻā§āĻ¨ āĻĨā§āĻā§ āĻĨā§āĻā§āĻ āĻĨā§āĻā§āĻ āĻĨāĻžāĻāĻžā§
|
|
āĻĻāĻŋāĻā§ āĻĻāĻŋāĻ¤ā§ āĻĻāĻŋāĻ¯āĻŧā§ āĻĻāĻŋāĻ¯āĻŧā§āĻā§ āĻĻāĻŋāĻ¯āĻŧā§āĻā§āĻ¨ āĻĻāĻŋāĻ˛ā§āĻ¨ āĻĻāĻŋā§ā§ āĻĻā§ āĻĻā§āĻāĻŋ āĻĻā§āĻā§ āĻĻā§āĻāĻ¯āĻŧāĻž āĻĻā§āĻāĻ¯āĻŧāĻžāĻ° āĻĻā§āĻāĻ¤ā§ āĻĻā§āĻāĻž āĻĻā§āĻā§ āĻĻā§āĻ¨ āĻĻā§āĻ¯āĻŧ āĻĻā§āĻļā§āĻ°
|
|
āĻĻā§āĻŦāĻžāĻ°āĻž āĻĻāĻŋā§ā§āĻā§ āĻĻāĻŋā§ā§āĻā§āĻ¨ āĻĻā§ā§ āĻĻā§āĻā§āĻž āĻĻā§āĻā§āĻžāĻ° āĻĻāĻŋāĻ¨ āĻĻā§āĻ
|
|
āĻ§āĻ°āĻž āĻ§āĻ°ā§
|
|
āĻ¨āĻ¯āĻŧ āĻ¨āĻž āĻ¨āĻžāĻ āĻ¨āĻžāĻāĻŋ āĻ¨āĻžāĻāĻžāĻĻ āĻ¨āĻžāĻ¨āĻž āĻ¨āĻŋāĻā§ āĻ¨āĻŋāĻā§āĻ āĻ¨āĻŋāĻā§āĻĻā§āĻ° āĻ¨āĻŋāĻā§āĻ° āĻ¨āĻŋāĻ¤ā§ āĻ¨āĻŋāĻ¯āĻŧā§ āĻ¨āĻŋā§ā§ āĻ¨ā§āĻ āĻ¨ā§āĻā§āĻž āĻ¨ā§āĻāĻ¯āĻŧāĻžāĻ° āĻ¨ā§ āĻ¨āĻ¤ā§āĻ¨
|
|
āĻĒāĻā§āĻˇā§ āĻĒāĻ° āĻĒāĻ°ā§ āĻĒāĻ°ā§āĻ āĻĒāĻ°ā§āĻ āĻĒāĻ°ā§āĻ¯āĻ¨ā§āĻ¤ āĻĒāĻžāĻāĻ¯āĻŧāĻž āĻĒāĻžāĻ°āĻŋ āĻĒāĻžāĻ°ā§ āĻĒāĻžāĻ°ā§āĻ¨ āĻĒā§āĻ¯āĻŧā§ āĻĒā§āĻ°āĻ¤āĻŋ āĻĒā§āĻ°āĻā§āĻ¤āĻŋ āĻĒā§āĻ°āĻžāĻ¯āĻŧ āĻĒāĻžāĻā§āĻž āĻĒā§ā§ā§ āĻĒā§āĻ°āĻžā§ āĻĒāĻžāĻāĻ āĻĒā§āĻ°āĻĨāĻŽ āĻĒā§āĻ°āĻžāĻĨāĻŽāĻŋāĻ
|
|
āĻĢāĻ˛ā§ āĻĢāĻŋāĻ°ā§ āĻĢā§āĻ°
|
|
āĻŦāĻāĻ° āĻŦāĻĻāĻ˛ā§ āĻŦāĻ°āĻ āĻŦāĻ˛āĻ¤ā§ āĻŦāĻ˛āĻ˛ āĻŦāĻ˛āĻ˛ā§āĻ¨ āĻŦāĻ˛āĻž āĻŦāĻ˛ā§ āĻŦāĻ˛ā§āĻā§āĻ¨ āĻŦāĻ˛ā§āĻ¨ āĻŦāĻ¸ā§ āĻŦāĻšā§ āĻŦāĻž āĻŦāĻžāĻĻā§ āĻŦāĻžāĻ° āĻŦāĻŋāĻ¨āĻž āĻŦāĻŋāĻāĻŋāĻ¨ā§āĻ¨ āĻŦāĻŋāĻļā§āĻˇ āĻŦāĻŋāĻˇāĻ¯āĻŧāĻāĻŋ āĻŦā§āĻļ āĻŦā§āĻ¯āĻŦāĻšāĻžāĻ° āĻŦā§āĻ¯āĻžāĻĒāĻžāĻ°ā§ āĻŦāĻā§āĻ¤āĻŦā§āĻ¯ āĻŦāĻ¨ āĻŦā§āĻļāĻŋ
|
|
āĻāĻžāĻŦā§ āĻāĻžāĻŦā§āĻ
|
|
āĻŽāĻ¤ āĻŽāĻ¤ā§ āĻŽāĻ¤ā§āĻ āĻŽāĻ§ā§āĻ¯āĻāĻžāĻā§ āĻŽāĻ§ā§āĻ¯ā§ āĻŽāĻ§ā§āĻ¯ā§āĻ āĻŽāĻ§ā§āĻ¯ā§āĻ āĻŽāĻ¨ā§ āĻŽāĻžāĻ¤ā§āĻ° āĻŽāĻžāĻ§ā§āĻ¯āĻŽā§ āĻŽāĻžāĻ¨ā§āĻˇ āĻŽāĻžāĻ¨ā§āĻˇā§āĻ° āĻŽā§āĻ āĻŽā§āĻā§āĻ āĻŽā§āĻĻā§āĻ° āĻŽā§āĻ°
|
|
āĻ¯āĻāĻ¨ āĻ¯āĻ¤ āĻ¯āĻ¤āĻāĻž āĻ¯āĻĨā§āĻˇā§āĻ āĻ¯āĻĻāĻŋ āĻ¯āĻĻāĻŋāĻ āĻ¯āĻž āĻ¯āĻžāĻāĻ° āĻ¯āĻžāĻāĻ°āĻž āĻ¯āĻžāĻāĻ¯āĻŧāĻž āĻ¯āĻžāĻāĻ¯āĻŧāĻžāĻ° āĻ¯āĻžāĻā§ āĻ¯āĻžāĻā§āĻā§ āĻ¯āĻžāĻ¤ā§ āĻ¯āĻžāĻĻā§āĻ° āĻ¯āĻžāĻ¨ āĻ¯āĻžāĻŦā§ āĻ¯āĻžāĻ¯āĻŧ āĻ¯āĻžāĻ° āĻ¯āĻžāĻ°āĻž āĻ¯āĻžā§ āĻ¯āĻŋāĻ¨āĻŋ āĻ¯ā§ āĻ¯ā§āĻāĻžāĻ¨ā§ āĻ¯ā§āĻ¤ā§ āĻ¯ā§āĻ¨
|
|
āĻ¯ā§āĻŽāĻ¨
|
|
āĻ°āĻāĻŽ āĻ°āĻ¯āĻŧā§āĻā§ āĻ°āĻžāĻāĻž āĻ°ā§āĻā§ āĻ°ā§ā§āĻā§
|
|
āĻ˛āĻā§āĻˇ
|
|
āĻļā§āĻ§ā§ āĻļā§āĻ°ā§
|
|
āĻ¸āĻžāĻ§āĻžāĻ°āĻŖ āĻ¸āĻžāĻŽāĻ¨ā§ āĻ¸āĻā§āĻā§ āĻ¸āĻā§āĻā§āĻ āĻ¸āĻŦ āĻ¸āĻŦāĻžāĻ° āĻ¸āĻŽāĻ¸ā§āĻ¤ āĻ¸āĻŽā§āĻĒā§āĻ°āĻ¤āĻŋ āĻ¸āĻŽā§ āĻ¸āĻš āĻ¸āĻšāĻŋāĻ¤ āĻ¸āĻžāĻĨā§ āĻ¸ā§āĻ¤āĻ°āĻžāĻ āĻ¸ā§ āĻ¸ā§āĻ āĻ¸ā§āĻāĻžāĻ¨ āĻ¸ā§āĻāĻžāĻ¨ā§ āĻ¸ā§āĻāĻž āĻ¸ā§āĻāĻžāĻ āĻ¸ā§āĻāĻžāĻ āĻ¸ā§āĻāĻŋ āĻ¸ā§āĻĒāĻˇā§āĻ āĻ¸ā§āĻŦāĻ¯āĻŧāĻ
|
|
āĻšāĻāĻ¤ā§ āĻšāĻāĻŦā§ āĻšāĻāĻ¯āĻŧāĻž āĻšāĻāĻ¯āĻŧāĻž āĻšāĻāĻ¯āĻŧāĻžāĻ¯āĻŧ āĻšāĻāĻ¯āĻŧāĻžāĻ° āĻšāĻā§āĻā§ āĻšāĻ¤ āĻšāĻ¤ā§ āĻšāĻ¤ā§āĻ āĻšāĻ¨ āĻšāĻŦā§ āĻšāĻŦā§āĻ¨ āĻšāĻ¯āĻŧ āĻšāĻ¯āĻŧāĻ¤ā§ āĻšāĻ¯āĻŧāĻ¨āĻŋ āĻšāĻ¯āĻŧā§ āĻšāĻ¯āĻŧā§āĻ āĻšāĻ¯āĻŧā§āĻāĻŋāĻ˛ āĻšāĻ¯āĻŧā§āĻā§ āĻšāĻžāĻāĻžāĻ°
|
|
āĻšā§ā§āĻā§āĻ¨ āĻšāĻ˛ āĻšāĻ˛ā§ āĻšāĻ˛ā§āĻ āĻšāĻ˛ā§āĻ āĻšāĻ˛ā§ āĻšāĻŋāĻ¸āĻžāĻŦā§ āĻšāĻŋāĻ¸ā§āĻŦā§ āĻšā§āĻ˛ā§ āĻšā§āĻ āĻšā§ āĻšā§ā§ āĻšā§ā§āĻā§ āĻšā§āĻ¤ā§ āĻšāĻā§āĻž āĻšā§ā§āĻāĻŋāĻ˛ āĻšā§ā§āĻā§āĻ¨ āĻšā§āĻ¨āĻŋ āĻšā§ā§āĻ āĻšā§āĻ¤ā§ āĻšāĻā§āĻž āĻšāĻā§āĻžāĻ° āĻšāĻā§āĻžā§
|
|
""".split()
|
|
)
|