mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-15 22:27:12 +03:00
eddeb36c96
<!--- Provide a general summary of your changes in the title. --> ## Description - [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files. - [x] Update flake8 config to exclude very large files (lemmatization tables etc.) - [x] Update code to be compatible with flake8 rules - [x] Fix various small bugs, inconsistencies and messy stuff in the language data - [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means) Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results. At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information. ### Types of change enhancement, code style ## Checklist <!--- Before you submit the PR, go over this checklist and make sure you can tick off all the boxes. [] -> [x] --> - [x] I have submitted the spaCy Contributor Agreement. - [x] I ran the tests, and all new and existing tests passed. - [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
60 lines
1.1 KiB
Python
60 lines
1.1 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
# Source: https://github.com/Xangis/extra-stopwords (MIT License)
|
|
|
|
STOP_WORDS = set(
|
|
"""
|
|
అందరూ
|
|
అందుబాటులో
|
|
అడగండి
|
|
అడగడం
|
|
అడ్డంగా
|
|
అనుగుణంగా
|
|
అనుమతించు
|
|
అనుమతిస్తుంది
|
|
అయితే
|
|
ఇప్పటికే
|
|
ఉన్నారు
|
|
ఎక్కడైనా
|
|
ఎప్పుడు
|
|
ఎవరైనా
|
|
ఎవరో ఒకరు
|
|
ఏ
|
|
ఏదైనా
|
|
ఏమైనప్పటికి
|
|
ఏమైనప్పటికి
|
|
ఒక
|
|
ఒక ప్రక్కన
|
|
కనిపిస్తాయి
|
|
కాదు
|
|
కాదు
|
|
కూడా
|
|
గా
|
|
గురించి
|
|
చుట్టూ
|
|
చేయగలిగింది
|
|
తగిన
|
|
తర్వాత
|
|
తర్వాత
|
|
దాదాపు
|
|
దూరంగా
|
|
నిజంగా
|
|
పై
|
|
ప్రకారం
|
|
మధ్య
|
|
మధ్య
|
|
మరియు
|
|
మరొక
|
|
మళ్ళీ
|
|
మాత్రమే
|
|
మెచ్చుకో
|
|
వద్ద
|
|
వద్ద
|
|
వెంట
|
|
వేరుగా
|
|
వ్యతిరేకంగా
|
|
సంబంధం
|
|
""".split()
|
|
)
|