mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-11 12:18:04 +03:00
eddeb36c96
<!--- Provide a general summary of your changes in the title. --> ## Description - [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files. - [x] Update flake8 config to exclude very large files (lemmatization tables etc.) - [x] Update code to be compatible with flake8 rules - [x] Fix various small bugs, inconsistencies and messy stuff in the language data - [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means) Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results. At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information. ### Types of change enhancement, code style ## Checklist <!--- Before you submit the PR, go over this checklist and make sure you can tick off all the boxes. [] -> [x] --> - [x] I have submitted the spaCy Contributor Agreement. - [x] I ran the tests, and all new and existing tests passed. - [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
230 lines
1.9 KiB
Python
230 lines
1.9 KiB
Python
# encoding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
STOP_WORDS = set(
|
|
"""
|
|
אני
|
|
את
|
|
אתה
|
|
אנחנו
|
|
אתן
|
|
אתם
|
|
הם
|
|
הן
|
|
היא
|
|
הוא
|
|
שלי
|
|
שלו
|
|
שלך
|
|
שלה
|
|
שלנו
|
|
שלכם
|
|
שלכן
|
|
שלהם
|
|
שלהן
|
|
לי
|
|
לו
|
|
לה
|
|
לנו
|
|
לכם
|
|
לכן
|
|
להם
|
|
להן
|
|
אותה
|
|
אותו
|
|
זה
|
|
זאת
|
|
אלה
|
|
אלו
|
|
תחת
|
|
מתחת
|
|
מעל
|
|
בין
|
|
עם
|
|
עד
|
|
נגר
|
|
על
|
|
אל
|
|
מול
|
|
של
|
|
אצל
|
|
כמו
|
|
אחר
|
|
אותו
|
|
בלי
|
|
לפני
|
|
אחרי
|
|
מאחורי
|
|
עלי
|
|
עליו
|
|
עליה
|
|
עליך
|
|
עלינו
|
|
עליכם
|
|
לעיכן
|
|
עליהם
|
|
עליהן
|
|
כל
|
|
כולם
|
|
כולן
|
|
כך
|
|
ככה
|
|
כזה
|
|
זה
|
|
זות
|
|
אותי
|
|
אותה
|
|
אותם
|
|
אותך
|
|
אותו
|
|
אותן
|
|
אותנו
|
|
ואת
|
|
את
|
|
אתכם
|
|
אתכן
|
|
איתי
|
|
איתו
|
|
איתך
|
|
איתה
|
|
איתם
|
|
איתן
|
|
איתנו
|
|
איתכם
|
|
איתכן
|
|
יהיה
|
|
תהיה
|
|
היתי
|
|
היתה
|
|
היה
|
|
להיות
|
|
עצמי
|
|
עצמו
|
|
עצמה
|
|
עצמם
|
|
עצמן
|
|
עצמנו
|
|
עצמהם
|
|
עצמהן
|
|
מי
|
|
מה
|
|
איפה
|
|
היכן
|
|
במקום שבו
|
|
אם
|
|
לאן
|
|
למקום שבו
|
|
מקום בו
|
|
איזה
|
|
מהיכן
|
|
איך
|
|
כיצד
|
|
באיזו מידה
|
|
מתי
|
|
בשעה ש
|
|
כאשר
|
|
כש
|
|
למרות
|
|
לפני
|
|
אחרי
|
|
מאיזו סיבה
|
|
הסיבה שבגללה
|
|
למה
|
|
מדוע
|
|
לאיזו תכלית
|
|
כי
|
|
יש
|
|
אין
|
|
אך
|
|
מנין
|
|
מאין
|
|
מאיפה
|
|
יכל
|
|
יכלה
|
|
יכלו
|
|
יכול
|
|
יכולה
|
|
יכולים
|
|
יכולות
|
|
יוכלו
|
|
יוכל
|
|
מסוגל
|
|
לא
|
|
רק
|
|
אולי
|
|
אין
|
|
לאו
|
|
אי
|
|
כלל
|
|
נגד
|
|
אם
|
|
עם
|
|
אל
|
|
אלה
|
|
אלו
|
|
אף
|
|
על
|
|
מעל
|
|
מתחת
|
|
מצד
|
|
בשביל
|
|
לבין
|
|
באמצע
|
|
בתוך
|
|
דרך
|
|
מבעד
|
|
באמצעות
|
|
למעלה
|
|
למטה
|
|
מחוץ
|
|
מן
|
|
לעבר
|
|
מכאן
|
|
כאן
|
|
הנה
|
|
הרי
|
|
פה
|
|
שם
|
|
אך
|
|
ברם
|
|
שוב
|
|
אבל
|
|
מבלי
|
|
בלי
|
|
מלבד
|
|
רק
|
|
בגלל
|
|
מכיוון
|
|
עד
|
|
אשר
|
|
ואילו
|
|
למרות
|
|
אס
|
|
כמו
|
|
כפי
|
|
אז
|
|
אחרי
|
|
כן
|
|
לכן
|
|
לפיכך
|
|
מאד
|
|
עז
|
|
מעט
|
|
מעטים
|
|
במידה
|
|
שוב
|
|
יותר
|
|
מדי
|
|
גם
|
|
כן
|
|
נו
|
|
אחר
|
|
אחרת
|
|
אחרים
|
|
אחרות
|
|
אשר
|
|
או
|
|
""".split()
|
|
)
|