From 29d23650224a76b4ee23e45089f7ce91c93b7dbc Mon Sep 17 00:00:00 2001 From: Adriane Boyd Date: Tue, 16 Aug 2022 14:49:24 +0200 Subject: [PATCH] Remove default stop words --- spacy/lang/af/__init__.py | 3 +- spacy/lang/af/stop_words.py | 57 - spacy/lang/am/__init__.py | 2 - spacy/lang/am/stop_words.py | 33 - spacy/lang/ar/__init__.py | 2 - spacy/lang/ar/stop_words.py | 390 ----- spacy/lang/az/__init__.py | 2 - spacy/lang/az/stop_words.py | 145 -- spacy/lang/bg/__init__.py | 2 - spacy/lang/bg/stop_words.py | 79 - spacy/lang/bn/__init__.py | 2 - spacy/lang/bn/stop_words.py | 42 - spacy/lang/ca/__init__.py | 2 - spacy/lang/ca/stop_words.py | 52 - spacy/lang/cs/__init__.py | 2 - spacy/lang/cs/stop_words.py | 365 ----- spacy/lang/da/__init__.py | 2 - spacy/lang/da/stop_words.py | 45 - spacy/lang/de/__init__.py | 2 - spacy/lang/de/stop_words.py | 78 - spacy/lang/dsb/__init__.py | 2 - spacy/lang/dsb/stop_words.py | 15 - spacy/lang/el/__init__.py | 2 - spacy/lang/el/stop_words.py | 87 - spacy/lang/en/__init__.py | 2 - spacy/lang/en/stop_words.py | 73 - spacy/lang/es/__init__.py | 2 - spacy/lang/es/stop_words.py | 80 - spacy/lang/et/__init__.py | 3 +- spacy/lang/et/stop_words.py | 41 - spacy/lang/eu/__init__.py | 2 - spacy/lang/eu/stop_words.py | 105 -- spacy/lang/fa/__init__.py | 2 - spacy/lang/fa/stop_words.py | 393 ----- spacy/lang/fi/__init__.py | 2 - spacy/lang/fi/stop_words.py | 110 -- spacy/lang/fr/__init__.py | 2 - spacy/lang/fr/stop_words.py | 84 - spacy/lang/ga/__init__.py | 2 - spacy/lang/ga/stop_words.py | 43 - spacy/lang/grc/__init__.py | 2 - spacy/lang/grc/stop_words.py | 61 - spacy/lang/gu/__init__.py | 3 +- spacy/lang/gu/stop_words.py | 88 - spacy/lang/he/__init__.py | 2 - spacy/lang/he/stop_words.py | 222 --- spacy/lang/hi/__init__.py | 2 - spacy/lang/hi/stop_words.py | 239 --- spacy/lang/hr/__init__.py | 3 +- spacy/lang/hr/stop_words.py | 344 ---- spacy/lang/hsb/__init__.py | 2 - spacy/lang/hsb/stop_words.py | 19 - spacy/lang/hu/__init__.py | 2 - spacy/lang/hu/stop_words.py | 62 - spacy/lang/hy/__init__.py | 2 - spacy/lang/hy/stop_words.py | 107 -- spacy/lang/id/__init__.py | 2 - spacy/lang/id/stop_words.py | 118 -- spacy/lang/is/__init__.py | 3 +- spacy/lang/is/stop_words.py | 158 -- spacy/lang/it/__init__.py | 2 - spacy/lang/it/stop_words.py | 83 - spacy/lang/ja/__init__.py | 2 - spacy/lang/ja/stop_words.py | 48 - spacy/lang/kn/__init__.py | 3 +- spacy/lang/kn/stop_words.py | 86 - spacy/lang/ko/__init__.py | 2 - spacy/lang/ko/stop_words.py | 67 - spacy/lang/ky/__init__.py | 2 - spacy/lang/ky/stop_words.py | 42 - spacy/lang/lb/__init__.py | 2 - spacy/lang/lb/stop_words.py | 211 --- spacy/lang/lij/__init__.py | 2 - spacy/lang/lij/stop_words.py | 39 - spacy/lang/lt/__init__.py | 2 - spacy/lang/lt/stop_words.py | 1316 --------------- spacy/lang/lv/__init__.py | 3 +- spacy/lang/lv/stop_words.py | 167 -- spacy/lang/mk/__init__.py | 2 - spacy/lang/mk/stop_words.py | 815 ---------- spacy/lang/ml/__init__.py | 2 - spacy/lang/ml/stop_words.py | 13 - spacy/lang/mr/__init__.py | 3 +- spacy/lang/mr/stop_words.py | 192 --- spacy/lang/nb/__init__.py | 2 - spacy/lang/nb/stop_words.py | 50 - spacy/lang/ne/__init__.py | 2 - spacy/lang/ne/stop_words.py | 494 ------ spacy/lang/nl/__init__.py | 2 - spacy/lang/nl/stop_words.py | 72 - spacy/lang/pl/__init__.py | 2 - spacy/lang/pl/stop_words.py | 78 - spacy/lang/pt/__init__.py | 2 - spacy/lang/pt/stop_words.py | 66 - spacy/lang/ro/__init__.py | 2 - spacy/lang/ro/stop_words.py | 499 ------ spacy/lang/ru/__init__.py | 2 - spacy/lang/ru/stop_words.py | 111 -- spacy/lang/sa/__init__.py | 2 - spacy/lang/sa/stop_words.py | 515 ------ spacy/lang/si/__init__.py | 2 - spacy/lang/si/stop_words.py | 195 --- spacy/lang/sk/__init__.py | 2 - spacy/lang/sk/stop_words.py | 424 ----- spacy/lang/sl/__init__.py | 3 +- spacy/lang/sl/stop_words.py | 326 ---- spacy/lang/sq/__init__.py | 3 +- spacy/lang/sq/stop_words.py | 229 --- spacy/lang/sr/__init__.py | 2 - spacy/lang/sr/stop_words.py | 393 ----- spacy/lang/sv/__init__.py | 2 - spacy/lang/sv/stop_words.py | 66 - spacy/lang/ta/__init__.py | 2 - spacy/lang/ta/stop_words.py | 131 -- spacy/lang/te/__init__.py | 2 - spacy/lang/te/stop_words.py | 56 - spacy/lang/th/__init__.py | 2 - spacy/lang/th/stop_words.py | 75 - spacy/lang/ti/__init__.py | 2 - spacy/lang/ti/stop_words.py | 27 - spacy/lang/tl/__init__.py | 2 - spacy/lang/tl/stop_words.py | 151 -- spacy/lang/tn/__init__.py | 2 - spacy/lang/tn/stop_words.py | 20 - spacy/lang/tr/__init__.py | 2 - spacy/lang/tr/stop_words.py | 557 ------- spacy/lang/tt/__init__.py | 2 - spacy/lang/tt/stop_words.py | 173 -- spacy/lang/uk/__init__.py | 2 - spacy/lang/uk/stop_words.py | 469 ------ spacy/lang/ur/__init__.py | 2 - spacy/lang/ur/stop_words.py | 513 ------ spacy/lang/vi/__init__.py | 2 - spacy/lang/vi/stop_words.py | 1949 ----------------------- spacy/lang/yo/__init__.py | 2 - spacy/lang/yo/stop_words.py | 9 - spacy/lang/zh/__init__.py | 2 - spacy/lang/zh/stop_words.py | 1899 ---------------------- spacy/tests/doc/test_token_api.py | 1 - spacy/tests/lang/ar/test_text.py | 1 - spacy/tests/lang/en/test_tokenizer.py | 8 - spacy/tests/lang/it/test_stopwords.py | 17 - spacy/tests/lang/test_attrs.py | 4 +- spacy/tests/matcher/test_matcher_api.py | 1 - website/docs/usage/spacy-101.md | 2 +- 145 files changed, 13 insertions(+), 16530 deletions(-) delete mode 100644 spacy/lang/af/stop_words.py delete mode 100644 spacy/lang/am/stop_words.py delete mode 100644 spacy/lang/ar/stop_words.py delete mode 100644 spacy/lang/az/stop_words.py delete mode 100644 spacy/lang/bg/stop_words.py delete mode 100644 spacy/lang/bn/stop_words.py delete mode 100644 spacy/lang/ca/stop_words.py delete mode 100644 spacy/lang/cs/stop_words.py delete mode 100644 spacy/lang/da/stop_words.py delete mode 100644 spacy/lang/de/stop_words.py delete mode 100644 spacy/lang/dsb/stop_words.py delete mode 100644 spacy/lang/el/stop_words.py delete mode 100644 spacy/lang/en/stop_words.py delete mode 100644 spacy/lang/es/stop_words.py delete mode 100644 spacy/lang/et/stop_words.py delete mode 100644 spacy/lang/eu/stop_words.py delete mode 100644 spacy/lang/fa/stop_words.py delete mode 100644 spacy/lang/fi/stop_words.py delete mode 100644 spacy/lang/fr/stop_words.py delete mode 100644 spacy/lang/ga/stop_words.py delete mode 100644 spacy/lang/grc/stop_words.py delete mode 100644 spacy/lang/gu/stop_words.py delete mode 100644 spacy/lang/he/stop_words.py delete mode 100644 spacy/lang/hi/stop_words.py delete mode 100644 spacy/lang/hr/stop_words.py delete mode 100644 spacy/lang/hsb/stop_words.py delete mode 100644 spacy/lang/hu/stop_words.py delete mode 100644 spacy/lang/hy/stop_words.py delete mode 100644 spacy/lang/id/stop_words.py delete mode 100644 spacy/lang/is/stop_words.py delete mode 100644 spacy/lang/it/stop_words.py delete mode 100644 spacy/lang/ja/stop_words.py delete mode 100644 spacy/lang/kn/stop_words.py delete mode 100644 spacy/lang/ko/stop_words.py delete mode 100644 spacy/lang/ky/stop_words.py delete mode 100644 spacy/lang/lb/stop_words.py delete mode 100644 spacy/lang/lij/stop_words.py delete mode 100644 spacy/lang/lt/stop_words.py delete mode 100644 spacy/lang/lv/stop_words.py delete mode 100644 spacy/lang/mk/stop_words.py delete mode 100644 spacy/lang/ml/stop_words.py delete mode 100644 spacy/lang/mr/stop_words.py delete mode 100644 spacy/lang/nb/stop_words.py delete mode 100644 spacy/lang/ne/stop_words.py delete mode 100644 spacy/lang/nl/stop_words.py delete mode 100644 spacy/lang/pl/stop_words.py delete mode 100644 spacy/lang/pt/stop_words.py delete mode 100644 spacy/lang/ro/stop_words.py delete mode 100644 spacy/lang/ru/stop_words.py delete mode 100644 spacy/lang/sa/stop_words.py delete mode 100644 spacy/lang/si/stop_words.py delete mode 100644 spacy/lang/sk/stop_words.py delete mode 100644 spacy/lang/sl/stop_words.py delete mode 100644 spacy/lang/sq/stop_words.py delete mode 100644 spacy/lang/sr/stop_words.py delete mode 100644 spacy/lang/sv/stop_words.py delete mode 100644 spacy/lang/ta/stop_words.py delete mode 100644 spacy/lang/te/stop_words.py delete mode 100644 spacy/lang/th/stop_words.py delete mode 100644 spacy/lang/ti/stop_words.py delete mode 100644 spacy/lang/tl/stop_words.py delete mode 100644 spacy/lang/tn/stop_words.py delete mode 100644 spacy/lang/tr/stop_words.py delete mode 100644 spacy/lang/tt/stop_words.py delete mode 100644 spacy/lang/uk/stop_words.py delete mode 100644 spacy/lang/ur/stop_words.py delete mode 100644 spacy/lang/vi/stop_words.py delete mode 100644 spacy/lang/yo/stop_words.py delete mode 100644 spacy/lang/zh/stop_words.py delete mode 100644 spacy/tests/lang/it/test_stopwords.py diff --git a/spacy/lang/af/__init__.py b/spacy/lang/af/__init__.py index 553fcbf4c..57c489a1f 100644 --- a/spacy/lang/af/__init__.py +++ b/spacy/lang/af/__init__.py @@ -1,9 +1,8 @@ -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults class AfrikaansDefaults(BaseDefaults): - stop_words = STOP_WORDS + pass class Afrikaans(Language): diff --git a/spacy/lang/af/stop_words.py b/spacy/lang/af/stop_words.py deleted file mode 100644 index 4b5a04a5e..000000000 --- a/spacy/lang/af/stop_words.py +++ /dev/null @@ -1,57 +0,0 @@ -# Source: https://github.com/stopwords-iso/stopwords-af - -STOP_WORDS = set( - """ -'n -aan -af -al -as -baie -by -daar -dag -dat -die -dit -een -ek -en -gaan -gesê -haar -het -hom -hulle -hy -in -is -jou -jy -kan -kom -ma -maar -met -my -na -nie -om -ons -op -saam -sal -se -sien -so -sy -te -toe -uit -van -vir -was -wat -ʼn -""".split() -) diff --git a/spacy/lang/am/__init__.py b/spacy/lang/am/__init__.py index ddae556d6..3d44ad1ea 100644 --- a/spacy/lang/am/__init__.py +++ b/spacy/lang/am/__init__.py @@ -1,4 +1,3 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .punctuation import TOKENIZER_SUFFIXES @@ -14,7 +13,6 @@ class AmharicDefaults(BaseDefaults): lex_attr_getters.update(LEX_ATTRS) lex_attr_getters[LANG] = lambda text: "am" tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS) - stop_words = STOP_WORDS suffixes = TOKENIZER_SUFFIXES writing_system = {"direction": "ltr", "has_case": False, "has_letters": True} diff --git a/spacy/lang/am/stop_words.py b/spacy/lang/am/stop_words.py deleted file mode 100644 index 5487ada5a..000000000 --- a/spacy/lang/am/stop_words.py +++ /dev/null @@ -1,33 +0,0 @@ -# Stop words by Teshome Kassie http://etd.aau.edu.et/bitstream/handle/123456789/3315/Teshome%20Kassie.pdf?sequence=1&isAllowed=y -# Stop words by Tihitina Petros http://etd.aau.edu.et/bitstream/handle/123456789/3384/Tihitina%20Petros.pdf?sequence=1&isAllowed=y - -STOP_WORDS = set( - """ -ግን አንቺ አንተ እናንተ ያንተ ያንቺ የናንተ ራስህን ራስሽን ራሳችሁን -ሁሉ ኋላ በሰሞኑ አሉ በኋላ ሁኔታ በኩል አስታውቀዋል ሆነ በውስጥ -አስታውሰዋል ሆኑ ባጣም እስካሁን ሆኖም በተለይ አሳሰበ ሁል በተመለከተ -አሳስበዋል ላይ በተመሳሳይ አስፈላጊ ሌላ የተለያየ አስገነዘቡ ሌሎች የተለያዩ -አስገንዝበዋል ልዩ ተባለ አብራርተዋል መሆኑ ተገለጸ አስረድተዋል ተገልጿል -ማለቱ ተጨማሪ እባክህ የሚገኝ ተከናወነ እባክሽ ማድረግ ችግር አንጻር ማን -ትናንት እስኪደርስ ነበረች እንኳ ሰሞኑን ነበሩ እንኳን ሲሆን ነበር እዚሁ ሲል -ነው እንደገለጹት አለ ና እንደተናገሩት ቢሆን ነገር እንዳስረዱት ብለዋል ነገሮች -እንደገና ብዙ ናት ወቅት ቦታ ናቸው እንዲሁም በርካታ አሁን እንጂ እስከ -ማለት የሚሆኑት ስለማናቸውም ውስጥ ይሆናሉ ሲባል ከሆነው ስለዚሁ ከአንድ -ያልሆነ ሳለ የነበረውን ከአንዳንድ በማናቸውም በሙሉ የሆነው ያሉ በእነዚሁ -ወር መሆናቸው ከሌሎች በዋና አንዲት ወይም -በላይ እንደ በማቀድ ለሌሎች በሆኑ ቢሆንም ጊዜና ይሆኑበታል በሆነ አንዱ -ለዚህ ለሆነው ለነዚህ ከዚህ የሌላውን ሶስተኛ አንዳንድ ለማንኛውም የሆነ ከሁለት -የነገሩ ሰኣት አንደኛ እንዲሆን እንደነዚህ ማንኛውም ካልሆነ የሆኑት ጋር ቢያንስ -ይህንንም እነደሆነ እነዚህን ይኸው የማናቸውም -በሙሉም ይህችው በተለይም አንዱን የሚችለውን በነዚህ ከእነዚህ በሌላ -የዚሁ ከእነዚሁ ለዚሁ በሚገባ ለእያንዳንዱ የአንቀጹ ወደ ይህም ስለሆነ ወይ -ማናቸውንም ተብሎ እነዚህ መሆናቸውን የሆነችን ከአስር ሳይሆን ከዚያ የለውም -የማይበልጥ እንደሆነና እንዲሆኑ በሚችሉ ብቻ ብሎ ከሌላ የሌላቸውን -ለሆነ በሌሎች ሁለቱንም በቀር ይህ በታች አንደሆነ በነሱ -ይህን የሌላ እንዲህ ከሆነ ያላቸው በነዚሁ በሚል የዚህ ይህንኑ -በእንደዚህ ቁጥር ማናቸውም ሆነው ባሉ በዚህ በስተቀር ሲሆንና -በዚህም መሆን ምንጊዜም እነዚህም በዚህና ያለ ስም -ሲኖር ከዚህም መሆኑን በሁኔታው የማያንስ እነዚህኑ ማንም ከነዚሁ -ያላቸውን እጅግ ሲሆኑ ለሆኑ ሊሆን ለማናቸውም -""".split() -) diff --git a/spacy/lang/ar/__init__.py b/spacy/lang/ar/__init__.py index 18c1f90ed..ad605d12f 100644 --- a/spacy/lang/ar/__init__.py +++ b/spacy/lang/ar/__init__.py @@ -1,4 +1,3 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .punctuation import TOKENIZER_SUFFIXES from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS @@ -8,7 +7,6 @@ from ...language import Language, BaseDefaults class ArabicDefaults(BaseDefaults): tokenizer_exceptions = TOKENIZER_EXCEPTIONS suffixes = TOKENIZER_SUFFIXES - stop_words = STOP_WORDS lex_attr_getters = LEX_ATTRS writing_system = {"direction": "rtl", "has_case": False, "has_letters": True} diff --git a/spacy/lang/ar/stop_words.py b/spacy/lang/ar/stop_words.py deleted file mode 100644 index f4da54dda..000000000 --- a/spacy/lang/ar/stop_words.py +++ /dev/null @@ -1,390 +0,0 @@ -STOP_WORDS = set( - """ -من -نحو -لعل -بما -بين -وبين -ايضا -وبينما -تحت -مثلا -لدي -عنه -مع -هي -وهذا -واذا -هذان -انه -بينما -أمسى -وسوف -ولم -لذلك -إلى -منه -منها -كما -ظل -هنا -به -كذلك -اما -هما -بعد -بينهم -التي -أبو -اذا -بدلا -لها -أمام -يلي -حين -ضد -الذي -قد -صار -إذا -مابرح -قبل -كل -وليست -الذين -لهذا -وثي -انهم -باللتي -مافتئ -ولا -بهذه -بحيث -كيف -وله -علي -بات -لاسيما -حتى -وقد -و -أما -فيها -بهذا -لذا -حيث -لقد -إن -فإن -اول -ليت -فاللتي -ولقد -لسوف -هذه -ولماذا -معه -الحالي -بإن -حول -في -عليه -مايزال -ولعل -أنه -أضحى -اي -ستكون -لن -أن -ضمن -وعلى -امسى -الي -ذات -ولايزال -ذلك -فقد -هم -أي -عند -ابن -أو -فهو -فانه -سوف -ما -آل -كلا -عنها -وكذلك -ليست -لم -وأن -ماذا -لو -وهل -اللتي -ولذا -يمكن -فيه -الا -عليها -وبينهم -يوم -وبما -لما -فكان -اضحى -اصبح -لهم -بها -او -الذى -الى -إلي -قال -والتي -لازال -أصبح -ولهذا -مثل -وكانت -لكنه -بذلك -هذا -لماذا -قالت -فقط -لكن -مما -وكل -وان -وأبو -ومن -كان -مازال -هل -بينهن -هو -وما -على -وهو -لأن -واللتي -والذي -دون -عن -وايضا -هناك -بلا -جدا -ثم -منذ -اللذين -لايزال -بعض -مساء -تكون -فلا -بيننا -لا -ولكن -إذ -وأثناء -ليس -ومع -فيهم -ولسوف -بل -تلك -أحد -وهي -وكان -ومنها -وفي -ماانفك -اليوم -وماذا -هؤلاء -وليس -له -أثناء -بد -اليه -كأن -اليها -بتلك -يكون -ولما -هن -والى -كانت -وقبل -ان -لدى -إذما -إذن -أف -أقل -أكثر -ألا -إلا -اللاتي -اللائي -اللتان -اللتيا -اللتين -اللذان -اللواتي -إليك -إليكم -إليكما -إليكن -أم -أما -إما -إنا -أنا -أنت -أنتم -أنتما -أنتن -إنما -إنه -أنى -أنى -آه -آها -أولاء -أولئك -أوه -آي -أيها -إي -أين -أين -أينما -إيه -بخ -بس -بك -بكم -بكم -بكما -بكن -بلى -بماذا -بمن -بنا -بهم -بهما -بهن -بي -بيد -تلكم -تلكما -ته -تي -تين -تينك -ثمة -حاشا -حبذا -حيثما -خلا -ذا -ذاك -ذان -ذانك -ذلكم -ذلكما -ذلكن -ذه -ذو -ذوا -ذواتا -ذواتي -ذي -ذين -ذينك -ريث -سوى -شتان -عدا -عسى -عل -عليك -عما -غير -فإذا -فمن -فيم -فيما -كأنما -كأي -كأين -كذا -كلاهما -كلتا -كلما -كليكما -كليهما -كم -كم -كي -كيت -كيفما -لست -لستم -لستما -لستن -لسن -لسنا -لك -لكم -لكما -لكنما -لكي -لكيلا -لنا -لهما -لهن -لولا -لوما -لي -لئن -ليسا -ليستا -ليسوا -متى -مذ -ممن -مه -مهما -نحن -نعم -ها -هاتان -هاته -هاتي -هاتين -هاك -هاهنا -هذي -هذين -هكذا -هلا -هنالك -هيا -هيت -هيهات -والذين -وإذ -وإذا -وإن -ولو -يا -""".split() -) diff --git a/spacy/lang/az/__init__.py b/spacy/lang/az/__init__.py index 476898364..124419751 100644 --- a/spacy/lang/az/__init__.py +++ b/spacy/lang/az/__init__.py @@ -1,11 +1,9 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults class AzerbaijaniDefaults(BaseDefaults): lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Azerbaijani(Language): diff --git a/spacy/lang/az/stop_words.py b/spacy/lang/az/stop_words.py deleted file mode 100644 index 2114939ba..000000000 --- a/spacy/lang/az/stop_words.py +++ /dev/null @@ -1,145 +0,0 @@ -# Source: https://github.com/eliasdabbas/advertools/blob/master/advertools/stopwords.py -STOP_WORDS = set( - """ -amma -arasında -artıq -ay -az -bax -belə -beş -bilər -bir -biraz -biri -birşey -biz -bizim -bizlər -bu -buna -bundan -bunların -bunu -bunun -buradan -bütün -bəli -bəlkə -bəy -bəzi -bəzən -daha -dedi -deyil -dir -düz -də -dək -dən -dəqiqə -edir -edən -elə -et -etdi -etmə -etmək -faiz -gilə -görə -ha -haqqında -harada -heç -hə -həm -həmin -həmişə -hər -idi -il -ildə -ilk -ilə -in -indi -istifadə -isə -ki -kim -kimi -kimə -lakin -lap -mirşey -məhz -mən -mənə -niyə -nə -nəhayət -o -obirisi -of -olan -olar -olaraq -oldu -olduğu -olmadı -olmaz -olmuşdur -olsun -olur -on -ona -ondan -onlar -onlardan -onların -onsuzda -onu -onun -oradan -qarşı -qədər -saat -sadəcə -saniyə -siz -sizin -sizlər -sonra -səhv -sən -sənin -sənə -təəssüf -var -və -xan -xanım -xeyr -ya -yalnız -yaxşı -yeddi -yenə -yox -yoxdur -yoxsa -yəni -zaman -çox -çünki -öz -özü -üçün -əgər -əlbəttə -ən -əslində -""".split() -) diff --git a/spacy/lang/bg/__init__.py b/spacy/lang/bg/__init__.py index c9176b946..53b63563f 100644 --- a/spacy/lang/bg/__init__.py +++ b/spacy/lang/bg/__init__.py @@ -1,4 +1,3 @@ -from .stop_words import STOP_WORDS from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .lex_attrs import LEX_ATTRS from ..tokenizer_exceptions import BASE_EXCEPTIONS @@ -15,7 +14,6 @@ class BulgarianDefaults(BaseDefaults): lex_attr_getters.update(LEX_ATTRS) - stop_words = STOP_WORDS tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS) suffixes = COMBINING_DIACRITICS_TOKENIZER_SUFFIXES infixes = COMBINING_DIACRITICS_TOKENIZER_INFIXES diff --git a/spacy/lang/bg/stop_words.py b/spacy/lang/bg/stop_words.py deleted file mode 100644 index df708b65e..000000000 --- a/spacy/lang/bg/stop_words.py +++ /dev/null @@ -1,79 +0,0 @@ -""" -References: - https://github.com/Alir3z4/stop-words - Original list, serves as a base. - https://postvai.com/books/stop-dumi.pdf - Additions to the original list in order to improve it. -""" -STOP_WORDS = set( - """ -а автентичен аз ако ала - -бе без беше би бивш бивша бившо бивши бил била били било благодаря близо бъдат -бъде бъда бяха - -в вас ваш ваша вашата вашият вероятно вече взема ви вие винаги внимава време все -всеки всички вместо всичко вследствие всъщност всяка втори във въпреки върху -вътре веднъж - -г ги главен главна главно глас го годно година години годишен - -д да дали далеч далече два двама двамата две двете ден днес дни до добра добре -добро добър достатъчно докато докога дори досега доста друг друга другаде други - -е евтин едва един една еднаква еднакви еднакъв едно екип ето - -живот жив - -за здравей здрасти знае зная забавям зад зададени заедно заради засега заспал -затова запазва започвам защо защото завинаги - -и из или им има имат иска искам използвайки изглежда изглеждаше изглеждайки -извън имайки - -й йо - -каза казва казвайки казвам как каква какво както какъв като кога кауза каузи -когато когото което които кой който колко която къде където към край кратък -кръгъл - -лесен лесно ли летя летиш летим лош - -м май малко макар малцина междувременно минус ме между мек мен месец ми мис -мисля много мнозина мога могат може мой можем мокър моля момента му - -н на над назад най наш навсякъде навътре нагоре направи напред надолу наистина -например наопаки наполовина напоследък нека независимо нас насам наскоро -настрана необходимо него негов нещо нея ни ние никой нито нищо но нов някак нова -нови новина някои някой някога някъде няколко няма - -о обаче около описан опитах опитва опитвайки опитвам определен определено освен -обикновено осигурява обратно означава особен особено от ох отвъд отгоре отдолу -отново отива отивам отидох отсега отделно отколкото откъдето очевидно оттам -относно още - -п пак по повече повечето под поне просто пряко поради после последен последно -посочен почти прави прав прави правя пред преди през при пък първата първи първо -път пъти плюс - -равен равна различен различни разумен разумно - -с са сам само себе сериозно сигурен сигурно се сега си син скоро скорошен след -следващ следващия следва следното следователно случва сме смях собствен -сравнително смея според сред става срещу съвсем съдържа съдържащ съжалявам -съответен съответно сте съм със също - -т така техен техни такива такъв твърде там трета твой те тези ти то това -тогава този той търси толкова точно три трябва тук тъй тя тях - -у утре ужасно употреба успоредно уточнен уточняване - -харесва харесали хиляди - -ч часа ценя цяло цялостен че често чрез чудя - -ще щеше щом щяха - -юмрук - -я як -""".split() -) diff --git a/spacy/lang/bn/__init__.py b/spacy/lang/bn/__init__.py index 6d0331e00..640c38c1a 100644 --- a/spacy/lang/bn/__init__.py +++ b/spacy/lang/bn/__init__.py @@ -2,7 +2,6 @@ from typing import Optional, Callable from thinc.api import Model from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_SUFFIXES, TOKENIZER_INFIXES -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults from ...pipeline import Lemmatizer @@ -12,7 +11,6 @@ class BengaliDefaults(BaseDefaults): prefixes = TOKENIZER_PREFIXES suffixes = TOKENIZER_SUFFIXES infixes = TOKENIZER_INFIXES - stop_words = STOP_WORDS class Bengali(Language): diff --git a/spacy/lang/bn/stop_words.py b/spacy/lang/bn/stop_words.py deleted file mode 100644 index bf38e3254..000000000 --- a/spacy/lang/bn/stop_words.py +++ /dev/null @@ -1,42 +0,0 @@ -STOP_WORDS = set( - """ -অতএব অথচ অথবা অনুযায়ী অনেক অনেকে অনেকেই অন্তত অবধি অবশ্য অর্থাৎ অন্য অনুযায়ী অর্ধভাগে -আগামী আগে আগেই আছে আজ আদ্যভাগে আপনার আপনি আবার আমরা আমাকে আমাদের আমার আমি আর আরও -ইত্যাদি ইহা -উচিত উনি উপর উপরে উত্তর -এ এঁদের এঁরা এই এক একই একজন একটা একটি একবার একে এখন এখনও এখানে এখানেই এটা এসো -এটাই এটি এত এতটাই এতে এদের এবং এবার এমন এমনি এমনকি এর এরা এলো এস এসে -ঐ -ও ওঁদের ওঁর ওঁরা ওই ওকে ওখানে ওদের ওর ওরা -কখনও কত কথা কবে কয়েক কয়েকটি করছে করছেন করতে করবে করবেন করলে কয়েক কয়েকটি করিয়ে করিয়া করায় -করলেন করা করাই করায় করার করি করিতে করিয়া করিয়ে করে করেই করেছিলেন করেছে করেছেন করেন কাউকে -কাছ কাছে কাজ কাজে কারও কারণ কি কিংবা কিছু কিছুই কিন্তু কী কে কেউ কেউই কেন কোন কোনও কোনো কেমনে কোটি -ক্ষেত্রে খুব -গিয়ে গিয়েছে গুলি গেছে গেল গেলে গোটা গিয়ে গিয়েছে -চলে চান চায় চেয়ে চায় চেয়ে চার চালু চেষ্টা -ছাড়া ছাড়াও ছিল ছিলেন ছাড়া ছাড়াও -জন জনকে জনের জন্য জন্যে জানতে জানা জানানো জানায় জানিয়ে জানিয়েছে জানায় জাানিয়ে জানিয়েছে -টি -ঠিক -তখন তত তথা তবু তবে তা তাঁকে তাঁদের তাঁর তাঁরা তাঁহারা তাই তাও তাকে তাতে তাদের তার তারপর তারা তারই তাহলে তাহা তাহাতে তাহার তিনই -তিনি তিনিও তুমি তুলে তেমন তো তোমার তুই তোরা তোর তোমাদের তোদের -থাকবে থাকবেন থাকা থাকায় থাকে থাকেন থেকে থেকেই থেকেও থাকায় -দিকে দিতে দিয়ে দিয়েছে দিয়েছেন দিলেন দিয়ে দু দুটি দুটো দেওয়া দেওয়ার দেখতে দেখা দেখে দেন দেয় দেশের -দ্বারা দিয়েছে দিয়েছেন দেয় দেওয়া দেওয়ার দিন দুই -ধরা ধরে -নয় না নাই নাকি নাগাদ নানা নিজে নিজেই নিজেদের নিজের নিতে নিয়ে নিয়ে নেই নেওয়া নেওয়ার নয় নতুন -পক্ষে পর পরে পরেই পরেও পর্যন্ত পাওয়া পারি পারে পারেন পেয়ে প্রতি প্রভৃতি প্রায় পাওয়া পেয়ে প্রায় পাঁচ প্রথম প্রাথমিক -ফলে ফিরে ফের -বছর বদলে বরং বলতে বলল বললেন বলা বলে বলেছেন বলেন বসে বহু বা বাদে বার বিনা বিভিন্ন বিশেষ বিষয়টি বেশ ব্যবহার ব্যাপারে বক্তব্য বন বেশি -ভাবে ভাবেই -মত মতো মতোই মধ্যভাগে মধ্যে মধ্যেই মধ্যেও মনে মাত্র মাধ্যমে মানুষ মানুষের মোট মোটেই মোদের মোর -যখন যত যতটা যথেষ্ট যদি যদিও যা যাঁর যাঁরা যাওয়া যাওয়ার যাকে যাচ্ছে যাতে যাদের যান যাবে যায় যার যারা যায় যিনি যে যেখানে যেতে যেন -যেমন -রকম রয়েছে রাখা রেখে রয়েছে -লক্ষ -শুধু শুরু -সাধারণ সামনে সঙ্গে সঙ্গেও সব সবার সমস্ত সম্প্রতি সময় সহ সহিত সাথে সুতরাং সে সেই সেখান সেখানে সেটা সেটাই সেটাও সেটি স্পষ্ট স্বয়ং -হইতে হইবে হইয়া হওয়া হওয়ায় হওয়ার হচ্ছে হত হতে হতেই হন হবে হবেন হয় হয়তো হয়নি হয়ে হয়েই হয়েছিল হয়েছে হাজার -হয়েছেন হল হলে হলেই হলেও হলো হিসাবে হিসেবে হৈলে হোক হয় হয়ে হয়েছে হৈতে হইয়া হয়েছিল হয়েছেন হয়নি হয়েই হয়তো হওয়া হওয়ার হওয়ায় -""".split() -) diff --git a/spacy/lang/ca/__init__.py b/spacy/lang/ca/__init__.py index a3def660d..906172ac3 100755 --- a/spacy/lang/ca/__init__.py +++ b/spacy/lang/ca/__init__.py @@ -4,7 +4,6 @@ from thinc.api import Model from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES, TOKENIZER_PREFIXES -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .syntax_iterators import SYNTAX_ITERATORS from ...language import Language, BaseDefaults @@ -16,7 +15,6 @@ class CatalanDefaults(BaseDefaults): infixes = TOKENIZER_INFIXES suffixes = TOKENIZER_SUFFIXES prefixes = TOKENIZER_PREFIXES - stop_words = STOP_WORDS lex_attr_getters = LEX_ATTRS syntax_iterators = SYNTAX_ITERATORS diff --git a/spacy/lang/ca/stop_words.py b/spacy/lang/ca/stop_words.py deleted file mode 100644 index 1a87b2f9d..000000000 --- a/spacy/lang/ca/stop_words.py +++ /dev/null @@ -1,52 +0,0 @@ -STOP_WORDS = set( - """ -a abans ací ah així això al aleshores algun alguna algunes alguns alhora allà allí allò -als altra altre altres amb ambdues ambdós anar ans apa aquell aquella aquelles aquells -aquest aquesta aquestes aquests aquí - -baix bastant bé - -cada cadascuna cadascunes cadascuns cadascú com consegueixo conseguim conseguir -consigueix consigueixen consigueixes contra - -d'un d'una d'unes d'uns dalt de del dels des des de després dins dintre donat doncs durant - -e eh el elles ells els em en encara ens entre era erem eren eres es esta estan estat -estava estaven estem esteu estic està estàvem estàveu et etc ets érem éreu és éssent - -fa faig fan fas fem fer feu fi fins fora - -gairebé - -ha han has haver havia he hem heu hi ho - -i igual iguals inclòs - -ja jo - -l'hi la les li li'n llarg llavors - -m'he ma mal malgrat mateix mateixa mateixes mateixos me mentre meu meus meva -meves mode molt molta moltes molts mon mons més - -n'he n'hi ne ni no nogensmenys només nosaltres nostra nostre nostres - -o oh oi on - -pas pel pels per per que perquè però poc poca pocs podem poden poder -podeu poques potser primer propi puc - -qual quals quan quant que quelcom qui quin quina quines quins què - -s'ha s'han sa sabem saben saber sabeu sap saps semblant semblants sense ser ses -seu seus seva seves si sobre sobretot soc solament sols som son sons sota sou sóc són - -t'ha t'han t'he ta tal també tampoc tan tant tanta tantes te tene tenim tenir teniu -teu teus teva teves tinc ton tons tot tota totes tots - -un una unes uns us últim ús - -va vaig vam van vas veu vosaltres vostra vostre vostres - -""".split() -) diff --git a/spacy/lang/cs/__init__.py b/spacy/lang/cs/__init__.py index 3e70e4078..38803dc0e 100644 --- a/spacy/lang/cs/__init__.py +++ b/spacy/lang/cs/__init__.py @@ -1,11 +1,9 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults class CzechDefaults(BaseDefaults): lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Czech(Language): diff --git a/spacy/lang/cs/stop_words.py b/spacy/lang/cs/stop_words.py deleted file mode 100644 index f61f424f6..000000000 --- a/spacy/lang/cs/stop_words.py +++ /dev/null @@ -1,365 +0,0 @@ -# Source: https://github.com/Alir3z4/stop-words -# Source: https://github.com/stopwords-iso/stopwords-cs/blob/master/stopwords-cs.txt - -STOP_WORDS = set( - """ -a -aby -ahoj -ačkoli -ale -alespoň -anebo -ani -aniž -ano -atd. -atp. -asi -aspoň -až -během -bez -beze -blízko -bohužel -brzo -bude -budeme -budeš -budete -budou -budu -by -byl -byla -byli -bylo -byly -bys -být -čau -chce -chceme -chceš -chcete -chci -chtějí -chtít -chuť -chuti -co -což -cz -či -článek -článku -články -čtrnáct -čtyři -dál -dále -daleko -další -děkovat -děkujeme -děkuji -den -deset -devatenáct -devět -dnes -do -dobrý -docela -dva -dvacet -dvanáct -dvě -email -ho -hodně -i -já -jak -jakmile -jako -jakož -jde -je -jeden -jedenáct -jedna -jedno -jednou -jedou -jeho -jehož -jej -její -jejich -jejichž -jehož -jelikož -jemu -jen -jenom -jenž -jež -ještě -jestli -jestliže -ještě -ji -jí -jich -jím -jim -jimi -jinak -jiné -již -jsi -jsme -jsem -jsou -jste -k -kam -každý -kde -kdo -kdy -když -ke -kolik -kromě -která -kterak -kterou -které -kteří -který -kvůli -ku -má -mají -málo -mám -máme -máš -máte -mé -mě -mezi -mi -mí -mít -mne -mně -mnou -moc -mohl -mohou -moje -moji -možná -můj -musí -může -my -na -nad -nade -nám -námi -naproti -nás -náš -naše -naši -načež -ne -ně -nebo -nebyl -nebyla -nebyli -nebyly -nechť -něco -nedělá -nedělají -nedělám -neděláme -neděláš -neděláte -nějak -nejsi -nejsou -někde -někdo -nemají -nemáme -nemáte -neměl -němu -němuž -není -nestačí -ně -nevadí -nové -nový -noví -než -nic -nich -ní -ním -nimi -nula -o -od -ode -on -ona -oni -ono -ony -osm -osmnáct -pak -patnáct -pět -po -pod -pokud -pořád -pouze -potom -pozdě -pravé -před -přede -přes -přece -pro -proč -prosím -prostě -proto -proti -první -právě -protože -při -přičemž -rovně -s -se -sedm -sedmnáct -si -sice -skoro -sic -šest -šestnáct -skoro -smějí -smí -snad -spolu -sta -svůj -své -svá -svých -svým -svými -svůj -sté -sto -strana -ta -tady -tak -takhle -taky -také -takže -tam -támhle -támhleto -tamto -tě -tebe -tebou -teď -tedy -ten -tento -této -ti -tím -tímto -tisíc -tisíce -to -tobě -tohle -tohoto -tom -tomto -tomu -tomuto -toto -třeba -tři -třináct -trošku -trochu -tu -tuto -tvá -tvé -tvoje -tvůj -ty -tyto -těm -těma -těmi -u -určitě -už -v -vám -vámi -vás -váš -vaše -vaši -ve -večer -vedle -více -vlastně -však -všechen -všechno -všichni -vůbec -vy -vždy -z -zda -za -zde -zač -zatímco -ze -že -""".split() -) diff --git a/spacy/lang/da/__init__.py b/spacy/lang/da/__init__.py index e148a7b4f..f9a0df942 100644 --- a/spacy/lang/da/__init__.py +++ b/spacy/lang/da/__init__.py @@ -1,6 +1,5 @@ from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .syntax_iterators import SYNTAX_ITERATORS from ...language import Language, BaseDefaults @@ -11,7 +10,6 @@ class DanishDefaults(BaseDefaults): infixes = TOKENIZER_INFIXES suffixes = TOKENIZER_SUFFIXES lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS syntax_iterators = SYNTAX_ITERATORS diff --git a/spacy/lang/da/stop_words.py b/spacy/lang/da/stop_words.py deleted file mode 100644 index 05b2084dd..000000000 --- a/spacy/lang/da/stop_words.py +++ /dev/null @@ -1,45 +0,0 @@ -# Source: Handpicked by Jens Dahl Møllerhøj. - -STOP_WORDS = set( - """ -af aldrig alene alle allerede alligevel alt altid anden andet andre at - -bag begge blandt blev blive bliver burde bør - -da de dem den denne dens der derefter deres derfor derfra deri dermed derpå derved det dette dig din dine disse dog du - -efter egen eller ellers en end endnu ene eneste enhver ens enten er et - -flere flest fleste for foran fordi forrige fra få før først - -gennem gjorde gjort god gør gøre gørende - -ham han hans har havde have hel heller hen hende hendes henover her herefter heri hermed herpå hun hvad hvem hver hvilke hvilken hvilkes hvis hvor hvordan hvorefter hvorfor hvorfra hvorhen hvori hvorimod hvornår hvorved - -i igen igennem ikke imellem imens imod ind indtil ingen intet - -jeg jer jeres jo - -kan kom kommer kun kunne - -lad langs lav lave lavet lidt lige ligesom lille længere - -man mange med meget mellem men mens mere mest mig min mindre mindst mine mit må måske - -ned nemlig nogen nogensinde noget nogle nok nu ny nyt nær næste næsten - -og også om omkring op os over overalt - -på - -samme sammen selv selvom senere ses siden sig sige skal skulle som stadig synes syntes så sådan således - -temmelig tidligere til tilbage tit - -ud uden udover under undtagen - -var ved vi via vil ville vore vores vær være været - -øvrigt -""".split() -) diff --git a/spacy/lang/de/__init__.py b/spacy/lang/de/__init__.py index 65863c098..96a6fe7ec 100644 --- a/spacy/lang/de/__init__.py +++ b/spacy/lang/de/__init__.py @@ -1,6 +1,5 @@ from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_SUFFIXES, TOKENIZER_INFIXES -from .stop_words import STOP_WORDS from .syntax_iterators import SYNTAX_ITERATORS from ...language import Language, BaseDefaults @@ -11,7 +10,6 @@ class GermanDefaults(BaseDefaults): suffixes = TOKENIZER_SUFFIXES infixes = TOKENIZER_INFIXES syntax_iterators = SYNTAX_ITERATORS - stop_words = STOP_WORDS class German(Language): diff --git a/spacy/lang/de/stop_words.py b/spacy/lang/de/stop_words.py deleted file mode 100644 index f52687eb9..000000000 --- a/spacy/lang/de/stop_words.py +++ /dev/null @@ -1,78 +0,0 @@ -STOP_WORDS = set( - """ -á a ab aber ach acht achte achten achter achtes ag alle allein allem allen -aller allerdings alles allgemeinen als also am an andere anderen anderem andern -anders auch auf aus ausser außer ausserdem außerdem - -bald bei beide beiden beim beispiel bekannt bereits besonders besser besten bin -bis bisher bist - -da dabei dadurch dafür dagegen daher dahin dahinter damals damit danach daneben -dank dann daran darauf daraus darf darfst darin darüber darum darunter das -dasein daselbst dass daß dasselbe davon davor dazu dazwischen dein deine deinem -deiner dem dementsprechend demgegenüber demgemäss demgemäß demselben demzufolge -den denen denn denselben der deren derjenige derjenigen dermassen dermaßen -derselbe derselben des deshalb desselben dessen deswegen dich die diejenige -diejenigen dies diese dieselbe dieselben diesem diesen dieser dieses dir doch -dort drei drin dritte dritten dritter drittes du durch durchaus dürfen dürft -durfte durften - -eben ebenso ehrlich eigen eigene eigenen eigener eigenes ein einander eine -einem einen einer eines einige einigen einiger einiges einmal einmaleins elf en -ende endlich entweder er erst erste ersten erster erstes es etwa etwas euch - -früher fünf fünfte fünften fünfter fünftes für - -gab ganz ganze ganzen ganzer ganzes gar gedurft gegen gegenüber gehabt gehen -geht gekannt gekonnt gemacht gemocht gemusst genug gerade gern gesagt geschweige -gewesen gewollt geworden gibt ging gleich gross groß grosse große grossen -großen grosser großer grosses großes gut gute guter gutes - -habe haben habt hast hat hatte hätte hatten hätten heisst heißt her heute hier -hin hinter hoch - -ich ihm ihn ihnen ihr ihre ihrem ihren ihrer ihres im immer in indem -infolgedessen ins irgend ist - -ja jahr jahre jahren je jede jedem jeden jeder jedermann jedermanns jedoch -jemand jemandem jemanden jene jenem jenen jener jenes jetzt - -kam kann kannst kaum kein keine keinem keinen keiner kleine kleinen kleiner -kleines kommen kommt können könnt konnte könnte konnten kurz - -lang lange leicht leider lieber los - -machen macht machte mag magst man manche manchem manchen mancher manches mehr -mein meine meinem meinen meiner meines mich mir mit mittel mochte möchte mochten -mögen möglich mögt morgen muss muß müssen musst müsst musste mussten - -na nach nachdem nahm natürlich neben nein neue neuen neun neunte neunten neunter -neuntes nicht nichts nie niemand niemandem niemanden noch nun nur - -ob oben oder offen oft ohne - -recht rechte rechten rechter rechtes richtig rund - -sagt sagte sah satt schlecht schon sechs sechste sechsten sechster sechstes -sehr sei seid seien sein seine seinem seinen seiner seines seit seitdem selbst -selbst sich sie sieben siebente siebenten siebenter siebentes siebte siebten -siebter siebtes sind so solang solche solchem solchen solcher solches soll -sollen sollte sollten sondern sonst sowie später statt - -tag tage tagen tat teil tel trotzdem tun - -über überhaupt übrigens uhr um und uns unser unsere unserer unter - -vergangene vergangenen viel viele vielem vielen vielleicht vier vierte vierten -vierter viertes vom von vor - -wahr während währenddem währenddessen wann war wäre waren wart warum was wegen -weil weit weiter weitere weiteren weiteres welche welchem welchen welcher -welches wem wen wenig wenige weniger weniges wenigstens wenn wer werde werden -werdet wessen wie wieder will willst wir wird wirklich wirst wo wohl wollen -wollt wollte wollten worden wurde würde wurden würden - -zehn zehnte zehnten zehnter zehntes zeit zu zuerst zugleich zum zunächst zur -zurück zusammen zwanzig zwar zwei zweite zweiten zweiter zweites zwischen -""".split() -) diff --git a/spacy/lang/dsb/__init__.py b/spacy/lang/dsb/__init__.py index c66092a0c..4d1cf7270 100644 --- a/spacy/lang/dsb/__init__.py +++ b/spacy/lang/dsb/__init__.py @@ -1,11 +1,9 @@ from .lex_attrs import LEX_ATTRS -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults class LowerSorbianDefaults(BaseDefaults): lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class LowerSorbian(Language): diff --git a/spacy/lang/dsb/stop_words.py b/spacy/lang/dsb/stop_words.py deleted file mode 100644 index 376e04aa6..000000000 --- a/spacy/lang/dsb/stop_words.py +++ /dev/null @@ -1,15 +0,0 @@ -STOP_WORDS = set( - """ -a abo aby ako ale až - -daniž dokulaž - -gaž - -jolic - -pak pótom - -teke togodla -""".split() -) diff --git a/spacy/lang/el/__init__.py b/spacy/lang/el/__init__.py index 53dd9be8e..0655dcd54 100644 --- a/spacy/lang/el/__init__.py +++ b/spacy/lang/el/__init__.py @@ -2,7 +2,6 @@ from typing import Optional, Callable from thinc.api import Model from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .syntax_iterators import SYNTAX_ITERATORS from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_SUFFIXES, TOKENIZER_INFIXES @@ -16,7 +15,6 @@ class GreekDefaults(BaseDefaults): suffixes = TOKENIZER_SUFFIXES infixes = TOKENIZER_INFIXES lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS syntax_iterators = SYNTAX_ITERATORS diff --git a/spacy/lang/el/stop_words.py b/spacy/lang/el/stop_words.py deleted file mode 100644 index 7c436219f..000000000 --- a/spacy/lang/el/stop_words.py +++ /dev/null @@ -1,87 +0,0 @@ -# Stop words -# Link to greek stop words: https://www.translatum.gr/forum/index.php?topic=3550.0?topic=3550.0 -STOP_WORDS = set( - """ -αδιάκοπα αι ακόμα ακόμη ακριβώς άλλα αλλά αλλαχού άλλες άλλη άλλην -άλλης αλλιώς αλλιώτικα άλλο άλλοι αλλοιώς αλλοιώτικα άλλον άλλος άλλοτε αλλού -άλλους άλλων άμα άμεσα αμέσως αν ανά ανάμεσα αναμεταξύ άνευ αντί αντίπερα αντίς -άνω ανωτέρω άξαφνα απ απέναντι από απόψε άρα άραγε αρκετά αρκετές -αρχικά ας αύριο αυτά αυτές αυτή αυτήν αυτής αυτό αυτοί αυτόν αυτός αυτού αυτούς -αυτών αφότου αφού - -βέβαια βεβαιότατα - -γι για γιατί γρήγορα γύρω - -δα δε δείνα δεν δεξιά δήθεν δηλαδή δι δια διαρκώς δικά δικό δικοί δικός δικού -δικούς διόλου δίπλα δίχως - -εάν εαυτό εαυτόν εαυτού εαυτούς εαυτών έγκαιρα εγκαίρως εγώ εδώ ειδεμή είθε είμαι -είμαστε είναι εις είσαι είσαστε είστε είτε είχα είχαμε είχαν είχατε είχε είχες έκαστα -έκαστες έκαστη έκαστην έκαστης έκαστο έκαστοι έκαστον έκαστος εκάστου εκάστους εκάστων -εκεί εκείνα εκείνες εκείνη εκείνην εκείνης εκείνο εκείνοι εκείνον εκείνος εκείνου -εκείνους εκείνων εκτός εμάς εμείς εμένα εμπρός εν ένα έναν ένας ενός εντελώς εντός -εναντίον εξής εξαιτίας επιπλέον επόμενη εντωμεταξύ ενώ εξ έξαφνα εξήσ εξίσου έξω επάνω -επειδή έπειτα επί επίσης επομένως εσάς εσείς εσένα έστω εσύ ετέρα ετέραι ετέρας έτερες -έτερη έτερης έτερο έτεροι έτερον έτερος ετέρου έτερους ετέρων ετούτα ετούτες ετούτη ετούτην -ετούτης ετούτο ετούτοι ετούτον ετούτος ετούτου ετούτους ετούτων έτσι εύγε ευθύς ευτυχώς εφεξής -έχει έχεις έχετε έχομε έχουμε έχουν εχτές έχω έως έγιναν έγινε έκανε έξι έχοντας - -η ήδη ήμασταν ήμαστε ήμουν ήσασταν ήσαστε ήσουν ήταν ήτανε ήτοι ήττον - -θα - -ι ιδία ίδια ίδιαν ιδίας ίδιες ίδιο ίδιοι ίδιον ίδιοσ ίδιος ιδίου ίδιους ίδιων ιδίως ιι ιιι -ίσαμε ίσια ίσως - -κάθε καθεμία καθεμίας καθένα καθένας καθενός καθετί καθόλου καθώς και κακά κακώς καλά -καλώς καμία καμίαν καμίας κάμποσα κάμποσες κάμποση κάμποσην κάμποσης κάμποσο κάμποσοι -κάμποσον κάμποσος κάμποσου κάμποσους κάμποσων κανείς κάνεν κανένα κανέναν κανένας -κανενός κάποια κάποιαν κάποιας κάποιες κάποιο κάποιοι κάποιον κάποιος κάποιου κάποιους -κάποιων κάποτε κάπου κάπως κατ κατά κάτι κατιτί κατόπιν κάτω κιόλας κλπ κοντά κτλ κυρίως - -λιγάκι λίγο λιγότερο λόγω λοιπά λοιπόν - -μα μαζί μακάρι μακρυά μάλιστα μάλλον μας με μεθαύριο μείον μέλει μέλλεται μεμιάς μεν -μερικά μερικές μερικοί μερικούς μερικών μέσα μετ μετά μεταξύ μέχρι μη μήδε μην μήπως -μήτε μια μιαν μιας μόλις μολονότι μονάχα μόνες μόνη μόνην μόνης μόνο μόνοι μονομιάς -μόνος μόνου μόνους μόνων μου μπορεί μπορούν μπρος μέσω μία μεσώ - -να ναι νωρίς - -ξανά ξαφνικά - -ο οι όλα όλες όλη όλην όλης όλο ολόγυρα όλοι όλον ολονέν όλος ολότελα όλου όλους όλων -όλως ολωσδιόλου όμως όποια οποιαδήποτε οποίαν οποιανδήποτε οποίας οποίος οποιασδήποτε οποιδήποτε -όποιες οποιεσδήποτε όποιο οποιοδηήποτε όποιοι όποιον οποιονδήποτε όποιος οποιοσδήποτε -οποίου οποιουδήποτε οποίους οποιουσδήποτε οποίων οποιωνδήποτε όποτε οποτεδήποτε όπου -οπουδήποτε όπως ορισμένα ορισμένες ορισμένων ορισμένως όσα οσαδήποτε όσες οσεσδήποτε -όση οσηδήποτε όσην οσηνδήποτε όσης οσησδήποτε όσο οσοδήποτε όσοι οσοιδήποτε όσον οσονδήποτε -όσος οσοσδήποτε όσου οσουδήποτε όσους οσουσδήποτε όσων οσωνδήποτε όταν ότι οτιδήποτε -ότου ου ουδέ ούτε όχι οποία οποίες οποίο οποίοι οπότε ος - -πάνω παρά περί πολλά πολλές πολλοί πολλούς που πρώτα πρώτες πρώτη πρώτο πρώτος πως -πάλι πάντα πάντοτε παντού πάντως πάρα πέρα πέρι περίπου περισσότερο πέρσι πέρυσι πια πιθανόν -πιο πίσω πλάι πλέον πλην ποιά ποιάν ποιάς ποιές ποιό ποιοί ποιόν ποιός ποιού ποιούς -ποιών πολύ πόσες πόση πόσην πόσης πόσοι πόσος πόσους πότε ποτέ πού πούθε πουθενά πρέπει -πριν προ προκειμένου πρόκειται πρόπερσι προς προτού προχθές προχτές πρωτύτερα πώς - -σαν σας σε σεις σου στα στη στην στης στις στο στον στου στους στων συγχρόνως -συν συνάμα συνεπώς συχνάς συχνές συχνή συχνήν συχνής συχνό συχνοί συχνόν -συχνός συχνού συχνούς συχνών συχνώς σχεδόν - -τα τάδε ταύτα ταύτες ταύτη ταύτην ταύτης ταύτοταύτον ταύτος ταύτου ταύτων τάχα τάχατε -τελευταία τελευταίο τελευταίος τού τρία τρίτη τρεις τελικά τελικώς τες τέτοια τέτοιαν -τέτοιας τέτοιες τέτοιο τέτοιοι τέτοιον τέτοιος τέτοιου -τέτοιους τέτοιων τη την της τι τίποτα τίποτε τις το τοι τον τοσ τόσα τόσες τόση τόσην -τόσης τόσο τόσοι τόσον τόσος τόσου τόσους τόσων τότε του τουλάχιστο τουλάχιστον τους τούς τούτα -τούτες τούτη τούτην τούτης τούτο τούτοι τούτοις τούτον τούτος τούτου τούτους τούτων τυχόν -των τώρα - -υπ υπέρ υπό υπόψη υπόψιν ύστερα - -χωρίς χωριστά - -ω ως ωσάν ωσότου ώσπου ώστε ωστόσο ωχ -""".split() -) diff --git a/spacy/lang/en/__init__.py b/spacy/lang/en/__init__.py index 876186979..84b94af3b 100644 --- a/spacy/lang/en/__init__.py +++ b/spacy/lang/en/__init__.py @@ -2,7 +2,6 @@ from typing import Optional, Callable from thinc.api import Model from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .syntax_iterators import SYNTAX_ITERATORS from .punctuation import TOKENIZER_INFIXES @@ -15,7 +14,6 @@ class EnglishDefaults(BaseDefaults): infixes = TOKENIZER_INFIXES lex_attr_getters = LEX_ATTRS syntax_iterators = SYNTAX_ITERATORS - stop_words = STOP_WORDS class English(Language): diff --git a/spacy/lang/en/stop_words.py b/spacy/lang/en/stop_words.py deleted file mode 100644 index 1ca5cbc16..000000000 --- a/spacy/lang/en/stop_words.py +++ /dev/null @@ -1,73 +0,0 @@ -# Stop words -STOP_WORDS = set( - """ -a about above across after afterwards again against all almost alone along -already also although always am among amongst amount an and another any anyhow -anyone anything anyway anywhere are around as at - -back be became because become becomes becoming been before beforehand behind -being below beside besides between beyond both bottom but by - -call can cannot ca could - -did do does doing done down due during - -each eight either eleven else elsewhere empty enough even ever every -everyone everything everywhere except - -few fifteen fifty first five for former formerly forty four from front full -further - -get give go - -had has have he hence her here hereafter hereby herein hereupon hers herself -him himself his how however hundred - -i if in indeed into is it its itself - -keep - -last latter latterly least less - -just - -made make many may me meanwhile might mine more moreover most mostly move much -must my myself - -name namely neither never nevertheless next nine no nobody none noone nor not -nothing now nowhere - -of off often on once one only onto or other others otherwise our ours ourselves -out over own - -part per perhaps please put - -quite - -rather re really regarding - -same say see seem seemed seeming seems serious several she should show side -since six sixty so some somehow someone something sometime sometimes somewhere -still such - -take ten than that the their them themselves then thence there thereafter -thereby therefore therein thereupon these they third this those though three -through throughout thru thus to together too top toward towards twelve twenty -two - -under until up unless upon us used using - -various very very via was we well were what whatever when whence whenever where -whereafter whereas whereby wherein whereupon wherever whether which while -whither who whoever whole whom whose why will with within without would - -yet you your yours yourself yourselves -""".split() -) - -contractions = ["n't", "'d", "'ll", "'m", "'re", "'s", "'ve"] -STOP_WORDS.update(contractions) - -for apostrophe in ["‘", "’"]: - for stopword in contractions: - STOP_WORDS.add(stopword.replace("'", apostrophe)) diff --git a/spacy/lang/es/__init__.py b/spacy/lang/es/__init__.py index e75955202..dd7b4fdd9 100644 --- a/spacy/lang/es/__init__.py +++ b/spacy/lang/es/__init__.py @@ -1,7 +1,6 @@ from typing import Optional, Callable from thinc.api import Model from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .lemmatizer import SpanishLemmatizer from .syntax_iterators import SYNTAX_ITERATORS @@ -15,7 +14,6 @@ class SpanishDefaults(BaseDefaults): suffixes = TOKENIZER_SUFFIXES lex_attr_getters = LEX_ATTRS syntax_iterators = SYNTAX_ITERATORS - stop_words = STOP_WORDS class Spanish(Language): diff --git a/spacy/lang/es/stop_words.py b/spacy/lang/es/stop_words.py deleted file mode 100644 index 6d2885481..000000000 --- a/spacy/lang/es/stop_words.py +++ /dev/null @@ -1,80 +0,0 @@ -STOP_WORDS = set( - """ -a acuerdo adelante ademas además afirmó agregó ahi ahora ahí al algo alguna -algunas alguno algunos algún alli allí alrededor ambos ante anterior antes -apenas aproximadamente aquel aquella aquellas aquello aquellos aqui aquél -aquélla aquéllas aquéllos aquí arriba aseguró asi así atras aun aunque añadió -aún - -bajo bastante bien breve buen buena buenas bueno buenos - -cada casi cierta ciertas cierto ciertos cinco claro comentó como con conmigo -conocer conseguimos conseguir considera consideró consigo consigue consiguen -consigues contigo contra creo cual cuales cualquier cuando cuanta cuantas -cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas cuánto cuántos -cómo - -da dado dan dar de debajo debe deben debido decir dejó del delante demasiado -demás dentro deprisa desde despacio despues después detras detrás dia dias dice -dicen dicho dieron diez diferente diferentes dijeron dijo dio doce donde dos -durante día días dónde - -e el ella ellas ello ellos embargo en encima encuentra enfrente enseguida -entonces entre era eramos eran eras eres es esa esas ese eso esos esta estaba -estaban estado estados estais estamos estan estar estará estas este esto estos -estoy estuvo está están excepto existe existen explicó expresó él ésa ésas ése -ésos ésta éstas éste éstos - -fin final fue fuera fueron fui fuimos - -gran grande grandes - -ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer -hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron -hizo hoy hubo - -igual incluso indicó informo informó ir - -junto - -la lado largo las le les llegó lleva llevar lo los luego - -mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi -mia mias mientras mio mios mis misma mismas mismo mismos modo mucha muchas -mucho muchos muy más mí mía mías mío míos - -nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros -nuestra nuestras nuestro nuestros nueva nuevas nueve nuevo nuevos nunca - -o ocho once os otra otras otro otros - -para parece parte partir pasada pasado paìs peor pero pesar poca pocas poco -pocos podeis podemos poder podria podriais podriamos podrian podrias podrá -podrán podría podrían poner por porque posible primer primera primero primeros -pronto propia propias propio propios proximo próximo próximos pudo pueda puede -pueden puedo pues - -qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién -quiénes qué - -realizado realizar realizó repente respecto - -sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo -según seis ser sera será serán sería señaló si sido siempre siendo siete sigue -siguiente sin sino sobre sois sola solamente solas solo solos somos son soy su -supuesto sus suya suyas suyo suyos sé sí sólo - -tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis -tenemos tener tenga tengo tenido tenía tercera tercero ti tiene tienen toda -todas todavia todavía todo todos total tras trata través tres tu tus tuvo tuya -tuyas tuyo tuyos tú - -u ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes -última últimas último últimos - -va vais vamos van varias varios vaya veces ver verdad verdadera verdadero vez -vosotras vosotros voy vuestra vuestras vuestro vuestros - -y ya yo -""".split() -) diff --git a/spacy/lang/et/__init__.py b/spacy/lang/et/__init__.py index 274bc1309..dfcb5ced0 100644 --- a/spacy/lang/et/__init__.py +++ b/spacy/lang/et/__init__.py @@ -1,9 +1,8 @@ -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults class EstonianDefaults(BaseDefaults): - stop_words = STOP_WORDS + pass class Estonian(Language): diff --git a/spacy/lang/et/stop_words.py b/spacy/lang/et/stop_words.py deleted file mode 100644 index e1da1f14d..000000000 --- a/spacy/lang/et/stop_words.py +++ /dev/null @@ -1,41 +0,0 @@ -# Source: https://github.com/stopwords-iso/stopwords-et - -STOP_WORDS = set( - """ -aga -ei -et -ja -jah -kas -kui -kõik -ma -me -mida -midagi -mind -minu -mis -mu -mul -mulle -nad -nii -oled -olen -oli -oma -on -pole -sa -seda -see -selle -siin -siis -ta -te -ära -""".split() -) diff --git a/spacy/lang/eu/__init__.py b/spacy/lang/eu/__init__.py index 3346468bd..ba3e0130f 100644 --- a/spacy/lang/eu/__init__.py +++ b/spacy/lang/eu/__init__.py @@ -1,4 +1,3 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .punctuation import TOKENIZER_SUFFIXES from ...language import Language, BaseDefaults @@ -6,7 +5,6 @@ from ...language import Language, BaseDefaults class BasqueDefaults(BaseDefaults): suffixes = TOKENIZER_SUFFIXES - stop_words = STOP_WORDS lex_attr_getters = LEX_ATTRS diff --git a/spacy/lang/eu/stop_words.py b/spacy/lang/eu/stop_words.py deleted file mode 100644 index d213b5b81..000000000 --- a/spacy/lang/eu/stop_words.py +++ /dev/null @@ -1,105 +0,0 @@ -# Source: https://github.com/stopwords-iso/stopwords-eu -# https://www.ranks.nl/stopwords/basque -# https://www.mustgo.com/worldlanguages/basque/ -STOP_WORDS = set( - """ -al -anitz -arabera -asko -baina -bat -batean -batek -bati -batzuei -batzuek -batzuetan -batzuk -bera -beraiek -berau -berauek -bere -berori -beroriek -beste -bezala -da -dago -dira -ditu -du -dute -edo -egin -ere -eta -eurak -ez -gainera -gu -gutxi -guzti -haiei -haiek -haietan -hainbeste -hala -han -handik -hango -hara -hari -hark -hartan -hau -hauei -hauek -hauetan -hemen -hemendik -hemengo -hi -hona -honek -honela -honetan -honi -hor -hori -horiei -horiek -horietan -horko -horra -horrek -horrela -horretan -horri -hortik -hura -izan -ni -noiz -nola -non -nondik -nongo -nor -nora -ze -zein -zen -zenbait -zenbat -zer -zergatik -ziren -zituen -zu -zuek -zuen -zuten -""".split() -) diff --git a/spacy/lang/fa/__init__.py b/spacy/lang/fa/__init__.py index 914e4c27d..ceea50de8 100644 --- a/spacy/lang/fa/__init__.py +++ b/spacy/lang/fa/__init__.py @@ -1,6 +1,5 @@ from typing import Optional, Callable from thinc.api import Model -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .punctuation import TOKENIZER_SUFFIXES @@ -14,7 +13,6 @@ class PersianDefaults(BaseDefaults): suffixes = TOKENIZER_SUFFIXES lex_attr_getters = LEX_ATTRS syntax_iterators = SYNTAX_ITERATORS - stop_words = STOP_WORDS writing_system = {"direction": "rtl", "has_case": False, "has_letters": True} diff --git a/spacy/lang/fa/stop_words.py b/spacy/lang/fa/stop_words.py deleted file mode 100644 index f462f2e7a..000000000 --- a/spacy/lang/fa/stop_words.py +++ /dev/null @@ -1,393 +0,0 @@ -# Stop words from HAZM package -STOP_WORDS = set( - """ -و -در -به -از -که -این -را -با -است -برای -آن -یک -خود -تا -کرد -بر -هم -نیز -گفت -می‌شود -وی -شد -دارد -ما -اما -یا -شده -باید -هر -آنها -بود -او -دیگر -دو -مورد -می‌کند -شود -کند -وجود -بین -پیش -شده‌است -پس -نظر -اگر -همه -یکی -حال -هستند -من -کنند -نیست -باشد -چه -بی -می -بخش -می‌کنند -همین -افزود -هایی -دارند -راه -همچنین -روی -داد -بیشتر -بسیار -سه -داشت -چند -سوی -تنها -هیچ -میان -اینکه -شدن -بعد -جدید -ولی -حتی -کردن -برخی -کردند -می‌دهد -اول -نه -کرده‌است -نسبت -بیش -شما -چنین -طور -افراد -تمام -درباره -بار -بسیاری -می‌تواند -کرده -چون -ندارد -دوم -بزرگ -طی -حدود -همان -بدون -البته -آنان -می‌گوید -دیگری -خواهد‌شد -کنیم -قابل -یعنی -رشد -می‌توان -وارد -کل -ویژه -قبل -براساس -نیاز -گذاری -هنوز -لازم -سازی -بوده‌است -چرا -می‌شوند -وقتی -گرفت -کم -جای -حالی -تغییر -پیدا -اکنون -تحت -باعث -مدت -فقط -زیادی -تعداد -آیا -بیان -رو -شدند -عدم -کرده‌اند -بودن -نوع -بلکه -جاری -دهد -برابر -مهم -بوده -اخیر -مربوط -امر -زیر -گیری -شاید -خصوص -آقای -اثر -کننده -بودند -فکر -کنار -اولین -سوم -سایر -کنید -ضمن -مانند -باز -می‌گیرد -ممکن -حل -دارای -پی -مثل -می‌رسد -اجرا -دور -منظور -کسی -موجب -طول -امکان -آنچه -تعیین -گفته -شوند -جمع -خیلی -علاوه -گونه -تاکنون -رسید -ساله -گرفته -شده‌اند -علت -چهار -داشته‌باشد -خواهد‌بود -طرف -تهیه -تبدیل -مناسب -زیرا -مشخص -می‌توانند -نزدیک -جریان -روند -بنابراین -می‌دهند -یافت -نخستین -بالا -پنج -ریزی -عالی -چیزی -نخست -بیشتری -ترتیب -شده‌بود -خاص -خوبی -خوب -شروع -فرد -کامل -غیر -می‌رود -دهند -آخرین -دادن -جدی -بهترین -شامل -گیرد -بخشی -باشند -تمامی -بهتر -داده‌است -حد -نبود -کسانی -می‌کرد -داریم -علیه -می‌باشد -دانست -ناشی -داشتند -دهه -می‌شد -ایشان -آنجا -گرفته‌است -دچار -می‌آید -لحاظ -آنکه -داده -بعضی -هستیم -اند -برداری -نباید -می‌کنیم -نشست -سهم -همیشه -آمد -اش -وگو -می‌کنم -حداقل -طبق -جا -خواهد‌کرد -نوعی -چگونه -رفت -هنگام -فوق -روش -ندارند -سعی -بندی -شمار -کلی -کافی -مواجه -همچنان -زیاد -سمت -کوچک -داشته‌است -چیز -پشت -آورد -حالا -روبه -سال‌های -دادند -می‌کردند -عهده -نیمه -جایی -دیگران -سی -بروز -یکدیگر -آمده‌است -جز -کنم -سپس -کنندگان -خودش -همواره -یافته -شان -صرف -نمی‌شود -رسیدن -چهارم -یابد -متر -ساز -داشته -کرده‌بود -باره -نحوه -کردم -تو -شخصی -داشته‌باشند -محسوب -پخش -کمی -متفاوت -سراسر -کاملا -داشتن -نظیر -آمده -گروهی -فردی -ع -همچون -خطر -خویش -کدام -دسته -سبب -عین -آوری -متاسفانه -بیرون -دار -ابتدا -شش -افرادی -می‌گویند -سالهای -درون -نیستند -یافته‌است -پر -خاطرنشان -گاه -جمعی -اغلب -دوباره -می‌یابد -لذا -زاده -گردد -اینجا""".split() -) diff --git a/spacy/lang/fi/__init__.py b/spacy/lang/fi/__init__.py index c3a0cf451..d1fca556b 100644 --- a/spacy/lang/fi/__init__.py +++ b/spacy/lang/fi/__init__.py @@ -1,5 +1,4 @@ from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES from .syntax_iterators import SYNTAX_ITERATORS @@ -11,7 +10,6 @@ class FinnishDefaults(BaseDefaults): suffixes = TOKENIZER_SUFFIXES tokenizer_exceptions = TOKENIZER_EXCEPTIONS lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS syntax_iterators = SYNTAX_ITERATORS diff --git a/spacy/lang/fi/stop_words.py b/spacy/lang/fi/stop_words.py deleted file mode 100644 index 8e8dcfa56..000000000 --- a/spacy/lang/fi/stop_words.py +++ /dev/null @@ -1,110 +0,0 @@ -# Source https://github.com/stopwords-iso/stopwords-fi/blob/master/stopwords-fi.txt -# Reformatted with some minor corrections -STOP_WORDS = set( - """ -aiemmin aika aikaa aikaan aikaisemmin aikaisin aikana aikoina aikoo aikovat -aina ainakaan ainakin ainoa ainoat aiomme aion aiotte aivan ajan alas alemmas -alkuisin alkuun alla alle aloitamme aloitan aloitat aloitatte aloitattivat -aloitettava aloitettavaksi aloitettu aloitimme aloitin aloitit aloititte -aloittaa aloittamatta aloitti aloittivat alta aluksi alussa alusta annettavaksi -annettava annettu ansiosta antaa antamatta antoi apu asia asiaa asian asiasta -asiat asioiden asioihin asioita asti avuksi avulla avun avutta - -edelle edelleen edellä edeltä edemmäs edes edessä edestä ehkä ei eikä eilen -eivät eli ellei elleivät ellemme ellen ellet ellette emme en enemmän eniten -ennen ensi ensimmäinen ensimmäiseksi ensimmäisen ensimmäisenä ensimmäiset -ensimmäisiksi ensimmäisinä ensimmäisiä ensimmäistä ensin entinen entisen -entisiä entisten entistä enää eri erittäin erityisesti eräiden eräs eräät esi -esiin esillä esimerkiksi et eteen etenkin ette ettei että - -halua haluaa haluamatta haluamme haluan haluat haluatte haluavat halunnut -halusi halusimme halusin halusit halusitte halusivat halutessa haluton he hei -heidän heidät heihin heille heillä heiltä heissä heistä heitä helposti heti -hetkellä hieman hitaasti huolimatta huomenna hyvien hyviin hyviksi hyville -hyviltä hyvin hyvinä hyvissä hyvistä hyviä hyvä hyvät hyvää hän häneen hänelle -hänellä häneltä hänen hänessä hänestä hänet häntä - -ihan ilman ilmeisesti itse itsensä itseään - -ja jo johon joiden joihin joiksi joilla joille joilta joina joissa joista joita -joka jokainen jokin joko joksi joku jolla jolle jolloin jolta jompikumpi jona -jonka jonkin jonne joo jopa jos joskus jossa josta jota jotain joten jotenkin -jotenkuten jotka jotta jouduimme jouduin jouduit jouduitte joudumme joudun -joudutte joukkoon joukossa joukosta joutua joutui joutuivat joutumaan joutuu -joutuvat juuri jälkeen jälleen jää - -kahdeksan kahdeksannen kahdella kahdelle kahdelta kahden kahdessa kahdesta -kahta kahteen kai kaiken kaikille kaikilta kaikkea kaikki kaikkia kaikkiaan -kaikkialla kaikkialle kaikkialta kaikkien kaikkiin kaksi kannalta kannattaa -kanssa kanssaan kanssamme kanssani kanssanne kanssasi kauan kauemmas kaukana -kautta kehen keiden keihin keiksi keille keillä keiltä keinä keissä keistä -keitten keittä keitä keneen keneksi kenelle kenellä keneltä kenen kenenä -kenessä kenestä kenet kenettä kenties kerran kerta kertaa keskellä kesken -keskimäärin ketkä ketä kiitos kohti koko kokonaan kolmas kolme kolmen kolmesti -koska koskaan kovin kuin kuinka kuinkaan kuitenkaan kuitenkin kuka kukaan kukin -kumpainen kumpainenkaan kumpi kumpikaan kumpikin kun kuten kuuden kuusi kuutta -kylliksi kyllä kymmenen kyse - -liian liki lisäksi lisää lla luo luona lähekkäin lähelle lähellä läheltä -lähemmäs lähes lähinnä lähtien läpi - -mahdollisimman mahdollista me meidän meidät meihin meille meillä meiltä meissä -meistä meitä melkein melko menee menemme menen menet menette menevät meni -menimme menin menit menivät mennessä mennyt menossa mihin miksi mikä mikäli -mikään mille milloin milloinkan millä miltä minkä minne minua minulla minulle -minulta minun minussa minusta minut minuun minä missä mistä miten mitkä mitä -mitään moi molemmat mones monesti monet moni moniaalla moniaalle moniaalta -monta muassa muiden muita muka mukaan mukaansa mukana mutta muu muualla muualle -muualta muuanne muulloin muun muut muuta muutama muutaman muuten myöhemmin myös -myöskin myöskään myötä - -ne neljä neljän neljää niiden niihin niiksi niille niillä niiltä niin niinä -niissä niistä niitä noiden noihin noiksi noilla noille noilta noin noina noissa -noista noita nopeammin nopeasti nopeiten nro nuo nyt näiden näihin näiksi -näille näillä näiltä näin näinä näissä näistä näitä nämä - -ohi oikea oikealla oikein ole olemme olen olet olette oleva olevan olevat oli -olimme olin olisi olisimme olisin olisit olisitte olisivat olit olitte olivat -olla olleet ollut oma omaa omaan omaksi omalle omalta oman omassa omat omia -omien omiin omiksi omille omilta omissa omista on onkin onko ovat - -paikoittain paitsi pakosti paljon paremmin parempi parhaillaan parhaiten -perusteella peräti pian pieneen pieneksi pienelle pienellä pieneltä pienempi -pienestä pieni pienin poikki puolesta puolestaan päälle - -runsaasti - -saakka sama samaa samaan samalla saman samat samoin satojen se -seitsemän sekä sen seuraavat siellä sieltä siihen siinä siis siitä sijaan siksi -sille silloin sillä silti siltä sinne sinua sinulla sinulle sinulta sinun -sinussa sinusta sinut sinuun sinä sisäkkäin sisällä siten sitten sitä ssa sta -suoraan suuntaan suuren suuret suuri suuria suurin suurten - -taa taas taemmas tahansa tai takaa takaisin takana takia tallä tapauksessa -tarpeeksi tavalla tavoitteena te teidän teidät teihin teille teillä teiltä -teissä teistä teitä tietysti todella toinen toisaalla toisaalle toisaalta -toiseen toiseksi toisella toiselle toiselta toisemme toisen toisensa toisessa -toisesta toista toistaiseksi toki tosin tule tulee tulemme tulen -tulet tulette tulevat tulimme tulin tulisi tulisimme tulisin tulisit tulisitte -tulisivat tulit tulitte tulivat tulla tulleet tullut tuntuu tuo tuohon tuoksi -tuolla tuolle tuolloin tuolta tuon tuona tuonne tuossa tuosta tuota tuskin tykö -tähän täksi tälle tällä tällöin tältä tämä tämän tänne tänä tänään tässä tästä -täten tätä täysin täytyvät täytyy täällä täältä - -ulkopuolella usea useasti useimmiten usein useita uudeksi uudelleen uuden uudet -uusi uusia uusien uusinta uuteen uutta - -vaan vai vaiheessa vaikea vaikean vaikeat vaikeilla vaikeille vaikeilta -vaikeissa vaikeista vaikka vain varmasti varsin varsinkin varten vasen -vasemmalla vasta vastaan vastakkain vastan verran vielä vierekkäin vieressä -vieri viiden viime viimeinen viimeisen viimeksi viisi voi voidaan voimme voin -voisi voit voitte voivat vuoden vuoksi vuosi vuosien vuosina vuotta vähemmän -vähintään vähiten vähän välillä - -yhdeksän yhden yhdessä yhteen yhteensä yhteydessä yhteyteen yhtä yhtäälle -yhtäällä yhtäältä yhtään yhä yksi yksin yksittäin yleensä ylemmäs yli ylös -ympäri - -älköön älä -""".split() -) diff --git a/spacy/lang/fr/__init__.py b/spacy/lang/fr/__init__.py index 27d2a915e..18641f392 100644 --- a/spacy/lang/fr/__init__.py +++ b/spacy/lang/fr/__init__.py @@ -5,7 +5,6 @@ from thinc.api import Model from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, TOKEN_MATCH from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES from .punctuation import TOKENIZER_SUFFIXES -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .syntax_iterators import SYNTAX_ITERATORS from .lemmatizer import FrenchLemmatizer @@ -20,7 +19,6 @@ class FrenchDefaults(BaseDefaults): token_match = TOKEN_MATCH lex_attr_getters = LEX_ATTRS syntax_iterators = SYNTAX_ITERATORS - stop_words = STOP_WORDS class French(Language): diff --git a/spacy/lang/fr/stop_words.py b/spacy/lang/fr/stop_words.py deleted file mode 100644 index b32ee3d71..000000000 --- a/spacy/lang/fr/stop_words.py +++ /dev/null @@ -1,84 +0,0 @@ -STOP_WORDS = set( - """ -a à â abord afin ah ai aie ainsi ait allaient allons -alors anterieur anterieure anterieures antérieur antérieure antérieures -apres après as assez attendu au -aupres auquel aura auraient aurait auront -aussi autre autrement autres autrui aux auxquelles auxquels avaient -avais avait avant avec avoir avons ayant - -bas basee bat - -c' c’ ça car ce ceci cela celle celle-ci celle-la celle-là celles celles-ci celles-la celles-là -celui celui-ci celui-la celui-là cent cependant certain certaine certaines certains certes ces -cet cette ceux ceux-ci ceux-là chacun chacune chaque chez ci cinq cinquantaine cinquante -cinquantième cinquième combien comme comment compris concernant - -d' d’ da dans de debout dedans dehors deja dejà delà depuis derriere -derrière des desormais desquelles desquels dessous dessus deux deuxième -deuxièmement devant devers devra different differente differentes differents différent -différente différentes différents dire directe directement dit dite dits divers -diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont -douze douzième du duquel durant dès déja déjà désormais - -effet egalement eh elle elle-meme elle-même elles elles-memes elles-mêmes en encore -enfin entre envers environ es ès est et etaient étaient etais étais etait était -etant étant etc etre être eu eux eux-mêmes exactement excepté également - -fais faisaient faisant fait facon façon feront font - -gens - -ha hem hep hi ho hormis hors hou houp hue hui huit huitième -hé i il ils importe - -j' j’ je jusqu jusque juste - -l' l’ la laisser laquelle le lequel les lesquelles lesquels leur leurs longtemps -lors lorsque lui lui-meme lui-même là lès - -m' m’ ma maint maintenant mais malgre malgré me meme memes merci mes mien -mienne miennes miens mille moi moi-meme moi-même moindres moins -mon même mêmes - -n' n’ na ne neanmoins neuvième ni nombreuses nombreux nos notamment -notre nous nous-mêmes nouveau nul néanmoins nôtre nôtres - -o ô on ont onze onzième or ou ouias ouste outre -ouvert ouverte ouverts où - -par parce parfois parle parlent parler parmi partant -pas pendant pense permet personne peu peut peuvent peux plus -plusieurs plutot plutôt possible possibles pour pourquoi -pourrais pourrait pouvait prealable precisement -premier première premièrement -pres procedant proche près préalable précisement pu puis puisque - -qu' qu’ quand quant quant-à-soi quarante quatorze quatre quatre-vingt -quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque -quelques quels qui quiconque quinze quoi quoique - -relative relativement rend rendre restant reste -restent retour revoici revoila revoilà - -s' s’ sa sait sans sauf se seize selon semblable semblaient -semble semblent sent sept septième sera seraient serait seront ses seul seule -seulement seuls seules si sien sienne siennes siens sinon six sixième soi soi-meme soi-même soit -soixante son sont sous souvent specifique specifiques spécifique spécifiques stop -suffisant suffisante suffit suis suit suivant suivante -suivantes suivants suivre sur surtout - -t' t’ ta tant te tel telle tellement telles tels tenant tend tenir tente -tes tien tienne tiennes tiens toi toi-meme toi-même ton touchant toujours tous -tout toute toutes treize trente tres trois troisième troisièmement très -tu té - -un une unes uns - -va vais vas vers via vingt voici voila voilà vont vos -votre votres vous vous-mêmes vu vé vôtre vôtres - -y - -""".split() -) diff --git a/spacy/lang/ga/__init__.py b/spacy/lang/ga/__init__.py index 3be53bc7a..37a9a92d1 100644 --- a/spacy/lang/ga/__init__.py +++ b/spacy/lang/ga/__init__.py @@ -3,14 +3,12 @@ from typing import Optional from thinc.api import Model from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults from .lemmatizer import IrishLemmatizer class IrishDefaults(BaseDefaults): tokenizer_exceptions = TOKENIZER_EXCEPTIONS - stop_words = STOP_WORDS class Irish(Language): diff --git a/spacy/lang/ga/stop_words.py b/spacy/lang/ga/stop_words.py deleted file mode 100644 index 4ef052ca5..000000000 --- a/spacy/lang/ga/stop_words.py +++ /dev/null @@ -1,43 +0,0 @@ -STOP_WORDS = set( - """ -a ach ag agus an aon ar arna as - -ba beirt bhúr - -caoga ceathair ceathrar chomh chuig chun cois céad cúig cúigear - -daichead dar de deich deichniúr den dhá do don dtí dá dár dó - -faoi faoin faoina faoinár fara fiche - -gach gan go gur - -haon hocht - -i iad idir in ina ins inár is - -le leis lena lenár - -mar mo muid mé - -na nach naoi naonúr ná ní níor nó nócha - -ocht ochtar ochtó os - -roimh - -sa seacht seachtar seachtó seasca seisear siad sibh sinn sna sé sí - -tar thar thú triúr trí trína trínár tríocha tú - -um - -ár - -é éis - -í - -ó ón óna ónár -""".split() -) diff --git a/spacy/lang/grc/__init__.py b/spacy/lang/grc/__init__.py index e83f0c5a5..21e3d6ce9 100644 --- a/spacy/lang/grc/__init__.py +++ b/spacy/lang/grc/__init__.py @@ -1,5 +1,4 @@ from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults @@ -7,7 +6,6 @@ from ...language import Language, BaseDefaults class AncientGreekDefaults(BaseDefaults): tokenizer_exceptions = TOKENIZER_EXCEPTIONS lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class AncientGreek(Language): diff --git a/spacy/lang/grc/stop_words.py b/spacy/lang/grc/stop_words.py deleted file mode 100644 index cbb766a8c..000000000 --- a/spacy/lang/grc/stop_words.py +++ /dev/null @@ -1,61 +0,0 @@ -STOP_WORDS = set( - """ -αὐτῷ αὐτοῦ αὐτῆς αὐτόν αὐτὸν αὐτῶν αὐτὸς αὐτὸ αὐτό αὐτός αὐτὴν αὐτοῖς αὐτοὺς αὔτ' αὐτὰ αὐτῇ αὐτὴ -αὐτὼ αὑταὶ καὐτὸς αὐτά αὑτός αὐτοῖσι αὐτοῖσιν αὑτὸς αὐτήν αὐτοῖσί αὐτοί αὐτοὶ αὐτοῖο αὐτάων αὐτὰς -αὐτέων αὐτώ αὐτάς αὐτούς αὐτή αὐταί αὐταὶ αὐτῇσιν τὠυτῷ τὠυτὸ ταὐτὰ ταύτῃ αὐτῇσι αὐτῇς αὐταῖς αὐτᾶς αὐτὰν ταὐτὸν - -γε γ' γέ γὰρ γάρ δαῖτα δαιτὸς δαιτὶ δαὶ δαιτί δαῖτ' δαΐδας δαΐδων δἰ διὰ διά δὲ δ' δέ δὴ δή εἰ εἴ κεἰ κεἴ αἴ αἲ εἲ αἰ - -ἐστί ἐστιν ὢν ἦν ἐστὶν ὦσιν εἶναι ὄντι εἰσιν ἐστι ὄντα οὖσαν ἦσαν ἔστι ὄντας ἐστὲ εἰσὶ εἶ ὤν ἦ οὖσαι ἔσται ἐσμὲν ἐστ' ἐστίν ἔστ' ὦ ἔσει ἦμεν εἰμι εἰσὶν ἦσθ' -ἐστὶ ᾖ οὖσ' ἔστιν εἰμὶ εἴμ' ἐσθ' ᾖς στί εἴην εἶναί οὖσα κἄστ' εἴη ἦσθα εἰμ' ἔστω ὄντ' ἔσθ' ἔμμεναι ἔω ἐὼν ἐσσι ἔσσεται ἐστὸν ἔσαν ἔστων ἐόντα ἦεν ἐοῦσαν ἔην -ἔσσομαι εἰσί ἐστόν ἔσκεν ἐόντ' ἐών ἔσσεσθ' εἰσ' ἐόντες ἐόντε ἐσσεῖται εἰμεν ἔασιν ἔσκε ἔμεναι ἔσεσθαι ἔῃ εἰμὲν εἰσι ἐόντας ἔστε εἰς ἦτε εἰμί ἔσσεαι ἔμμεν -ἐοῦσα ἔμεν ᾖσιν ἐστε ἐόντι εἶεν ἔσσονται ἔησθα ἔσεσθε ἐσσί ἐοῦσ' ἔασι ἔα ἦα ἐόν ἔσσεσθαι ἔσομαι ἔσκον εἴης ἔωσιν εἴησαν ἐὸν ἐουσέων ἔσσῃ ἐούσης ἔσονται -ἐούσας ἐόντων ἐόντος ἐσομένην ἔστωσαν ἔωσι ἔας ἐοῦσαι ἣν εἰσίν ἤστην ὄντες ὄντων οὔσας οὔσαις ὄντος οὖσι οὔσης ἔσῃ ὂν ἐσμεν ἐσμέν οὖσιν ἐσομένους ἐσσόμεσθα - -ἒς ἐς ἔς ἐν κεἰς εἲς κἀν ἔν κατὰ κατ' καθ' κατά κάτα κὰπ κὰκ κὰδ κὰρ κάρ κὰγ κὰμ καὶ καί μετὰ μεθ' μετ' μέτα μετά μέθ' μέτ' μὲν μέν μὴ - -μή μη οὐκ οὒ οὐ οὐχ οὐχὶ κοὐ κοὐχ οὔ κοὐκ οὐχί οὐκὶ οὐδὲν οὐδεὶς οὐδέν κοὐδεὶς κοὐδὲν οὐδένα οὐδενὸς οὐδέν' οὐδενός οὐδενὶ -οὐδεμία οὐδείς οὐδεμίαν οὐδὲ οὐδ' κοὐδ' οὐδέ οὔτε οὔθ' οὔτέ τε οὔτ' οὕτως οὕτω οὕτῶ χοὔτως οὖν ὦν ὧν τοῦτο τοῦθ' τοῦτον τούτῳ -τούτοις ταύτας αὕτη ταῦτα οὗτος ταύτης ταύτην τούτων ταῦτ' τοῦτ' τούτου αὗται τούτους τοῦτό ταῦτά τούτοισι χαὔτη ταῦθ' χοὖτοι -τούτοισιν οὗτός οὗτοι τούτω τουτέων τοῦτὸν οὗτοί τοῦτου οὗτοὶ ταύτῃσι ταύταις ταυτὶ παρὰ παρ' πάρα παρά πὰρ παραὶ πάρ' περὶ -πέρι περί πρὸς πρός ποτ' ποτὶ προτὶ προτί πότι - -σὸς σήν σὴν σὸν σόν σὰ σῶν σοῖσιν σός σῆς σῷ σαῖς σῇ σοῖς σοῦ σ' σὰν σά σὴ σὰς -σᾷ σοὺς σούς σοῖσι σῇς σῇσι σή σῇσιν σοὶ σου ὑμεῖς σὲ σύ σοι ὑμᾶς ὑμῶν ὑμῖν σε -σέ σὺ σέθεν σοί ὑμὶν σφῷν ὑμίν τοι τοὶ σφὼ ὔμμ' σφῶϊ σεῖο τ' σφῶϊν ὔμμιν σέο σευ σεῦ -ὔμμι ὑμέων τύνη ὑμείων τοί ὔμμες σεο τέ τεοῖο ὑμέας σὺν ξὺν σύν - -θ' τί τι τις τινες τινα τινος τινὸς τινὶ τινῶν τίς τίνες τινὰς τιν' τῳ του τίνα τοῦ τῷ τινί τινά τίνος τινι τινας τινὰ τινων -τίν' τευ τέο τινές τεο τινὲς τεῷ τέῳ τινός τεῳ τισὶ - -τοιαῦτα τοιοῦτον τοιοῦθ' τοιοῦτος τοιαύτην τοιαῦτ' τοιούτου τοιαῦθ' τοιαύτῃ τοιούτοις τοιαῦται τοιαῦτά τοιαύτη τοιοῦτοι τοιούτων τοιούτοισι -τοιοῦτο τοιούτους τοιούτῳ τοιαύτης τοιαύταις τοιαύτας τοιοῦτός τίνι τοῖσι τίνων τέων τέοισί τὰ τῇ τώ τὼ - -ἀλλὰ ἀλλ' ἀλλά ἀπ' ἀπὸ κἀπ' ἀφ' τἀπὸ κἀφ' ἄπο ἀπό τὠπὸ τἀπ' ἄλλων ἄλλῳ ἄλλη ἄλλης ἄλλους ἄλλοις ἄλλον ἄλλο ἄλλου τἄλλα ἄλλα -ἄλλᾳ ἄλλοισιν τἄλλ' ἄλλ' ἄλλος ἄλλοισι κἄλλ' ἄλλοι ἄλλῃσι ἄλλόν ἄλλην ἄλλά ἄλλαι ἄλλοισίν ὧλλοι ἄλλῃ ἄλλας ἀλλέων τἆλλα ἄλλως -ἀλλάων ἄλλαις τἆλλ' - -ἂν ἄν κἂν τἂν ἃν κεν κ' κέν κέ κε χ' ἄρα τἄρα ἄρ' τἄρ' ἄρ ῥα ῥά ῥ τὰρ ἄρά ἂρ - -ἡμᾶς με ἐγὼ ἐμὲ μοι κἀγὼ ἡμῶν ἡμεῖς ἐμοὶ ἔγωγ' ἁμοὶ ἡμῖν μ' ἔγωγέ ἐγώ ἐμοί ἐμοῦ κἀμοῦ ἔμ' κἀμὲ ἡμὶν μου ἐμέ ἔγωγε νῷν νὼ χἠμεῖς ἁμὲ κἀγώ κἀμοὶ χἠμᾶς -ἁγὼ ἡμίν κἄμ' ἔμοιγ' μοί τοὐμὲ ἄμμε ἐγὼν ἐμεῦ ἐμεῖο μευ ἔμοιγε ἄμμι μέ ἡμέας νῶϊ ἄμμιν ἧμιν ἐγών νῶΐ ἐμέθεν ἥμιν ἄμμες νῶι ἡμείων ἄμμ' ἡμέων ἐμέο -ἐκ ἔκ ἐξ κἀκ κ ἃκ κἀξ ἔξ εξ Ἐκ τἀμὰ ἐμοῖς τοὐμόν ἐμᾶς τοὐμὸν ἐμῶν ἐμὸς ἐμῆς ἐμῷ τὠμῷ ἐμὸν τἄμ' ἐμὴ ἐμὰς ἐμαῖς ἐμὴν ἐμόν ἐμὰ ἐμός ἐμοὺς ἐμῇ ἐμᾷ -οὑμὸς ἐμοῖν οὑμός κἀμὸν ἐμαὶ ἐμή ἐμάς ἐμοῖσι ἐμοῖσιν ἐμῇσιν ἐμῇσι ἐμῇς ἐμήν - -ἔνι ἐνὶ εἰνὶ εἰν ἐμ ἐπὶ ἐπ' ἔπι ἐφ' κἀπὶ τἀπὶ ἐπί ἔφ' ἔπ' ἐὰν ἢν ἐάν ἤν ἄνπερ - -αὑτοῖς αὑτὸν αὑτῷ ἑαυτοῦ αὑτόν αὑτῆς αὑτῶν αὑτοῦ αὑτὴν αὑτοῖν χαὐτοῦ αὑταῖς ἑωυτοῦ ἑωυτῇ ἑωυτὸν ἐωυτῷ ἑωυτῆς ἑωυτόν ἑωυτῷ -ἑωυτάς ἑωυτῶν ἑωυτοὺς ἑωυτοῖσι ἑαυτῇ ἑαυτούς αὑτοὺς ἑαυτῶν ἑαυτοὺς ἑαυτὸν ἑαυτῷ ἑαυτοῖς ἑαυτὴν ἑαυτῆς - -ἔτι ἔτ' ἔθ' κἄτι ἢ ἤ ἠέ ἠὲ ἦε ἦέ ἡ τοὺς τὴν τὸ τῶν τὸν ὁ ἁ οἱ τοῖς ταῖς τῆς τὰς αἱ τό τὰν τᾶς τοῖσιν αἳ χὠ τήν τά τοῖν τάς ὅ -χοἰ ἣ ἥ χἠ τάν τᾶν ὃ οἳ οἵ τοῖο τόν τοῖιν τούς τάων ταὶ τῇς τῇσι τῇσιν αἵ τοῖό τοῖσίν ὅττί ταί Τὴν τῆ τῶ τάδε ὅδε τοῦδε τόδε τόνδ' -τάδ' τῆσδε τῷδε ὅδ' τῶνδ' τῇδ' τοῦδέ τῶνδε τόνδε τόδ' τοῦδ' τάσδε τήνδε τάσδ' τήνδ' ταῖσδέ τῇδε τῆσδ' τάνδ' τῷδ' τάνδε ἅδε τοῖσδ' ἥδ' -τᾷδέ τοῖσδε τούσδ' ἥδε τούσδε τώδ' ἅδ' οἵδ' τῶνδέ οἵδε τᾷδε τοῖσδεσσι τώδε τῇδέ τοῖσιδε αἵδε τοῦδὲ τῆδ' αἵδ' τοῖσδεσι ὃν ἃ ὃς ᾧ οὗ ἅπερ -οὓς ἧς οἷς ἅσπερ ᾗ ἅ χὦνπερ ὣ αἷς ᾇ ὅς ἥπερ ἃς ὅσπερ ὅνπερ ὧνπερ ᾧπερ ὅν αἷν οἷσι ἇς ἅς ὥ οὕς ἥν οἷσιν ἕης ὅου ᾗς οἷσί οἷσίν τοῖσί ᾗσιν οἵπερ αἷσπερ -ὅστις ἥτις ὅτου ὅτοισι ἥντιν' ὅτῳ ὅντιν' ὅττι ἅσσά ὅτεῳ ὅτις ὅτιν' ὅτευ ἥντινα αἵτινές ὅντινα ἅσσα ᾧτινι οἵτινες ὅτι ἅτις ὅτ' ὑμὴ -ὑμήν ὑμὸν ὑπὲρ ὕπερ ὑπέρτερον ὑπεὶρ ὑπέρτατος ὑπὸ ὑπ' ὑφ' ὕπο ὑπαὶ ὑπό ὕπ' ὕφ' - - ὣς ὡς ὥς ὧς ὥστ' ὥστε ὥσθ' ὤ ὢ - - """.split() -) diff --git a/spacy/lang/gu/__init__.py b/spacy/lang/gu/__init__.py index e6fbc9d18..3e6b382f8 100644 --- a/spacy/lang/gu/__init__.py +++ b/spacy/lang/gu/__init__.py @@ -1,9 +1,8 @@ -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults class GujaratiDefaults(BaseDefaults): - stop_words = STOP_WORDS + pass class Gujarati(Language): diff --git a/spacy/lang/gu/stop_words.py b/spacy/lang/gu/stop_words.py deleted file mode 100644 index 2c859681b..000000000 --- a/spacy/lang/gu/stop_words.py +++ /dev/null @@ -1,88 +0,0 @@ -STOP_WORDS = set( - """ -એમ -આ -એ -રહી -છે -છો -હતા -હતું -હતી -હોય -હતો -શકે -તે -તેના -તેનું -તેને -તેની -તેઓ -તેમને -તેમના -તેમણે -તેમનું -તેમાં -અને -અહીં -થી -થઈ -થાય -જે - ને -કે -ના -ની -નો -ને -નું -શું -માં -પણ -પર -જેવા -જેવું -જાય -જેમ -જેથી -માત્ર -માટે -પરથી -આવ્યું -એવી -આવી -રીતે -સુધી -થાય -થઈ -સાથે -લાગે -હોવા -છતાં -રહેલા -કરી -કરે -કેટલા -કોઈ -કેમ -કર્યો -કર્યુ -કરે -સૌથી -ત્યારબાદ -તથા -દ્વારા -જુઓ -જાઓ -જ્યારે -ત્યારે -શકો -નથી -હવે -અથવા -થતો -દર -એટલો -પરંતુ -""".split() -) diff --git a/spacy/lang/he/__init__.py b/spacy/lang/he/__init__.py index dd2ee478d..86f00b6be 100644 --- a/spacy/lang/he/__init__.py +++ b/spacy/lang/he/__init__.py @@ -1,10 +1,8 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults class HebrewDefaults(BaseDefaults): - stop_words = STOP_WORDS lex_attr_getters = LEX_ATTRS writing_system = {"direction": "rtl", "has_case": False, "has_letters": True} diff --git a/spacy/lang/he/stop_words.py b/spacy/lang/he/stop_words.py deleted file mode 100644 index 23bb5176d..000000000 --- a/spacy/lang/he/stop_words.py +++ /dev/null @@ -1,222 +0,0 @@ -STOP_WORDS = set( - """ -אני -את -אתה -אנחנו -אתן -אתם -הם -הן -היא -הוא -שלי -שלו -שלך -שלה -שלנו -שלכם -שלכן -שלהם -שלהן -לי -לו -לה -לנו -לכם -לכן -להם -להן -אותה -אותו -זה -זאת -אלה -אלו -תחת -מתחת -מעל -בין -עם -עד -על -אל -מול -של -אצל -כמו -אחר -אותו -בלי -לפני -אחרי -מאחורי -עלי -עליו -עליה -עליך -עלינו -עליכם -עליכן -עליהם -עליהן -כל -כולם -כולן -כך -ככה -כזה -כזאת -זה -אותי -אותה -אותם -אותך -אותו -אותן -אותנו -ואת -את -אתכם -אתכן -איתי -איתו -איתך -איתה -איתם -איתן -איתנו -איתכם -איתכן -יהיה -תהיה -הייתי -היתה -היה -להיות -עצמי -עצמו -עצמה -עצמם -עצמן -עצמנו -מי -מה -איפה -היכן -במקום שבו -אם -לאן -למקום שבו -מקום בו -איזה -מהיכן -איך -כיצד -באיזו מידה -מתי -בשעה ש -כאשר -כש -למרות -לפני -אחרי -מאיזו סיבה -הסיבה שבגללה -למה -מדוע -לאיזו תכלית -כי -יש -אין -אך -מנין -מאין -מאיפה -יכל -יכלה -יכלו -יכול -יכולה -יכולים -יכולות -יוכלו -יוכל -מסוגל -לא -רק -אולי -אין -לאו -אי -כלל -בעד -נגד -אם -עם -אל -אלה -אלו -אף -על -מעל -מתחת -מצד -בשביל -לבין -באמצע -בתוך -דרך -מבעד -באמצעות -למעלה -למטה -מחוץ -מן -לעבר -מכאן -כאן -הנה -הרי -פה -שם -אך -ברם -שוב -אבל -מבלי -בלי -מלבד -רק -בגלל -מכיוון -עד -אשר -ואילו -למרות -כמו -כפי -אז -אחרי -כן -לכן -לפיכך -עז -מאוד -מעט -מעטים -במידה -שוב -יותר -מדי -גם -כן -נו -אחר -אחרת -אחרים -אחרות -אשר -או -""".split() -) diff --git a/spacy/lang/hi/__init__.py b/spacy/lang/hi/__init__.py index 4c8ae446d..34f31bb3a 100644 --- a/spacy/lang/hi/__init__.py +++ b/spacy/lang/hi/__init__.py @@ -1,10 +1,8 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults class HindiDefaults(BaseDefaults): - stop_words = STOP_WORDS lex_attr_getters = LEX_ATTRS diff --git a/spacy/lang/hi/stop_words.py b/spacy/lang/hi/stop_words.py deleted file mode 100644 index 475b07da1..000000000 --- a/spacy/lang/hi/stop_words.py +++ /dev/null @@ -1,239 +0,0 @@ -# Source: https://github.com/taranjeet/hindi-tokenizer/blob/master/stopwords.txt, https://data.mendeley.com/datasets/bsr3frvvjc/1#file-a21d5092-99d7-45d8-b044-3ae9edd391c6 - -STOP_WORDS = set( - """ -अंदर -अत -अदि -अप -अपना -अपनि -अपनी -अपने -अभि -अभी -अंदर -आदि -आप -अगर -इंहिं -इंहें -इंहों -इतयादि -इत्यादि -इन -इनका -इन्हीं -इन्हें -इन्हों -इस -इसका -इसकि -इसकी -इसके -इसमें -इसि -इसी -इसे -उंहिं -उंहें -उंहों -उन -उनका -उनकि -उनकी -उनके -उनको -उन्हीं -उन्हें -उन्हों -उस -उसके -उसि -उसी -उसे -एक -एवं -एस -एसे -ऐसे -ओर -और -कइ -कई -कर -करता -करते -करना -करने -करें -कहते -कहा -का -काफि -काफ़ी -कि -किंहें -किंहों -कितना -किन्हें -किन्हों -किया -किर -किस -किसि -किसी -किसे -की -कुछ -कुल -के -को -कोइ -कोई -कोन -कोनसा -कौन -कौनसा -गया -घर -जब -जहाँ -जहां -जा -जिंहें -जिंहों -जितना -जिधर -जिन -जिन्हें -जिन्हों -जिस -जिसे -जीधर -जेसा -जेसे -जैसा -जैसे -जो -तक -तब -तरह -तिंहें -तिंहों -तिन -तिन्हें -तिन्हों -तिस -तिसे -तो -था -थि -थी -थे -दबारा -दवारा -दिया -दुसरा -दुसरे -दूसरे -दो -द्वारा -न -नहिं -नहीं -ना -निचे -निहायत -नीचे -ने -पर -पहले -पुरा -पूरा -पे -फिर -बनि -बनी -बहि -बही -बहुत -बाद -बाला -बिलकुल -भि -भितर -भी -भीतर -मगर -मानो -मे -में -मैं -मुझको -मेरा -यदि -यह -यहाँ -यहां -यहि -यही -या -यिह -ये -रखें -रवासा -रहा -रहे -ऱ्वासा -लिए -लिये -लेकिन -व -वगेरह -वग़ैरह -वरग -वर्ग -वह -वहाँ -वहां -वहिं -वहीं -वाले -वुह -वे -वग़ैरह -संग -सकता -सकते -सबसे -सभि -सभी -साथ -साबुत -साभ -सारा -से -सो -संग -हि -ही -हुअ -हुआ -हुइ -हुई -हुए -हे -हें -है -हैं -हो -हूँ -होता -होति -होती -होते -होना -होने -""".split() -) diff --git a/spacy/lang/hr/__init__.py b/spacy/lang/hr/__init__.py index 30870b522..7ebf51f10 100644 --- a/spacy/lang/hr/__init__.py +++ b/spacy/lang/hr/__init__.py @@ -1,9 +1,8 @@ -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults class CroatianDefaults(BaseDefaults): - stop_words = STOP_WORDS + pass class Croatian(Language): diff --git a/spacy/lang/hr/stop_words.py b/spacy/lang/hr/stop_words.py deleted file mode 100644 index dd10f792d..000000000 --- a/spacy/lang/hr/stop_words.py +++ /dev/null @@ -1,344 +0,0 @@ -# Source: https://github.com/stopwords-iso/stopwords-hr -STOP_WORDS = set( - """ -a -ah -aha -aj -ako -al -ali -arh -au -avaj -bar -baš -bez -bi -bih -bijah -bijahu -bijaše -bijasmo -bijaste -bila -bili -bilo -bio -bismo -biste -biti -brr -buć -budavši -bude -budimo -budite -budu -budući -bum -bumo -će -ćemo -ćeš -ćete -čijem -čijim -čijima -ću -da -daj -dakle -de -deder -dem -djelomice -djelomično -do -doista -dok -dokle -donekle -dosad -doskoro -dotad -dotle -dovečer -drugamo -drugdje -duž -e -eh -ehe -ej -eno -eto -evo -ga -gdjekakav -gdjekoje -gic -god -halo -hej -hm -hoće -hoćemo -hoćeš -hoćete -hoću -hop -htijahu -htijasmo -htijaste -htio -htjedoh -htjedoše -htjedoste -htjela -htjele -htjeli -hura -i -iako -ih -iju -ijuju -ikada -ikakav -ikakva -ikakve -ikakvi -ikakvih -ikakvim -ikakvima -ikakvo -ikakvog -ikakvoga -ikakvoj -ikakvom -ikakvome -ili -im -iz -ja -je -jedna -jedne -jedni -jedno -jer -jesam -jesi -jesmo -jest -jeste -jesu -jim -joj -još -ju -kada -kako -kao -koja -koje -koji -kojima -koju -kroz -lani -li -me -mene -meni -mi -mimo -moj -moja -moje -moji -moju -mu -na -nad -nakon -nam -nama -nas -naš -naša -naše -našeg -naši -ne -neće -nećemo -nećeš -nećete -neću -nego -neka -neke -neki -nekog -neku -nema -nešto -netko -ni -nije -nikoga -nikoje -nikoji -nikoju -nisam -nisi -nismo -niste -nisu -njega -njegov -njegova -njegovo -njemu -njezin -njezina -njezino -njih -njihov -njihova -njihovo -njim -njima -njoj -nju -no -o -od -odmah -on -ona -one -oni -ono -onu -onoj -onom -onim -onima -ova -ovaj -ovim -ovima -ovoj -pa -pak -pljus -po -pod -podalje -poimence -poizdalje -ponekad -pored -postrance -potajice -potrbuške -pouzdano -prije -s -sa -sam -samo -sasvim -sav -se -sebe -sebi -si -šic -smo -ste -što -šta -štogod -štagod -su -sva -sve -svi -svi -svog -svoj -svoja -svoje -svoju -svom -svu -ta -tada -taj -tako -te -tebe -tebi -ti -tim -tima -to -toj -tome -tu -tvoj -tvoja -tvoje -tvoji -tvoju -u -usprkos -utaman -uvijek -uz -uza -uzagrapce -uzalud -uzduž -valjda -vam -vama -vas -vaš -vaša -vaše -vašim -vašima -već -vi -vjerojatno -vjerovatno -vrh -vrlo -za -zaista -zar -zatim -zato -zbija -zbog -želeći -željah -željela -željele -željeli -željelo -željen -željena -željene -željeni -željenu -željeo -zimus -zum -""".split() -) diff --git a/spacy/lang/hsb/__init__.py b/spacy/lang/hsb/__init__.py index 034d82319..b80e39c24 100644 --- a/spacy/lang/hsb/__init__.py +++ b/spacy/lang/hsb/__init__.py @@ -1,12 +1,10 @@ from .lex_attrs import LEX_ATTRS -from .stop_words import STOP_WORDS from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from ...language import Language, BaseDefaults class UpperSorbianDefaults(BaseDefaults): lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS tokenizer_exceptions = TOKENIZER_EXCEPTIONS diff --git a/spacy/lang/hsb/stop_words.py b/spacy/lang/hsb/stop_words.py deleted file mode 100644 index e6fedaf4c..000000000 --- a/spacy/lang/hsb/stop_words.py +++ /dev/null @@ -1,19 +0,0 @@ -STOP_WORDS = set( - """ -a abo ale ani - -dokelž - -hdyž - -jeli jelizo - -kaž - -pak potom - -tež tohodla - -zo zoby -""".split() -) diff --git a/spacy/lang/hu/__init__.py b/spacy/lang/hu/__init__.py index 9426bacea..0be85051d 100644 --- a/spacy/lang/hu/__init__.py +++ b/spacy/lang/hu/__init__.py @@ -1,6 +1,5 @@ from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, TOKEN_MATCH from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_SUFFIXES, TOKENIZER_INFIXES -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults @@ -10,7 +9,6 @@ class HungarianDefaults(BaseDefaults): suffixes = TOKENIZER_SUFFIXES infixes = TOKENIZER_INFIXES token_match = TOKEN_MATCH - stop_words = STOP_WORDS class Hungarian(Language): diff --git a/spacy/lang/hu/stop_words.py b/spacy/lang/hu/stop_words.py deleted file mode 100644 index e39a26d35..000000000 --- a/spacy/lang/hu/stop_words.py +++ /dev/null @@ -1,62 +0,0 @@ -STOP_WORDS = set( - """ -a abban ahhoz ahogy ahol aki akik akkor akár alatt amely amelyek amelyekben -amelyeket amelyet amelynek ami amikor amit amolyan amíg annak arra arról az -azok azon azonban azt aztán azután azzal azért - -be belül benne bár - -cikk cikkek cikkeket csak - -de - -e ebben eddig egy egyes egyetlen egyik egyre egyéb egész ehhez ekkor el ellen -elo eloször elott elso elég előtt emilyen ennek erre ez ezek ezen ezt ezzel -ezért - -fel felé - -ha hanem hiszen hogy hogyan hát - -ide igen ill ill. illetve ilyen ilyenkor inkább is ismét ison itt - -jobban jó jól - -kell kellett keressünk keresztül ki kívül között közül - -le legalább legyen lehet lehetett lenne lenni lesz lett - -ma maga magát majd meg mellett mely melyek mert mi miatt mikor milyen minden -mindenki mindent mindig mint mintha mit mivel miért mondta most már más másik -még míg - -nagy nagyobb nagyon ne nekem neki nem nincs néha néhány nélkül - -o oda ok oket olyan ott - -pedig persze például - -rá - -s saját sem semmi sok sokat sokkal stb. szemben szerint szinte számára szét - -talán te tehát teljes ti tovább továbbá több túl ugyanis - -utolsó után utána - -vagy vagyis vagyok valaki valami valamint való van vannak vele vissza viszont -volna volt voltak voltam voltunk - -által általában át - -én éppen és - -így - -ön össze - -úgy új újabb újra - -ő őket -""".split() -) diff --git a/spacy/lang/hy/__init__.py b/spacy/lang/hy/__init__.py index 481eaae0a..163f60771 100644 --- a/spacy/lang/hy/__init__.py +++ b/spacy/lang/hy/__init__.py @@ -1,11 +1,9 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults class ArmenianDefaults(BaseDefaults): lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Armenian(Language): diff --git a/spacy/lang/hy/stop_words.py b/spacy/lang/hy/stop_words.py deleted file mode 100644 index 46d0f6b51..000000000 --- a/spacy/lang/hy/stop_words.py +++ /dev/null @@ -1,107 +0,0 @@ -STOP_WORDS = set( - """ -նա -ողջը -այստեղ -ենք -նա -էիր -որպես -ուրիշ -բոլորը -այն -այլ -նույնչափ -էի -մի -և -ողջ -ես -ոմն -հետ -նրանք -ամենքը -ըստ -ինչ-ինչ -այսպես -համայն -մի -նաև -նույնքան -դա -ովևէ -համար -այնտեղ -էին -որոնք -սույն -ինչ-որ -ամենը -նույնպիսի -ու -իր -որոշ -միևնույն -ի -այնպիսի -մենք -ամեն ոք -նույն -երբևէ -այն -որևէ -ին -այդպես -նրա -որը -վրա -դու -էինք -այդպիսի -էիք -յուրաքանչյուրը -եմ -պիտի -այդ -ամբողջը -հետո -եք -ամեն -այլ -կամ -այսքան -որ -այնպես -այսինչ -բոլոր -է -մեկնումեկը -այդչափ -այնքան -ամբողջ -երբևիցե -այնչափ -ամենայն -մյուս -այնինչ -իսկ -այդտեղ -այս -սա -են -ամեն ինչ -որևիցե -ում -մեկը -այդ -դուք -այսչափ -այդքան -այսպիսի -էր -յուրաքանչյուր -այս -մեջ -թ -""".split() -) diff --git a/spacy/lang/id/__init__.py b/spacy/lang/id/__init__.py index 0d72cfa9d..5e39bd2b5 100644 --- a/spacy/lang/id/__init__.py +++ b/spacy/lang/id/__init__.py @@ -1,4 +1,3 @@ -from .stop_words import STOP_WORDS from .punctuation import TOKENIZER_SUFFIXES, TOKENIZER_PREFIXES, TOKENIZER_INFIXES from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .lex_attrs import LEX_ATTRS @@ -13,7 +12,6 @@ class IndonesianDefaults(BaseDefaults): infixes = TOKENIZER_INFIXES syntax_iterators = SYNTAX_ITERATORS lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Indonesian(Language): diff --git a/spacy/lang/id/stop_words.py b/spacy/lang/id/stop_words.py deleted file mode 100644 index b1bfaea79..000000000 --- a/spacy/lang/id/stop_words.py +++ /dev/null @@ -1,118 +0,0 @@ -STOP_WORDS = set( - """ -ada adalah adanya adapun agak agaknya agar akan akankah akhir akhiri akhirnya -aku akulah amat amatlah anda andalah antar antara antaranya apa apaan apabila -apakah apalagi apatah artinya asal asalkan atas atau ataukah ataupun awal -awalnya - -bagai bagaikan bagaimana bagaimanakah bagaimanapun bagi bagian bahkan bahwa -bahwasanya baik bakal bakalan balik banyak bapak baru bawah beberapa begini -beginian beginikah beginilah begitu begitukah begitulah begitupun bekerja -belakang belakangan belum belumlah benar benarkah benarlah berada berakhir -berakhirlah berakhirnya berapa berapakah berapalah berapapun berarti berawal -berbagai berdatangan beri berikan berikut berikutnya berjumlah berkali-kali -berkata berkehendak berkeinginan berkenaan berlainan berlalu berlangsung -berlebihan bermacam bermacam-macam bermaksud bermula bersama bersama-sama -bersiap bersiap-siap bertanya bertanya-tanya berturut berturut-turut bertutur -berujar berupa besar betul betulkah biasa biasanya bila bilakah bisa bisakah -boleh bolehkah bolehlah buat bukan bukankah bukanlah bukannya bulan bung - -cara caranya cukup cukupkah cukuplah cuma - -dahulu dalam dan dapat dari daripada datang dekat demi demikian demikianlah -dengan depan di dia diakhiri diakhirinya dialah diantara diantaranya diberi -diberikan diberikannya dibuat dibuatnya didapat didatangkan digunakan -diibaratkan diibaratkannya diingat diingatkan diinginkan dijawab dijelaskan -dijelaskannya dikarenakan dikatakan dikatakannya dikerjakan diketahui -diketahuinya dikira dilakukan dilalui dilihat dimaksud dimaksudkan -dimaksudkannya dimaksudnya diminta dimintai dimisalkan dimulai dimulailah -dimulainya dimungkinkan dini dipastikan diperbuat diperbuatnya dipergunakan -diperkirakan diperlihatkan diperlukan diperlukannya dipersoalkan dipertanyakan -dipunyai diri dirinya disampaikan disebut disebutkan disebutkannya disini -disinilah ditambahkan ditandaskan ditanya ditanyai ditanyakan ditegaskan -ditujukan ditunjuk ditunjuki ditunjukkan ditunjukkannya ditunjuknya dituturkan -dituturkannya diucapkan diucapkannya diungkapkan dong dua dulu - -empat enggak enggaknya entah entahlah - -guna gunakan - -hal hampir hanya hanyalah hari harus haruslah harusnya hendak hendaklah -hendaknya hingga - -ia ialah ibarat ibaratkan ibaratnya ibu ikut ingat ingat-ingat ingin inginkah -inginkan ini inikah inilah itu itukah itulah - -jadi jadilah jadinya jangan jangankan janganlah jauh jawab jawaban jawabnya -jelas jelaskan jelaslah jelasnya jika jikalau juga jumlah jumlahnya justru - -kala kalau kalaulah kalaupun kalian kami kamilah kamu kamulah kan kapan -kapankah kapanpun karena karenanya kasus kata katakan katakanlah katanya ke -keadaan kebetulan kecil kedua keduanya keinginan kelamaan kelihatan -kelihatannya kelima keluar kembali kemudian kemungkinan kemungkinannya kenapa -kepada kepadanya kesampaian keseluruhan keseluruhannya keterlaluan ketika -khususnya kini kinilah kira kira-kira kiranya kita kitalah kok kurang - -lagi lagian lah lain lainnya lalu lama lamanya lanjut lanjutnya lebih lewat -lima luar - -macam maka makanya makin malah malahan mampu mampukah mana manakala manalagi -masa masalah masalahnya masih masihkah masing masing-masing mau maupun -melainkan melakukan melalui melihat melihatnya memang memastikan memberi -memberikan membuat memerlukan memihak meminta memintakan memisalkan memperbuat -mempergunakan memperkirakan memperlihatkan mempersiapkan mempersoalkan -mempertanyakan mempunyai memulai memungkinkan menaiki menambahkan menandaskan -menanti menanti-nanti menantikan menanya menanyai menanyakan mendapat -mendapatkan mendatang mendatangi mendatangkan menegaskan mengakhiri mengapa -mengatakan mengatakannya mengenai mengerjakan mengetahui menggunakan -menghendaki mengibaratkan mengibaratkannya mengingat mengingatkan menginginkan -mengira mengucapkan mengucapkannya mengungkapkan menjadi menjawab menjelaskan -menuju menunjuk menunjuki menunjukkan menunjuknya menurut menuturkan -menyampaikan menyangkut menyatakan menyebutkan menyeluruh menyiapkan merasa -mereka merekalah merupakan meski meskipun meyakini meyakinkan minta mirip -misal misalkan misalnya mula mulai mulailah mulanya mungkin mungkinkah - -nah naik namun nanti nantinya nyaris nyatanya - -oleh olehnya - -pada padahal padanya pak paling panjang pantas para pasti pastilah penting -pentingnya per percuma perlu perlukah perlunya pernah persoalan pertama -pertama-tama pertanyaan pertanyakan pihak pihaknya pukul pula pun punya - -rasa rasanya rata rupanya - -saat saatnya saja sajalah saling sama sama-sama sambil sampai sampai-sampai -sampaikan sana sangat sangatlah satu saya sayalah se sebab sebabnya sebagai -sebagaimana sebagainya sebagian sebaik sebaik-baiknya sebaiknya sebaliknya -sebanyak sebegini sebegitu sebelum sebelumnya sebenarnya seberapa sebesar -sebetulnya sebisanya sebuah sebut sebutlah sebutnya secara secukupnya sedang -sedangkan sedemikian sedikit sedikitnya seenaknya segala segalanya segera -seharusnya sehingga seingat sejak sejauh sejenak sejumlah sekadar sekadarnya -sekali sekali-kali sekalian sekaligus sekalipun sekarang sekarang sekecil -seketika sekiranya sekitar sekitarnya sekurang-kurangnya sekurangnya sela -selain selaku selalu selama selama-lamanya selamanya selanjutnya seluruh -seluruhnya semacam semakin semampu semampunya semasa semasih semata semata-mata -semaunya sementara semisal semisalnya sempat semua semuanya semula sendiri -sendirian sendirinya seolah seolah-olah seorang sepanjang sepantasnya -sepantasnyalah seperlunya seperti sepertinya sepihak sering seringnya serta -serupa sesaat sesama sesampai sesegera sesekali seseorang sesuatu sesuatunya -sesudah sesudahnya setelah setempat setengah seterusnya setiap setiba setibanya -setidak-tidaknya setidaknya setinggi seusai sewaktu siap siapa siapakah -siapapun sini sinilah soal soalnya suatu sudah sudahkah sudahlah supaya - -tadi tadinya tahu tahun tak tambah tambahnya tampak tampaknya tandas tandasnya -tanpa tanya tanyakan tanyanya tapi tegas tegasnya telah tempat tengah tentang -tentu tentulah tentunya tepat terakhir terasa terbanyak terdahulu terdapat -terdiri terhadap terhadapnya teringat teringat-ingat terjadi terjadilah -terjadinya terkira terlalu terlebih terlihat termasuk ternyata tersampaikan -tersebut tersebutlah tertentu tertuju terus terutama tetap tetapi tiap tiba -tiba-tiba tidak tidakkah tidaklah tiga tinggi toh tunjuk turut tutur tuturnya - -ucap ucapnya ujar ujarnya umum umumnya ungkap ungkapnya untuk usah usai - -waduh wah wahai waktu waktunya walau walaupun wong - -yaitu yakin yakni yang -""".split() -) diff --git a/spacy/lang/is/__init__.py b/spacy/lang/is/__init__.py index 318363beb..6388c22f6 100644 --- a/spacy/lang/is/__init__.py +++ b/spacy/lang/is/__init__.py @@ -1,9 +1,8 @@ -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults class IcelandicDefaults(BaseDefaults): - stop_words = STOP_WORDS + pass class Icelandic(Language): diff --git a/spacy/lang/is/stop_words.py b/spacy/lang/is/stop_words.py deleted file mode 100644 index 917fb6df4..000000000 --- a/spacy/lang/is/stop_words.py +++ /dev/null @@ -1,158 +0,0 @@ -# Source: https://github.com/Xangis/extra-stopwords - -STOP_WORDS = set( - """ -afhverju -aftan -aftur -afþví -aldrei -allir -allt -alveg -annað -annars -bara -dag -eða -eftir -eiga -einhver -einhverjir -einhvers -eins -einu -eitthvað -ekkert -ekki -ennþá -eru -fara -fer -finna -fjöldi -fólk -framan -frá -frekar -fyrir -gegnum -geta -getur -gmg -gott -hann -hafa -hef -hefur -heyra -hér -hérna -hjá -hún -hvað -hvar -hver -hverjir -hverjum -hvernig -hvor -hvort -hægt -img -inn -kannski -koma -líka -lol -maður -mátt -mér -með -mega -meira -mig -mikið -minna -minni -missa -mjög -nei -niður -núna -oft -okkar -okkur -póst -póstur -rofl -saman -sem -sér -sig -sinni -síðan -sjá -smá -smátt -spurja -spyrja -staðar -stórt -svo -svona -sælir -sæll -taka -takk -til -tilvitnun -titlar -upp -var -vel -velkomin -velkominn -vera -verður -verið -vel -við -vil -vilja -vill -vita -væri -yfir -ykkar -það -þakka -þakkir -þannig -það -þar -þarf -þau -þeim -þeir -þeirra -þeirra -þegar -þess -þessa -þessi -þessu -þessum -þetta -þér -þið -þinn -þitt -þín -þráð -þráður -því -þær -ætti -""".split() -) diff --git a/spacy/lang/it/__init__.py b/spacy/lang/it/__init__.py index ecf322bd7..b81ce383f 100644 --- a/spacy/lang/it/__init__.py +++ b/spacy/lang/it/__init__.py @@ -1,7 +1,6 @@ from typing import Optional, Callable from thinc.api import Model -from .stop_words import STOP_WORDS from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES from ...language import Language, BaseDefaults @@ -13,7 +12,6 @@ class ItalianDefaults(BaseDefaults): tokenizer_exceptions = TOKENIZER_EXCEPTIONS prefixes = TOKENIZER_PREFIXES infixes = TOKENIZER_INFIXES - stop_words = STOP_WORDS syntax_iterators = SYNTAX_ITERATORS diff --git a/spacy/lang/it/stop_words.py b/spacy/lang/it/stop_words.py deleted file mode 100644 index 42adc7904..000000000 --- a/spacy/lang/it/stop_words.py +++ /dev/null @@ -1,83 +0,0 @@ -STOP_WORDS = set( - """ -a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl -agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri -altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai -attesa attraverso avanti avemmo avendo avente aver avere averlo avesse -avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate -avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste -avresti avrete avrà avrò avuta avute avuti avuto - -basta bene benissimo brava bravo - -casa caso cento certa certe certi certo che chi chicchessia chiunque ci c' -ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto -cogli coi col colei coll coloro colui come cominci comunque con concernente -conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui - -d' da dagl dagli dai dal dall dall' dalla dalle dallo dappertutto davanti degl degli -dei del dell dell' della delle dello dentro detto deve di dice dietro dire -dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due -dunque durante - -e ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era -erano eravamo eravate eri ero esempio esse essendo esser essere essi ex è - -fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero -facessi facessimo faceste facesti faceva facevamo facevano facevate facevi -facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo -fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente -finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra -frattempo fu fui fummo fuori furono futuro generale - -gia già giacche giorni giorno gli gl' gliela gliele glieli glielo gliene governo -grande grazie gruppo - -ha haha hai hanno ho - -ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io - -l' la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo - -m' ma macche magari maggior mai male malgrado malissimo mancanza marche me -medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi -milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto - -nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun nessun' -nessuna nessuno nient' niente no noi non nondimeno nonostante nonsia nostra nostre -nostri nostro novanta nove nulla nuovo - -od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto - -paese parecchi parecchie parecchio parte partendo peccato peggio per perche -perché percio perciò perfino pero persino persone però piedi pieno piglia piu -piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto -potrebbe preferibilmente presa press prima primo principalmente probabilmente -proprio puo può pure purtroppo - -qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante -quanti quanto quantunque quasi quattro quel quel' quella quelle quelli quello quest quest' -questa queste questi questo qui quindi - -realmente recente recentemente registrazione relativo riecco salvo - -s' sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste -saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei -sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate -siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando -stanno starai staranno starebbe starebbero starei staremmo staremo stareste -staresti starete starà starò stata state stati stato stava stavamo stavano -stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso -steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua -subito successivamente successivo sue sugl sugli sui sul sull sulla sulle -sullo suo suoi - -t' tale tali talvolta tanto te tempo ti titolo tra tranne tre trenta -troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto - -uguali ulteriore ultimo un un' una uno uomo - -v' va vale vari varia varie vario verso vi via vicino visto vita voi volta volte -vostra vostre vostri vostro -""".split() -) diff --git a/spacy/lang/ja/__init__.py b/spacy/lang/ja/__init__.py index bf86305fb..c723caf88 100644 --- a/spacy/lang/ja/__init__.py +++ b/spacy/lang/ja/__init__.py @@ -5,7 +5,6 @@ from collections import namedtuple from thinc.api import Model import re -from .stop_words import STOP_WORDS from .syntax_iterators import SYNTAX_ITERATORS from .tag_map import TAG_MAP from .tag_orth_map import TAG_ORTH_MAP @@ -184,7 +183,6 @@ class JapaneseTokenizer(DummyTokenizer): class JapaneseDefaults(BaseDefaults): config = load_config_from_str(DEFAULT_CONFIG) - stop_words = STOP_WORDS syntax_iterators = SYNTAX_ITERATORS writing_system = {"direction": "ltr", "has_case": False, "has_letters": False} diff --git a/spacy/lang/ja/stop_words.py b/spacy/lang/ja/stop_words.py deleted file mode 100644 index 98560d7e2..000000000 --- a/spacy/lang/ja/stop_words.py +++ /dev/null @@ -1,48 +0,0 @@ -# This list was created by taking the top 2000 words from a Wikipedia dump and -# filtering out everything that wasn't hiragana. ー (one) was also added. -# Considered keeping some non-hiragana words but too many place names were -# present. -STOP_WORDS = set( - """ -あ あっ あまり あり ある あるいは あれ -い いい いう いく いずれ いっ いつ いる いわ -うち -え -お おい おけ および おら おり -か かけ かつ かつて かなり から が -き きっかけ -くる くん -こ こう ここ こと この これ ご ごと -さ さらに さん -し しか しかし しまう しまっ しよう -す すぐ すべて する ず -せ せい せる -そう そこ そして その それ それぞれ -た たい ただし たち ため たら たり だ だけ だっ -ち ちゃん -つ つい つけ つつ -て で でき できる です -と とき ところ とっ とも どう -な ない なお なかっ ながら なく なけれ なし なっ など なら なり なる -に にて -ぬ -ね -の のち のみ -は はじめ ば -ひと -ぶり -へ べき -ほか ほとんど ほど ほぼ -ま ます また まで まま -み -も もう もっ もと もの -や やっ -よ よう よく よっ より よる よれ -ら らしい られ られる -る -れ れる -を -ん -一 -""".split() -) diff --git a/spacy/lang/kn/__init__.py b/spacy/lang/kn/__init__.py index ccd46a394..6748c2049 100644 --- a/spacy/lang/kn/__init__.py +++ b/spacy/lang/kn/__init__.py @@ -1,9 +1,8 @@ -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults class KannadaDefaults(BaseDefaults): - stop_words = STOP_WORDS + pass class Kannada(Language): diff --git a/spacy/lang/kn/stop_words.py b/spacy/lang/kn/stop_words.py deleted file mode 100644 index dba9740af..000000000 --- a/spacy/lang/kn/stop_words.py +++ /dev/null @@ -1,86 +0,0 @@ -STOP_WORDS = set( - """ -ಹಲವು -ಮೂಲಕ -ಹಾಗೂ -ಅದು -ನೀಡಿದ್ದಾರೆ -ಯಾವ -ಎಂದರು -ಅವರು -ಈಗ -ಎಂಬ -ಹಾಗಾಗಿ -ಅಷ್ಟೇ -ನಾವು -ಇದೇ -ಹೇಳಿ -ತಮ್ಮ -ಹೀಗೆ -ನಮ್ಮ -ಬೇರೆ -ನೀಡಿದರು -ಮತ್ತೆ -ಇದು -ಈ -ನೀವು -ನಾನು -ಇತ್ತು -ಎಲ್ಲಾ -ಯಾವುದೇ -ನಡೆದ -ಅದನ್ನು -ಎಂದರೆ -ನೀಡಿದೆ -ಹೀಗಾಗಿ -ಜೊತೆಗೆ -ಇದರಿಂದ -ನನಗೆ -ಅಲ್ಲದೆ -ಎಷ್ಟು -ಇದರ -ಇಲ್ಲ -ಕಳೆದ -ತುಂಬಾ -ಈಗಾಗಲೇ -ಮಾಡಿ -ಅದಕ್ಕೆ -ಬಗ್ಗೆ -ಅವರ -ಇದನ್ನು -ಆ -ಇದೆ -ಹೆಚ್ಚು -ಇನ್ನು -ಎಲ್ಲ -ಇರುವ -ಅವರಿಗೆ -ನಿಮ್ಮ -ಏನು -ಕೂಡ -ಇಲ್ಲಿ -ನನ್ನನ್ನು -ಕೆಲವು -ಮಾತ್ರ -ಬಳಿಕ -ಅಂತ -ತನ್ನ -ಆಗ -ಅಥವಾ -ಅಲ್ಲ -ಕೇವಲ -ಆದರೆ -ಮತ್ತು -ಇನ್ನೂ -ಅದೇ -ಆಗಿ -ಅವರನ್ನು -ಹೇಳಿದ್ದಾರೆ -ನಡೆದಿದೆ -ಇದಕ್ಕೆ -ಎಂಬುದು -ಎಂದು -ನನ್ನ -ಮೇಲೆ -""".split() -) diff --git a/spacy/lang/ko/__init__.py b/spacy/lang/ko/__init__.py index 0e02e4a2d..2118383a0 100644 --- a/spacy/lang/ko/__init__.py +++ b/spacy/lang/ko/__init__.py @@ -1,7 +1,6 @@ from typing import Iterator, Any, Dict from .punctuation import TOKENIZER_INFIXES -from .stop_words import STOP_WORDS from .tag_map import TAG_MAP from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults @@ -87,7 +86,6 @@ class KoreanTokenizer(DummyTokenizer): class KoreanDefaults(BaseDefaults): config = load_config_from_str(DEFAULT_CONFIG) lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS writing_system = {"direction": "ltr", "has_case": False, "has_letters": False} infixes = TOKENIZER_INFIXES diff --git a/spacy/lang/ko/stop_words.py b/spacy/lang/ko/stop_words.py deleted file mode 100644 index 3eba9fc82..000000000 --- a/spacy/lang/ko/stop_words.py +++ /dev/null @@ -1,67 +0,0 @@ -STOP_WORDS = set( - """ -이 -있 -하 -것 -들 -그 -되 -수 -이 -보 -않 -없 -나 -주 -아니 -등 -같 -때 -년 -가 -한 -지 -오 -말 -일 -그렇 -위하 -때문 -그것 -두 -말하 -알 -그러나 -받 -못하 -일 -그런 -또 -더 -많 -그리고 -좋 -크 -시키 -그러 -하나 -살 -데 -안 -어떤 -번 -나 -다른 -어떻 -들 -이렇 -점 -싶 -말 -좀 -원 -잘 -놓 -""".split() -) diff --git a/spacy/lang/ky/__init__.py b/spacy/lang/ky/__init__.py index ccca384bd..4c78e1f25 100644 --- a/spacy/lang/ky/__init__.py +++ b/spacy/lang/ky/__init__.py @@ -1,6 +1,5 @@ from .lex_attrs import LEX_ATTRS from .punctuation import TOKENIZER_INFIXES -from .stop_words import STOP_WORDS from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from ...language import Language, BaseDefaults @@ -9,7 +8,6 @@ class KyrgyzDefaults(BaseDefaults): tokenizer_exceptions = TOKENIZER_EXCEPTIONS infixes = TOKENIZER_INFIXES lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Kyrgyz(Language): diff --git a/spacy/lang/ky/stop_words.py b/spacy/lang/ky/stop_words.py deleted file mode 100644 index ea40bdfa2..000000000 --- a/spacy/lang/ky/stop_words.py +++ /dev/null @@ -1,42 +0,0 @@ -STOP_WORDS = set( - """ -ага адам айтты айтымында айтып ал алар -алардын алган алуу алып анда андан аны -анын ар - -бар басма баш башка башкы башчысы берген -биз билдирген билдирди бир биринчи бирок -бишкек болгон болот болсо болуп боюнча -буга бул - -гана - -да дагы деген деди деп - -жана жатат жаткан жаңы же жогорку жок жол -жолу - -кабыл калган кандай карата каршы катары -келген керек кийин кол кылмыш кыргыз -күнү көп - -маалымат мамлекеттик мен менен миң -мурдагы мыйзам мындай мүмкүн - -ошол ошондой - -сүрөт сөз - -тарабынан турган тууралуу - -укук учурда - -чейин чек - -экенин эки эл эле эмес эми эч - -үч үчүн - -өз -""".split() -) diff --git a/spacy/lang/lb/__init__.py b/spacy/lang/lb/__init__.py index 7827e7762..95f7b1931 100644 --- a/spacy/lang/lb/__init__.py +++ b/spacy/lang/lb/__init__.py @@ -1,7 +1,6 @@ from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .punctuation import TOKENIZER_INFIXES from .lex_attrs import LEX_ATTRS -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults @@ -9,7 +8,6 @@ class LuxembourgishDefaults(BaseDefaults): tokenizer_exceptions = TOKENIZER_EXCEPTIONS infixes = TOKENIZER_INFIXES lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Luxembourgish(Language): diff --git a/spacy/lang/lb/stop_words.py b/spacy/lang/lb/stop_words.py deleted file mode 100644 index 8f22ea6e6..000000000 --- a/spacy/lang/lb/stop_words.py +++ /dev/null @@ -1,211 +0,0 @@ -STOP_WORDS = set( - """ -a -à -äis -är -ärt -äert -ären -all -allem -alles -alleguer -als -also -am -an -anerefalls -ass -aus -awer -bei -beim -bis -bis -d' -dach -datt -däin -där -dat -de -dee -den -deel -deem -deen -deene -déi -den -deng -denger -dem -der -dësem -di -dir -do -da -dann -domat -dozou -drop -du -duerch -duerno -e -ee -em -een -eent -ë -en -ënner -ëm -ech -eis -eise -eisen -eiser -eises -eisereen -esou -een -eng -enger -engem -entweder -et -eréischt -falls -fir -géint -géif -gëtt -gët -geet -gi -ginn -gouf -gouff -goung -hat -haten -hatt -hätt -hei -hu -huet -hun -hunn -hiren -hien -hin -hier -hir -jidderen -jiddereen -jiddwereen -jiddereng -jiddwerengen -jo -ins -iech -iwwer -kann -kee -keen -kënne -kënnt -kéng -kéngen -kéngem -koum -kuckt -mam -mat -ma -mä -mech -méi -mécht -meng -menger -mer -mir -muss -nach -nämmlech -nämmelech -näischt -nawell -nëmme -nëmmen -net -nees -nee -no -nu -nom -och -oder -ons -onsen -onser -onsereen -onst -om -op -ouni -säi -säin -schonn -schonns -si -sid -sie -se -sech -seng -senge -sengem -senger -selwecht -selwer -sinn -sollten -souguer -sou -soss -sot -'t -tëscht -u -un -um -virdrun -vu -vum -vun -wann -war -waren -was -wat -wëllt -weider -wéi -wéini -wéinst -wi -wollt -wou -wouhin -zanter -ze -zu -zum -zwar -""".split() -) diff --git a/spacy/lang/lij/__init__.py b/spacy/lang/lij/__init__.py index b7e11f77e..89526c6ef 100644 --- a/spacy/lang/lij/__init__.py +++ b/spacy/lang/lij/__init__.py @@ -1,4 +1,3 @@ -from .stop_words import STOP_WORDS from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .punctuation import TOKENIZER_INFIXES from ...language import Language, BaseDefaults @@ -7,7 +6,6 @@ from ...language import Language, BaseDefaults class LigurianDefaults(BaseDefaults): tokenizer_exceptions = TOKENIZER_EXCEPTIONS infixes = TOKENIZER_INFIXES - stop_words = STOP_WORDS class Ligurian(Language): diff --git a/spacy/lang/lij/stop_words.py b/spacy/lang/lij/stop_words.py deleted file mode 100644 index 1d6f09d27..000000000 --- a/spacy/lang/lij/stop_words.py +++ /dev/null @@ -1,39 +0,0 @@ -STOP_WORDS = set( - """ -a à â a-a a-e a-i a-o aiva aloa an ancheu ancon apreuvo ascì atra atre atri atro avanti avei - -bella belle belli bello ben - -ch' che chì chi ciù co-a co-e co-i co-o comm' comme con cösa coscì cöse - -d' da da-a da-e da-i da-o dapeu de delongo derê di do doe doî donde dòppo - -é e ê ea ean emmo en ëse - -fin fiña - -gh' ghe guæei - -i î in insemme int' inta inte inti into - -l' lê lì lô - -m' ma manco me megio meno mezo mi - -na n' ne ni ninte nisciun nisciuña no - -o ò ô oua - -parte pe pe-a pe-i pe-e pe-o perché pittin pö primma pròpio - -quæ quand' quande quarche quella quelle quelli quello - -s' sce scê sci sciâ sciô sciù se segge seu sò solo son sott' sta stæta stæte stæti stæto ste sti sto - -tanta tante tanti tanto te ti torna tra tròppo tutta tutte tutti tutto - -un uña unn' unna - -za zu -""".split() -) diff --git a/spacy/lang/lt/__init__.py b/spacy/lang/lt/__init__.py index 3ae000e5f..65884045e 100644 --- a/spacy/lang/lt/__init__.py +++ b/spacy/lang/lt/__init__.py @@ -1,6 +1,5 @@ from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults @@ -9,7 +8,6 @@ class LithuanianDefaults(BaseDefaults): infixes = TOKENIZER_INFIXES suffixes = TOKENIZER_SUFFIXES tokenizer_exceptions = TOKENIZER_EXCEPTIONS - stop_words = STOP_WORDS lex_attr_getters = LEX_ATTRS diff --git a/spacy/lang/lt/stop_words.py b/spacy/lang/lt/stop_words.py deleted file mode 100644 index 8c11b3f7b..000000000 --- a/spacy/lang/lt/stop_words.py +++ /dev/null @@ -1,1316 +0,0 @@ -STOP_WORDS = { - "a", - "abejais", - "abejas", - "abejetam", - "abejetame", - "abejetas", - "abejeto", - "abejetu", - "abejetą", - "abeji", - "abejiems", - "abejomis", - "abejoms", - "abejos", - "abejose", - "abejuose", - "abejus", - "abejų", - "abi", - "abidvi", - "abiejose", - "abiejuose", - "abiejų", - "abiem", - "abiems", - "abigaliai", - "abipus", - "abu", - "abudu", - "aha", - "ai", - "aiman", - "aj", - "ajajai", - "ak", - "aleliuja", - "aliai", - "alio", - "amen", - "ana", - "anai", - "anaiptol", - "anais", - "anaisiais", - "anajai", - "anajam", - "anajame", - "anam", - "aname", - "anapus", - "anas", - "anasai", - "anasis", - "ane", - "anei", - "anie", - "aniedvi", - "aniedviem", - "anieji", - "aniem", - "aniemdviem", - "aniems", - "aniesiems", - "ano", - "anodviem", - "anoj", - "anoje", - "anoji", - "anojo", - "anojoje", - "anokia", - "anokiai", - "anokiais", - "anokiam", - "anokiame", - "anokias", - "anokie", - "anokiems", - "anokio", - "anokioje", - "anokiomis", - "anokioms", - "anokios", - "anokiose", - "anokiu", - "anokiuose", - "anokius", - "anokią", - "anokių", - "anoks", - "anoksai", - "anokį", - "anom", - "anomdviem", - "anomis", - "anoms", - "anos", - "anose", - "anosiomis", - "anosioms", - "anosios", - "anosiose", - "anot", - "ant", - "antai", - "antrokia", - "antrokiai", - "antrokiais", - "antrokiam", - "antrokiame", - "antrokias", - "antrokie", - "antrokiems", - "antrokio", - "antrokioje", - "antrokiomis", - "antrokioms", - "antrokios", - "antrokiose", - "antrokiu", - "antrokiuose", - "antrokius", - "antrokią", - "antrokių", - "antroks", - "antrokį", - "anuo", - "anuodu", - "anuoju", - "anuos", - "anuose", - "anuosiuose", - "anuosius", - "aną", - "anąja", - "anąją", - "anąjį", - "anąsias", - "anąįį", - "anų", - "anųdviejų", - "anųjų", - "apie", - "aplink", - "ar", - "arba", - "argi", - "arti", - "at", - "aukščiau", - "ačiū", - "aš", - "bakst", - "bambt", - "bau", - "be", - "bei", - "beje", - "bemaž", - "bene", - "bent", - "berods", - "bet", - "betgi", - "beveik", - "bis", - "brakšt", - "braukšt", - "bravo", - "bumbt", - "būtent", - "cakt", - "capt", - "cha", - "cit", - "cvakt", - "dar", - "dargi", - "daugmaž", - "deja", - "dievaž", - "din", - "dirst", - "dribt", - "drykt", - "dunkst", - "dvejokia", - "dvejokiai", - "dvejokiais", - "dvejokiam", - "dvejokiame", - "dvejokias", - "dvejokie", - "dvejokiems", - "dvejokio", - "dvejokioje", - "dvejokiomis", - "dvejokioms", - "dvejokios", - "dvejokiose", - "dvejokiu", - "dvejokiuose", - "dvejokius", - "dvejokią", - "dvejokių", - "dvejoks", - "dvejokį", - "dzin", - "dėka", - "dėkui", - "dėl", - "dėlei", - "dėlto", - "e", - "ech", - "ei", - "ej", - "et", - "fe", - "gaila", - "gal", - "galbūt", - "galgi", - "gan", - "gana", - "gi", - "greta", - "idant", - "iki", - "ir", - "irgi", - "it", - "itin", - "iš", - "išilgai", - "išvis", - "ja", - "jai", - "jais", - "jaisiais", - "jajai", - "jajam", - "jajame", - "jam", - "jame", - "jas", - "jau", - "jei", - "jeigu", - "ji", - "jie", - "jiedu", - "jiedvi", - "jiedviem", - "jieji", - "jiemdviem", - "jiems", - "jiesiems", - "jinai", - "jis", - "jisai", - "jo", - "jodviem", - "jog", - "joje", - "joji", - "jojo", - "jojoje", - "jokia", - "jokiai", - "jokiais", - "jokiam", - "jokiame", - "jokias", - "jokie", - "jokiems", - "jokio", - "jokioje", - "jokiomis", - "jokioms", - "jokios", - "jokiose", - "jokiu", - "jokiuose", - "jokius", - "jokią", - "jokių", - "joks", - "jokį", - "jomdviem", - "jomis", - "joms", - "jos", - "jose", - "josiomis", - "josioms", - "josios", - "josiose", - "judu", - "judvi", - "judviejose", - "judviejuose", - "judviejų", - "judviem", - "juk", - "jumis", - "jums", - "jumyse", - "juo", - "juodu", - "juoju", - "juos", - "juose", - "juosiuose", - "juosius", - "jus", - "ją", - "jąja", - "jąją", - "jąsias", - "jį", - "jįjį", - "jūs", - "jūsiške", - "jūsiškei", - "jūsiškes", - "jūsiškiai", - "jūsiškiais", - "jūsiškiam", - "jūsiškiame", - "jūsiškiams", - "jūsiškio", - "jūsiškis", - "jūsiškiu", - "jūsiškiuose", - "jūsiškius", - "jūsiškių", - "jūsiškė", - "jūsiškėje", - "jūsiškėmis", - "jūsiškėms", - "jūsiškės", - "jūsiškėse", - "jūsiškę", - "jūsiškį", - "jūsų", - "jų", - "jųdviejų", - "jųjų", - "kad", - "kada", - "kadangi", - "kai", - "kaip", - "kaipgi", - "kapt", - "kas", - "katra", - "katrai", - "katrais", - "katram", - "katrame", - "katras", - "katrie", - "katriedvi", - "katriems", - "katro", - "katroje", - "katromis", - "katroms", - "katros", - "katrose", - "katruo", - "katruodu", - "katruos", - "katruose", - "katrą", - "katrų", - "kaukšt", - "kažin", - "kažkas", - "kažkatra", - "kažkatras", - "kažkokia", - "kažkokiai", - "kažkokiais", - "kažkokiam", - "kažkokiame", - "kažkokias", - "kažkokie", - "kažkokiems", - "kažkokio", - "kažkokioje", - "kažkokiomis", - "kažkokioms", - "kažkokios", - "kažkokiose", - "kažkokiu", - "kažkokiuose", - "kažkokius", - "kažkokią", - "kažkokių", - "kažkoks", - "kažkoksai", - "kažkokį", - "kažkuri", - "kažkuria", - "kažkuriai", - "kažkuriais", - "kažkuriam", - "kažkuriame", - "kažkurias", - "kažkurie", - "kažkuriems", - "kažkurio", - "kažkurioje", - "kažkuriomis", - "kažkurioms", - "kažkurios", - "kažkuriose", - "kažkuris", - "kažkuriuo", - "kažkuriuos", - "kažkuriuose", - "kažkurią", - "kažkurių", - "kažkurį", - "keleri", - "keleriais", - "kelerias", - "keleriems", - "keleriomis", - "kelerioms", - "kelerios", - "keleriose", - "keleriuose", - "kelerius", - "kelerių", - "keletas", - "kelete", - "keleto", - "keletu", - "keletui", - "keletą", - "keli", - "keliais", - "kelias", - "keliasdešimt", - "keliems", - "kelinta", - "kelintai", - "kelintaisiais", - "kelintajai", - "kelintajam", - "kelintajame", - "kelintam", - "kelintame", - "kelintas", - "kelintasis", - "kelintieji", - "kelintiesiems", - "kelinto", - "kelintoje", - "kelintoji", - "kelintojo", - "kelintojoje", - "kelintos", - "kelintosioms", - "kelintosios", - "kelintosiose", - "kelintu", - "kelintuoju", - "kelintuosiuose", - "kelintuosius", - "kelintą", - "kelintąją", - "kelintąjį", - "kelintąsias", - "kelintųjų", - "keliolika", - "keliolikai", - "keliolikoje", - "keliolikos", - "keliomis", - "kelioms", - "kelios", - "keliose", - "kelis", - "keliuose", - "kelių", - "kiaurai", - "kiek", - "kiekviena", - "kiekvienai", - "kiekvienais", - "kiekvienam", - "kiekviename", - "kiekvienas", - "kiekvieni", - "kiekvieniems", - "kiekvieno", - "kiekvienoje", - "kiekvienomis", - "kiekvienoms", - "kiekvienos", - "kiekvienose", - "kiekvienu", - "kiekvienuose", - "kiekvienus", - "kiekvieną", - "kiekvienų", - "kieno", - "kita", - "kitai", - "kitais", - "kitam", - "kitame", - "kitas", - "kiti", - "kitiems", - "kito", - "kitoje", - "kitokia", - "kitokiai", - "kitokiais", - "kitokiam", - "kitokiame", - "kitokias", - "kitokie", - "kitokiems", - "kitokio", - "kitokioje", - "kitokiomis", - "kitokioms", - "kitokios", - "kitokiose", - "kitokiu", - "kitokiuose", - "kitokius", - "kitokią", - "kitokių", - "kitoks", - "kitokį", - "kitomis", - "kitoms", - "kitos", - "kitose", - "kitu", - "kituose", - "kitus", - "kitą", - "kitų", - "kodėl", - "kokia", - "kokiai", - "kokiais", - "kokiam", - "kokiame", - "kokias", - "kokie", - "kokiem", - "kokiems", - "kokio", - "kokioje", - "kokiomis", - "kokioms", - "kokios", - "kokiose", - "kokiu", - "kokiuose", - "kokius", - "kokią", - "kokių", - "koks", - "koksai", - "kokį", - "kol", - "kolei", - "kone", - "kuomet", - "kur", - "kurgi", - "kuri", - "kuria", - "kuriai", - "kuriais", - "kuriam", - "kuriame", - "kurias", - "kurie", - "kuriedvi", - "kuriem", - "kuriems", - "kurio", - "kurioje", - "kuriomis", - "kurioms", - "kurion", - "kurios", - "kuriose", - "kuris", - "kuriuo", - "kuriuodu", - "kuriuos", - "kuriuose", - "kurią", - "kurių", - "kurį", - "labanakt", - "labanaktis", - "labas", - "lai", - "lig", - "ligi", - "link", - "lyg", - "man", - "mana", - "manai", - "manais", - "manaisiais", - "manajai", - "manajam", - "manajame", - "manam", - "maname", - "manas", - "manasai", - "manasis", - "mane", - "mani", - "manieji", - "maniems", - "maniesiems", - "manim", - "manimi", - "maniške", - "maniškei", - "maniškes", - "maniškiai", - "maniškiais", - "maniškiam", - "maniškiame", - "maniškiams", - "maniškio", - "maniškis", - "maniškiu", - "maniškiuose", - "maniškius", - "maniškių", - "maniškė", - "maniškėje", - "maniškėmis", - "maniškėms", - "maniškės", - "maniškėse", - "maniškę", - "maniškį", - "mano", - "manoje", - "manoji", - "manojo", - "manojoje", - "manomis", - "manoms", - "manos", - "manose", - "manosiomis", - "manosioms", - "manosios", - "manosiose", - "manu", - "manuoju", - "manuose", - "manuosiuose", - "manuosius", - "manus", - "many", - "manyje", - "maną", - "manąja", - "manąją", - "manąjį", - "manąsias", - "manęs", - "manų", - "manųjų", - "mat", - "maždaug", - "mažne", - "mes", - "mudu", - "mudvi", - "mudviejose", - "mudviejuose", - "mudviejų", - "mudviem", - "mudviems", - "mumis", - "mums", - "mumyse", - "mus", - "mūs", - "mūsiške", - "mūsiškei", - "mūsiškes", - "mūsiškiai", - "mūsiškiais", - "mūsiškiam", - "mūsiškiame", - "mūsiškiams", - "mūsiškio", - "mūsiškis", - "mūsiškiu", - "mūsiškiuose", - "mūsiškius", - "mūsiškių", - "mūsiškė", - "mūsiškėje", - "mūsiškėmis", - "mūsiškėms", - "mūsiškės", - "mūsiškėse", - "mūsiškę", - "mūsiškį", - "mūsų", - "na", - "nagi", - "ne", - "nebe", - "nebent", - "negi", - "negu", - "nei", - "nejau", - "nejaugi", - "nekaip", - "nelyginant", - "nes", - "net", - "netgi", - "netoli", - "neva", - "niekatra", - "niekatrai", - "niekatrais", - "niekatram", - "niekatrame", - "niekatras", - "niekatrie", - "niekatriems", - "niekatro", - "niekatroje", - "niekatromis", - "niekatroms", - "niekatros", - "niekatrose", - "niekatruo", - "niekatruos", - "niekatruose", - "niekatrą", - "niekatrų", - "nors", - "nuo", - "nė", - "nėmaž", - "o", - "ogi", - "oho", - "oi", - "oj", - "op", - "opa", - "paeiliui", - "pagal", - "pagaliau", - "pakeliui", - "pala", - "palaipsniui", - "palei", - "pas", - "pasak", - "paskos", - "paskui", - "paskum", - "pat", - "pati", - "patiem", - "patiems", - "paties", - "pats", - "patsai", - "patys", - "patį", - "paukšt", - "pačia", - "pačiai", - "pačiais", - "pačiam", - "pačiame", - "pačias", - "pačioje", - "pačiomis", - "pačioms", - "pačios", - "pačiose", - "pačiu", - "pačiuose", - "pačius", - "pačią", - "pačių", - "per", - "pernelyg", - "pirm", - "pirma", - "pirmiau", - "pliumpt", - "plius", - "po", - "pokšt", - "prie", - "prieš", - "priešais", - "pro", - "pusiau", - "pykšt", - "rasi", - "rodos", - "sau", - "sava", - "savai", - "savais", - "savaisiais", - "savajai", - "savajam", - "savajame", - "savam", - "savame", - "savas", - "savasai", - "savasis", - "save", - "savi", - "savieji", - "saviems", - "saviesiems", - "savim", - "savimi", - "saviške", - "saviškei", - "saviškes", - "saviškiai", - "saviškiais", - "saviškiam", - "saviškiame", - "saviškiams", - "saviškio", - "saviškis", - "saviškiu", - "saviškiuose", - "saviškius", - "saviškių", - "saviškė", - "saviškėje", - "saviškėmis", - "saviškėms", - "saviškės", - "saviškėse", - "saviškę", - "saviškį", - "savo", - "savoje", - "savoji", - "savojo", - "savojoje", - "savomis", - "savoms", - "savos", - "savose", - "savosiomis", - "savosioms", - "savosios", - "savosiose", - "savu", - "savuoju", - "savuose", - "savuosiuose", - "savuosius", - "savus", - "savyj", - "savyje", - "savą", - "savąja", - "savąją", - "savąjį", - "savąsias", - "savęs", - "savų", - "savųjų", - "skersai", - "skradžiai", - "stačiai", - "strikt", - "strykt", - "stukt", - "su", - "sudie", - "sudieu", - "sudiev", - "sulig", - "ta", - "tad", - "tai", - "taigi", - "taip", - "taipogi", - "tais", - "taisiais", - "tajai", - "tajam", - "tajame", - "tam", - "tame", - "tamsta", - "tamstai", - "tamstas", - "tamstoje", - "tamstomis", - "tamstoms", - "tamstos", - "tamstose", - "tamstą", - "tamstų", - "tarp", - "tarsi", - "tartum", - "tarytum", - "tas", - "tasai", - "tau", - "tava", - "tavai", - "tavais", - "tavaisiais", - "tavajai", - "tavajam", - "tavajame", - "tavam", - "tavame", - "tavas", - "tavasai", - "tavasis", - "tave", - "tavi", - "tavieji", - "taviems", - "taviesiems", - "tavim", - "tavimi", - "taviške", - "taviškei", - "taviškes", - "taviškiai", - "taviškiais", - "taviškiam", - "taviškiame", - "taviškiams", - "taviškio", - "taviškis", - "taviškiu", - "taviškiuose", - "taviškius", - "taviškių", - "taviškė", - "taviškėje", - "taviškėmis", - "taviškėms", - "taviškės", - "taviškėse", - "taviškę", - "taviškį", - "tavo", - "tavoje", - "tavoji", - "tavojo", - "tavojoje", - "tavomis", - "tavoms", - "tavos", - "tavose", - "tavosiomis", - "tavosioms", - "tavosios", - "tavosiose", - "tavu", - "tavuoju", - "tavuose", - "tavuosiuose", - "tavuosius", - "tavus", - "tavy", - "tavyje", - "tavą", - "tavąja", - "tavąją", - "tavąjį", - "tavąsias", - "tavęs", - "tavų", - "tavųjų", - "tačiau", - "te", - "tegu", - "tegul", - "tie", - "tiedu", - "tiedvi", - "tiedviejose", - "tiedviejuose", - "tiedviejų", - "tiedviem", - "tiedviems", - "tieji", - "tiem", - "tiemdviem", - "tiems", - "ties", - "tiesiems", - "tiesiog", - "tik", - "tikriausiai", - "tiktai", - "to", - "todviem", - "toj", - "toje", - "toji", - "tojo", - "tojoje", - "tokia", - "tokiai", - "tokiais", - "tokiam", - "tokiame", - "tokias", - "tokie", - "tokiems", - "tokio", - "tokioje", - "tokiomis", - "tokioms", - "tokios", - "tokiose", - "tokiu", - "tokiuose", - "tokius", - "tokią", - "tokių", - "toks", - "toksai", - "tokį", - "tol", - "tolei", - "toliau", - "tom", - "tomdviem", - "tomis", - "toms", - "tos", - "tose", - "tosiomis", - "tosioms", - "tosios", - "tosiose", - "trakšt", - "trinkt", - "tu", - "tuo", - "tuodu", - "tuoju", - "tuos", - "tuose", - "tuosiuose", - "tuosius", - "turbūt", - "tą", - "tąja", - "tąją", - "tąjį", - "tąsias", - "tąįį", - "tūla", - "tūlai", - "tūlais", - "tūlam", - "tūlame", - "tūlas", - "tūli", - "tūliems", - "tūlo", - "tūloje", - "tūlomis", - "tūloms", - "tūlos", - "tūlose", - "tūlu", - "tūluose", - "tūlus", - "tūlą", - "tūlų", - "tų", - "tųdviejų", - "tųjų", - "ui", - "už", - "užtat", - "užuot", - "užvis", - "va", - "vai", - "valio", - "vau", - "viduj", - "vidury", - "vien", - "vienas", - "vienokia", - "vienoks", - "vietoj", - "virš", - "viršuj", - "viršum", - "vis", - "visa", - "visas", - "visgi", - "visokia", - "visoks", - "vos", - "vėl", - "vėlgi", - "y", - "ypač", - "čikšt", - "činkšt", - "ėgi", - "į", - "įkypai", - "įstrižai", - "ša", - "šalia", - "šast", - "še", - "šekit", - "ši", - "šia", - "šiai", - "šiaipjau", - "šiais", - "šiaisiais", - "šiajai", - "šiajam", - "šiajame", - "šiam", - "šiame", - "šiapus", - "šias", - "šie", - "šiedu", - "šiedvi", - "šiedviejose", - "šiedviejuose", - "šiedviejų", - "šiedviem", - "šiedviems", - "šieji", - "šiemdviem", - "šiems", - "šiesiems", - "šio", - "šiodviem", - "šioje", - "šioji", - "šiojo", - "šiojoje", - "šiokia", - "šiokiai", - "šiokiais", - "šiokiam", - "šiokiame", - "šiokias", - "šiokie", - "šiokiems", - "šiokio", - "šiokioje", - "šiokiomis", - "šiokioms", - "šiokios", - "šiokiose", - "šiokiu", - "šiokiuose", - "šiokius", - "šiokią", - "šiokių", - "šioks", - "šioksai", - "šiokį", - "šiomdviem", - "šiomis", - "šioms", - "šios", - "šiose", - "šiosiomis", - "šiosioms", - "šiosios", - "šiosiose", - "šis", - "šisai", - "šit", - "šita", - "šitai", - "šitais", - "šitaisiais", - "šitajai", - "šitajam", - "šitajame", - "šitam", - "šitame", - "šitas", - "šitasai", - "šitie", - "šitiedvi", - "šitiedviem", - "šitieji", - "šitiem", - "šitiemdviem", - "šitiems", - "šitiesiems", - "šito", - "šitodviem", - "šitoj", - "šitoje", - "šitoji", - "šitojo", - "šitojoje", - "šitokia", - "šitokiai", - "šitokiais", - "šitokiam", - "šitokiame", - "šitokias", - "šitokie", - "šitokiems", - "šitokio", - "šitokioje", - "šitokiomis", - "šitokioms", - "šitokios", - "šitokiose", - "šitokiu", - "šitokiuose", - "šitokius", - "šitokią", - "šitokių", - "šitoks", - "šitoksai", - "šitokį", - "šitom", - "šitomdviem", - "šitomis", - "šitoms", - "šitos", - "šitose", - "šitosiomis", - "šitosioms", - "šitosios", - "šitosiose", - "šituo", - "šituodu", - "šituoju", - "šituos", - "šituose", - "šituosiuose", - "šituosius", - "šitą", - "šitąja", - "šitąją", - "šitąsias", - "šitų", - "šitųdviejų", - "šitųjų", - "šiuo", - "šiuodu", - "šiuoju", - "šiuos", - "šiuose", - "šiuosiuose", - "šiuosius", - "šią", - "šiąja", - "šiąją", - "šiąsias", - "šių", - "šiųdviejų", - "šiųjų", - "škac", - "škic", - "šlept", - "šmurkšt", - "štai", - "šį", - "šįjį", - "žemiau", - "žūtbūt", -} diff --git a/spacy/lang/lv/__init__.py b/spacy/lang/lv/__init__.py index a05e5b939..422769f04 100644 --- a/spacy/lang/lv/__init__.py +++ b/spacy/lang/lv/__init__.py @@ -1,9 +1,8 @@ -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults class LatvianDefaults(BaseDefaults): - stop_words = STOP_WORDS + pass class Latvian(Language): diff --git a/spacy/lang/lv/stop_words.py b/spacy/lang/lv/stop_words.py deleted file mode 100644 index 2685c2430..000000000 --- a/spacy/lang/lv/stop_words.py +++ /dev/null @@ -1,167 +0,0 @@ -# Source: https://github.com/stopwords-iso/stopwords-lv - -STOP_WORDS = set( - """ -aiz -ap -apakš -apakšpus -ar -arī -augšpus -bet -bez -bija -biji -biju -bijām -bijāt -būs -būsi -būsiet -būsim -būt -būšu -caur -diemžēl -diezin -droši -dēļ -esam -esat -esi -esmu -gan -gar -iekam -iekams -iekām -iekāms -iekš -iekšpus -ik -ir -it -itin -iz -ja -jau -jeb -jebšu -jel -jo -jā -ka -kamēr -kaut -kolīdz -kopš -kā -kļuva -kļuvi -kļuvu -kļuvām -kļuvāt -kļūs -kļūsi -kļūsiet -kļūsim -kļūst -kļūstam -kļūstat -kļūsti -kļūstu -kļūt -kļūšu -labad -lai -lejpus -līdz -līdzko -ne -nebūt -nedz -nekā -nevis -nezin -no -nu -nē -otrpus -pa -par -pat -pie -pirms -pret -priekš -pār -pēc -starp -tad -tak -tapi -taps -tapsi -tapsiet -tapsim -tapt -tapāt -tapšu -taču -te -tiec -tiek -tiekam -tiekat -tieku -tik -tika -tikai -tiki -tikko -tiklab -tiklīdz -tiks -tiksiet -tiksim -tikt -tiku -tikvien -tikām -tikāt -tikšu -tomēr -topat -turpretim -turpretī -tā -tādēļ -tālab -tāpēc -un -uz -vai -var -varat -varēja -varēji -varēju -varējām -varējāt -varēs -varēsi -varēsiet -varēsim -varēt -varēšu -vien -virs -virspus -vis -viņpus -zem -ārpus -šaipus -""".split() -) diff --git a/spacy/lang/mk/__init__.py b/spacy/lang/mk/__init__.py index fa07cfef9..90fa7eb0a 100644 --- a/spacy/lang/mk/__init__.py +++ b/spacy/lang/mk/__init__.py @@ -1,7 +1,6 @@ from typing import Optional, Callable from thinc.api import Model from .lemmatizer import MacedonianLemmatizer -from .stop_words import STOP_WORDS from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .lex_attrs import LEX_ATTRS from ..tokenizer_exceptions import BASE_EXCEPTIONS @@ -21,7 +20,6 @@ class MacedonianDefaults(BaseDefaults): # Merge base exceptions and custom tokenizer exceptions tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS) - stop_words = STOP_WORDS @classmethod def create_lemmatizer(cls, nlp=None, lookups=None): diff --git a/spacy/lang/mk/stop_words.py b/spacy/lang/mk/stop_words.py deleted file mode 100644 index 312a456c5..000000000 --- a/spacy/lang/mk/stop_words.py +++ /dev/null @@ -1,815 +0,0 @@ -STOP_WORDS = set( - """ -а -абре -aв -аи -ако -алало -ам -ама -аман -ами -амин -априли-ли-ли -ау -аух -ауч -ах -аха -аха-ха -аш -ашколсум -ашколсун -ај -ајде -ајс -аџаба -бавно -бам -бам-бум -бап -бар -баре -барем -бау -бау-бау -баш -бај -бе -беа -бев -бевме -бевте -без -безбели -бездруго -белки -беше -би -бидејќи -бим -бис -бла -блазе -богами -божем -боц -браво -бравос -бре -бреј -брзо -бришка -бррр -бу -бум -буф -буц -бујрум -ваа -вам -варај -варда -вас -вај -ве -велат -вели -версус -веќе -ви -виа -види -вие -вистина -витос -внатре -во -воз -вон -впрочем -врв -вред -време -врз -всушност -втор -галиба -ги -гитла -го -годе -годишник -горе -гра -гуц -гљу -да -даан -дава -дал -дали -дан -два -дваесет -дванаесет -двајца -две -двесте -движам -движат -движи -движиме -движите -движиш -де -деведесет -девет -деветнаесет -деветстотини -деветти -дека -дел -делми -демек -десет -десетина -десетти -деситици -дејгиди -дејди -ди -дилми -дин -дип -дно -до -доволно -додека -додуша -докај -доколку -доправено -доправи -досамоти -доста -држи -дрн -друг -друга -другата -други -другиот -другите -друго -другото -дум -дур -дури -е -евала -еве -евет -ега -егиди -еден -едикојси -единаесет -единствено -еднаш -едно -ексик -ела -елбете -елем -ели -ем -еми -ене -ете -еурека -ех -еј -жими -жити -за -завал -заврши -зад -задека -задоволна -задржи -заедно -зар -зарад -заради -заре -зарем -затоа -зашто -згора -зема -земе -земува -зер -значи -зошто -зуј -и -иако -из -извезен -изгледа -измеѓу -износ -или -или-или -илјада -илјади -им -има -имаа -имаат -имавме -имавте -имам -имаме -имате -имаш -имаше -име -имено -именува -имплицира -имплицираат -имплицирам -имплицираме -имплицирате -имплицираш -инаку -индицира -исечок -исклучен -исклучена -исклучени -исклучено -искористен -искористена -искористени -искористено -искористи -искрај -исти -исто -итака -итн -их -иха -ихуу -иш -ишала -иј -ка -каде -кажува -како -каков -камоли -кај -ква -ки -кит -кло -клум -кога -кого -кого-годе -кое -кои -количество -количина -колку -кому -кон -користена -користени -користено -користи -кот -котрр -кош-кош -кој -која -којзнае -којшто -кр-кр-кр -крај -крек -крз -крк -крц -куку -кукуригу -куш -ле -лебами -леле -лели -ли -лиду -луп -ма -макар -малку -марш -мат -мац -машала -ме -мене -место -меѓу -меѓувреме -меѓутоа -ми -мое -може -можеби -молам -моли -мор -мора -море -мори -мразец -му -муклец -мутлак -муц -мјау -на -навидум -навистина -над -надвор -назад -накај -накрај -нали -нам -наместо -наоколу -направено -направи -напред -нас -наспоред -наспрема -наспроти -насред -натаму -натема -начин -наш -наша -наше -наши -нај -најдоцна -најмалку -најмногу -не -неа -него -негов -негова -негови -негово -незе -нека -некаде -некако -некаков -некого -некое -некои -неколку -некому -некој -некојси -нели -немој -нему -неоти -нечиј -нешто -нејзе -нејзин -нејзини -нејзино -нејсе -ни -нив -нивен -нивна -нивни -нивно -ние -низ -никаде -никако -никогаш -никого -никому -никој -ним -нити -нито -ниту -ничиј -ништо -но -нѐ -о -обр -ова -ова-она -оваа -овај -овде -овега -овие -овој -од -одавде -оди -однесува -односно -одошто -околу -олеле -олкацок -он -она -онаа -онака -онаков -онде -они -оние -оно -оној -оп -освем -освен -осем -осми -осум -осумдесет -осумнаесет -осумстотитни -отаде -оти -откако -откај -откога -отколку -оттаму -оттука -оф -ох -ој -па -пак -папа -пардон -пате-ќуте -пати -пау -паче -пеесет -пеки -пет -петнаесет -петстотини -петти -пи -пи-пи -пис -плас -плус -по -побавно -поблиску -побрзо -побуни -повеќе -повторно -под -подалеку -подолу -подоцна -подруго -позади -поинаква -поинакви -поинакво -поинаков -поинаку -покаже -покажува -покрај -полно -помалку -помеѓу -понатаму -понекогаш -понекој -поради -поразличен -поразлична -поразлични -поразлично -поседува -после -последен -последна -последни -последно -поспоро -потег -потоа -пошироко -прави -празно -прв -пред -през -преку -претежно -претходен -претходна -претходни -претходник -претходно -при -присвои -притоа -причинува -пријатно -просто -против -прр -пст -пук -пусто -пуф -пуј -пфуј -пшт -ради -различен -различна -различни -различно -разни -разоружен -разредлив -рамките -рамнообразно -растревожено -растреперено -расчувствувано -ратоборно -рече -роден -с -сакан -сам -сама -сами -самите -само -самоти -свое -свои -свој -своја -се -себе -себеси -сега -седми -седум -седумдесет -седумнаесет -седумстотини -секаде -секаков -секи -секогаш -секого -секому -секој -секојдневно -сем -сенешто -сепак -сериозен -сериозна -сериозни -сериозно -сет -сечиј -сешто -си -сиктер -сиот -сип -сиреч -сите -сичко -скок -скоро -скрц -следбеник -следбеничка -следен -следователно -следствено -сме -со -соне -сопствен -сопствена -сопствени -сопствено -сосе -сосем -сполај -според -споро -спрема -спроти -спротив -сред -среде -среќно -срочен -сст -става -ставаат -ставам -ставаме -ставате -ставаш -стави -сте -сто -стоп -страна -сум -сума -супер -сус -сѐ -та -таа -така -таква -такви -таков -тамам -таму -тангар-мангар -тандар-мандар -тап -твое -те -тебе -тебека -тек -текот -ти -тие -тизе -тик-так -тики -тоа -тогаш -тој -трак -трака-трука -трас -треба -трет -три -триесет -тринаест -триста -труп -трупа -трус -ту -тука -туку -тукушто -туф -у -уа -убаво -уви -ужасно -уз -ура -уу -уф -уха -уш -уште -фазен -фала -фил -филан -фис -фиу -фиљан -фоб -фон -ха -ха-ха -хе -хеј -хеј -хи -хм -хо -цак -цап -целина -цело -цигу-лигу -циц -чекај -често -четврт -четири -четириесет -четиринаесет -четирстотини -чие -чии -чик -чик-чирик -чини -чиш -чиј -чија -чијшто -чкрап -чому -чук -чукш -чуму -чунки -шеесет -шеснаесет -шест -шести -шестотини -ширум -шлак -шлап -шлапа-шлупа -шлуп -шмрк -што -штогоде -штом -штотуку -штрак -штрап -штрап-штруп -шуќур -ѓиди -ѓоа -ѓоамити -ѕан -ѕе -ѕин -ја -јадец -јазе -јали -јас -јаска -јок -ќе -ќешки -ѝ -џагара-магара -џанам -џив-џив - """.split() -) diff --git a/spacy/lang/ml/__init__.py b/spacy/lang/ml/__init__.py index 9f90605f0..cee129121 100644 --- a/spacy/lang/ml/__init__.py +++ b/spacy/lang/ml/__init__.py @@ -1,11 +1,9 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults class MalayalamDefaults(BaseDefaults): lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Malayalam(Language): diff --git a/spacy/lang/ml/stop_words.py b/spacy/lang/ml/stop_words.py deleted file mode 100644 index 441e93586..000000000 --- a/spacy/lang/ml/stop_words.py +++ /dev/null @@ -1,13 +0,0 @@ -STOP_WORDS = set( - """ -അത് -ഇത് -ആയിരുന്നു -ആകുന്നു -വരെ -അന്നേരം -അന്ന് -ഇന്ന് -ആണ് -""".split() -) diff --git a/spacy/lang/mr/__init__.py b/spacy/lang/mr/__init__.py index 3e172fa60..391c2a858 100644 --- a/spacy/lang/mr/__init__.py +++ b/spacy/lang/mr/__init__.py @@ -1,9 +1,8 @@ -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults class MarathiDefaults(BaseDefaults): - stop_words = STOP_WORDS + pass class Marathi(Language): diff --git a/spacy/lang/mr/stop_words.py b/spacy/lang/mr/stop_words.py deleted file mode 100644 index 9b0cee951..000000000 --- a/spacy/lang/mr/stop_words.py +++ /dev/null @@ -1,192 +0,0 @@ -# Source: https://github.com/stopwords-iso/stopwords-mr/blob/master/stopwords-mr.txt, https://github.com/6/stopwords-json/edit/master/dist/mr.json -STOP_WORDS = set( - """ -न -अतरी -तो -हें -तें -कां -आणि -जें -जे -मग -ते -मी -जो -परी -गा -हे -ऐसें -आतां -नाहीं -तेथ -हा -तया -असे -म्हणे -काय -कीं -जैसें -तंव -तूं -होय -जैसा -आहे -पैं -तैसा -जरी -म्हणोनि -एक -ऐसा -जी -ना -मज -एथ -या -जेथ -जया -तुज -तेणें -तैं -पां -असो -करी -ऐसी -येणें -जाहला -तेंचि -आघवें -होती -कांहीं -होऊनि -एकें -मातें -ठायीं -ये -सकळ -केलें -जेणें -जाण -जैसी -होये -जेवीं -एऱ्हवीं -मीचि -किरीटी -दिसे -देवा -हो -तरि -कीजे -तैसे -आपण -तिये -कर्म -नोहे -इये -पडे -माझें -तैसी -लागे -नाना -जंव -कीर -अधिक -अनेक -अशी -असलयाचे -असलेल्या -असा -असून -असे -आज -आणि -आता -आपल्या -आला -आली -आले -आहे -आहेत -एक -एका -कमी -करणयात -करून -का -काम -काय -काही -किवा -की -केला -केली -केले -कोटी -गेल्या -घेऊन -जात -झाला -झाली -झाले -झालेल्या -टा -तर -तरी -तसेच -ता -ती -तीन -ते -तो -त्या -त्याचा -त्याची -त्याच्या -त्याना -त्यानी -त्यामुळे -त्री -दिली -दोन -न -पण -पम -परयतन -पाटील -म -मात्र -माहिती -मी -मुबी -म्हणजे -म्हणाले -म्हणून -या -याचा -याची -याच्या -याना -यानी -येणार -येत -येथील -येथे -लाख -व -व्यकत -सर्व -सागित्ले -सुरू -हजार -हा -ही -हे -होणार -होत -होता -होती -होते -""".split() -) diff --git a/spacy/lang/nb/__init__.py b/spacy/lang/nb/__init__.py index e079236fd..94713d8c5 100644 --- a/spacy/lang/nb/__init__.py +++ b/spacy/lang/nb/__init__.py @@ -3,7 +3,6 @@ from thinc.api import Model from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES from .punctuation import TOKENIZER_SUFFIXES -from .stop_words import STOP_WORDS from .syntax_iterators import SYNTAX_ITERATORS from ...language import Language, BaseDefaults from ...pipeline import Lemmatizer @@ -15,7 +14,6 @@ class NorwegianDefaults(BaseDefaults): infixes = TOKENIZER_INFIXES suffixes = TOKENIZER_SUFFIXES syntax_iterators = SYNTAX_ITERATORS - stop_words = STOP_WORDS class Norwegian(Language): diff --git a/spacy/lang/nb/stop_words.py b/spacy/lang/nb/stop_words.py deleted file mode 100644 index d9ed414ef..000000000 --- a/spacy/lang/nb/stop_words.py +++ /dev/null @@ -1,50 +0,0 @@ -STOP_WORDS = set( - """ -alle allerede alt and andre annen annet at av - -bak bare bedre beste blant ble bli blir blitt bris by både - -da dag de del dem den denne der dermed det dette disse du - -eller en enn er et ett etter - -fem fikk fire fjor flere folk for fortsatt fra fram -funnet få får fått før først første - -gang gi gikk gjennom gjorde gjort gjør gjøre god godt grunn gå går - -ha hadde ham han hans har hele helt henne hennes her hun - -i ifølge igjen ikke ingen inn - -ja jeg - -kamp kampen kan kl klart kom komme kommer kontakt kort kroner kunne kveld - -la laget land landet langt leder ligger like litt løpet - -man mange med meg mellom men mener mennesker mens mer mot mye må mål måtte - -ned neste noe noen nok ny nye nå når - -og også om opp opplyser oss over - -personer plass poeng på - -runde rundt - -sa saken samme sammen samtidig satt se seg seks selv senere ser sett -siden sier sin sine siste sitt skal skriver skulle slik som sted stedet stor -store står svært så - -ta tatt tid tidligere til tilbake tillegg tok tror - -under ut uten utenfor - -vant var ved veldig vi videre viktig vil ville viser vår være vært - -å år - -ønsker -""".split() -) diff --git a/spacy/lang/ne/__init__.py b/spacy/lang/ne/__init__.py index 0028d1b0b..06ebe852e 100644 --- a/spacy/lang/ne/__init__.py +++ b/spacy/lang/ne/__init__.py @@ -1,10 +1,8 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults class NepaliDefaults(BaseDefaults): - stop_words = STOP_WORDS lex_attr_getters = LEX_ATTRS diff --git a/spacy/lang/ne/stop_words.py b/spacy/lang/ne/stop_words.py deleted file mode 100644 index 8470297b9..000000000 --- a/spacy/lang/ne/stop_words.py +++ /dev/null @@ -1,494 +0,0 @@ -# Source: https://github.com/sanjaalcorps/NepaliStopWords/blob/master/NepaliStopWords.txt - -STOP_WORDS = set( - """ -अक्सर -अगाडि -अगाडी -अघि -अझै -अठार -अथवा -अनि -अनुसार -अन्तर्गत -अन्य -अन्यत्र -अन्यथा -अब -अरु -अरुलाई -अरू -अर्को -अर्थात -अर्थात् -अलग -अलि -अवस्था -अहिले -आए -आएका -आएको -आज -आजको -आठ -आत्म -आदि -आदिलाई -आफनो -आफू -आफूलाई -आफै -आफैँ -आफ्नै -आफ्नो -आयो -उ -उक्त -उदाहरण -उनको -उनलाई -उनले -उनि -उनी -उनीहरुको -उन्नाइस -उप -उसको -उसलाई -उसले -उहालाई -ऊ -एउटा -एउटै -एक -एकदम -एघार -ओठ -औ -औं -कता -कति -कतै -कम -कमसेकम -कसरि -कसरी -कसै -कसैको -कसैलाई -कसैले -कसैसँग -कस्तो -कहाँबाट -कहिलेकाहीं -का -काम -कारण -कि -किन -किनभने -कुन -कुनै -कुन्नी -कुरा -कृपया -के -केहि -केही -को -कोहि -कोहिपनि -कोही -कोहीपनि -क्रमशः -गए -गएको -गएर -गयौ -गरि -गरी -गरे -गरेका -गरेको -गरेर -गरौं -गर्छ -गर्छन् -गर्छु -गर्दा -गर्दै -गर्न -गर्नु -गर्नुपर्छ -गर्ने -गैर -घर -चार -चाले -चाहनुहुन्छ -चाहन्छु -चाहिं -चाहिए -चाहिंले -चाहीं -चाहेको -चाहेर -चोटी -चौथो -चौध -छ -छन -छन् -छु -छू -छैन -छैनन् -छौ -छौं -जता -जताततै -जना -जनाको -जनालाई -जनाले -जब -जबकि -जबकी -जसको -जसबाट -जसमा -जसरी -जसलाई -जसले -जस्ता -जस्तै -जस्तो -जस्तोसुकै -जहाँ -जान -जाने -जाहिर -जुन -जुनै -जे -जो -जोपनि -जोपनी -झैं -ठाउँमा -ठीक -ठूलो -त -तता -तत्काल -तथा -तथापि -तथापी -तदनुसार -तपाइ -तपाई -तपाईको -तब -तर -तर्फ -तल -तसरी -तापनि -तापनी -तिन -तिनि -तिनिहरुलाई -तिनी -तिनीहरु -तिनीहरुको -तिनीहरू -तिनीहरूको -तिनै -तिमी -तिर -तिरको -ती -तीन -तुरन्त -तुरुन्त -तुरुन्तै -तेश्रो -तेस्कारण -तेस्रो -तेह्र -तैपनि -तैपनी -त्यत्तिकै -त्यत्तिकैमा -त्यस -त्यसकारण -त्यसको -त्यसले -त्यसैले -त्यसो -त्यस्तै -त्यस्तो -त्यहाँ -त्यहिँ -त्यही -त्यहीँ -त्यहीं -त्यो -त्सपछि -त्सैले -थप -थरि -थरी -थाहा -थिए -थिएँ -थिएन -थियो -दर्ता -दश -दिए -दिएको -दिन -दिनुभएको -दिनुहुन्छ -दुइ -दुइवटा -दुई -देखि -देखिन्छ -देखियो -देखे -देखेको -देखेर -दोश्री -दोश्रो -दोस्रो -द्वारा -धन्न -धेरै -धौ -न -नगर्नु -नगर्नू -नजिकै -नत्र -नत्रभने -नभई -नभएको -नभनेर -नयाँ -नि -निकै -निम्ति -निम्न -निम्नानुसार -निर्दिष्ट -नै -नौ -पक्का -पक्कै -पछाडि -पछाडी -पछि -पछिल्लो -पछी -पटक -पनि -पन्ध्र -पर्छ -पर्थ्यो -पर्दैन -पर्ने -पर्नेमा -पर्याप्त -पहिले -पहिलो -पहिल्यै -पाँच -पांच -पाचौँ -पाँचौं -पिच्छे -पूर्व -पो -प्रति -प्रतेक -प्रत्यक -प्राय -प्लस -फरक -फेरि -फेरी -बढी -बताए -बने -बरु -बाट -बारे -बाहिर -बाहेक -बाह्र -बिच -बिचमा -बिरुद्ध -बिशेष -बिस -बीच -बीचमा -बीस -भए -भएँ -भएका -भएकालाई -भएको -भएन -भएर -भन -भने -भनेको -भनेर -भन् -भन्छन् -भन्छु -भन्दा -भन्दै -भन्नुभयो -भन्ने -भन्या -भयेन -भयो -भर -भरि -भरी -भा -भित्र -भित्री -भीत्र -म -मध्य -मध्ये -मलाई -मा -मात्र -मात्रै -माथि -माथी -मुख्य -मुनि -मुन्तिर -मेरो -मैले -यति -यथोचित -यदि -यद्ध्यपि -यद्यपि -यस -यसका -यसको -यसपछि -यसबाहेक -यसमा -यसरी -यसले -यसो -यस्तै -यस्तो -यहाँ -यहाँसम्म -यही -या -यी -यो -र -रही -रहेका -रहेको -रहेछ -राखे -राख्छ -राम्रो -रुपमा -रूप -रे -लगभग -लगायत -लाई -लाख -लागि -लागेको -ले -वटा -वरीपरी -वा -वाट -वापत -वास्तवमा -शायद -सक्छ -सक्ने -सँग -संग -सँगको -सँगसँगै -सँगै -संगै -सङ्ग -सङ्गको -सट्टा -सत्र -सधै -सबै -सबैको -सबैलाई -समय -समेत -सम्भव -सम्म -सय -सरह -सहित -सहितै -सही -साँच्चै -सात -साथ -साथै -सायद -सारा -सुनेको -सुनेर -सुरु -सुरुको -सुरुमै -सो -सोचेको -सोचेर -सोही -सोह्र -स्थित -स्पष्ट -हजार -हरे -हरेक -हामी -हामीले -हाम्रा -हाम्रो -हुँदैन -हुन -हुनत -हुनु -हुने -हुनेछ -हुन् -हुन्छ -हुन्थ्यो -हैन -हो -होइन -होकि -होला -""".split() -) diff --git a/spacy/lang/nl/__init__.py b/spacy/lang/nl/__init__.py index ad2205a0b..6ecdb4510 100644 --- a/spacy/lang/nl/__init__.py +++ b/spacy/lang/nl/__init__.py @@ -6,7 +6,6 @@ from .lemmatizer import DutchLemmatizer from .lex_attrs import LEX_ATTRS from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES from .punctuation import TOKENIZER_SUFFIXES -from .stop_words import STOP_WORDS from .syntax_iterators import SYNTAX_ITERATORS from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from ...language import Language, BaseDefaults @@ -19,7 +18,6 @@ class DutchDefaults(BaseDefaults): suffixes = TOKENIZER_SUFFIXES lex_attr_getters = LEX_ATTRS syntax_iterators = SYNTAX_ITERATORS - stop_words = STOP_WORDS class Dutch(Language): diff --git a/spacy/lang/nl/stop_words.py b/spacy/lang/nl/stop_words.py deleted file mode 100644 index a2c6198e7..000000000 --- a/spacy/lang/nl/stop_words.py +++ /dev/null @@ -1,72 +0,0 @@ -# The original stop words list (added in f46ffe3) was taken from -# http://www.damienvanholten.com/downloads/dutch-stop-words.txt -# and consisted of about 100 tokens. -# In order to achieve parity with some of the better-supported -# languages, e.g., English, French, and German, this original list has been -# extended with 200 additional tokens. The main source of inspiration was -# https://raw.githubusercontent.com/stopwords-iso/stopwords-nl/master/stopwords-nl.txt. -# However, quite a bit of manual editing has taken place as well. -# Tokens whose status as a stop word is not entirely clear were admitted or -# rejected by deferring to their counterparts in the stop words lists for English -# and French. Similarly, those lists were used to identify and fill in gaps so -# that -- in principle -- each token contained in the English stop words list -# should have a Dutch counterpart here. - - -STOP_WORDS = set( - """ -aan af al alle alles allebei alleen allen als altijd ander anders andere anderen aangaangde aangezien achter achterna -afgelopen aldus alhoewel anderzijds - -ben bij bijna bijvoorbeeld behalve beide beiden beneden bent bepaald beter betere betreffende binnen binnenin boven -bovenal bovendien bovenstaand buiten - -daar dan dat de der den deze die dit doch doen door dus daarheen daarin daarna daarnet daarom daarop des dezelfde dezen -dien dikwijls doet doorgaand doorgaans - -een eens en er echter enige eerder eerst eerste eersten effe eigen elk elke enkel enkele enz erdoor etc even eveneens -evenwel - -ff - -ge geen geweest gauw gedurende gegeven gehad geheel gekund geleden gelijk gemogen geven geweest gewoon gewoonweg -geworden gij - -haar had heb hebben heeft hem het hier hij hoe hun hadden hare hebt hele hen hierbeneden hierboven hierin hoewel hun - -iemand iets ik in is idd ieder ikke ikzelf indien inmiddels inz inzake - -ja je jou jouw jullie jezelf jij jijzelf jouwe juist - -kan kon kunnen klaar konden krachtens kunnen kunt - -lang later liet liever - -maar me meer men met mij mijn moet mag mede meer meesten mezelf mijzelf min minder misschien mocht mochten moest moesten -moet moeten mogelijk mogen - -na naar niet niets nog nu nabij nadat net nogal nooit nr nu - -of om omdat ons ook op over omhoog omlaag omstreeks omtrent omver onder ondertussen ongeveer onszelf onze ooit opdat -opnieuw opzij over overigens - -pas pp precies prof publ - -reeds rond rondom - -sedert sinds sindsdien slechts sommige spoedig steeds - -‘t 't te tegen toch toen tot tamelijk ten tenzij ter terwijl thans tijdens toe totdat tussen - -u uit uw uitgezonderd uwe uwen - -van veel voor vaak vanaf vandaan vanuit vanwege veeleer verder verre vervolgens vgl volgens vooraf vooral vooralsnog -voorbij voordat voordien voorheen voorop voort voorts vooruit vrij vroeg - -want waren was wat we wel werd wezen wie wij wil worden waar waarom wanneer want weer weg wegens weinig weinige weldra -welk welke welken werd werden wiens wier wilde wordt - -zal ze zei zelf zich zij zijn zo zonder zou zeer zeker zekere zelfde zelfs zichzelf zijnde zijne zo’n zoals zodra zouden - zoveel zowat zulk zulke zulks zullen zult -""".split() -) diff --git a/spacy/lang/pl/__init__.py b/spacy/lang/pl/__init__.py index 02c96799b..a46b9a3c1 100644 --- a/spacy/lang/pl/__init__.py +++ b/spacy/lang/pl/__init__.py @@ -4,7 +4,6 @@ from thinc.api import Model from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES from .punctuation import TOKENIZER_SUFFIXES -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .lemmatizer import PolishLemmatizer from ..tokenizer_exceptions import BASE_EXCEPTIONS @@ -22,7 +21,6 @@ class PolishDefaults(BaseDefaults): infixes = TOKENIZER_INFIXES suffixes = TOKENIZER_SUFFIXES lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Polish(Language): diff --git a/spacy/lang/pl/stop_words.py b/spacy/lang/pl/stop_words.py deleted file mode 100644 index 075aec391..000000000 --- a/spacy/lang/pl/stop_words.py +++ /dev/null @@ -1,78 +0,0 @@ -# sources: https://github.com/bieli/stopwords/blob/master/polish.stopwords.txt and https://github.com/stopwords-iso/stopwords-pl - -STOP_WORDS = set( - """ -a aby ach acz aczkolwiek aj albo ale alez -ależ ani az aż - -bardziej bardzo beda bede bedzie bez bo bowiem by -byc byl byla byli bylo byly bym bynajmniej być był -była było były będzie będą będę - -cala cali caly cała cały chce choć ci cie -ciebie cię co cokolwiek coraz cos coś czasami czasem czemu -czy czyli często - -daleko dla dlaczego dlatego do dobrze dokad dokąd -dosc dość duzo dużo dwa dwaj dwie dwoje dzis -dzisiaj dziś - -gdy gdyby gdyz gdyż gdzie gdziekolwiek gdzies gdzieś go -godz - -i ich ile im inna inne inny -innych iv ix iz iż - -ja jak jakas jakaś jakby jaki jakichs jakichś jakie -jakis jakiz jakiś jakiż jakkolwiek jako jakos jakoś je jeden -jedna jednak jednakze jednakże jedno jednym jedynie jego jej jemu -jesli jest jestem jeszcze jezeli jeśli jeżeli juz już ją - -kazdy każdy kiedy kierunku kilka kilku kims kimś kto -ktokolwiek ktora ktore ktorego ktorej ktory ktorych ktorym ktorzy ktos -ktoś która które którego której który których którym którzy ku - -lecz lub - -ma mają mam mamy mało mi miał miedzy -mimo między mna mnie mną moga mogą moi moim moj -moja moje moze mozliwe mozna może możliwe można mu musi -my mój - -na nad nam nami nas nasi nasz nasza nasze -naszego naszych natomiast natychmiast nawet nia nic nich nie niech -niego niej niemu nigdy nim nimi niz nią niż no - -o obok od ok około on ona one -oni ono oraz oto owszem - -pan pana pani po pod podczas pomimo ponad -poniewaz ponieważ powinien powinna powinni powinno poza prawie przeciez -przecież przed przede przedtem przez przy - -raz razie roku rowniez również - -sam sama sie się skad skąd soba sobie sobą -sposob sposób swoje są - -ta tak taka taki takich takie takze także tam -te tego tej tel temu ten teraz też to toba -tobie tobą totez toteż totobą trzeba tu tutaj twoi twoim -twoj twoja twoje twym twój ty tych tylko tym tys -tzw tę - -u - -vi vii viii - -w wam wami was wasi wasz wasza wasze we -według wie wiele wielu więc więcej wlasnie wszyscy wszystkich wszystkie -wszystkim wszystko wtedy wy właśnie wśród - -xi xii xiii xiv xv - -z za zaden zadna zadne zadnych zapewne zawsze zaś -ze zeby znow znowu znów zostal został - -żaden żadna żadne żadnych że żeby""".split() -) diff --git a/spacy/lang/pt/__init__.py b/spacy/lang/pt/__init__.py index 454002491..0d391299c 100644 --- a/spacy/lang/pt/__init__.py +++ b/spacy/lang/pt/__init__.py @@ -1,5 +1,4 @@ from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .syntax_iterators import SYNTAX_ITERATORS from .punctuation import TOKENIZER_INFIXES, TOKENIZER_PREFIXES @@ -12,7 +11,6 @@ class PortugueseDefaults(BaseDefaults): prefixes = TOKENIZER_PREFIXES lex_attr_getters = LEX_ATTRS syntax_iterators = SYNTAX_ITERATORS - stop_words = STOP_WORDS class Portuguese(Language): diff --git a/spacy/lang/pt/stop_words.py b/spacy/lang/pt/stop_words.py deleted file mode 100644 index ce3c86ff5..000000000 --- a/spacy/lang/pt/stop_words.py +++ /dev/null @@ -1,66 +0,0 @@ -STOP_WORDS = set( - """ -a à às área acerca ademais adeus agora ainda algo algumas alguns ali além ambas ambos antes -ao aos apenas apoia apoio apontar após aquela aquelas aquele aqueles aqui aquilo -as assim através atrás até aí - -baixo bastante bem boa bom breve - -cada caminho catorze cedo cento certamente certeza cima cinco coisa com como -comprida comprido conhecida conhecido conselho contra contudo corrente cuja -cujo custa cá - -da daquela daquele dar das de debaixo demais dentro depois des desde dessa desse -desta deste deve devem deverá dez dezanove dezasseis dezassete dezoito diante -direita disso diz dizem dizer do dois dos doze duas dá dão - -e é és ela elas ele eles em embora enquanto entre então era essa essas esse esses esta -estado estar estará estas estava este estes esteve estive estivemos estiveram -estiveste estivestes estou está estás estão eu eventual exemplo - -falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final -foi fomos for fora foram forma foste fostes fui - -geral grande grandes grupo - -inclusive iniciar inicio ir irá isso isto - -já - -lado lhe ligado local logo longe lugar lá - -maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus mil -minha minhas momento muito muitos máximo mês - -na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no nos nossa -nossas nosso nossos nova novas nove novo novos num numa nunca nuns não nível nós -número números - -o obrigada obrigado oitava oitavo oito onde ontem onze ora os ou outra outras outros - -para parece parte partir pegar pela pelas pelo pelos perto pode podem poder poderá -podia pois ponto pontos por porquanto porque porquê portanto porém posição -possivelmente posso possível pouca pouco povo primeira primeiro próprio próxima -próximo puderam pôde põe põem - -quais qual qualquer quando quanto quarta quarto quatro que quem quer querem quero -questão quieta quieto quinta quinto quinze quê - -relação - -sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta -sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo só - -tais tal talvez também tanta tanto tarde te tem temos tempo tendes tenho tens -tentar tentaram tente tentei ter terceira terceiro teu teus teve tipo tive -tivemos tiveram tiveste tivestes toda todas todo todos treze três tu tua tuas -tudo tão têm - -um uma umas uns usa usar último - -vai vais valor veja vem vens ver vez vezes vinda vindo vinte você vocês vos vossa -vossas vosso vossos vários vão vêm vós - -zero -""".split() -) diff --git a/spacy/lang/ro/__init__.py b/spacy/lang/ro/__init__.py index 50027ffd2..3383f0f2b 100644 --- a/spacy/lang/ro/__init__.py +++ b/spacy/lang/ro/__init__.py @@ -1,5 +1,4 @@ from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS -from .stop_words import STOP_WORDS from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES from .punctuation import TOKENIZER_SUFFIXES from .lex_attrs import LEX_ATTRS @@ -16,7 +15,6 @@ class RomanianDefaults(BaseDefaults): suffixes = TOKENIZER_SUFFIXES infixes = TOKENIZER_INFIXES lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Romanian(Language): diff --git a/spacy/lang/ro/stop_words.py b/spacy/lang/ro/stop_words.py deleted file mode 100644 index d68a81c45..000000000 --- a/spacy/lang/ro/stop_words.py +++ /dev/null @@ -1,499 +0,0 @@ -# Source: https://github.com/stopwords-iso/stopwords-ro -STOP_WORDS = set( - """ -a -abia -acea -aceasta -această -aceea -aceeasi -aceeași -acei -aceia -acel -acela -acelasi -același -acele -acelea -acest -acesta -aceste -acestea -acestei -acestia -acestui -aceşti -aceştia -acolo -acord -acum -adica -adică -ai -aia -aibă -aici -aiurea -al -ala -alaturi -ale -alea -alt -alta -altceva -altcineva -alte -altfel -alti -altii -altul -alături -am -anume -apoi -apai -apăi -ar -are -as -asa -asemenea -asta -astazi -astea -astfel -astăzi -asupra -atare -atat -atata -atatea -atatia -ati -atit -atita -atitea -atitia -atunci -au -avea -avem -aveţi -aveți -avut -azi -aş -aşadar -aţi -aș -așadar -ați -b -ba -bine -bucur -bună -c -ca -cam -cand -capat -care -careia -carora -caruia -cat -catre -caut -ce -cea -ceea -cei -ceilalti -cel -cele -celor -ceva -chiar -ci -cinci -cind -cine -cineva -cit -cita -cite -citeva -citi -citiva -conform -contra -cu -cui -cum -cumva -curând -curînd -când -cât -câte -câtva -câţi -câți -cînd -cît -cîte -cîtva -cîţi -cîți -că -căci -cărei -căror -cărora -cărui -căruia -către -d -da -daca -dacă -dar -dat -datorită -dată -dau -de -deasupra -deci -decit -degraba -deja -deoarece -departe -desi -despre -deşi -deși -din -dinaintea -dincolo -dincoace -dintr -dintr- -dintre -doar -doi -doilea -două -drept -dupa -după -dă -deunaseara -deunăseară -deunazi -deunăzi -e -ea -ei -el -ele -era -eram -este -eu -exact -eşti -ești -f -face -fara -fata -fel -fi -fie -fiecare -fii -fim -fiu -fiţi -fiți -foarte -fost -frumos -fără -g -geaba -graţie -grație -h -i -ia -iar -ieri -ii -il -imi -in -inainte -inapoi -inca -incotro -incit -insa -intr -intre -isi -iti -j -k -l -la -le -li -lor -lui -lângă -lîngă -m -ma -mai -mare -macar -măcar -mata -matale -mea -mei -mele -mereu -meu -mi -mie -mine -mod -mult -multa -multe -multi -multă -mulţi -mulţumesc -mulți -mulțumesc -mâine -mîine -mă -n -na -ne -neincetat -neîncetat -nevoie -ni -nici -nicidecum -nicidecat -nicidecât -niciodata -niciodată -nicăieri -nimeni -nimeri -nimic -niste -nişte -niște -noastre -noastră -noi -noroc -nostri -nostru -nou -noua -nouă -noştri -noștri -nu -numai -o -odata -odată -odinioara -odinioară -opt -or -ori -oricare -orice -oricine -oricum -oricând -oricât -oricînd -oricît -oriunde -p -pai -păi -parca -parcă -patra -patru -patrulea -pe -pentru -peste -pic -pina -plus -poate -pot -prea -prima -primul -prin -printr- -printre -putini -puţin -puţina -puţină -până -pînă -r -rog -s -sa -sa-mi -sa-ti -sai -sale -sau -se -si -sint -sintem -spate -spre -sub -sunt -suntem -sunteţi -sunteți -sus -sută -sînt -sîntem -sînteţi -sînteți -să -săi -său -t -ta -tale -te -ti -timp -tine -toata -toate -toată -tocmai -tot -toti -totul -totusi -totuşi -totuși -toţi -toți -trei -treia -treilea -tu -tuturor -tăi -tău -u -ul -ului -un -una -unde -undeva -unei -uneia -unele -uneori -unii -unor -unora -unu -unui -unuia -unul -v -va -vai -vi -voastre -voastră -voi -vom -vor -vostru -vouă -voştri -voștri -vreme -vreo -vreun -vă -x -z -zece -zero -zi -zice -îi -îl -îmi -împotriva -în -înainte -înaintea -încotro -încât -încît -între -întrucât -întrucît -îţi -îți -ăla -ălea -ăsta -ăstea -ăştia -ăștia -şapte -şase -şi -ştiu -ţi -ţie -șapte -șase -și -știu -ți -ție -""".split() -) diff --git a/spacy/lang/ru/__init__.py b/spacy/lang/ru/__init__.py index c118c26ff..d642202a7 100644 --- a/spacy/lang/ru/__init__.py +++ b/spacy/lang/ru/__init__.py @@ -1,7 +1,6 @@ from typing import Optional, Callable from thinc.api import Model -from .stop_words import STOP_WORDS from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .lex_attrs import LEX_ATTRS from .lemmatizer import RussianLemmatizer @@ -13,7 +12,6 @@ from ...language import Language, BaseDefaults class RussianDefaults(BaseDefaults): tokenizer_exceptions = TOKENIZER_EXCEPTIONS lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS suffixes = COMBINING_DIACRITICS_TOKENIZER_SUFFIXES infixes = COMBINING_DIACRITICS_TOKENIZER_INFIXES diff --git a/spacy/lang/ru/stop_words.py b/spacy/lang/ru/stop_words.py deleted file mode 100644 index d6ea6b42a..000000000 --- a/spacy/lang/ru/stop_words.py +++ /dev/null @@ -1,111 +0,0 @@ -STOP_WORDS = set( - """ -а авось ага агу аж ай али алло ау ах ая - -б будем будет будете будешь буду будут будучи будь будьте бы был была были было -быть бац без безусловно бишь благо благодаря ближайшие близко более больше -будто бывает бывала бывали бываю бывают бытует - -в вам вами вас весь во вот все всё всего всей всем всём всеми всему всех всею -всея всю вся вы ваш ваша ваше ваши вдали вдобавок вдруг ведь везде вернее -взаимно взаправду видно вишь включая вместо внакладе вначале вне вниз внизу -вновь вовсе возможно воистину вокруг вон вообще вопреки вперекор вплоть -вполне вправду вправе впрочем впрямь вресноту вроде вряд всегда всюду -всякий всякого всякой всячески вчеред - -г го где гораздо гав - -д да для до дабы давайте давно давным даже далее далеко дальше данная -данного данное данной данном данному данные данный данных дану данунах -даром де действительно довольно доколе доколь долго должен должна -должно должны должный дополнительно другая другие другим другими -других другое другой - -е его едим едят ее её ей ел ела ем ему емъ если ест есть ешь еще ещё ею едва -ежели еле - -ж же - -з за затем зато зачем здесь значит зря - -и из или им ими имъ их ибо иль имеет имел имела имело именно иметь иначе -иногда иным иными итак ишь - -й - -к как кем ко когда кого ком кому комья которая которого которое которой котором -которому которою которую которые который которым которыми которых кто ка кабы -каждая каждое каждые каждый кажется казалась казались казалось казался казаться -какая какие каким какими каков какого какой какому какою касательно кой коли -коль конечно короче кроме кстати ку куда - -л ли либо лишь любая любого любое любой любом любую любыми любых - -м меня мне мной мною мог моги могите могла могли могло могу могут мое моё моего -моей моем моём моему моею можем может можете можешь мои мой моим моими моих -мочь мою моя мы мало меж между менее меньше мимо многие много многого многое -многом многому можно мол му - -н на нам нами нас наса наш наша наше нашего нашей нашем нашему нашею наши нашим -нашими наших нашу не него нее неё ней нем нём нему нет нею ним ними них но -наверняка наверху навряд навыворот над надо назад наиболее наизворот -наизнанку наипаче накануне наконец наоборот наперед наперекор наподобие -например напротив напрямую насилу настоящая настоящее настоящие настоящий -насчет нате находиться начала начале неважно негде недавно недалеко незачем -некем некогда некому некоторая некоторые некоторый некоторых некто некуда -нельзя немногие немногим немного необходимо необходимости необходимые -необходимым неоткуда непрерывно нередко несколько нету неужели нечего -нечем нечему нечто нешто нибудь нигде ниже низко никак никакой никем -никогда никого никому никто никуда ниоткуда нипочем ничего ничем ничему -ничто ну нужная нужно нужного нужные нужный нужных ныне нынешнее нынешней -нынешних нынче - -о об один одна одни одним одними одних одно одного одной одном одному одною -одну он она оне они оно от оба общую обычно ого однажды однако ой около оный -оп опять особенно особо особую особые откуда отнелижа отнелиже отовсюду -отсюда оттого оттот оттуда отчего отчему ох очевидно очень ом - -п по при паче перед под подавно поди подобная подобно подобного подобные -подобный подобным подобных поелику пожалуй пожалуйста позже поистине -пока покамест поколе поколь покуда покудова помимо понеже поприще пор -пора посему поскольку после посреди посредством потом потому потомушта -похожем почему почти поэтому прежде притом причем про просто прочего -прочее прочему прочими проще прям пусть - -р ради разве ранее рано раньше рядом - -с сам сама сами самим самими самих само самого самом самому саму свое своё -своего своей своем своём своему своею свои свой своим своими своих свою своя -себе себя собой собою самая самое самой самый самых сверх свыше се сего сей -сейчас сие сих сквозь сколько скорее скоро следует слишком смогут сможет -сначала снова со собственно совсем сперва спокону спустя сразу среди сродни -стал стала стали стало стать суть сызнова - -та то ту ты ти так такая такие таким такими таких такого такое такой таком такому такою -такую те тебе тебя тем теми тех тобой тобою того той только том томах тому -тот тою также таки таков такова там твои твоим твоих твой твоя твоё -теперь тогда тоже тотчас точно туда тут тьфу тая - -у уже увы уж ура ух ую - -ф фу - -х ха хе хорошо хотел хотела хотелось хотеть хоть хотя хочешь хочу хуже - -ч чего чем чём чему что чтобы часто чаще чей через чтоб чуть чхать чьим -чьих чьё чё - -ш ша - -щ ща щас - -ы ых ые ый - -э эта эти этим этими этих это этого этой этом этому этот этою эту эдак эдакий -эй эка экий этак этакий эх - -ю - -я явно явных яко якобы якоже -""".split() -) diff --git a/spacy/lang/sa/__init__.py b/spacy/lang/sa/__init__.py index 61398af6c..e786cb83c 100644 --- a/spacy/lang/sa/__init__.py +++ b/spacy/lang/sa/__init__.py @@ -1,11 +1,9 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults class SanskritDefaults(BaseDefaults): lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Sanskrit(Language): diff --git a/spacy/lang/sa/stop_words.py b/spacy/lang/sa/stop_words.py deleted file mode 100644 index 30302a14d..000000000 --- a/spacy/lang/sa/stop_words.py +++ /dev/null @@ -1,515 +0,0 @@ -# Source: https://gist.github.com/Akhilesh28/fe8b8e180f64b72e64751bc31cb6d323 - -STOP_WORDS = set( - """ -अहम् -आवाम् -वयम् -माम् मा -आवाम् -अस्मान् नः -मया -आवाभ्याम् -अस्माभिस् -मह्यम् मे -आवाभ्याम् नौ -अस्मभ्यम् नः -मत् -आवाभ्याम् -अस्मत् -मम मे -आवयोः -अस्माकम् नः -मयि -आवयोः -अस्मासु -त्वम् -युवाम् -यूयम् -त्वाम् त्वा -युवाम् वाम् -युष्मान् वः -त्वया -युवाभ्याम् -युष्माभिः -तुभ्यम् ते -युवाभ्याम् वाम् -युष्मभ्यम् वः -त्वत् -युवाभ्याम् -युष्मत् -तव ते -युवयोः वाम् -युष्माकम् वः -त्वयि -युवयोः -युष्मासु -सः -तौ -ते -तम् -तौ -तान् -तेन -ताभ्याम् -तैः -तस्मै -ताभ्याम् -तेभ्यः -तस्मात् -ताभ्याम् -तेभ्यः -तस्य -तयोः -तेषाम् -तस्मिन् -तयोः -तेषु -सा -ते -ताः -ताम् -ते -ताः -तया -ताभ्याम् -ताभिः -तस्यै -ताभ्याम् -ताभ्यः -तस्याः -ताभ्याम् -ताभ्यः -तस्य -तयोः -तासाम् -तस्याम् -तयोः -तासु -तत् -ते -तानि -तत् -ते -तानि -तया -ताभ्याम् -ताभिः -तस्यै -ताभ्याम् -ताभ्यः -तस्याः -ताभ्याम् -ताभ्यः -तस्य -तयोः -तासाम् -तस्याम् -तयोः -तासु -अयम् -इमौ -इमे -इमम् -इमौ -इमान् -अनेन -आभ्याम् -एभिः -अस्मै -आभ्याम् -एभ्यः -अस्मात् -आभ्याम् -एभ्यः -अस्य -अनयोः -एषाम् -अस्मिन् -अनयोः -एषु -इयम् -इमे -इमाः -इमाम् -इमे -इमाः -अनया -आभ्याम् -आभिः -अस्यै -आभ्याम् -आभ्यः -अस्याः -आभ्याम् -आभ्यः -अस्याः -अनयोः -आसाम् -अस्याम् -अनयोः -आसु -इदम् -इमे -इमानि -इदम् -इमे -इमानि -अनेन -आभ्याम् -एभिः -अस्मै -आभ्याम् -एभ्यः -अस्मात् -आभ्याम् -एभ्यः -अस्य -अनयोः -एषाम् -अस्मिन् -अनयोः -एषु -एषः -एतौ -एते -एतम् एनम् -एतौ एनौ -एतान् एनान् -एतेन -एताभ्याम् -एतैः -एतस्मै -एताभ्याम् -एतेभ्यः -एतस्मात् -एताभ्याम् -एतेभ्यः -एतस्य -एतस्मिन् -एतेषाम् -एतस्मिन् -एतस्मिन् -एतेषु -एषा -एते -एताः -एताम् एनाम् -एते एने -एताः एनाः -एतया एनया -एताभ्याम् -एताभिः -एतस्यै -एताभ्याम् -एताभ्यः -एतस्याः -एताभ्याम् -एताभ्यः -एतस्याः -एतयोः एनयोः -एतासाम् -एतस्याम् -एतयोः एनयोः -एतासु -एतत् एतद् -एते -एतानि -एतत् एतद् एनत् एनद् -एते एने -एतानि एनानि -एतेन एनेन -एताभ्याम् -एतैः -एतस्मै -एताभ्याम् -एतेभ्यः -एतस्मात् -एताभ्याम् -एतेभ्यः -एतस्य -एतयोः एनयोः -एतेषाम् -एतस्मिन् -एतयोः एनयोः -एतेषु -असौ -अमू -अमी -अमूम् -अमू -अमून् -अमुना -अमूभ्याम् -अमीभिः -अमुष्मै -अमूभ्याम् -अमीभ्यः -अमुष्मात् -अमूभ्याम् -अमीभ्यः -अमुष्य -अमुयोः -अमीषाम् -अमुष्मिन् -अमुयोः -अमीषु -असौ -अमू -अमूः -अमूम् -अमू -अमूः -अमुया -अमूभ्याम् -अमूभिः -अमुष्यै -अमूभ्याम् -अमूभ्यः -अमुष्याः -अमूभ्याम् -अमूभ्यः -अमुष्याः -अमुयोः -अमूषाम् -अमुष्याम् -अमुयोः -अमूषु -अमु -अमुनी -अमूनि -अमु -अमुनी -अमूनि -अमुना -अमूभ्याम् -अमीभिः -अमुष्मै -अमूभ्याम् -अमीभ्यः -अमुष्मात् -अमूभ्याम् -अमीभ्यः -अमुष्य -अमुयोः -अमीषाम् -अमुष्मिन् -अमुयोः -अमीषु -कः -कौ -के -कम् -कौ -कान् -केन -काभ्याम् -कैः -कस्मै -काभ्याम् -केभ्य -कस्मात् -काभ्याम् -केभ्य -कस्य -कयोः -केषाम् -कस्मिन् -कयोः -केषु -का -के -काः -काम् -के -काः -कया -काभ्याम् -काभिः -कस्यै -काभ्याम् -काभ्यः -कस्याः -काभ्याम् -काभ्यः -कस्याः -कयोः -कासाम् -कस्याम् -कयोः -कासु -किम् -के -कानि -किम् -के -कानि -केन -काभ्याम् -कैः -कस्मै -काभ्याम् -केभ्य -कस्मात् -काभ्याम् -केभ्य -कस्य -कयोः -केषाम् -कस्मिन् -कयोः -केषु -भवान् -भवन्तौ -भवन्तः -भवन्तम् -भवन्तौ -भवतः -भवता -भवद्भ्याम् -भवद्भिः -भवते -भवद्भ्याम् -भवद्भ्यः -भवतः -भवद्भ्याम् -भवद्भ्यः -भवतः -भवतोः -भवताम् -भवति -भवतोः -भवत्सु -भवती -भवत्यौ -भवत्यः -भवतीम् -भवत्यौ -भवतीः -भवत्या -भवतीभ्याम् -भवतीभिः -भवत्यै -भवतीभ्याम् -भवतीभिः -भवत्याः -भवतीभ्याम् -भवतीभिः -भवत्याः -भवत्योः -भवतीनाम् -भवत्याम् -भवत्योः -भवतीषु -भवत् -भवती -भवन्ति -भवत् -भवती -भवन्ति -भवता -भवद्भ्याम् -भवद्भिः -भवते -भवद्भ्याम् -भवद्भ्यः -भवतः -भवद्भ्याम् -भवद्भ्यः -भवतः -भवतोः -भवताम् -भवति -भवतोः -भवत्सु -अये -अरे -अरेरे -अविधा -असाधुना -अस्तोभ -अहह -अहावस् -आम् -आर्यहलम् -आह -आहो -इस् -उम् -उवे -काम् -कुम् -चमत् -टसत् -दृन् -धिक् -पाट् -फत् -फाट् -फुडुत् -बत -बाल् -वट् -व्यवस्तोभति व्यवस्तुभ् -षाट् -स्तोभ -हुम्मा -हूम् -अति -अधि -अनु -अप -अपि -अभि -अव -आ -उद् -उप -नि -निर् -परा -परि -प्र -प्रति -वि -सम् -अथवा उत -अन्यथा -इव -च -चेत् यदि -तु परन्तु -यतः करणेन हि यतस् यदर्थम् यदर्थे यर्हि यथा यत्कारणम् येन ही हिन -यथा यतस् -यद्यपि -यात् अवधेस् यावति -येन प्रकारेण -स्थाने -अह -एव -एवम् -कच्चित् -कु -कुवित् -कूपत् -च -चण् -चेत् -तत्र -नकिम् -नह -नुनम् -नेत् -भूयस् -मकिम् -मकिर् -यत्र -युगपत् -वा -शश्वत् -सूपत् -ह -हन्त -हि -""".split() -) diff --git a/spacy/lang/si/__init__.py b/spacy/lang/si/__init__.py index 971cee3c6..10ba29908 100644 --- a/spacy/lang/si/__init__.py +++ b/spacy/lang/si/__init__.py @@ -1,11 +1,9 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults class SinhalaDefaults(BaseDefaults): lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Sinhala(Language): diff --git a/spacy/lang/si/stop_words.py b/spacy/lang/si/stop_words.py deleted file mode 100644 index 7d29bc1b4..000000000 --- a/spacy/lang/si/stop_words.py +++ /dev/null @@ -1,195 +0,0 @@ -STOP_WORDS = set( - """ -සහ -සමග -සමඟ -අහා -ආහ් -ආ -ඕහෝ -අනේ -අඳෝ -අපොයි -අපෝ -අයියෝ -ආයි -ඌයි -චී -චිහ් -චික් -හෝ‍ -දෝ -දෝහෝ -මෙන් -සේ -වැනි -බඳු -වන් -අයුරු -අයුරින් -ලෙස -වැඩි -ශ්‍රී -හා -ය -නිසා -නිසාවෙන් -බවට -බව -බවෙන් -නම් -වැඩි -සිට -දී -මහා -මහ -පමණ -පමණින් -පමන -වන -විට -විටින් -මේ -මෙලෙස -මෙයින් -ඇති -ලෙස -සිදු -වශයෙන් -යන -සඳහා -මගින් -හෝ‍ -ඉතා -ඒ -එම -ද -අතර -විසින් -සමග -පිළිබඳව -පිළිබඳ -තුළ -බව -වැනි -මහ -මෙම -මෙහි -මේ -වෙත -වෙතින් -වෙතට -වෙනුවෙන් -වෙනුවට -වෙන -ගැන -නෑ -අනුව -නව -පිළිබඳ -විශේෂ -දැනට -එහෙන් -මෙහෙන් -එහේ -මෙහේ -ම -තවත් -තව -සහ -දක්වා -ට -ගේ -එ -ක -ක් -බවත් -බවද -මත -ඇතුලු -ඇතුළු -මෙසේ -වඩා -වඩාත්ම -නිති -නිතිත් -නිතොර -නිතර -ඉක්බිති -දැන් -යලි -පුන -ඉතින් -සිට -සිටන් -පටන් -තෙක් -දක්වා -සා -තාක් -තුවක් -පවා -ද -හෝ‍ -වත් -විනා -හැර -මිස -මුත් -කිම -කිම් -ඇයි -මන්ද -හෙවත් -නොහොත් -පතා -පාසා -ගානෙ -තව -ඉතා -බොහෝ -වහා -සෙද -සැනින් -හනික -එම්බා -එම්බල -බොල -නම් -වනාහි -කලී -ඉඳුරා -අන්න -ඔන්න -මෙන්න -උදෙසා -පිණිස -සඳහා -අරබයා -නිසා -එනිසා -එබැවින් -බැවින් -හෙයින් -සේක් -සේක -ගැන -අනුව -පරිදි -විට -තෙක් -මෙතෙක් -මේතාක් -තුරු -තුරා -තුරාවට -තුලින් -නමුත් -එනමුත් -වස් -මෙන් -ලෙස -පරිදි -එහෙත් -""".split() -) diff --git a/spacy/lang/sk/__init__.py b/spacy/lang/sk/__init__.py index da6e3048e..e277c2073 100644 --- a/spacy/lang/sk/__init__.py +++ b/spacy/lang/sk/__init__.py @@ -1,11 +1,9 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults class SlovakDefaults(BaseDefaults): lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Slovak(Language): diff --git a/spacy/lang/sk/stop_words.py b/spacy/lang/sk/stop_words.py deleted file mode 100644 index 017e7beef..000000000 --- a/spacy/lang/sk/stop_words.py +++ /dev/null @@ -1,424 +0,0 @@ -# Source: https://github.com/Ardevop-sk/stopwords-sk - -STOP_WORDS = set( - """ -a -aby -aj -ak -akej -akejže -ako -akom -akomže -akou -akouže -akože -aká -akáže -aké -akého -akéhože -akému -akémuže -akéže -akú -akúže -aký -akých -akýchže -akým -akými -akýmiže -akýmže -akýže -ale -alebo -ani -asi -avšak -až -ba -bez -bezo -bol -bola -boli -bolo -bude -budem -budeme -budete -budeš -budú -buď -by -byť -cez -cezo -dnes -do -ešte -ho -hoci -i -iba -ich -im -inej -inom -iná -iné -iného -inému -iní -inú -iný -iných -iným -inými -ja -je -jeho -jej -jemu -ju -k -kam -kamže -každou -každá -každé -každého -každému -každí -každú -každý -každých -každým -každými -kde -kej -kejže -keď -keďže -kie -kieho -kiehože -kiemu -kiemuže -kieže -koho -kom -komu -kou -kouže -kto -ktorej -ktorou -ktorá -ktoré -ktorí -ktorú -ktorý -ktorých -ktorým -ktorými -ku -ká -káže -ké -kéže -kú -kúže -ký -kýho -kýhože -kým -kýmu -kýmuže -kýže -lebo -leda -ledaže -len -ma -majú -mal -mala -mali -mať -medzi -mi -mne -mnou -moja -moje -mojej -mojich -mojim -mojimi -mojou -moju -možno -mu -musia -musieť -musí -musím -musíme -musíte -musíš -my -má -mám -máme -máte -máš -môcť -môj -môjho -môže -môžem -môžeme -môžete -môžeš -môžu -mňa -na -nad -nado -najmä -nami -naša -naše -našej -naši -našich -našim -našimi -našou -ne -nech -neho -nej -nejakej -nejakom -nejakou -nejaká -nejaké -nejakého -nejakému -nejakú -nejaký -nejakých -nejakým -nejakými -nemu -než -nich -nie -niektorej -niektorom -niektorou -niektorá -niektoré -niektorého -niektorému -niektorú -niektorý -niektorých -niektorým -niektorými -nielen -niečo -nim -nimi -nič -ničoho -ničom -ničomu -ničím -no -nám -nás -náš -nášho -ním -o -od -odo -on -ona -oni -ono -ony -oň -oňho -po -pod -podo -podľa -pokiaľ -popod -popri -potom -poza -pre -pred -predo -preto -pretože -prečo -pri -práve -s -sa -seba -sebe -sebou -sem -si -sme -so -som -ste -svoj -svoja -svoje -svojho -svojich -svojim -svojimi -svojou -svoju -svojím -sú -ta -tak -takej -takejto -taká -takáto -také -takého -takéhoto -takému -takémuto -takéto -takí -takú -takúto -taký -takýto -takže -tam -teba -tebe -tebou -teda -tej -tejto -ten -tento -ti -tie -tieto -tiež -to -toho -tohoto -tohto -tom -tomto -tomu -tomuto -toto -tou -touto -tu -tvoj -tvoja -tvoje -tvojej -tvojho -tvoji -tvojich -tvojim -tvojimi -tvojím -ty -tá -táto -tí -títo -tú -túto -tých -tým -tými -týmto -u -už -v -vami -vaša -vaše -vašej -vaši -vašich -vašim -vaším -veď -viac -vo -vy -vám -vás -váš -vášho -však -všetci -všetka -všetko -všetky -všetok -z -za -začo -začože -zo -áno -čej -či -čia -čie -čieho -čiemu -čiu -čo -čoho -čom -čomu -čou -čože -čí -čím -čími -ďalšia -ďalšie -ďalšieho -ďalšiemu -ďalšiu -ďalšom -ďalšou -ďalší -ďalších -ďalším -ďalšími -ňom -ňou -ňu -že -""".split() -) diff --git a/spacy/lang/sl/__init__.py b/spacy/lang/sl/__init__.py index 9ddd676bf..43d91d7cd 100644 --- a/spacy/lang/sl/__init__.py +++ b/spacy/lang/sl/__init__.py @@ -1,9 +1,8 @@ -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults class SlovenianDefaults(BaseDefaults): - stop_words = STOP_WORDS + pass class Slovenian(Language): diff --git a/spacy/lang/sl/stop_words.py b/spacy/lang/sl/stop_words.py deleted file mode 100644 index c9004ed5d..000000000 --- a/spacy/lang/sl/stop_words.py +++ /dev/null @@ -1,326 +0,0 @@ -# Source: https://github.com/stopwords-iso/stopwords-sl -# Removed various words that are not normally considered stop words, such as months. - -STOP_WORDS = set( - """ -a -ali -b -bi -bil -bila -bile -bili -bilo -biti -blizu -bo -bodo -bolj -bom -bomo -boste -bova -boš -brez -c -cel -cela -celi -celo -d -da -daleč -dan -danes -do -dober -dobra -dobri -dobro -dokler -dol -dovolj -e -eden -en -ena -ene -eni -enkrat -eno -etc. -f -g -g. -ga -ga. -gor -gospa -gospod -h -halo -i -idr. -ii -iii -in -iv -ix -iz -j -jaz -je -ji -jih -jim -jo -k -kadarkoli -kaj -kajti -kako -kakor -kamor -kamorkoli -kar -karkoli -katerikoli -kdaj -kdo -kdorkoli -ker -ki -kje -kjer -kjerkoli -ko -koderkoli -koga -komu -kot -l -le -lep -lepa -lepe -lepi -lepo -m -manj -me -med -medtem -mene -mi -midva -midve -mnogo -moj -moja -moje -mora -morajo -moram -moramo -morate -moraš -morem -mu -n -na -nad -naj -najina -najino -najmanj -naju -največ -nam -nas -nato -nazaj -naš -naša -naše -ne -nedavno -nek -neka -nekaj -nekatere -nekateri -nekatero -nekdo -neke -nekega -neki -nekje -neko -nekoga -nekoč -ni -nikamor -nikdar -nikjer -nikoli -nič -nje -njega -njegov -njegova -njegovo -njej -njemu -njen -njena -njeno -nji -njih -njihov -njihova -njihovo -njiju -njim -njo -njun -njuna -njuno -no -nocoj -npr. -o -ob -oba -obe -oboje -od -okoli -on -onadva -one -oni -onidve -oz. -p -pa -po -pod -pogosto -poleg -ponavadi -ponovno -potem -povsod -prbl. -precej -pred -prej -preko -pri -pribl. -približno -proti -r -redko -res -s -saj -sam -sama -same -sami -samo -se -sebe -sebi -sedaj -sem -seveda -si -sicer -skoraj -skozi -smo -so -spet -sta -ste -sva -t -ta -tak -taka -take -taki -tako -takoj -tam -te -tebe -tebi -tega -ti -tista -tiste -tisti -tisto -tj. -tja -to -toda -tu -tudi -tukaj -tvoj -tvoja -tvoje -u -v -vaju -vam -vas -vaš -vaša -vaše -ve -vedno -vendar -ves -več -vi -vidva -vii -viii -vsa -vsaj -vsak -vsaka -vsakdo -vsake -vsaki -vsakomur -vse -vsega -vsi -vso -včasih -x -z -za -zadaj -zadnji -zakaj -zdaj -zelo -zunaj -č -če -često -čez -čigav -š -ž -že -""".split() -) diff --git a/spacy/lang/sq/__init__.py b/spacy/lang/sq/__init__.py index 5e32a0cbe..6a95aa4d3 100644 --- a/spacy/lang/sq/__init__.py +++ b/spacy/lang/sq/__init__.py @@ -1,9 +1,8 @@ -from .stop_words import STOP_WORDS from ...language import Language, BaseDefaults class AlbanianDefaults(BaseDefaults): - stop_words = STOP_WORDS + pass class Albanian(Language): diff --git a/spacy/lang/sq/stop_words.py b/spacy/lang/sq/stop_words.py deleted file mode 100644 index f2b1a4f4a..000000000 --- a/spacy/lang/sq/stop_words.py +++ /dev/null @@ -1,229 +0,0 @@ -# Source: https://github.com/andrixh/index-albanian - -STOP_WORDS = set( - """ -a -afert -ai -ajo -andej -anes -aq -as -asaj -ashtu -ata -ate -atij -atje -ato -aty -atyre -b -be -behem -behet -bej -beje -bejne -ben -bene -bere -beri -bie -c -ca -cdo -cfare -cila -cilat -cilave -cilen -ciles -cilet -cili -cilin -cilit -deri -dhe -dic -dicka -dickaje -dike -dikujt -dikush -disa -do -dot -drejt -duke -dy -e -edhe -ende -eshte -etj -fare -gjate -gje -gjitha -gjithcka -gjithe -gjithnje -here -i -ia -ishin -ishte -iu -ja -jam -jane -jap -je -jemi -jo -ju -k -ka -kam -kane -kem -kemi -keq -kesaj -keshtu -kete -ketej -ketij -keto -ketu -ketyre -kishin -kishte -kjo -krejt -kryer -kryesisht -kryhet -ku -kudo -kundrejt -kur -kurre -kush -ky -la -le -lloj -m -ma -madhe -marr -marre -mban -mbi -me -menjehere -merr -merret -mes -mi -midis -mire -mjaft -mori -mos -mua -mund -na -ndaj -nder -ndermjet -ndersa -ndonje -ndryshe -ne -nen -neper -nepermjet -nese -nga -nje -njera -nuk -ose -pa -pak -papritur -para -pas -pasi -pasur -per -perbashket -perpara -po -por -prane -prapa -prej -pse -qe -qene -qenet -rralle -rreth -rri -s -sa -saj -sapo -se -secila -sepse -sh -shih -shume -si -sic -sikur -sipas -siper -sone -t -ta -tani -te -tej -tek -teper -tere -ti -tij -tilla -tille -tjera -tjeret -tjeter -tjetren -to -tone -ty -tyre -u -ua -une -vazhdimisht -vend -vet -veta -vete -vetem -veten -vetes -vjen -yne -zakonisht -""".split() -) diff --git a/spacy/lang/sr/__init__.py b/spacy/lang/sr/__init__.py index fd0c8c832..fea321540 100644 --- a/spacy/lang/sr/__init__.py +++ b/spacy/lang/sr/__init__.py @@ -1,4 +1,3 @@ -from .stop_words import STOP_WORDS from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults @@ -7,7 +6,6 @@ from ...language import Language, BaseDefaults class SerbianDefaults(BaseDefaults): tokenizer_exceptions = TOKENIZER_EXCEPTIONS lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Serbian(Language): diff --git a/spacy/lang/sr/stop_words.py b/spacy/lang/sr/stop_words.py deleted file mode 100644 index 5df5509d2..000000000 --- a/spacy/lang/sr/stop_words.py +++ /dev/null @@ -1,393 +0,0 @@ -STOP_WORDS = set( - """ -а -авај -ако -ал -али -арх -ау -ах -аха -ај -бар -би -била -били -било -бисмо -бисте -бих -бијасмо -бијасте -бијах -бијаху -бијаше -биће -близу -број -брр -буде -будимо -будите -буду -будући -бум -бућ -вам -вама -вас -ваша -ваше -вашим -вашима -ваљда -веома -вероватно -већ -већина -ви -видео -више -врло -врх -га -где -гиц -год -горе -гђекоје -да -дакле -дана -данас -дај -два -де -дедер -делимице -делимично -дем -до -добар -добити -довечер -докле -доле -донекле -досад -доскоро -дотад -дотле -дошао -доћи -другамо -другде -други -е -ево -ено -ето -ех -ехе -еј -желела -желеле -желели -желело -желех -желећи -жели -за -заиста -зар -затим -зато -захвалити -зашто -збиља -зимус -знати -зум -и -иде -из -изван -изволи -између -изнад -икада -икакав -икаква -икакве -икакви -икаквим -икаквима -икаквих -икакво -икаквог -икаквога -икаквом -икаквоме -икаквој -или -им -има -имам -имао -испод -их -ију -ићи -кад -када -кога -којекакав -којима -коју -кришом -лани -ли -мали -мањи -ме -мене -мени -ми -мимо -мисли -много -могу -мора -морао -мој -моја -моје -моји -моју -моћи -му -на -над -након -нам -нама -нас -наша -наше -нашег -наши -наћи -не -негде -нека -некад -неке -неког -неку -нема -немам -неко -неће -нећемо -нећете -нећеш -нећу -ни -никада -никога -никоје -никоји -никоју -нисам -ниси -нисте -нису -ништа -ниједан -но -о -ова -овако -овамо -овај -овде -ове -овим -овима -ово -овој -од -одмах -око -около -он -онај -оне -оним -онима -оном -оној -ону -осим -остали -отишао -па -пак -питати -по -поводом -под -подаље -пожељан -пожељна -поиздаље -поименце -понекад -попреко -поред -после -потаман -потрбушке -поуздано -почетак -поједини -правити -први -преко -према -прије -пут -пљус -радије -с -са -сав -сада -сам -само -сасвим -сва -сваки -сви -свим -свог -свом -свој -своја -своје -своју -сву -свугде -се -себе -себи -си -смети -смо -ствар -стварно -сте -су -сутра -та -таèно -тако -такође -тамо -твој -твоја -твоје -твоји -твоју -те -тебе -теби -ти -тима -то -томе -тој -ту -у -увек -увијек -уз -уза -узалуд -уздуж -узети -умало -унутра -употребити -упркос -учинио -учинити -хало -хвала -хеј -хм -хоп -хоће -хоћемо -хоћете -хоћеш -хоћу -хтедосте -хтедох -хтедоше -хтела -хтеле -хтели -хтео -хтејасмо -хтејасте -хтејаху -хура -често -чијем -чији -чијим -чијима -шиц -штагод -што -штогод -ја -је -један -једини -једна -једне -једни -једно -једном -јер -јесам -јеси -јесмо -јесу -јим -јој -ју -јуче -његова -његово -њезин -њезина -њезино -њему -њен -њим -њима -њихова -њихово -њој -њу -ће -ћемо -ћете -ћеш -ћу -""".split() -) diff --git a/spacy/lang/sv/__init__.py b/spacy/lang/sv/__init__.py index 6963e8b79..55fae6cbf 100644 --- a/spacy/lang/sv/__init__.py +++ b/spacy/lang/sv/__init__.py @@ -1,7 +1,6 @@ from typing import Optional, Callable from thinc.api import Model from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .syntax_iterators import SYNTAX_ITERATORS from ...language import Language, BaseDefaults @@ -18,7 +17,6 @@ class SwedishDefaults(BaseDefaults): suffixes = TOKENIZER_SUFFIXES lex_attr_getters = LEX_ATTRS syntax_iterators = SYNTAX_ITERATORS - stop_words = STOP_WORDS class Swedish(Language): diff --git a/spacy/lang/sv/stop_words.py b/spacy/lang/sv/stop_words.py deleted file mode 100644 index 2422b2a9e..000000000 --- a/spacy/lang/sv/stop_words.py +++ /dev/null @@ -1,66 +0,0 @@ -STOP_WORDS = set( - """ -aderton adertonde adjö aldrig alla allas allt alltid alltså än andra andras -annan annat ännu artonde arton åtminstone att åtta åttio åttionde åttonde av -även - -båda bådas bakom bara bäst bättre behöva behövas behövde behövt beslut beslutat -beslutit bland blev bli blir blivit bort borta bra - -då dag dagar dagarna dagen där därför de del delen dem den deras dess det detta -dig din dina dit ditt dock du - -efter eftersom elfte eller elva en enkel enkelt enkla enligt er era ert ett -ettusen - -få fanns får fått fem femte femtio femtionde femton femtonde fick fin finnas -finns fjärde fjorton fjortonde fler flera flesta följande för före förlåt förra -första fram framför från fyra fyrtio fyrtionde - -gå gälla gäller gällt går gärna gått genast genom gick gjorde gjort god goda -godare godast gör göra gott - -ha hade haft han hans har här heller hellre helst helt henne hennes hit hög -höger högre högst hon honom hundra hundraen hundraett hur - -i ibland idag igår igen imorgon in inför inga ingen ingenting inget innan inne -inom inte inuti - -ja jag jämfört - -kan kanske knappast kom komma kommer kommit kr kunde kunna kunnat kvar - -länge längre långsam långsammare långsammast långsamt längst långt lätt lättare -lättast legat ligga ligger lika likställd likställda lilla lite liten litet - -man många måste med mellan men mer mera mest mig min mina mindre minst mitt -mittemot möjlig möjligen möjligt möjligtvis mot mycket - -någon någonting något några när nästa ned nederst nedersta nedre nej ner ni nio -nionde nittio nittionde nitton nittonde nödvändig nödvändiga nödvändigt -nödvändigtvis nog noll nr nu nummer - -och också ofta oftast olika olikt om oss - -över övermorgon överst övre - -på - -rakt rätt redan - -så sade säga säger sagt samma sämre sämst sedan senare senast sent sex sextio -sextionde sexton sextonde sig sin sina sist sista siste sitt sjätte sju sjunde -sjuttio sjuttionde sjutton sjuttonde ska skall skulle slutligen små smått snart -som stor stora större störst stort - -tack tidig tidigare tidigast tidigt till tills tillsammans tio tionde tjugo -tjugoen tjugoett tjugonde tjugotre tjugotvå tjungo tolfte tolv tre tredje -trettio trettionde tretton trettonde två tvåhundra - -under upp ur ursäkt ut utan utanför ute - -vad vänster vänstra var vår vara våra varför varifrån varit varken värre -varsågod vart vårt vem vems verkligen vi vid vidare viktig viktigare viktigast -viktigt vilka vilken vilket vill -""".split() -) diff --git a/spacy/lang/ta/__init__.py b/spacy/lang/ta/__init__.py index 4929a4b97..4deea6412 100644 --- a/spacy/lang/ta/__init__.py +++ b/spacy/lang/ta/__init__.py @@ -1,11 +1,9 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults class TamilDefaults(BaseDefaults): lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Tamil(Language): diff --git a/spacy/lang/ta/stop_words.py b/spacy/lang/ta/stop_words.py deleted file mode 100644 index abbff949d..000000000 --- a/spacy/lang/ta/stop_words.py +++ /dev/null @@ -1,131 +0,0 @@ -# Stop words - -STOP_WORDS = set( - """ -ஒரு -என்று -மற்றும் -இந்த -இது -என்ற -கொண்டு -என்பது -பல -ஆகும் -அல்லது -அவர் -நான் -உள்ள -அந்த -இவர் -என -முதல் -என்ன -இருந்து -சில -என் -போன்ற -வேண்டும் -வந்து -இதன் -அது -அவன் -தான் -பலரும் -என்னும் -மேலும் -பின்னர் -கொண்ட -இருக்கும் -தனது -உள்ளது -போது -என்றும் -அதன் -தன் -பிறகு -அவர்கள் -வரை -அவள் -நீ -ஆகிய -இருந்தது -உள்ளன -வந்த -இருந்த -மிகவும் -இங்கு -மீது -ஓர் -இவை -இந்தக் -பற்றி -வரும் -வேறு -இரு -இதில் -போல் -இப்போது -அவரது -மட்டும் -இந்தப் -எனும் -மேல் -பின் -சேர்ந்த -ஆகியோர் -எனக்கு -இன்னும் -அந்தப் -அன்று -ஒரே -மிக -அங்கு -பல்வேறு -விட்டு -பெரும் -அதை -பற்றிய -உன் -அதிக -அந்தக் -பேர் -இதனால் -அவை -அதே -ஏன் -முறை -யார் -என்பதை -எல்லாம் -மட்டுமே -இங்கே -அங்கே -இடம் -இடத்தில் -அதில் -நாம் -அதற்கு -எனவே -பிற -சிறு -மற்ற -விட -எந்த -எனவும் -எனப்படும் -எனினும் -அடுத்த -இதனை -இதை -கொள்ள -இந்தத் -இதற்கு -அதனால் -தவிர -போல -வரையில் -சற்று -எனக் -""".split() -) diff --git a/spacy/lang/te/__init__.py b/spacy/lang/te/__init__.py index 77cc2fe9b..faf95bca3 100644 --- a/spacy/lang/te/__init__.py +++ b/spacy/lang/te/__init__.py @@ -1,11 +1,9 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults class TeluguDefaults(BaseDefaults): lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Telugu(Language): diff --git a/spacy/lang/te/stop_words.py b/spacy/lang/te/stop_words.py deleted file mode 100644 index b18dab697..000000000 --- a/spacy/lang/te/stop_words.py +++ /dev/null @@ -1,56 +0,0 @@ -# Source: https://github.com/Xangis/extra-stopwords (MIT License) - -STOP_WORDS = set( - """ -అందరూ -అందుబాటులో -అడగండి -అడగడం -అడ్డంగా -అనుగుణంగా -అనుమతించు -అనుమతిస్తుంది -అయితే -ఇప్పటికే -ఉన్నారు -ఎక్కడైనా -ఎప్పుడు -ఎవరైనా -ఎవరో ఒకరు -ఏ -ఏదైనా -ఏమైనప్పటికి -ఏమైనప్పటికి -ఒక -ఒక ప్రక్కన -కనిపిస్తాయి -కాదు -కాదు -కూడా -గా -గురించి -చుట్టూ -చేయగలిగింది -తగిన -తర్వాత -తర్వాత -దాదాపు -దూరంగా -నిజంగా -పై -ప్రకారం -మధ్య -మధ్య -మరియు -మరొక -మళ్ళీ -మాత్రమే -మెచ్చుకో -వద్ద -వద్ద -వెంట -వేరుగా -వ్యతిరేకంగా -సంబంధం -""".split() -) diff --git a/spacy/lang/th/__init__.py b/spacy/lang/th/__init__.py index 12b1527e0..48fdd76ce 100644 --- a/spacy/lang/th/__init__.py +++ b/spacy/lang/th/__init__.py @@ -1,4 +1,3 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults from ...tokens import Doc @@ -43,7 +42,6 @@ class ThaiTokenizer(DummyTokenizer): class ThaiDefaults(BaseDefaults): config = load_config_from_str(DEFAULT_CONFIG) lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Thai(Language): diff --git a/spacy/lang/th/stop_words.py b/spacy/lang/th/stop_words.py deleted file mode 100644 index 2823281ce..000000000 --- a/spacy/lang/th/stop_words.py +++ /dev/null @@ -1,75 +0,0 @@ -STOP_WORDS = set( - """ -ทั้งนี้ ดัง ขอ รวม หลังจาก เป็น หลัง หรือ ๆ เกี่ยวกับ ซึ่งได้แก่ ด้วยเพราะ ด้วยว่า ด้วยเหตุเพราะ -ด้วยเหตุว่า สุดๆ เสร็จแล้ว เช่น เข้า ถ้า ถูก ถึง ต่างๆ ใคร เปิดเผย ครา รือ ตาม ใน ได้แก่ ได้แต่ -ได้ที่ ตลอดถึง นอกจากว่า นอกนั้น จริง อย่างดี ส่วน เพียงเพื่อ เดียว จัด ทั้งที ทั้งคน ทั้งตัว ไกลๆ -ถึงเมื่อใด คงจะ ถูกๆ เป็นที นับแต่ที่ นับแต่นั้น รับรอง ด้าน เป็นต้นมา ทุก กระทั่ง กระทำ จวบ ซึ่งก็ จะ -ครบครัน นับแต่ เยอะๆ เพียงไหน เปลี่ยนแปลง ไป่ ผ่านๆ เพื่อที่ รวมๆ กว้างขวาง เสียยิ่ง เปลี่ยน ผ่าน -ทรง ทว่า กันเถอะ เกี่ยวๆ ใดๆ ครั้งที่ ครั้งนั้น ครั้งนี้ ครั้งละ ครั้งหลัง ครั้งหลังสุด ร่วมกัน ร่วมด้วย ก็ตามที -ที่สุด ผิดๆ ยืนยง เยอะ ครั้งๆ ใครๆ นั่นเอง เสมือนว่า เสร็จ ตลอดศก ทั้งที่ ยืนยัน ด้วยที่ บัดนี้ -ด้วยประการฉะนี้ ซึ่งกัน ตลอดทั่วถึง ตลอดทั่วทั้ง ตลอดปี เป็นการ นั่นแหละ พร้อม เถิด ทั้ง สืบเนื่อง ตั้งแต่ -กลับ กล่าวคือ กลุ่มก้อน กลุ่มๆ ครั้งครา ส่ง รวดเร็ว เสร็จสิ้น เสีย เสียก่อน เสียจน อดีต ตั้ง เกิด อาจ -อีก ตลอดเวลา ภายหน้า ภายหลัง มอง มันๆ มองว่า มัก มักจะ มัน หาก คงอยู่ เป็นที่ เป็นที่สุด -เป็นเพราะเป็นเพราะว่า เกี่ยวกัน เพียงไร เป็นแต่เพียง กล่าว จนบัดนี้ เป็นอัน จน จนเมื่อ จนแม้ ใกล้ -ใหม่ๆ เป็นเพียง อย่างที่ ถูกต้อง ทั้งนั้น ทั้งนั้นด้วย กันดีกว่า กันดีไหม นั่นไง ตรงๆ แยะๆ เป็นต้น ใกล้ๆ -ซึ่งๆ ด้วยกัน ดังเคย เถอะ เสมือนกับ ไป คือ ขณะนี้ นอกจาก เพื่อที่จะ ขณะหนึ่ง ขวาง ครัน อยาก ไว้ -แบบ นอกจากนี้ เนื่องจาก เดียวกัน คง ให้มา อนึ่ง ก็แล้วแต่ ต้อง ข้าง เพื่อว่า จนแม้น ครั้งหนึ่ง อะไร ซึ่ง -เกินๆ ด้วยเหตุนั้น กันและกัน รับ ระหว่าง ครั้งไหน เสร็จกัน ถึงอย่างไร ขาด ข้าฯ เข้าใจ ครบ ครั้งใด -ครบถ้วน ระยะ ไม่ เกือบ เกือบจะ เกือบๆ แก่ แก อย่างโน้น ดังกับว่า จริงจัง เยอะแยะ นั่น ด้วย ถึงแม้ว่า -มาก ตลอดกาลนาน ตลอดระยะเวลา ตลอดจน ตลอดไป เป็นอันๆ เป็นอาทิ ก็ต่อเมื่อ สู่ เมื่อ เพื่อ ก็ กับ -ด้วยเหมือนกัน ด้วยเหตุนี้ ครั้งคราว ราย ร่วม เป็นอันมาก สูง รวมกัน รวมทั้ง ร่วมมือ เป็นเพียงว่า รวมถึง -ต่อ นะ กว้าง มา ครับ ตลอดทั้ง การ นั้นๆ น่า เป็นอันว่า เพราะ วัน จนขณะนี้ จนตลอด จนถึง ข้า อย่างใด -ไหนๆ ก่อนหน้านี้ ก่อนๆ สูงกว่า สูงส่ง สูงสุด สูงๆ เสียด้วย เสียนั่น เสียนี่ เสียนี่กระไร เสียนั่นเอง สุด -สําหรับ ว่า ลง ภายใต้ เพื่อให้ ภายนอก ภายใน เฉพาะ ซึ่งกันและกัน ง่าย ง่ายๆ ไง ถึงแม้จะ ถึงเมื่อไร -เกิน ก็ได้ คราใด คราที่ ตลอดวัน นับ ดังเก่า ดั่งเก่า หลาย หนึ่ง ถือว่า ก่อนหน้า นับตั้งแต่ จรด จริงๆ -จวน จวนเจียน ตลอดมา กลุ่ม กระนั้น ข้างๆ ตรง ข้าพเจ้า กว่า เกี่ยวเนื่อง ขึ้น ให้ไป ผล แต่ เอง เห็น -จึง ได้ ให้ โดย จริงๆจังๆ ดั่งกับว่า ทั้งนั้นเพราะ นอก นอกเหนือ น่ะ กันนะ ขณะเดียวกัน แยะ -นอกเหนือจาก น้อย ก่อน จวนจะ ข้างเคียง ก็ตามแต่ จรดกับ น้อยกว่า นั่นเป็น นักๆ ครั้งกระนั้น เลย ไกล -สิ้นกาลนาน ครั้ง รือว่า เก็บ อย่างเช่น บาง ดั่ง ดังกล่าว ดังกับ รึ รึว่า ออก แรก จง ยืนนาน ได้มา ตน -ตนเอง ได้รับ ระยะๆ กระผม กันไหม กันเอง กำลังจะ กำหนด กู กำลัง ความ แล้ว และ ต่าง อย่างน้อย -อย่างนั้น อย่างนี้ ก็คือ ก็แค่ ด้วยเหตุที่ ใหญ่ๆ ให้ดี ยัง เป็นเพื่อ ก็ตาม ผู้ ต่อกัน ถือ ซึ่งก็คือ ภายภาค -ภายภาคหน้า ก็ดี ก็จะ อยู่ เสียยิ่งนัก ใหม่ ขณะ เริ่ม เรา ขวางๆ เสียแล้ว ใคร่ ใคร่จะ ตนฯ ของ แห่ง -รวด ดั่งกับ ถึงเมื่อ น้อยๆ นับจากนั้น ตลอด ตลอดกาล เสร็จสมบูรณ์ เขียน กว้างๆ ยืนยาว ถึงแก่ ขณะใด -ขณะใดๆ ขณะที่ ขณะนั้น จนทั่ว ภาคฯ ภาย เป็นแต่ อย่าง พบ ภาค ให้แด่ เสียจนกระทั่ง เสียจนถึง -จนกระทั่ง จนกว่า ตลอดทั่ว เป็นๆ นอกจากนั้น ผิด ครั้งก่อน แก้ไข ขั้น กัน ช่วง จาก รวมด้วย เขา -ด้วยเช่นกัน นอกจากที่ เป็นต้นไป ข้างต้น ข้างบน ข้างล่าง ถึงจะ ถึงบัดนั้น ถึงแม้ มี ทาง เคย นับจากนี้ -อย่างเดียว เกี่ยวข้อง นี้ นํา นั้น ที่ ทําให้ ทํา ครานั้น ครานี้ คราหนึ่ง คราไหน คราว คราวก่อน คราวใด -คราวที่ คราวนั้น คราวนี้ คราวโน้น คราวละ คราวหน้า คราวหนึ่ง คราวหลัง คราวไหน คราวๆ คล้าย -คล้ายกัน คล้ายกันกับ คล้ายกับ คล้ายกับว่า คล้ายว่า ควร ค่อน ค่อนข้าง ค่อนข้างจะ ค่อยไปทาง ค่อนมาทาง ค -่อย ค่อยๆ คะ ค่ะ คำ คิด คิดว่า คุณ คุณๆ เคยๆ แค่ แค่จะ แค่นั้น แค่นี้ แค่เพียง แค่ว่า แค่ไหน จังๆ -จวบกับ จวบจน จ้ะ จ๊ะ จะได้ จัง จัดการ จัดงาน จัดแจง จัดตั้ง จัดทำ จัดหา จัดให้ จับ จ้า จ๋า จากนั้น -จากนี้ จากนี้ไป จำ จำเป็น จำพวก จึงจะ จึงเป็น จู่ๆ ฉะนั้น ฉะนี้ ฉัน เฉกเช่น เฉย เฉยๆ ไฉน ช่วงก่อน ช -่วงต่อไป ช่วงถัดไป ช่วงท้าย ช่วงที่ ช่วงนั้น ช่วงนี้ ช่วงระหว่าง ช่วงแรก ช่วงหน้า ช่วงหลัง ช่วงๆ ช่วย ช้า -ช้านาน ชาว ช้าๆ เช่นก่อน เช่นกัน เช่นเคย เช่นดัง เช่นดังก่อน เช่นดังเก่า เช่นดังที่ เช่นดังว่า -เช่นเดียวกัน เช่นเดียวกับ เช่นใด เช่นที่ เช่นที่เคย เช่นที่ว่า เช่นนั้น เช่นนั้นเอง เช่นนี้ เช่นเมื่อ เช่นไร -เชื่อ เชื่อถือ เชื่อมั่น เชื่อว่า ใช่ ใช้ ซะ ซะก่อน ซะจน ซะจนกระทั่ง ซะจนถึง ดั่งเคย ต่างก็ ต่างหาก -ตามด้วย ตามแต่ ตามที่ ตามๆ เต็มไปด้วย เต็มไปหมด เต็มๆ แต่ก็ แต่ก่อน แต่จะ แต่เดิม แต่ต้อง แต่ถ้า -แต่ทว่า แต่ที่ แต่นั้น แต่เพียง แต่เมื่อ แต่ไร แต่ละ แต่ว่า แต่ไหน แต่อย่างใด โต โตๆ ใต้ ถ้าจะ ถ้าหาก -ทั้งปวง ทั้งเป็น ทั้งมวล ทั้งสิ้น ทั้งหมด ทั้งหลาย ทั้งๆ ทัน ทันใดนั้น ทันที ทันทีทันใด ทั่ว ทำให้ ทำๆ ที ที่จริง -ที่ซึ่ง ทีเดียว ทีใด ที่ใด ที่ได้ ทีเถอะ ที่แท้ ที่แท้จริง ที่นั้น ที่นี้ ทีไร ทีละ ที่ละ ที่แล้ว ที่ว่า ที่แห่งนั้น ทีๆ ที่ๆ -ทุกคน ทุกครั้ง ทุกครา ทุกคราว ทุกชิ้น ทุกตัว ทุกทาง ทุกที ทุกที่ ทุกเมื่อ ทุกวัน ทุกวันนี้ ทุกสิ่ง ทุกหน ทุกแห่ง -ทุกอย่าง ทุกอัน ทุกๆ เท่า เท่ากัน เท่ากับ เท่าใด เท่าที่ เท่านั้น เท่านี้ แท้ แท้จริง เธอ นั้นไว นับแต่นี้ -นาง นางสาว น่าจะ นาน นานๆ นาย นำ นำพา นำมา นิด นิดหน่อย นิดๆ นี่ นี่ไง นี่นา นี่แน่ะ นี่แหละ นี้แหล่ -นี่เอง นี้เอง นู่น นู้น เน้น เนี่ย เนี่ยเอง ในช่วง ในที่ ในเมื่อ ในระหว่าง บน บอก บอกแล้ว บอกว่า บ่อย -บ่อยกว่า บ่อยครั้ง บ่อยๆ บัดดล บัดเดี๋ยวนี้ บัดนั้น บ้าง บางกว่า บางขณะ บางครั้ง บางครา บางคราว -บางที บางที่ บางแห่ง บางๆ ปฏิบัติ ประกอบ ประการ ประการฉะนี้ ประการใด ประการหนึ่ง ประมาณ -ประสบ ปรับ ปรากฏ ปรากฏว่า ปัจจุบัน ปิด เป็นด้วย เป็นดัง ผู้ใด เผื่อ เผื่อจะ เผื่อที่ เผื่อว่า ฝ่าย ฝ่ายใด -พบว่า พยายาม พร้อมกัน พร้อมกับ พร้อมด้วย พร้อมทั้ง พร้อมที่ พร้อมเพียง พวก พวกกัน พวกกู พวกแก -พวกเขา พวกคุณ พวกฉัน พวกท่าน พวกที่ พวกเธอ พวกนั้น พวกนี้ พวกนู้น พวกโน้น พวกมัน พวกมึง พอ พอกัน -พอควร พอจะ พอดี พอตัว พอที พอที่ พอเพียง พอแล้ว พอสม พอสมควร พอเหมาะ พอๆ พา พึง พึ่ง พื้นๆ พูด -เพราะฉะนั้น เพราะว่า เพิ่ง เพิ่งจะ เพิ่ม เพิ่มเติม เพียง เพียงแค่ เพียงใด เพียงแต่ เพียงพอ เพียงเพราะ -มากกว่า มากมาย มิ มิฉะนั้น มิใช่ มิได้ มีแต่ มึง มุ่ง มุ่งเน้น มุ่งหมาย เมื่อก่อน เมื่อครั้ง เมื่อครั้งก่อน -เมื่อคราวก่อน เมื่อคราวที่ เมื่อคราว เมื่อคืน เมื่อเช้า เมื่อใด เมื่อนั้น เมื่อนี้ เมื่อเย็น เมื่อวันวาน เมื่อวาน -แม้ แม้กระทั่ง แม้แต่ แม้นว่า แม้ว่า ไม่ค่อย ไม่ค่อยจะ ไม่ค่อยเป็น ไม่ใช่ ไม่เป็นไร ไม่ว่า ยก ยกให้ ยอม -ยอมรับ ย่อม ย่อย ยังคง ยังงั้น ยังงี้ ยังโง้น ยังไง ยังจะ ยังแต่ ยาก ยาว ยาวนาน ยิ่ง ยิ่งกว่า ยิ่งขึ้น -ยิ่งขึ้นไป ยิ่งจน ยิ่งจะ ยิ่งนัก ยิ่งเมื่อ ยิ่งแล้ว ยิ่งใหญ่ เร็ว เร็วๆ เราๆ เรียก เรียบ เรื่อย เรื่อยๆ ล้วน -ล้วนจน ล้วนแต่ ละ ล่าสุด เล็ก เล็กน้อย เล็กๆ เล่าว่า แล้วกัน แล้วแต่ แล้วเสร็จ วันใด วันนั้น วันนี้ วันไหน -สบาย สมัย สมัยก่อน สมัยนั้น สมัยนี้ สมัยโน้น ส่วนเกิน ส่วนด้อย ส่วนดี ส่วนใด ส่วนที่ ส่วนน้อย ส่วนนั้น ส -่วนมาก ส่วนใหญ่ สั้น สั้นๆ สามารถ สำคัญ สิ่ง สิ่งใด สิ่งนั้น สิ่งนี้ สิ่งไหน สิ้น แสดง แสดงว่า หน หนอ หนอย -หน่อย หมด หมดกัน หมดสิ้น หากแม้ หากแม้น หากแม้นว่า หากว่า หาความ หาใช่ หารือ เหตุ เหตุผล เหตุนั้น -เหตุนี้ เหตุไร เห็นแก่ เห็นควร เห็นจะ เห็นว่า เหลือ เหลือเกิน เหล่า เหล่านั้น เหล่านี้ แห่งใด แห่งนั้น -แห่งนี้ แห่งโน้น แห่งไหน แหละ ให้แก่ ใหญ่ ใหญ่โต อย่างมาก อย่างยิ่ง อย่างไรก็ อย่างไรก็ได้ อย่างไรเสีย -อย่างละ อย่างหนึ่ง อย่างๆ อัน อันจะ อันได้แก่ อันที่ อันที่จริง อันที่จะ อันเนื่องมาจาก อันละ อันๆ อาจจะ -อาจเป็น อาจเป็นด้วย อื่น อื่นๆ เอ็ง เอา ฯ ฯล ฯลฯ 555 กำ ขอโทษ เยี่ยม นี่คือ -""".split() -) diff --git a/spacy/lang/ti/__init__.py b/spacy/lang/ti/__init__.py index c74c081b5..c9757472c 100644 --- a/spacy/lang/ti/__init__.py +++ b/spacy/lang/ti/__init__.py @@ -1,4 +1,3 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .punctuation import TOKENIZER_SUFFIXES @@ -14,7 +13,6 @@ class TigrinyaDefaults(BaseDefaults): lex_attr_getters.update(LEX_ATTRS) lex_attr_getters[LANG] = lambda text: "ti" tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS) - stop_words = STOP_WORDS suffixes = TOKENIZER_SUFFIXES writing_system = {"direction": "ltr", "has_case": False, "has_letters": True} diff --git a/spacy/lang/ti/stop_words.py b/spacy/lang/ti/stop_words.py deleted file mode 100644 index 9bd712200..000000000 --- a/spacy/lang/ti/stop_words.py +++ /dev/null @@ -1,27 +0,0 @@ -# Stop words from Tigrinya Wordcount: https://github.com/fgaim/Tigrinya-WordCount/blob/main/ti_stop_words.txt - -# Stop words -STOP_WORDS = set( - """ -'ምበር 'ሞ 'ቲ 'ታ 'ኳ 'ውን 'ዚ 'የ 'ዩ 'ያ 'ዮም 'ዮን -ልዕሊ ሒዙ ሒዛ ሕጂ መበል መን መንጎ መጠን ማለት ምስ ምባል -ምእንቲ ምኽንያቱ ምኽንያት ምዃኑ ምዃንና ምዃኖም -ስለ ስለዚ ስለዝበላ ሽዑ ቅድሚ በለ በቲ በዚ ብምባል ብተወሳኺ ብኸመይ -ብዘይ ብዘይካ ብዙሕ ብዛዕባ ብፍላይ ተባሂሉ ነበረ ነቲ ነታ ነቶም -ነዚ ነይሩ ነገራት ነገር ናብ ናብቲ ናትኩም ናትኪ ናትካ ናትክን -ናይ ናይቲ ንሕና ንሱ ንሳ ንሳቶም ንስኺ ንስኻ ንስኻትኩም ንስኻትክን ንዓይ -ኢለ ኢሉ ኢላ ኢልካ ኢሎም ኢና ኢኻ ኢዩ ኣለኹ -ኣለዉ ኣለዎ ኣሎ ኣብ ኣብቲ ኣብታ ኣብኡ ኣብዚ ኣነ ኣዝዩ ኣይኮነን ኣይኰነን -እምበር እሞ እተን እቲ እታ እቶም እንተ እንተሎ -ኣላ እንተኾነ እንታይ እንከሎ እኳ እዋን እውን እዚ እዛ እዞም -እየ እየን እዩ እያ እዮም -ከሎ ከመይ ከም ከምቲ ከምኡ ከምዘሎ -ከምዚ ከኣ ኩሉ ካልእ ካልኦት ካብ ካብቲ ካብቶም ክሳብ ክሳዕ ክብል -ክንደይ ክንዲ ክኸውን ኮይኑ ኰይኑ ኵሉ ኸም ኸኣ ወይ -ዋላ ዘለና ዘለዉ ዘለዋ ዘለዎ ዘለዎም ዘላ ዘሎ ዘይብሉ -ዝርከብ ዝበሃል ዝበለ ዝብል ዝተባህለ ዝተኻየደ ዝተፈላለየ ዝተፈላለዩ -ዝነበረ ዝነበረት ዝነበሩ ዝካየድ ዝኸውን ዝኽእል ዝኾነ ዝዀነ -የለን ይቕረብ ይብል ይኸውን ይኹን ይኽእል ደኣ ድሕሪ ድማ -ገለ ገሊጹ ገና ገይሩ ግና ግን ጥራይ -""".split() -) diff --git a/spacy/lang/tl/__init__.py b/spacy/lang/tl/__init__.py index 30838890a..52689543a 100644 --- a/spacy/lang/tl/__init__.py +++ b/spacy/lang/tl/__init__.py @@ -1,5 +1,4 @@ from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults @@ -7,7 +6,6 @@ from ...language import Language, BaseDefaults class TagalogDefaults(BaseDefaults): tokenizer_exceptions = TOKENIZER_EXCEPTIONS lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Tagalog(Language): diff --git a/spacy/lang/tl/stop_words.py b/spacy/lang/tl/stop_words.py deleted file mode 100644 index 2560cdaed..000000000 --- a/spacy/lang/tl/stop_words.py +++ /dev/null @@ -1,151 +0,0 @@ -STOP_WORDS = set( - """ -akin -aking -ako -alin -am -amin -aming -ang -ano -anumang -apat -at -atin -ating -ay -bababa -bago -bakit -bawat -bilang -dahil -dalawa -dapat -din -dito -doon -gagawin -gayunman -ginagawa -ginawa -ginawang -gumawa -gusto -habang -hanggang -hindi -huwag -iba -ibaba -ibabaw -ibig -ikaw -ilagay -ilalim -ilan -inyong -isa -isang -itaas -ito -iyo -iyon -iyong -ka -kahit -kailangan -kailanman -kami -kanila -kanilang -kanino -kanya -kanyang -kapag -kapwa -karamihan -katiyakan -katulad -kaya -kaysa -ko -kong -kulang -kumuha -kung -laban -lahat -lamang -likod -lima -maaari -maaaring -maging -mahusay -makita -marami -marapat -masyado -may -mayroon -mga -minsan -mismo -mula -muli -na -nabanggit -naging -nagkaroon -nais -nakita -namin -napaka -narito -nasaan -ng -ngayon -ni -nila -nilang -nito -niya -niyang -noon -o -pa -paano -pababa -paggawa -pagitan -pagkakaroon -pagkatapos -palabas -pamamagitan -panahon -pangalawa -para -paraan -pareho -pataas -pero -pumunta -pumupunta -sa -saan -sabi -sabihin -sarili -sila -sino -siya -tatlo -tayo -tulad -tungkol -una -walang -""".split() -) diff --git a/spacy/lang/tn/__init__.py b/spacy/lang/tn/__init__.py index 28e887eea..e324dd272 100644 --- a/spacy/lang/tn/__init__.py +++ b/spacy/lang/tn/__init__.py @@ -1,4 +1,3 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .punctuation import TOKENIZER_INFIXES from ...language import Language, BaseDefaults @@ -6,7 +5,6 @@ from ...language import Language, BaseDefaults class SetswanaDefaults(BaseDefaults): infixes = TOKENIZER_INFIXES - stop_words = STOP_WORDS lex_attr_getters = LEX_ATTRS diff --git a/spacy/lang/tn/stop_words.py b/spacy/lang/tn/stop_words.py deleted file mode 100644 index f614771dd..000000000 --- a/spacy/lang/tn/stop_words.py +++ /dev/null @@ -1,20 +0,0 @@ -# Stop words -STOP_WORDS = set( - """ -ke gareng ga selekanyo tlhwatlhwa yo mongwe se -sengwe fa go le jalo gongwe ba na mo tikologong -jaaka kwa morago nna gonne ka sa pele nako teng -tlase fela ntle magareng tsona feta bobedi kgabaganya -moo gape kgatlhanong botlhe tsotlhe bokana e esi -setseng mororo dinako golo kgolo nnye wena gago -o ntse ntle tla goreng gangwe mang yotlhe gore -eo yona tseraganyo eng ne sentle re rona thata -godimo fitlha pedi masomamabedi lesomepedi mmogo -tharo tseo boraro tseno yone jaanong bobona bona -lesome tsaya tsamaiso nngwe masomethataro thataro -tsa mmatota tota sale thoko supa dira tshwanetse di mmalwa masisi -bonala e tshwanang bogolo tsenya tsweetswee karolo -sepe tlhalosa dirwa robedi robongwe lesomenngwe gaisa -tlhano lesometlhano botlalo lekgolo -""".split() -) diff --git a/spacy/lang/tr/__init__.py b/spacy/lang/tr/__init__.py index 02b5c7bf4..6cbec352e 100644 --- a/spacy/lang/tr/__init__.py +++ b/spacy/lang/tr/__init__.py @@ -1,5 +1,4 @@ from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, TOKEN_MATCH -from .stop_words import STOP_WORDS from .syntax_iterators import SYNTAX_ITERATORS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults @@ -8,7 +7,6 @@ from ...language import Language, BaseDefaults class TurkishDefaults(BaseDefaults): tokenizer_exceptions = TOKENIZER_EXCEPTIONS lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS token_match = TOKEN_MATCH syntax_iterators = SYNTAX_ITERATORS diff --git a/spacy/lang/tr/stop_words.py b/spacy/lang/tr/stop_words.py deleted file mode 100644 index 85dcff6a5..000000000 --- a/spacy/lang/tr/stop_words.py +++ /dev/null @@ -1,557 +0,0 @@ -# Source: https://github.com/stopwords-iso/stopwords-tr -STOP_WORDS = set( - """ -acaba -acep -adamakıllı -adeta -ait -ama -amma -anca -ancak -arada -artık -aslında -aynen -ayrıca -az -açıkça -açıkçası -bana -bari -bazen -bazı -bazısı -bazısına -bazısında -bazısından -bazısını -bazısının -başkası -başkasına -başkasında -başkasından -başkasını -başkasının -başka -belki -ben -bende -benden -beni -benim -beri -beriki -berikinin -berikiyi -berisi -bilcümle -bile -binaen -binaenaleyh -biraz -birazdan -birbiri -birbirine -birbirini -birbirinin -birbirinde -birbirinden -birden -birdenbire -biri -birine -birini -birinin -birinde -birinden -birice -birileri -birilerinde -birilerinden -birilerine -birilerini -birilerinin -birisi -birisine -birisini -birisinin -birisinde -birisinden -birkaç -birkaçı -birkaçına -birkaçını -birkaçının -birkaçında -birkaçından -birkez -birlikte -birçok -birçoğu -birçoğuna -birçoğunda -birçoğundan -birçoğunu -birçoğunun -birşey -birşeyi -bitevi -biteviye -bittabi -biz -bizatihi -bizce -bizcileyin -bizden -bize -bizi -bizim -bizimki -bizzat -boşuna -bu -buna -bunda -bundan -bunlar -bunları -bunların -bunu -bunun -buracıkta -burada -buradan -burası -burasına -burasını -burasının -burasında -burasından -böyle -böylece -böylecene -böylelikle -böylemesine -böylesine -büsbütün -bütün -cuk -cümlesi -cümlesine -cümlesini -cümlesinin -cümlesinden -cümlemize -cümlemizi -cümlemizden -çabuk -çabukça -çeşitli -çok -çokları -çoklarınca -çokluk -çoklukla -çokça -çoğu -çoğun -çoğunca -çoğunda -çoğundan -çoğunlukla -çoğunu -çoğunun -çünkü -da -daha -dahası -dahi -dahil -dahilen -daima -dair -dayanarak -de -defa -dek -demin -demincek -deminden -denli -derakap -derhal -derken -değil -değin -diye -diğer -diğeri -diğerine -diğerini -diğerinden -dolayı -dolayısıyla -doğru -edecek -eden -ederek -edilecek -ediliyor -edilmesi -ediyor -elbet -elbette -emme -en -enikonu -epey -epeyce -epeyi -esasen -esnasında -etmesi -etraflı -etraflıca -etti -ettiği -ettiğini -evleviyetle -evvel -evvela -evvelce -evvelden -evvelemirde -evveli -eğer -fakat -filanca -filancanın -gah -gayet -gayetle -gayri -gayrı -gelgelelim -gene -gerek -gerçi -geçende -geçenlerde -gibi -gibilerden -gibisinden -gine -göre -gırla -hakeza -halbuki -halen -halihazırda -haliyle -handiyse -hangi -hangisi -hangisine -hangisine -hangisinde -hangisinden -hani -hariç -hasebiyle -hasılı -hatta -hele -hem -henüz -hep -hepsi -hepsini -hepsinin -hepsinde -hepsinden -her -herhangi -herkes -herkesi -herkesin -herkesten -hiç -hiçbir -hiçbiri -hiçbirine -hiçbirini -hiçbirinin -hiçbirinde -hiçbirinden -hoş -hulasaten -iken -ila -ile -ilen -ilgili -ilk -illa -illaki -imdi -indinde -inen -insermi -ise -ister -itibaren -itibariyle -itibarıyla -iyi -iyice -iyicene -için -iş -işte -kadar -kaffesi -kah -kala -kanımca -karşın -kaynak -kaçı -kaçına -kaçında -kaçından -kaçını -kaçının -kelli -kendi -kendilerinde -kendilerinden -kendilerine -kendilerini -kendilerinin -kendini -kendisi -kendisinde -kendisinden -kendisine -kendisini -kendisinin -kere -kez -keza -kezalik -keşke -ki -kim -kimden -kime -kimi -kiminin -kimisi -kimisinde -kimisinden -kimisine -kimisinin -kimse -kimsecik -kimsecikler -külliyen -kısaca -kısacası -lakin -leh -lütfen -maada -madem -mademki -mamafih -mebni -međer -meğer -meğerki -meğerse -mu -mü -mı -mi -nasıl -nasılsa -nazaran -naşi -ne -neden -nedeniyle -nedenle -nedenler -nedenlerden -nedense -nerde -nerden -nerdeyse -nere -nerede -nereden -neredeyse -neresi -nereye -netekim -neye -neyi -neyse -nice -nihayet -nihayetinde -nitekim -niye -niçin -o -olan -olarak -oldu -olduklarını -oldukça -olduğu -olduğunu -olmak -olması -olsa -olsun -olup -olur -olursa -oluyor -ona -onca -onculayın -onda -ondan -onlar -onlara -onlardan -onları -onların -onu -onun -ora -oracık -oracıkta -orada -oradan -oranca -oranla -oraya -oysa -oysaki -öbür -öbürkü -öbürü -öbüründe -öbüründen -öbürüne -öbürünü -önce -önceden -önceleri -öncelikle -öteki -ötekisi -öyle -öylece -öylelikle -öylemesine -öz -pek -pekala -peki -pekçe -peyderpey -rağmen -sadece -sahi -sahiden -sana -sanki -sen -senden -seni -senin -siz -sizden -sizi -sizin -sonra -sonradan -sonraları -sonunda -şayet -şey -şeyden -şeyi -şeyler -şu -şuna -şuncacık -şunda -şundan -şunlar -şunları -şunların -şunu -şunun -şura -şuracık -şuracıkta -şurası -şöyle -şimdi -tabii -tam -tamam -tamamen -tamamıyla -tarafından -tek -tüm -üzere -var -vardı -vasıtasıyla -ve -velev -velhasıl -velhasılıkelam -veya -veyahut -ya -yahut -yakinen -yakında -yakından -yakınlarda -yalnız -yalnızca -yani -yapacak -yapmak -yaptı -yaptıkları -yaptığı -yaptığını -yapılan -yapılması -yapıyor -yeniden -yenilerde -yerine -yine -yok -yoksa -yoluyla -yüzünden -zarfında -zaten -zati -zira -""".split() -) diff --git a/spacy/lang/tt/__init__.py b/spacy/lang/tt/__init__.py index d5e1e87ef..1c4e1cca4 100644 --- a/spacy/lang/tt/__init__.py +++ b/spacy/lang/tt/__init__.py @@ -1,6 +1,5 @@ from .lex_attrs import LEX_ATTRS from .punctuation import TOKENIZER_INFIXES -from .stop_words import STOP_WORDS from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS from ...language import Language, BaseDefaults @@ -9,7 +8,6 @@ class TatarDefaults(BaseDefaults): tokenizer_exceptions = TOKENIZER_EXCEPTIONS infixes = TOKENIZER_INFIXES lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Tatar(Language): diff --git a/spacy/lang/tt/stop_words.py b/spacy/lang/tt/stop_words.py deleted file mode 100644 index 44169b757..000000000 --- a/spacy/lang/tt/stop_words.py +++ /dev/null @@ -1,173 +0,0 @@ -# Tatar stopwords are from https://github.com/aliiae/stopwords-tt - -STOP_WORDS = set( - """алай алайса алар аларга аларда алардан аларны аларның аларча -алары аларын аларынга аларында аларыннан аларының алтмыш алтмышынчы алтмышынчыга -алтмышынчыда алтмышынчыдан алтмышынчылар алтмышынчыларга алтмышынчыларда -алтмышынчылардан алтмышынчыларны алтмышынчыларның алтмышынчыны алтмышынчының -алты алтылап алтынчы алтынчыга алтынчыда алтынчыдан алтынчылар алтынчыларга -алтынчыларда алтынчылардан алтынчыларны алтынчыларның алтынчыны алтынчының -алтышар анда андагы андай андый андыйга андыйда андыйдан андыйны андыйның аннан -ансы анча аны аныкы аныкын аныкынга аныкында аныкыннан аныкының анысы анысын -анысынга анысында анысыннан анысының аның аныңча аркылы ары аша аңа аңар аңарга -аңарда аңардагы аңардан - -бар бара барлык барча барчасы барчасын барчасына барчасында барчасыннан -барчасының бары башка башкача бе­лән без безгә бездә бездән безне безнең безнеңчә -белдерүенчә белән бер бергә беренче беренчегә беренчедә беренчедән беренчеләр -беренчеләргә беренчеләрдә беренчеләрдән беренчеләрне беренчеләрнең беренчене -беренченең беркайда беркайсы беркая беркаян беркем беркемгә беркемдә беркемне -беркемнең беркемнән берлән берни бернигә бернидә бернидән бернинди бернине -бернинең берничек берничә бернәрсә бернәрсәгә бернәрсәдә бернәрсәдән бернәрсәне -бернәрсәнең беррәттән берсе берсен берсенгә берсендә берсенең берсеннән берәр -берәрсе берәрсен берәрсендә берәрсенең берәрсеннән берәрсенә берәү бигрәк бик -бирле бит биш бишенче бишенчегә бишенчедә бишенчедән бишенчеләр бишенчеләргә -бишенчеләрдә бишенчеләрдән бишенчеләрне бишенчеләрнең бишенчене бишенченең -бишләп болай болар боларга боларда болардан боларны боларның болары боларын -боларынга боларында боларыннан боларының бу буе буена буенда буенча буйлап -буларак булачак булды булмый булса булып булыр булырга бусы бүтән бәлки бән -бәрабәренә бөтен бөтенесе бөтенесен бөтенесендә бөтенесенең бөтенесеннән -бөтенесенә - -вә - -гел генә гына гүя гүяки гәрчә - -да ди дигән диде дип дистәләгән дистәләрчә дүрт дүртенче дүртенчегә дүртенчедә -дүртенчедән дүртенчеләр дүртенчеләргә дүртенчеләрдә дүртенчеләрдән дүртенчеләрне -дүртенчеләрнең дүртенчене дүртенченең дүртләп дә - -егерме егерменче егерменчегә егерменчедә егерменчедән егерменчеләр -егерменчеләргә егерменчеләрдә егерменчеләрдән егерменчеләрне егерменчеләрнең -егерменчене егерменченең ел елда - -иде идек идем ике икенче икенчегә икенчедә икенчедән икенчеләр икенчеләргә -икенчеләрдә икенчеләрдән икенчеләрне икенчеләрнең икенчене икенченең икешәр икән -илле илленче илленчегә илленчедә илленчедән илленчеләр илленчеләргә -илленчеләрдә илленчеләрдән илленчеләрне илленчеләрнең илленчене илленченең илә -илән инде исә итеп иткән итте итү итә итәргә иң - -йөз йөзенче йөзенчегә йөзенчедә йөзенчедән йөзенчеләр йөзенчеләргә йөзенчеләрдә -йөзенчеләрдән йөзенчеләрне йөзенчеләрнең йөзенчене йөзенченең йөзләгән йөзләрчә -йөзәрләгән - -кадәр кай кайбер кайберләре кайберсе кайберәү кайберәүгә кайберәүдә кайберәүдән -кайберәүне кайберәүнең кайдагы кайсы кайсыбер кайсын кайсына кайсында кайсыннан -кайсының кайчангы кайчандагы кайчаннан караганда карамастан карамый карата каршы -каршына каршында каршындагы кебек кем кемгә кемдә кемне кемнең кемнән кенә ки -килеп килә кирәк кына кырыгынчы кырыгынчыга кырыгынчыда кырыгынчыдан -кырыгынчылар кырыгынчыларга кырыгынчыларда кырыгынчылардан кырыгынчыларны -кырыгынчыларның кырыгынчыны кырыгынчының кырык күк күпләгән күпме күпмеләп -күпмешәр күпмешәрләп күптән күрә - -ләкин - -максатында менә мең меңенче меңенчегә меңенчедә меңенчедән меңенчеләр -меңенчеләргә меңенчеләрдә меңенчеләрдән меңенчеләрне меңенчеләрнең меңенчене -меңенченең меңләгән меңләп меңнәрчә меңәрләгән меңәрләп миллиард миллиардлаган -миллиардларча миллион миллионлаган миллионнарча миллионынчы миллионынчыга -миллионынчыда миллионынчыдан миллионынчылар миллионынчыларга миллионынчыларда -миллионынчылардан миллионынчыларны миллионынчыларның миллионынчыны -миллионынчының мин миндә мине минем минемчә миннән миңа монда мондагы мондые -мондыен мондыенгә мондыендә мондыеннән мондыеның мондый мондыйга мондыйда -мондыйдан мондыйлар мондыйларга мондыйларда мондыйлардан мондыйларны -мондыйларның мондыйлары мондыйларын мондыйларынга мондыйларында мондыйларыннан -мондыйларының мондыйны мондыйның моннан монсыз монча моны моныкы моныкын -моныкынга моныкында моныкыннан моныкының монысы монысын монысынга монысында -монысыннан монысының моның моңа моңар моңарга мәгълүматынча мәгәр мән мөмкин - -ни нибарысы никадәре нинди ниндие ниндиен ниндиенгә ниндиендә ниндиенең -ниндиеннән ниндиләр ниндиләргә ниндиләрдә ниндиләрдән ниндиләрен ниндиләренн -ниндиләреннгә ниндиләренндә ниндиләреннең ниндиләренннән ниндиләрне ниндиләрнең -ниндирәк нихәтле ничаклы ничек ничәшәр ничәшәрләп нуль нче нчы нәрсә нәрсәгә -нәрсәдә нәрсәдән нәрсәне нәрсәнең - -саен сез сезгә сездә сездән сезне сезнең сезнеңчә сигез сигезенче сигезенчегә -сигезенчедә сигезенчедән сигезенчеләр сигезенчеләргә сигезенчеләрдә -сигезенчеләрдән сигезенчеләрне сигезенчеләрнең сигезенчене сигезенченең -сиксән син синдә сине синең синеңчә синнән сиңа соң сыман сүзенчә сүзләренчә - -та таба теге тегеләй тегеләр тегеләргә тегеләрдә тегеләрдән тегеләре тегеләрен -тегеләренгә тегеләрендә тегеләренең тегеләреннән тегеләрне тегеләрнең тегенди -тегендигә тегендидә тегендидән тегендине тегендинең тегендә тегендәге тегене -тегенеке тегенекен тегенекенгә тегенекендә тегенекенең тегенекеннән тегенең -тегеннән тегесе тегесен тегесенгә тегесендә тегесенең тегесеннән тегеңә тиеш тик -тикле тора триллиард триллион тугыз тугызлап тугызлашып тугызынчы тугызынчыга -тугызынчыда тугызынчыдан тугызынчылар тугызынчыларга тугызынчыларда -тугызынчылардан тугызынчыларны тугызынчыларның тугызынчыны тугызынчының туксан -туксанынчы туксанынчыга туксанынчыда туксанынчыдан туксанынчылар туксанынчыларга -туксанынчыларда туксанынчылардан туксанынчыларны туксанынчыларның туксанынчыны -туксанынчының турында тыш түгел тә тәгаенләнгән төмән - -уенча уйлавынча ук ул ун уналты уналтынчы уналтынчыга уналтынчыда уналтынчыдан -уналтынчылар уналтынчыларга уналтынчыларда уналтынчылардан уналтынчыларны -уналтынчыларның уналтынчыны уналтынчының унарлаган унарлап унаула унаулап унбер -унберенче унберенчегә унберенчедә унберенчедән унберенчеләр унберенчеләргә -унберенчеләрдә унберенчеләрдән унберенчеләрне унберенчеләрнең унберенчене -унберенченең унбиш унбишенче унбишенчегә унбишенчедә унбишенчедән унбишенчеләр -унбишенчеләргә унбишенчеләрдә унбишенчеләрдән унбишенчеләрне унбишенчеләрнең -унбишенчене унбишенченең ундүрт ундүртенче ундүртенчегә ундүртенчедә -ундүртенчедән ундүртенчеләр ундүртенчеләргә ундүртенчеләрдә ундүртенчеләрдән -ундүртенчеләрне ундүртенчеләрнең ундүртенчене ундүртенченең унике уникенче -уникенчегә уникенчедә уникенчедән уникенчеләр уникенчеләргә уникенчеләрдә -уникенчеләрдән уникенчеләрне уникенчеләрнең уникенчене уникенченең унлаган -унлап уннарча унсигез унсигезенче унсигезенчегә унсигезенчедә унсигезенчедән -унсигезенчеләр унсигезенчеләргә унсигезенчеләрдә унсигезенчеләрдән -унсигезенчеләрне унсигезенчеләрнең унсигезенчене унсигезенченең унтугыз -унтугызынчы унтугызынчыга унтугызынчыда унтугызынчыдан унтугызынчылар -унтугызынчыларга унтугызынчыларда унтугызынчылардан унтугызынчыларны -унтугызынчыларның унтугызынчыны унтугызынчының унынчы унынчыга унынчыда -унынчыдан унынчылар унынчыларга унынчыларда унынчылардан унынчыларны -унынчыларның унынчыны унынчының унҗиде унҗиденче унҗиденчегә унҗиденчедә -унҗиденчедән унҗиденчеләр унҗиденчеләргә унҗиденчеләрдә унҗиденчеләрдән -унҗиденчеләрне унҗиденчеләрнең унҗиденчене унҗиденченең унөч унөченче унөченчегә -унөченчедә унөченчедән унөченчеләр унөченчеләргә унөченчеләрдә унөченчеләрдән -унөченчеләрне унөченчеләрнең унөченчене унөченченең утыз утызынчы утызынчыга -утызынчыда утызынчыдан утызынчылар утызынчыларга утызынчыларда утызынчылардан -утызынчыларны утызынчыларның утызынчыны утызынчының - -фикеренчә фәкать - -хакында хәбәр хәлбуки хәтле хәтта - -чаклы чакта чөнки - -шикелле шул шулай шулар шуларга шуларда шулардан шуларны шуларның шулары шуларын -шуларынга шуларында шуларыннан шуларының шулкадәр шултикле шултиклем шулхәтле -шулчаклы шунда шундагы шундый шундыйга шундыйда шундыйдан шундыйны шундыйның -шунлыктан шуннан шунсы шунча шуны шуныкы шуныкын шуныкынга шуныкында шуныкыннан -шуныкының шунысы шунысын шунысынга шунысында шунысыннан шунысының шуның шушы -шушында шушыннан шушыны шушының шушыңа шуңа шуңар шуңарга - -элек - -югыйсә юк юкса - -я ягъни язуынча яисә яки яктан якын ярашлы яхут яшь яшьлек - -җиде җиделәп җиденче җиденчегә җиденчедә җиденчедән җиденчеләр җиденчеләргә -җиденчеләрдә җиденчеләрдән җиденчеләрне җиденчеләрнең җиденчене җиденченең -җидешәр җитмеш җитмешенче җитмешенчегә җитмешенчедә җитмешенчедән җитмешенчеләр -җитмешенчеләргә җитмешенчеләрдә җитмешенчеләрдән җитмешенчеләрне -җитмешенчеләрнең җитмешенчене җитмешенченең җыенысы - -үз үзе үзем үземдә үземне үземнең үземнән үземә үзен үзендә үзенең үзеннән үзенә -үк - -һичбер һичбере һичберен һичберендә һичберенең һичбереннән һичберенә һичберсе -һичберсен һичберсендә һичберсенең һичберсеннән һичберсенә һичберәү һичберәүгә -һичберәүдә һичберәүдән һичберәүне һичберәүнең һичкайсы һичкайсыга һичкайсыда -һичкайсыдан һичкайсыны һичкайсының һичкем һичкемгә һичкемдә һичкемне һичкемнең -һичкемнән һични һичнигә һичнидә һичнидән һичнинди һичнине һичнинең һичнәрсә -һичнәрсәгә һичнәрсәдә һичнәрсәдән һичнәрсәне һичнәрсәнең һәм һәммә һәммәсе -һәммәсен һәммәсендә һәммәсенең һәммәсеннән һәммәсенә һәр һәрбер һәрбере һәрберсе -һәркайсы һәркайсыга һәркайсыда һәркайсыдан һәркайсыны һәркайсының һәркем -һәркемгә һәркемдә һәркемне һәркемнең һәркемнән һәрни һәрнәрсә һәрнәрсәгә -һәрнәрсәдә һәрнәрсәдән һәрнәрсәне һәрнәрсәнең һәртөрле - -ә әгәр әйтүенчә әйтүләренчә әлбәттә әле әлеге әллә әмма әнә - -өстәп өч өчен өченче өченчегә өченчедә өченчедән өченчеләр өченчеләргә -өченчеләрдә өченчеләрдән өченчеләрне өченчеләрнең өченчене өченченең өчләп -өчәрләп""".split() -) diff --git a/spacy/lang/uk/__init__.py b/spacy/lang/uk/__init__.py index 737243b66..4e773582c 100644 --- a/spacy/lang/uk/__init__.py +++ b/spacy/lang/uk/__init__.py @@ -3,7 +3,6 @@ from typing import Optional, Callable from thinc.api import Model from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .lemmatizer import UkrainianLemmatizer from ..punctuation import COMBINING_DIACRITICS_TOKENIZER_INFIXES @@ -14,7 +13,6 @@ from ...language import Language, BaseDefaults class UkrainianDefaults(BaseDefaults): tokenizer_exceptions = TOKENIZER_EXCEPTIONS lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS suffixes = COMBINING_DIACRITICS_TOKENIZER_SUFFIXES infixes = COMBINING_DIACRITICS_TOKENIZER_INFIXES diff --git a/spacy/lang/uk/stop_words.py b/spacy/lang/uk/stop_words.py deleted file mode 100644 index b11d7a044..000000000 --- a/spacy/lang/uk/stop_words.py +++ /dev/null @@ -1,469 +0,0 @@ -STOP_WORDS = set( - """а -або -адже -аж -але -алло -б -багато -без -безперервно -би -більш -більше -біля -близько -бо -був -буває -буде -будемо -будете -будеш -буду -будуть -будь -була -були -було -бути -в -вам -вами -вас -ваш -ваша -ваше -вашим -вашими -ваших -ваші -вашій -вашого -вашої -вашому -вашою -вашу -вгорі -вгору -вдалині -весь -вже -ви -від -відсотків -він -вісім -вісімнадцятий -вісімнадцять -вниз -внизу -вона -вони -воно -восьмий -все -всею -всі -всім -всіх -всього -всьому -всю -вся -втім -г -геть -говорив -говорить -давно -далеко -далі -дарма -два -двадцятий -двадцять -дванадцятий -дванадцять -дві -двох -де -дев'ятий -дев'ятнадцятий -дев'ятнадцять -дев'ять -декілька -день -десятий -десять -дійсно -для -дня -до -добре -довго -доки -досить -другий -дуже -дякую -е -є -ж -же -з -за -завжди -зазвичай -занадто -зараз -зате -звичайно -звідси -звідусіль -здається -зі -значить -знову -зовсім -і -із -її -їй -їм -іноді -інша -інше -інший -інших -інші -їх -й -його -йому -каже -ким -кілька -кого -кожен -кожна -кожне -кожні -коли -кому -краще -крім -куди -ласка -ледве -лише -м -має -майже -мало -мати -мене -мені -менш -менше -ми -мимо -міг -між -мій -мільйонів -мною -мого -могти -моє -моєї -моєму -моєю -може -можна -можно -можуть -мої -моїй -моїм -моїми -моїх -мою -моя -на -навіть -навіщо -навколо -навкруги -нагорі -над -назад -найбільш -нам -нами -нарешті -нас -наш -наша -наше -нашим -нашими -наших -наші -нашій -нашого -нашої -нашому -нашою -нашу -не -небагато -небудь -недалеко -неї -немає -нерідко -нещодавно -нею -нибудь -нижче -низько -ним -ними -них -ні -ніби -ніж -ній -ніколи -нікуди -нім -нічого -ну -нього -ньому -о -обидва -обоє -один -одинадцятий -одинадцять -однак -однієї -одній -одного -означає -окрім -он -особливо -ось -п'ятий -п'ятнадцятий -п'ятнадцять -п'ять -перед -перший -під -пізніше -пір -після -по -повинно -подів -поки -пора -поруч -посеред -потім -потрібно -почала -початку -при -про -просто -проте -проти -раз -разу -раніше -рано -раптом -рік -роки -років -року -році -сам -сама -саме -самим -самими -самих -самі -самій -само -самого -самому -саму -свого -своє -своєї -свої -своїй -своїх -свою -себе -сих -сім -сімнадцятий -сімнадцять -сказав -сказала -сказати -скільки -скрізь -собі -собою -спасибі -спочатку -справ -став -суть -сьогодні -сьомий -т -та -так -така -таке -такий -такі -також -там -твій -твого -твоє -твоєї -твоєму -твоєю -твої -твоїй -твоїм -твоїми -твоїх -твою -твоя -те -тебе -теж -тепер -ти -тим -тими -тисяч -тих -ті -тієї -тією -тій -тільки -тім -то -тобі -тобою -того -тоді -той -тому -тою -треба -третій -три -тринадцятий -тринадцять -трохи -ту -туди -тут -у -увесь -уміти -усе -усі -усім -усіма -усіх -усього -усьому -усю -усюди -уся -хіба -хотіти -хоч -хоча -хочеш -хто -це -цей -цим -цими -цих -ці -цієї -цій -цього -цьому -цю -ця -час -частіше -часто -часу -через -четвертий -чи -чиє -чиєї -чиєму -чиї -чиїй -чиїм -чиїми -чиїх -чий -чийого -чийому -чим -численна -численне -численний -численні -чию -чия -чого -чому -чотири -чотирнадцятий -чотирнадцять -шістнадцятий -шістнадцять -шість -шостий -ще -що -щоб -щодо -щось -я -як -яка -який -яких -які -якій -якого -якої -якщо""".split() -) diff --git a/spacy/lang/ur/__init__.py b/spacy/lang/ur/__init__.py index 266c5a73d..929318b44 100644 --- a/spacy/lang/ur/__init__.py +++ b/spacy/lang/ur/__init__.py @@ -1,4 +1,3 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from .punctuation import TOKENIZER_SUFFIXES from ...language import Language, BaseDefaults @@ -7,7 +6,6 @@ from ...language import Language, BaseDefaults class UrduDefaults(BaseDefaults): suffixes = TOKENIZER_SUFFIXES lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS writing_system = {"direction": "rtl", "has_case": False, "has_letters": True} diff --git a/spacy/lang/ur/stop_words.py b/spacy/lang/ur/stop_words.py deleted file mode 100644 index abfa36497..000000000 --- a/spacy/lang/ur/stop_words.py +++ /dev/null @@ -1,513 +0,0 @@ -# Source: collected from different resource on internet -STOP_WORDS = set( - """ -ثھی -خو -گی -اپٌے -گئے -ثہت -طرف -ہوبری -پبئے -اپٌب -دوضری -گیب -کت -گب -ثھی -ضے -ہر -پر -اش -دی -گے -لگیں -ہے -ثعذ -ضکتے -تھی -اى -دیب -لئے -والے -یہ -ثدبئے -ضکتی -تھب -اًذر -رریعے -لگی -ہوبرا -ہوًے -ثبہر -ضکتب -ًہیں -تو -اور -رہب -لگے -ہوضکتب -ہوں -کب -ہوبرے -توبم -کیب -ایطے -رہی -هگر -ہوضکتی -ہیں -کریں -ہو -تک -کی -ایک -رہے -هیں -ہوضکتے -کیطے -ہوًب -تت -کہ -ہوا -آئے -ضبت -تھے -کیوں -ہو -تب -کے -پھر -ثغیر -خبر -ہے -رکھ -کی -طب -کوئی - رریعے -ثبرے -خب -اضطرذ -ثلکہ -خجکہ -رکھ -تب -کی -طرف -ثراں -خبر -رریعہ -اضکب -ثٌذ -خص -کی -لئے -توہیں -دوضرے -کررہی -اضکی -ثیچ -خوکہ -رکھتی -کیوًکہ -دوًوں -کر -رہے -خبر -ہی -ثرآں -اضکے -پچھلا -خیطب -رکھتے -کے -ثعذ -تو -ہی - دورى -کر -یہبں -آش -تھوڑا -چکے -زکویہ -دوضروں -ضکب -اوًچب -ثٌب -پل -تھوڑی -چلا -خبهوظ -دیتب -ضکٌب -اخبزت -اوًچبئی -ثٌبرہب -پوچھب -تھوڑے -چلو -ختن -دیتی -ضکی -اچھب -اوًچی -ثٌبرہی -پوچھتب -تیي -چلیں -در -دیتے -ضکے -اچھی -اوًچے -ثٌبرہے -پوچھتی -خبًب -چلے -درخبت -دیر -ضلطلہ -اچھے -اٹھبًب -ثٌبًب -پوچھتے -خبًتب -چھوٹب -درخہ -دیکھٌب -ضوچ -اختتبم -اہن -ثٌذ -پوچھٌب -خبًتی -چھوٹوں -درخے -دیکھو -ضوچب -ادھر -آئی -ثٌذکرًب -پوچھو -خبًتے -چھوٹی -درزقیقت -دیکھی -ضوچتب -ارد -آئے -ثٌذکرو -پوچھوں -خبًٌب -چھوٹے -درضت -دیکھیں -ضوچتی -اردگرد -آج -ثٌذی -پوچھیں -خططرذ -چھہ -دش -دیٌب -ضوچتے -ارکبى -آخر -ثڑا -پورا -خگہ -چیسیں -دفعہ -دے -ضوچٌب -اضتعوبل -آخر -پہلا -خگہوں -زبصل -دکھبئیں -راضتوں -ضوچو -اضتعوبلات -آدهی -ثڑی -پہلی -خگہیں -زبضر -دکھبتب -راضتہ -ضوچی -اغیب -آًب -ثڑے -پہلےضی -خلذی -زبل -دکھبتی -راضتے -ضوچیں -اطراف -آٹھ -ثھر -خٌبة -زبل -دکھبتے -رکي -ضیذھب -افراد -آیب -ثھرا -پہلے -خواى -زبلات -دکھبًب -رکھب -ضیذھی -اکثر -ثب -ہوا -پیع -خوًہی -زبلیہ -دکھبو -رکھی -ضیذھے -اکٹھب -ثھرپور -تبزٍ -خیطبکہ -زصوں -رکھے -ضیکٌڈ -اکٹھی -ثبری -ثہتر -تر -چبر -زصہ -دلچطپ -زیبدٍ -غبیذ -اکٹھے -ثبلا -ثہتری -ترتیت -چبہب -زصے -دلچطپی -ضبت -غخص -اکیلا -ثبلترتیت -ثہتریي -تریي -چبہٌب -زقبئق -دلچطپیبں -ضبدٍ -غذ -اکیلی -ثرش -پبش -تعذاد -چبہے -زقیتیں -هٌبضت -ضبرا -غروع -اکیلے -ثغیر -پبًب -چکب -زقیقت -دو -ضبرے -غروعبت -اگرچہ -ثلٌذ -پبًچ -تن -چکی -زکن -دور -ضبل -غے -الگ -پراًب -تٌہب -چکیں -دوضرا -ضبلوں -صبف -صسیر -قجیلہ -کوًطے -لازهی -هطئلے -ًیب -طریق -کرتی -کہتے -صفر -قطن -کھولا -لگتب -هطبئل -وار -طریقوں -کرتے -کہٌب -صورت -کئی -کھولٌب -لگتی -هطتعول -وار -طریقہ -کرتے -ہو -کہٌب -صورتسبل -کئے -کھولو -لگتے -هػتول -ٹھیک -طریقے -کرًب -کہو -صورتوں -کبفی -هطلق -ڈھوًڈا -طور -کرو -کہوں -صورتیں -کبم -کھولیں -لگی -هعلوم -ڈھوًڈلیب -طورپر -کریں -کہی -ضرور -کجھی -کھولے -لگے -هکول -ڈھوًڈًب -ظبہر -کرے -کہیں -ضرورت -کرا -کہب -لوجب -هلا -ڈھوًڈو -عذد -کل -کہیں -کرتب -کہتب -لوجی -هوکي -ڈھوًڈی -عظین -کن -کہے -ضروری -کرتبہوں -کہتی -لوجے -هوکٌبت -ڈھوًڈیں -علاقوں -کوتر -کیے -لوسبت -هوکٌہ -ہن -لے -ًبپطٌذ -ہورہے -علاقہ -کورا -کے -رریعے -لوسہ -هڑا -ہوئی -هتعلق -ًبگسیر -ہوگئی -علاقے -کوروں -گئی -لو -هڑًب -ہوئے -هسترم -ًطجت -ہو -گئے -علاوٍ -کورٍ -گرد -لوگ -هڑے -ہوتی -هسترهہ -ًقطہ -ہوگیب -کورے -گروپ -لوگوں -هہرثبى -ہوتے -هسطوش -ًکبلٌب -ہوًی -عووهی -کوطي -گروٍ -لڑکپي -هیرا -ہوچکب -هختلف -ًکتہ -ہی -فرد -کوى -گروہوں -لی -هیری -ہوچکی -هسیذ -فی -کوًطب -گٌتی -لیب -هیرے -ہوچکے -هطئلہ -ًوخواى -یقیٌی -قجل -کوًطی -لیٌب -ًئی -ہورہب -لیں -ًئے -ہورہی -ثبعث -ضت -""".split() -) diff --git a/spacy/lang/vi/__init__.py b/spacy/lang/vi/__init__.py index 822dc348c..f863ba1b9 100644 --- a/spacy/lang/vi/__init__.py +++ b/spacy/lang/vi/__init__.py @@ -4,7 +4,6 @@ import re import srsly import string -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults from ...tokens import Doc @@ -157,7 +156,6 @@ class VietnameseTokenizer(DummyTokenizer): class VietnameseDefaults(BaseDefaults): config = load_config_from_str(DEFAULT_CONFIG) lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Vietnamese(Language): diff --git a/spacy/lang/vi/stop_words.py b/spacy/lang/vi/stop_words.py deleted file mode 100644 index 1d2ecdf8d..000000000 --- a/spacy/lang/vi/stop_words.py +++ /dev/null @@ -1,1949 +0,0 @@ -# Source: https://github.com/stopwords/vietnamese-stopwords -STOP_WORDS = set( - """ -a_lô -a_ha -ai -ai_ai -ai_nấy -ai_đó -alô -amen -anh -anh_ấy -ba -ba_bau -ba_bản -ba_cùng -ba_họ -ba_ngày -ba_ngôi -ba_tăng -bao_giờ -bao_lâu -bao_nhiêu -bao_nả -bay_biến -biết -biết_bao -biết_bao_nhiêu -biết_chắc -biết_chừng_nào -biết_mình -biết_mấy -biết_thế -biết_trước -biết_việc -biết_đâu -biết_đâu_chừng -biết_đâu_đấy -biết_được -buổi -buổi_làm -buổi_mới -buổi_ngày -buổi_sớm -bà -bà_ấy -bài -bài_bác -bài_bỏ -bài_cái -bác -bán -bán_cấp -bán_dạ -bán_thế -bây_bẩy -bây_chừ -bây_giờ -bây_nhiêu -bèn -béng -bên -bên_bị -bên_có -bên_cạnh -bông -bước -bước_khỏi -bước_tới -bước_đi -bạn -bản -bản_bộ -bản_riêng -bản_thân -bản_ý -bất_chợt -bất_cứ -bất_giác -bất_kì -bất_kể -bất_kỳ -bất_luận -bất_ngờ -bất_nhược -bất_quá -bất_quá_chỉ -bất_thình_lình -bất_tử -bất_đồ -bấy -bấy_chầy -bấy_chừ -bấy_giờ -bấy_lâu -bấy_lâu_nay -bấy_nay -bấy_nhiêu -bập_bà_bập_bõm -bập_bõm -bắt_đầu -bắt_đầu_từ -bằng -bằng_cứ -bằng_không -bằng_người -bằng_nhau -bằng_như -bằng_nào -bằng_nấy -bằng_vào -bằng_được -bằng_ấy -bển -bệt -bị -bị_chú -bị_vì -bỏ -bỏ_bà -bỏ_cha -bỏ_cuộc -bỏ_không -bỏ_lại -bỏ_mình -bỏ_mất -bỏ_mẹ -bỏ_nhỏ -bỏ_quá -bỏ_ra -bỏ_riêng -bỏ_việc -bỏ_xa -bỗng -bỗng_chốc -bỗng_dưng -bỗng_không -bỗng_nhiên -bỗng_nhưng -bỗng_thấy -bỗng_đâu -bộ -bộ_thuộc -bộ_điều -bội_phần -bớ -bởi -bởi_ai -bởi_chưng -bởi_nhưng -bởi_sao -bởi_thế -bởi_thế_cho_nên -bởi_tại -bởi_vì -bởi_vậy -bởi_đâu -bức -cao -cao_lâu -cao_ráo -cao_răng -cao_sang -cao_số -cao_thấp -cao_thế -cao_xa -cha -cha_chả -chao_ôi -chia_sẻ -chiếc -cho -cho_biết -cho_chắc -cho_hay -cho_nhau -cho_nên -cho_rằng -cho_rồi -cho_thấy -cho_tin -cho_tới -cho_tới_khi -cho_về -cho_ăn -cho_đang -cho_được -cho_đến -cho_đến_khi -cho_đến_nỗi -choa -chu_cha -chui_cha -chung -chung_cho -chung_chung -chung_cuộc -chung_cục -chung_nhau -chung_qui -chung_quy -chung_quy_lại -chung_ái -chuyển -chuyển_tự -chuyển_đạt -chuyện -chuẩn_bị -chành_chạnh -chí_chết -chính -chính_bản -chính_giữa -chính_là -chính_thị -chính_điểm -chùn_chùn -chùn_chũn -chú -chú_dẫn -chú_khách -chú_mày -chú_mình -chúng -chúng_mình -chúng_ta -chúng_tôi -chúng_ông -chăn_chắn -chăng -chăng_chắc -chăng_nữa -chơi -chơi_họ -chưa -chưa_bao_giờ -chưa_chắc -chưa_có -chưa_cần -chưa_dùng -chưa_dễ -chưa_kể -chưa_tính -chưa_từng -chầm_chập -chậc -chắc -chắc_chắn -chắc_dạ -chắc_hẳn -chắc_lòng -chắc_người -chắc_vào -chắc_ăn -chẳng_lẽ -chẳng_những -chẳng_nữa -chẳng_phải -chết_nỗi -chết_thật -chết_tiệt -chỉ -chỉ_chính -chỉ_có -chỉ_là -chỉ_tên -chỉn -chị -chị_bộ -chị_ấy -chịu -chịu_chưa -chịu_lời -chịu_tốt -chịu_ăn -chọn -chọn_bên -chọn_ra -chốc_chốc -chớ -chớ_chi -chớ_gì -chớ_không -chớ_kể -chớ_như -chợt -chợt_nghe -chợt_nhìn -chủn -chứ -chứ_ai -chứ_còn -chứ_gì -chứ_không -chứ_không_phải -chứ_lại -chứ_lị -chứ_như -chứ_sao -coi_bộ -coi_mòi -con -con_con -con_dạ -con_nhà -con_tính -cu_cậu -cuối -cuối_cùng -cuối_điểm -cuốn -cuộc -càng -càng_càng -càng_hay -cá_nhân -các -các_cậu -cách -cách_bức -cách_không -cách_nhau -cách_đều -cái -cái_gì -cái_họ -cái_đã -cái_đó -cái_ấy -câu_hỏi -cây -cây_nước -còn -còn_như -còn_nữa -còn_thời_gian -còn_về -có -có_ai -có_chuyện -có_chăng -có_chăng_là -có_chứ -có_cơ -có_dễ -có_họ -có_khi -có_ngày -có_người -có_nhiều -có_nhà -có_phải -có_số -có_tháng -có_thế -có_thể -có_vẻ -có_ý -có_ăn -có_điều -có_điều_kiện -có_đáng -có_đâu -có_được -cóc_khô -cô -cô_mình -cô_quả -cô_tăng -cô_ấy -công_nhiên -cùng -cùng_chung -cùng_cực -cùng_nhau -cùng_tuổi -cùng_tột -cùng_với -cùng_ăn -căn -căn_cái -căn_cắt -căn_tính -cũng -cũng_như -cũng_nên -cũng_thế -cũng_vậy -cũng_vậy_thôi -cũng_được -cơ -cơ_chỉ -cơ_chừng -cơ_cùng -cơ_dẫn -cơ_hồ -cơ_hội -cơ_mà -cơn -cả -cả_nghe -cả_nghĩ -cả_ngày -cả_người -cả_nhà -cả_năm -cả_thảy -cả_thể -cả_tin -cả_ăn -cả_đến -cảm_thấy -cảm_ơn -cấp -cấp_số -cấp_trực_tiếp -cần -cần_cấp -cần_gì -cần_số -cật_lực -cật_sức -cậu -cổ_lai -cụ_thể -cụ_thể_là -cụ_thể_như -của -của_ngọt -của_tin -cứ -cứ_như -cứ_việc -cứ_điểm -cực_lực -do -do_vì -do_vậy -do_đó -duy -duy_chỉ -duy_có -dài -dài_lời -dài_ra -dành -dành_dành -dào -dì -dù -dù_cho -dù_dì -dù_gì -dù_rằng -dù_sao -dùng -dùng_cho -dùng_hết -dùng_làm -dùng_đến -dưới -dưới_nước -dạ -dạ_bán -dạ_con -dạ_dài -dạ_dạ -dạ_khách -dần_dà -dần_dần -dầu_sao -dẫn -dẫu -dẫu_mà -dẫu_rằng -dẫu_sao -dễ -dễ_dùng -dễ_gì -dễ_khiến -dễ_nghe -dễ_ngươi -dễ_như_chơi -dễ_sợ -dễ_sử_dụng -dễ_thường -dễ_thấy -dễ_ăn -dễ_đâu -dở_chừng -dữ -dữ_cách -em -em_em -giá_trị -giá_trị_thực_tế -giảm -giảm_chính -giảm_thấp -giảm_thế -giống -giống_người -giống_nhau -giống_như -giờ -giờ_lâu -giờ_này -giờ_đi -giờ_đây -giờ_đến -giữ -giữ_lấy -giữ_ý -giữa -giữa_lúc -gây -gây_cho -gây_giống -gây_ra -gây_thêm -gì -gì_gì -gì_đó -gần -gần_bên -gần_hết -gần_ngày -gần_như -gần_xa -gần_đây -gần_đến -gặp -gặp_khó_khăn -gặp_phải -gồm -hay -hay_biết -hay_hay -hay_không -hay_là -hay_làm -hay_nhỉ -hay_nói -hay_sao -hay_tin -hay_đâu -hiểu -hiện_nay -hiện_tại -hoàn_toàn -hoặc -hoặc_là -hãy -hãy_còn -hơn -hơn_cả -hơn_hết -hơn_là -hơn_nữa -hơn_trước -hầu_hết -hết -hết_chuyện -hết_cả -hết_của -hết_nói -hết_ráo -hết_rồi -hết_ý -họ -họ_gần -họ_xa -hỏi -hỏi_lại -hỏi_xem -hỏi_xin -hỗ_trợ -khi -khi_khác -khi_không -khi_nào -khi_nên -khi_trước -khiến -khoảng -khoảng_cách -khoảng_không -khá -khá_tốt -khác -khác_gì -khác_khác -khác_nhau -khác_nào -khác_thường -khác_xa -khách -khó -khó_biết -khó_chơi -khó_khăn -khó_làm -khó_mở -khó_nghe -khó_nghĩ -khó_nói -khó_thấy -khó_tránh -không -không_ai -không_bao_giờ -không_bao_lâu -không_biết -không_bán -không_chỉ -không_còn -không_có -không_có_gì -không_cùng -không_cần -không_cứ -không_dùng -không_gì -không_hay -không_khỏi -không_kể -không_ngoài -không_nhận -không_những -không_phải -không_phải_không -không_thể -không_tính -không_điều_kiện -không_được -không_đầy -không_để -khẳng_định -khỏi -khỏi_nói -kể -kể_cả -kể_như -kể_tới -kể_từ -liên_quan -loại -loại_từ -luôn -luôn_cả -luôn_luôn -luôn_tay -là -là_cùng -là_là -là_nhiều -là_phải -là_thế_nào -là_vì -là_ít -làm -làm_bằng -làm_cho -làm_dần_dần -làm_gì -làm_lòng -làm_lại -làm_lấy -làm_mất -làm_ngay -làm_như -làm_nên -làm_ra -làm_riêng -làm_sao -làm_theo -làm_thế_nào -làm_tin -làm_tôi -làm_tăng -làm_tại -làm_tắp_lự -làm_vì -làm_đúng -làm_được -lâu -lâu_các -lâu_lâu -lâu_nay -lâu_ngày -lên -lên_cao -lên_cơn -lên_mạnh -lên_ngôi -lên_nước -lên_số -lên_xuống -lên_đến -lòng -lòng_không -lúc -lúc_khác -lúc_lâu -lúc_nào -lúc_này -lúc_sáng -lúc_trước -lúc_đi -lúc_đó -lúc_đến -lúc_ấy -lý_do -lượng -lượng_cả -lượng_số -lượng_từ -lại -lại_bộ -lại_cái -lại_còn -lại_giống -lại_làm -lại_người -lại_nói -lại_nữa -lại_quả -lại_thôi -lại_ăn -lại_đây -lấy -lấy_có -lấy_cả -lấy_giống -lấy_làm -lấy_lý_do -lấy_lại -lấy_ra -lấy_ráo -lấy_sau -lấy_số -lấy_thêm -lấy_thế -lấy_vào -lấy_xuống -lấy_được -lấy_để -lần -lần_khác -lần_lần -lần_nào -lần_này -lần_sang -lần_sau -lần_theo -lần_trước -lần_tìm -lớn -lớn_lên -lớn_nhỏ -lời -lời_chú -lời_nói -mang -mang_lại -mang_mang -mang_nặng -mang_về -muốn -mà -mà_cả -mà_không -mà_lại -mà_thôi -mà_vẫn -mình -mạnh -mất -mất_còn -mọi -mọi_giờ -mọi_khi -mọi_lúc -mọi_người -mọi_nơi -mọi_sự -mọi_thứ -mọi_việc -mối -mỗi -mỗi_lúc -mỗi_lần -mỗi_một -mỗi_ngày -mỗi_người -một -một_cách -một_cơn -một_khi -một_lúc -một_số -một_vài -một_ít -mới -mới_hay -mới_rồi -mới_đây -mở -mở_mang -mở_nước -mở_ra -mợ -mức -nay -ngay -ngay_bây_giờ -ngay_cả -ngay_khi -ngay_khi_đến -ngay_lúc -ngay_lúc_này -ngay_lập_tức -ngay_thật -ngay_tức_khắc -ngay_tức_thì -ngay_từ -nghe -nghe_chừng -nghe_hiểu -nghe_không -nghe_lại -nghe_nhìn -nghe_như -nghe_nói -nghe_ra -nghe_rõ -nghe_thấy -nghe_tin -nghe_trực_tiếp -nghe_đâu -nghe_đâu_như -nghe_được -nghen -nghiễm_nhiên -nghĩ -nghĩ_lại -nghĩ_ra -nghĩ_tới -nghĩ_xa -nghĩ_đến -nghỉm -ngoài -ngoài_này -ngoài_ra -ngoài_xa -ngoải -nguồn -ngày -ngày_càng -ngày_cấp -ngày_giờ -ngày_ngày -ngày_nào -ngày_này -ngày_nọ -ngày_qua -ngày_rày -ngày_tháng -ngày_xưa -ngày_xửa -ngày_đến -ngày_ấy -ngôi -ngôi_nhà -ngôi_thứ -ngõ_hầu -ngăn_ngắt -ngươi -người -người_hỏi -người_khác -người_khách -người_mình -người_nghe -người_người -người_nhận -ngọn -ngọn_nguồn -ngọt -ngồi -ngồi_bệt -ngồi_không -ngồi_sau -ngồi_trệt -ngộ_nhỡ -nhanh -nhanh_lên -nhanh_tay -nhau -nhiên_hậu -nhiều -nhiều_ít -nhiệt_liệt -nhung_nhăng -nhà -nhà_chung -nhà_khó -nhà_làm -nhà_ngoài -nhà_ngươi -nhà_tôi -nhà_việc -nhân_dịp -nhân_tiện -nhé -nhìn -nhìn_chung -nhìn_lại -nhìn_nhận -nhìn_theo -nhìn_thấy -nhìn_xuống -nhóm -nhón_nhén -như -như_ai -như_chơi -như_không -như_là -như_nhau -như_quả -như_sau -như_thường -như_thế -như_thế_nào -như_thể -như_trên -như_trước -như_tuồng -như_vậy -như_ý -nhưng -nhưng_mà -nhược_bằng -nhất -nhất_loạt -nhất_luật -nhất_là -nhất_mực -nhất_nhất -nhất_quyết -nhất_sinh -nhất_thiết -nhất_thì -nhất_tâm -nhất_tề -nhất_đán -nhất_định -nhận -nhận_biết -nhận_họ -nhận_làm -nhận_nhau -nhận_ra -nhận_thấy -nhận_việc -nhận_được -nhằm -nhằm_khi -nhằm_lúc -nhằm_vào -nhằm_để -nhỉ -nhỏ -nhỏ_người -nhớ -nhớ_bập_bõm -nhớ_lại -nhớ_lấy -nhớ_ra -nhờ -nhờ_chuyển -nhờ_có -nhờ_nhờ -nhờ_đó -nhỡ_ra -những -những_ai -những_khi -những_là -những_lúc -những_muốn -những_như -nào -nào_cũng -nào_hay -nào_là -nào_phải -nào_đâu -nào_đó -này -này_nọ -nên -nên_chi -nên_chăng -nên_làm -nên_người -nên_tránh -nó -nóc -nói -nói_bông -nói_chung -nói_khó -nói_là -nói_lên -nói_lại -nói_nhỏ -nói_phải -nói_qua -nói_ra -nói_riêng -nói_rõ -nói_thêm -nói_thật -nói_toẹt -nói_trước -nói_tốt -nói_với -nói_xa -nói_ý -nói_đến -nói_đủ -năm -năm_tháng -nơi -nơi_nơi -nước -nước_bài -nước_cùng -nước_lên -nước_nặng -nước_quả -nước_xuống -nước_ăn -nước_đến -nấy -nặng -nặng_căn -nặng_mình -nặng_về -nếu -nếu_có -nếu_cần -nếu_không -nếu_mà -nếu_như -nếu_thế -nếu_vậy -nếu_được -nền -nọ -nớ -nức_nở -nữa -nữa_khi -nữa_là -nữa_rồi -oai_oái -oái -pho -phè -phè_phè -phía -phía_bên -phía_bạn -phía_dưới -phía_sau -phía_trong -phía_trên -phía_trước -phóc -phót -phù_hợp -phăn_phắt -phương_chi -phải -phải_biết -phải_chi -phải_chăng -phải_cách -phải_cái -phải_giờ -phải_khi -phải_không -phải_lại -phải_lời -phải_người -phải_như -phải_rồi -phải_tay -phần -phần_lớn -phần_nhiều -phần_nào -phần_sau -phần_việc -phắt -phỉ_phui -phỏng -phỏng_như -phỏng_nước -phỏng_theo -phỏng_tính -phốc -phụt -phứt -qua -qua_chuyện -qua_khỏi -qua_lại -qua_lần -qua_ngày -qua_tay -qua_thì -qua_đi -quan_trọng -quan_trọng_vấn_đề -quan_tâm -quay -quay_bước -quay_lại -quay_số -quay_đi -quá -quá_bán -quá_bộ -quá_giờ -quá_lời -quá_mức -quá_nhiều -quá_tay -quá_thì -quá_tin -quá_trình -quá_tuổi -quá_đáng -quá_ư -quả -quả_là -quả_thật -quả_thế -quả_vậy -quận -ra -ra_bài -ra_bộ -ra_chơi -ra_gì -ra_lại -ra_lời -ra_ngôi -ra_người -ra_sao -ra_tay -ra_vào -ra_ý -ra_điều -ra_đây -ren_rén -riu_ríu -riêng -riêng_từng -riệt -rày -ráo -ráo_cả -ráo_nước -ráo_trọi -rén -rén_bước -rích -rón_rén -rõ -rõ_là -rõ_thật -rút_cục -răng -răng_răng -rất -rất_lâu -rằng -rằng_là -rốt_cuộc -rốt_cục -rồi -rồi_nữa -rồi_ra -rồi_sao -rồi_sau -rồi_tay -rồi_thì -rồi_xem -rồi_đây -rứa -sa_sả -sang -sang_năm -sang_sáng -sang_tay -sao -sao_bản -sao_bằng -sao_cho -sao_vậy -sao_đang -sau -sau_chót -sau_cuối -sau_cùng -sau_hết -sau_này -sau_nữa -sau_sau -sau_đây -sau_đó -so -so_với -song_le -suýt -suýt_nữa -sáng -sáng_ngày -sáng_rõ -sáng_thế -sáng_ý -sì -sì_sì -sất -sắp -sắp_đặt -sẽ -sẽ_biết -sẽ_hay -số -số_cho_biết -số_cụ_thể -số_loại -số_là -số_người -số_phần -số_thiếu -sốt_sột -sớm -sớm_ngày -sở_dĩ -sử_dụng -sự -sự_thế -sự_việc -tanh -tanh_tanh -tay -tay_quay -tha_hồ -tha_hồ_chơi -tha_hồ_ăn -than_ôi -thanh -thanh_ba -thanh_chuyển -thanh_không -thanh_thanh -thanh_tính -thanh_điều_kiện -thanh_điểm -thay_đổi -thay_đổi_tình_trạng -theo -theo_bước -theo_như -theo_tin -thi_thoảng -thiếu -thiếu_gì -thiếu_điểm -thoạt -thoạt_nghe -thoạt_nhiên -thoắt -thuần -thuần_ái -thuộc -thuộc_bài -thuộc_cách -thuộc_lại -thuộc_từ -thà -thà_là -thà_rằng -thành_ra -thành_thử -thái_quá -tháng -tháng_ngày -tháng_năm -tháng_tháng -thêm -thêm_chuyện -thêm_giờ -thêm_vào -thì -thì_giờ -thì_là -thì_phải -thì_ra -thì_thôi -thình_lình -thích -thích_cứ -thích_thuộc -thích_tự -thích_ý -thím -thôi -thôi_việc -thúng_thắng -thương_ôi -thường -thường_bị -thường_hay -thường_khi -thường_số -thường_sự -thường_thôi -thường_thường -thường_tính -thường_tại -thường_xuất_hiện -thường_đến -thảo_hèn -thảo_nào -thấp -thấp_cơ -thấp_thỏm -thấp_xuống -thấy -thấy_tháng -thẩy -thậm -thậm_chí -thậm_cấp -thậm_từ -thật -thật_chắc -thật_là -thật_lực -thật_quả -thật_ra -thật_sự -thật_thà -thật_tốt -thật_vậy -thế -thế_chuẩn_bị -thế_là -thế_lại -thế_mà -thế_nào -thế_nên -thế_ra -thế_sự -thế_thì -thế_thôi -thế_thường -thế_thế -thế_à -thế_đó -thếch -thỉnh_thoảng -thỏm -thốc -thốc_tháo -thốt -thốt_nhiên -thốt_nói -thốt_thôi -thộc -thời_gian -thời_gian_sử_dụng -thời_gian_tính -thời_điểm -thục_mạng -thứ -thứ_bản -thứ_đến -thửa -thực_hiện -thực_hiện_đúng -thực_ra -thực_sự -thực_tế -thực_vậy -tin -tin_thêm -tin_vào -tiếp_theo -tiếp_tục -tiếp_đó -tiện_thể -toà -toé_khói -toẹt -trong -trong_khi -trong_lúc -trong_mình -trong_ngoài -trong_này -trong_số -trong_vùng -trong_đó -trong_ấy -tránh -tránh_khỏi -tránh_ra -tránh_tình_trạng -tránh_xa -trên -trên_bộ -trên_dưới -trước -trước_hết -trước_khi -trước_kia -trước_nay -trước_ngày -trước_nhất -trước_sau -trước_tiên -trước_tuổi -trước_đây -trước_đó -trả -trả_của -trả_lại -trả_ngay -trả_trước -trếu_tráo -trển -trệt -trệu_trạo -trỏng -trời_đất_ơi -trở_thành -trừ_phi -trực_tiếp -trực_tiếp_làm -tuy -tuy_có -tuy_là -tuy_nhiên -tuy_rằng -tuy_thế -tuy_vậy -tuy_đã -tuyệt_nhiên -tuần_tự -tuốt_luốt -tuốt_tuồn_tuột -tuốt_tuột -tuổi -tuổi_cả -tuổi_tôi -tà_tà -tên -tên_chính -tên_cái -tên_họ -tên_tự -tênh -tênh_tênh -tìm -tìm_bạn -tìm_cách -tìm_hiểu -tìm_ra -tìm_việc -tình_trạng -tính -tính_cách -tính_căn -tính_người -tính_phỏng -tính_từ -tít_mù -tò_te -tôi -tôi_con -tông_tốc -tù_tì -tăm_tắp -tăng -tăng_chúng -tăng_cấp -tăng_giảm -tăng_thêm -tăng_thế -tại -tại_lòng -tại_nơi -tại_sao -tại_tôi -tại_vì -tại_đâu -tại_đây -tại_đó -tạo -tạo_cơ_hội -tạo_nên -tạo_ra -tạo_ý -tạo_điều_kiện -tấm -tấm_bản -tấm_các -tấn -tấn_tới -tất_cả -tất_cả_bao_nhiêu -tất_thảy -tất_tần_tật -tất_tật -tập_trung -tắp -tắp_lự -tắp_tắp -tọt -tỏ_ra -tỏ_vẻ -tốc_tả -tối_ư -tốt -tốt_bạn -tốt_bộ -tốt_hơn -tốt_mối -tốt_ngày -tột -tột_cùng -tớ -tới -tới_gần -tới_mức -tới_nơi -tới_thì -tức_thì -tức_tốc -từ -từ_căn -từ_giờ -từ_khi -từ_loại -từ_nay -từ_thế -từ_tính -từ_tại -từ_từ -từ_ái -từ_điều -từ_đó -từ_ấy -từng -từng_cái -từng_giờ -từng_nhà -từng_phần -từng_thời_gian -từng_đơn_vị -từng_ấy -tự -tự_cao -tự_khi -tự_lượng -tự_tính -tự_tạo -tự_vì -tự_ý -tự_ăn -tựu_trung -veo -veo_veo -việc -việc_gì -vung_thiên_địa -vung_tàn_tán -vung_tán_tàn -và -vài -vài_ba -vài_người -vài_nhà -vài_nơi -vài_tên -vài_điều -vào -vào_gặp -vào_khoảng -vào_lúc -vào_vùng -vào_đến -vâng -vâng_chịu -vâng_dạ -vâng_vâng -vâng_ý -vèo -vèo_vèo -vì -vì_chưng -vì_rằng -vì_sao -vì_thế -vì_vậy -ví_bằng -ví_dù -ví_phỏng -ví_thử -vô_hình_trung -vô_kể -vô_luận -vô_vàn -vùng -vùng_lên -vùng_nước -văng_tê -vượt -vượt_khỏi -vượt_quá -vạn_nhất -vả_chăng -vả_lại -vấn_đề -vấn_đề_quan_trọng -vẫn -vẫn_thế -vậy -vậy_là -vậy_mà -vậy_nên -vậy_ra -vậy_thì -vậy_ư -về -về_không -về_nước -về_phần -về_sau -về_tay -vị_trí -vị_tất -vốn_dĩ -với -với_lại -với_nhau -vở -vụt -vừa -vừa_khi -vừa_lúc -vừa_mới -vừa_qua -vừa_rồi -vừa_vừa -xa -xa_cách -xa_gần -xa_nhà -xa_tanh -xa_tắp -xa_xa -xa_xả -xem -xem_lại -xem_ra -xem_số -xin -xin_gặp -xin_vâng -xiết_bao -xon_xón -xoành_xoạch -xoét -xoẳn -xoẹt -xuất_hiện -xuất_kì_bất_ý -xuất_kỳ_bất_ý -xuể -xuống -xăm_xúi -xăm_xăm -xăm_xắm -xảy_ra -xềnh_xệch -xệp -xử_lý -yêu_cầu -à -à_này -à_ơi -ào -ào_vào -ào_ào -á -á_à -ái -ái_chà -ái_dà -áng -áng_như -âu_là -ít -ít_biết -ít_có -ít_hơn -ít_khi -ít_lâu -ít_nhiều -ít_nhất -ít_nữa -ít_quá -ít_ra -ít_thôi -ít_thấy -ô_hay -ô_hô -ô_kê -ô_kìa -ôi_chao -ôi_thôi -ông -ông_nhỏ -ông_tạo -ông_từ -ông_ấy -ông_ổng -úi -úi_chà -úi_dào -ý -ý_chừng -ý_da -ý_hoặc -ăn -ăn_chung -ăn_chắc -ăn_chịu -ăn_cuộc -ăn_hết -ăn_hỏi -ăn_làm -ăn_người -ăn_ngồi -ăn_quá -ăn_riêng -ăn_sáng -ăn_tay -ăn_trên -ăn_về -đang -đang_tay -đang_thì -điều -điều_gì -điều_kiện -điểm -điểm_chính -điểm_gặp -điểm_đầu_tiên -đành_đạch -đáng -đáng_kể -đáng_lí -đáng_lý -đáng_lẽ -đáng_số -đánh_giá -đánh_đùng -đáo_để -đâu -đâu_có -đâu_cũng -đâu_như -đâu_nào -đâu_phải -đâu_đâu -đâu_đây -đâu_đó -đây -đây_này -đây_rồi -đây_đó -đã -đã_hay -đã_không -đã_là -đã_lâu -đã_thế -đã_vậy -đã_đủ -đó -đó_đây -đúng -đúng_ngày -đúng_ra -đúng_tuổi -đúng_với -đơn_vị -đưa -đưa_cho -đưa_chuyện -đưa_em -đưa_ra -đưa_tay -đưa_tin -đưa_tới -đưa_vào -đưa_về -đưa_xuống -đưa_đến -được -được_cái -được_lời -được_nước -được_tin -đại_loại -đại_nhân -đại_phàm -đại_để -đạt -đảm_bảo -đầu_tiên -đầy -đầy_năm -đầy_phè -đầy_tuổi -đặc_biệt -đặt -đặt_làm -đặt_mình -đặt_mức -đặt_ra -đặt_trước -đặt_để -đến -đến_bao_giờ -đến_cùng -đến_cùng_cực -đến_cả -đến_giờ -đến_gần -đến_hay -đến_khi -đến_lúc -đến_lời -đến_nay -đến_ngày -đến_nơi -đến_nỗi -đến_thì -đến_thế -đến_tuổi -đến_xem -đến_điều -đến_đâu -đều -đều_bước -đều_nhau -đều_đều -để -để_cho -để_giống -để_không -để_lòng -để_lại -để_mà -để_phần -để_được -để_đến_nỗi -đối_với -đồng_thời -đủ -đủ_dùng -đủ_nơi -đủ_số -đủ_điều -đủ_điểm -ơ -ơ_hay -ơ_kìa -ơi -ơi_là -ư -ạ -ạ_ơi -ấy -ấy_là -ầu_ơ -ắt -ắt_hẳn -ắt_là -ắt_phải -ắt_thật -ối_dào -ối_giời -ối_giời_ơi -ồ -ồ_ồ -ổng -ớ -ớ_này -ờ -ờ_ờ -ở -ở_lại -ở_như -ở_nhờ -ở_năm -ở_trên -ở_vào -ở_đây -ở_đó -ở_được -ủa -ứ_hự -ứ_ừ -ừ -ừ_nhé -ừ_thì -ừ_ào -ừ_ừ -ử -""".split( - "\n" - ) -) diff --git a/spacy/lang/yo/__init__.py b/spacy/lang/yo/__init__.py index 6c38ec8af..499c43c34 100644 --- a/spacy/lang/yo/__init__.py +++ b/spacy/lang/yo/__init__.py @@ -1,11 +1,9 @@ -from .stop_words import STOP_WORDS from .lex_attrs import LEX_ATTRS from ...language import Language, BaseDefaults class YorubaDefaults(BaseDefaults): lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS class Yoruba(Language): diff --git a/spacy/lang/yo/stop_words.py b/spacy/lang/yo/stop_words.py deleted file mode 100644 index 5c7a7fc45..000000000 --- a/spacy/lang/yo/stop_words.py +++ /dev/null @@ -1,9 +0,0 @@ -# stop words as whitespace-separated list. -# Source: https://raw.githubusercontent.com/dohliam/more-stoplists/master/yo/yo.txt - -STOP_WORDS = set( - "a an b bá bí bẹ̀rẹ̀ d e f fún fẹ́ g gbogbo i inú j jù jẹ jẹ́ k kan kì kí kò " - "l láti lè lọ m mi mo máa mọ̀ n ni náà ní nígbà nítorí nǹkan o p padà pé " - "púpọ̀ pẹ̀lú r rẹ̀ s sì sí sínú t ti tí u w wà wá wọn wọ́n y yìí à àti àwọn á " - "è é ì í ò òun ó ù ú ń ńlá ǹ ̀ ́ ̣ ṣ ṣe ṣé ṣùgbọ́n ẹ ẹmọ́ ọ ọjọ́ ọ̀pọ̀lọpọ̀".split() -) diff --git a/spacy/lang/zh/__init__.py b/spacy/lang/zh/__init__.py index fdf6776e2..9a5cf1df4 100644 --- a/spacy/lang/zh/__init__.py +++ b/spacy/lang/zh/__init__.py @@ -13,7 +13,6 @@ from ...training import validate_examples, Example from ...util import DummyTokenizer, registry, load_config_from_str from ...vocab import Vocab from .lex_attrs import LEX_ATTRS -from .stop_words import STOP_WORDS from ... import util @@ -286,7 +285,6 @@ class ChineseTokenizer(DummyTokenizer): class ChineseDefaults(BaseDefaults): config = load_config_from_str(DEFAULT_CONFIG) lex_attr_getters = LEX_ATTRS - stop_words = STOP_WORDS writing_system = {"direction": "ltr", "has_case": False, "has_letters": False} diff --git a/spacy/lang/zh/stop_words.py b/spacy/lang/zh/stop_words.py deleted file mode 100644 index 42ae4a1de..000000000 --- a/spacy/lang/zh/stop_words.py +++ /dev/null @@ -1,1899 +0,0 @@ -# stop words as whitespace-separated list -# Chinese stop words,maybe not enough -STOP_WORDS = set( - """ -! -" -# -$ -% -& -' -( -) -* -+ -, -- --- -. -.. -... -...... -................... -./ -.一 -.数 -.日 -/ -// -0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -: -:// -:: -; -< -= -> ->> -? -@ -A -Lex -[ -\ -] -^ -_ -` -exp -sub -sup -| -} -~ -~~~~ -· -× -××× -Δ -Ψ -γ -μ -φ -φ. -В -— -—— -——— -‘ -’ -’‘ -“ -” -”, -… -…… -…………………………………………………③ -′∈ -′| -℃ -Ⅲ -↑ -→ -∈[ -∪φ∈ -≈ -① -② -②c -③ -③] -④ -⑤ -⑥ -⑦ -⑧ -⑨ -⑩ -── -■ -▲ -  -、 -。 -〈 -〉 -《 -》 -》), -」 -『 -』 -【 -】 -〔 -〕 -〕〔 -㈧ -一 -一. -一一 -一下 -一个 -一些 -一何 -一切 -一则 -一则通过 -一天 -一定 -一方面 -一旦 -一时 -一来 -一样 -一次 -一片 -一番 -一直 -一致 -一般 -一起 -一转眼 -一边 -一面 -七 -万一 -三 -三天两头 -三番两次 -三番五次 -上 -上下 -上升 -上去 -上来 -上述 -上面 -下 -下列 -下去 -下来 -下面 -不 -不一 -不下 -不久 -不了 -不亦乐乎 -不仅 -不仅...而且 -不仅仅 -不仅仅是 -不会 -不但 -不但...而且 -不光 -不免 -不再 -不力 -不单 -不变 -不只 -不可 -不可开交 -不可抗拒 -不同 -不外 -不外乎 -不够 -不大 -不如 -不妨 -不定 -不对 -不少 -不尽 -不尽然 -不巧 -不已 -不常 -不得 -不得不 -不得了 -不得已 -不必 -不怎么 -不怕 -不惟 -不成 -不拘 -不择手段 -不敢 -不料 -不断 -不日 -不时 -不是 -不曾 -不止 -不止一次 -不比 -不消 -不满 -不然 -不然的话 -不特 -不独 -不由得 -不知不觉 -不管 -不管怎样 -不经意 -不胜 -不能 -不能不 -不至于 -不若 -不要 -不论 -不起 -不足 -不过 -不迭 -不问 -不限 -与 -与其 -与其说 -与否 -与此同时 -专门 -且 -且不说 -且说 -两者 -严格 -严重 -个 -个人 -个别 -中小 -中间 -丰富 -串行 -临 -临到 -为 -为主 -为了 -为什么 -为什麽 -为何 -为止 -为此 -为着 -主张 -主要 -举凡 -举行 -乃 -乃至 -乃至于 -么 -之 -之一 -之前 -之后 -之後 -之所以 -之类 -乌乎 -乎 -乒 -乘 -乘势 -乘机 -乘胜 -乘虚 -乘隙 -九 -也 -也好 -也就是说 -也是 -也罢 -了 -了解 -争取 -二 -二来 -二话不说 -二话没说 -于 -于是 -于是乎 -云云 -云尔 -互 -互相 -五 -些 -交口 -亦 -产生 -亲口 -亲手 -亲眼 -亲自 -亲身 -人 -人人 -人们 -人家 -人民 -什么 -什么样 -什麽 -仅 -仅仅 -今 -今后 -今天 -今年 -今後 -介于 -仍 -仍旧 -仍然 -从 -从不 -从严 -从中 -从事 -从今以后 -从优 -从古到今 -从古至今 -从头 -从宽 -从小 -从新 -从无到有 -从早到晚 -从未 -从来 -从此 -从此以后 -从而 -从轻 -从速 -从重 -他 -他人 -他们 -他是 -他的 -代替 -以 -以上 -以下 -以为 -以便 -以免 -以前 -以及 -以后 -以外 -以後 -以故 -以期 -以来 -以至 -以至于 -以致 -们 -任 -任何 -任凭 -任务 -企图 -伙同 -会 -伟大 -传 -传说 -传闻 -似乎 -似的 -但 -但凡 -但愿 -但是 -何 -何乐而不为 -何以 -何况 -何处 -何妨 -何尝 -何必 -何时 -何止 -何苦 -何须 -余外 -作为 -你 -你们 -你是 -你的 -使 -使得 -使用 -例如 -依 -依据 -依照 -依靠 -便 -便于 -促进 -保持 -保管 -保险 -俺 -俺们 -倍加 -倍感 -倒不如 -倒不如说 -倒是 -倘 -倘使 -倘或 -倘然 -倘若 -借 -借以 -借此 -假使 -假如 -假若 -偏偏 -做到 -偶尔 -偶而 -傥然 -像 -儿 -允许 -元/吨 -充其极 -充其量 -充分 -先不先 -先后 -先後 -先生 -光 -光是 -全体 -全力 -全年 -全然 -全身心 -全部 -全都 -全面 -八 -八成 -公然 -六 -兮 -共 -共同 -共总 -关于 -其 -其一 -其中 -其二 -其他 -其余 -其后 -其它 -其实 -其次 -具体 -具体地说 -具体来说 -具体说来 -具有 -兼之 -内 -再 -再其次 -再则 -再有 -再次 -再者 -再者说 -再说 -冒 -冲 -决不 -决定 -决非 -况且 -准备 -凑巧 -凝神 -几 -几乎 -几度 -几时 -几番 -几经 -凡 -凡是 -凭 -凭借 -出 -出于 -出去 -出来 -出现 -分别 -分头 -分期 -分期分批 -切 -切不可 -切切 -切勿 -切莫 -则 -则甚 -刚 -刚好 -刚巧 -刚才 -初 -别 -别人 -别处 -别是 -别的 -别管 -别说 -到 -到了儿 -到处 -到头 -到头来 -到底 -到目前为止 -前后 -前此 -前者 -前进 -前面 -加上 -加之 -加以 -加入 -加强 -动不动 -动辄 -勃然 -匆匆 -十分 -千 -千万 -千万千万 -半 -单 -单单 -单纯 -即 -即令 -即使 -即便 -即刻 -即如 -即将 -即或 -即是说 -即若 -却 -却不 -历 -原来 -去 -又 -又及 -及 -及其 -及时 -及至 -双方 -反之 -反之亦然 -反之则 -反倒 -反倒是 -反应 -反手 -反映 -反而 -反过来 -反过来说 -取得 -取道 -受到 -变成 -古来 -另 -另一个 -另一方面 -另外 -另悉 -另方面 -另行 -只 -只当 -只怕 -只是 -只有 -只消 -只要 -只限 -叫 -叫做 -召开 -叮咚 -叮当 -可 -可以 -可好 -可是 -可能 -可见 -各 -各个 -各人 -各位 -各地 -各式 -各种 -各级 -各自 -合理 -同 -同一 -同时 -同样 -后 -后来 -后者 -后面 -向 -向使 -向着 -吓 -吗 -否则 -吧 -吧哒 -吱 -呀 -呃 -呆呆地 -呐 -呕 -呗 -呜 -呜呼 -呢 -周围 -呵 -呵呵 -呸 -呼哧 -呼啦 -咋 -和 -咚 -咦 -咧 -咱 -咱们 -咳 -哇 -哈 -哈哈 -哉 -哎 -哎呀 -哎哟 -哗 -哗啦 -哟 -哦 -哩 -哪 -哪个 -哪些 -哪儿 -哪天 -哪年 -哪怕 -哪样 -哪边 -哪里 -哼 -哼唷 -唉 -唯有 -啊 -啊呀 -啊哈 -啊哟 -啐 -啥 -啦 -啪达 -啷当 -喀 -喂 -喏 -喔唷 -喽 -嗡 -嗡嗡 -嗬 -嗯 -嗳 -嘎 -嘎嘎 -嘎登 -嘘 -嘛 -嘻 -嘿 -嘿嘿 -四 -因 -因为 -因了 -因此 -因着 -因而 -固 -固然 -在 -在下 -在于 -地 -均 -坚决 -坚持 -基于 -基本 -基本上 -处在 -处处 -处理 -复杂 -多 -多么 -多亏 -多多 -多多少少 -多多益善 -多少 -多年前 -多年来 -多数 -多次 -够瞧的 -大 -大不了 -大举 -大事 -大体 -大体上 -大凡 -大力 -大多 -大多数 -大大 -大家 -大张旗鼓 -大批 -大抵 -大概 -大略 -大约 -大致 -大都 -大量 -大面儿上 -失去 -奇 -奈 -奋勇 -她 -她们 -她是 -她的 -好 -好在 -好的 -好象 -如 -如上 -如上所述 -如下 -如今 -如何 -如其 -如前所述 -如同 -如常 -如是 -如期 -如果 -如次 -如此 -如此等等 -如若 -始而 -姑且 -存在 -存心 -孰料 -孰知 -宁 -宁可 -宁愿 -宁肯 -它 -它们 -它们的 -它是 -它的 -安全 -完全 -完成 -定 -实现 -实际 -宣布 -容易 -密切 -对 -对于 -对应 -对待 -对方 -对比 -将 -将才 -将要 -将近 -小 -少数 -尔 -尔后 -尔尔 -尔等 -尚且 -尤其 -就 -就地 -就是 -就是了 -就是说 -就此 -就算 -就要 -尽 -尽可能 -尽如人意 -尽心尽力 -尽心竭力 -尽快 -尽早 -尽然 -尽管 -尽管如此 -尽量 -局外 -居然 -届时 -属于 -屡 -屡屡 -屡次 -屡次三番 -岂 -岂但 -岂止 -岂非 -川流不息 -左右 -巨大 -巩固 -差一点 -差不多 -己 -已 -已矣 -已经 -巴 -巴巴 -带 -帮助 -常 -常常 -常言说 -常言说得好 -常言道 -平素 -年复一年 -并 -并不 -并不是 -并且 -并排 -并无 -并没 -并没有 -并肩 -并非 -广大 -广泛 -应当 -应用 -应该 -庶乎 -庶几 -开外 -开始 -开展 -引起 -弗 -弹指之间 -强烈 -强调 -归 -归根到底 -归根结底 -归齐 -当 -当下 -当中 -当儿 -当前 -当即 -当口儿 -当地 -当场 -当头 -当庭 -当时 -当然 -当真 -当着 -形成 -彻夜 -彻底 -彼 -彼时 -彼此 -往 -往往 -待 -待到 -很 -很多 -很少 -後来 -後面 -得 -得了 -得出 -得到 -得天独厚 -得起 -心里 -必 -必定 -必将 -必然 -必要 -必须 -快 -快要 -忽地 -忽然 -怎 -怎么 -怎么办 -怎么样 -怎奈 -怎样 -怎麽 -怕 -急匆匆 -怪 -怪不得 -总之 -总是 -总的来看 -总的来说 -总的说来 -总结 -总而言之 -恍然 -恐怕 -恰似 -恰好 -恰如 -恰巧 -恰恰 -恰恰相反 -恰逢 -您 -您们 -您是 -惟其 -惯常 -意思 -愤然 -愿意 -慢说 -成为 -成年 -成年累月 -成心 -我 -我们 -我是 -我的 -或 -或则 -或多或少 -或是 -或曰 -或者 -或许 -战斗 -截然 -截至 -所 -所以 -所在 -所幸 -所有 -所谓 -才 -才能 -扑通 -打 -打从 -打开天窗说亮话 -扩大 -把 -抑或 -抽冷子 -拦腰 -拿 -按 -按时 -按期 -按照 -按理 -按说 -挨个 -挨家挨户 -挨次 -挨着 -挨门挨户 -挨门逐户 -换句话说 -换言之 -据 -据实 -据悉 -据我所知 -据此 -据称 -据说 -掌握 -接下来 -接着 -接著 -接连不断 -放量 -故 -故意 -故此 -故而 -敞开儿 -敢 -敢于 -敢情 -数/ -整个 -断然 -方 -方便 -方才 -方能 -方面 -旁人 -无 -无宁 -无法 -无论 -既 -既...又 -既往 -既是 -既然 -日复一日 -日渐 -日益 -日臻 -日见 -时候 -昂然 -明显 -明确 -是 -是不是 -是以 -是否 -是的 -显然 -显著 -普通 -普遍 -暗中 -暗地里 -暗自 -更 -更为 -更加 -更进一步 -曾 -曾经 -替 -替代 -最 -最后 -最大 -最好 -最後 -最近 -最高 -有 -有些 -有关 -有利 -有力 -有及 -有所 -有效 -有时 -有点 -有的 -有的是 -有着 -有著 -望 -朝 -朝着 -末##末 -本 -本人 -本地 -本着 -本身 -权时 -来 -来不及 -来得及 -来看 -来着 -来自 -来讲 -来说 -极 -极为 -极了 -极其 -极力 -极大 -极度 -极端 -构成 -果然 -果真 -某 -某个 -某些 -某某 -根据 -根本 -格外 -梆 -概 -次第 -欢迎 -欤 -正值 -正在 -正如 -正巧 -正常 -正是 -此 -此中 -此后 -此地 -此处 -此外 -此时 -此次 -此间 -殆 -毋宁 -每 -每个 -每天 -每年 -每当 -每时每刻 -每每 -每逢 -比 -比及 -比如 -比如说 -比方 -比照 -比起 -比较 -毕竟 -毫不 -毫无 -毫无例外 -毫无保留地 -汝 -沙沙 -没 -没奈何 -没有 -沿 -沿着 -注意 -活 -深入 -清楚 -满 -满足 -漫说 -焉 -然 -然则 -然后 -然後 -然而 -照 -照着 -牢牢 -特别是 -特殊 -特点 -犹且 -犹自 -独 -独自 -猛然 -猛然间 -率尔 -率然 -现代 -现在 -理应 -理当 -理该 -瑟瑟 -甚且 -甚么 -甚或 -甚而 -甚至 -甚至于 -用 -用来 -甫 -甭 -由 -由于 -由是 -由此 -由此可见 -略 -略为 -略加 -略微 -白 -白白 -的 -的确 -的话 -皆可 -目前 -直到 -直接 -相似 -相信 -相反 -相同 -相对 -相对而言 -相应 -相当 -相等 -省得 -看 -看上去 -看出 -看到 -看来 -看样子 -看看 -看见 -看起来 -真是 -真正 -眨眼 -着 -着呢 -矣 -矣乎 -矣哉 -知道 -砰 -确定 -碰巧 -社会主义 -离 -种 -积极 -移动 -究竟 -穷年累月 -突出 -突然 -窃 -立 -立刻 -立即 -立地 -立时 -立马 -竟 -竟然 -竟而 -第 -第二 -等 -等到 -等等 -策略地 -简直 -简而言之 -简言之 -管 -类如 -粗 -精光 -紧接着 -累年 -累次 -纯 -纯粹 -纵 -纵令 -纵使 -纵然 -练习 -组成 -经 -经常 -经过 -结合 -结果 -给 -绝 -绝不 -绝对 -绝非 -绝顶 -继之 -继后 -继续 -继而 -维持 -综上所述 -缕缕 -罢了 -老 -老大 -老是 -老老实实 -考虑 -者 -而 -而且 -而况 -而又 -而后 -而外 -而已 -而是 -而言 -而论 -联系 -联袂 -背地里 -背靠背 -能 -能否 -能够 -腾 -自 -自个儿 -自从 -自各儿 -自后 -自家 -自己 -自打 -自身 -臭 -至 -至于 -至今 -至若 -致 -般的 -良好 -若 -若夫 -若是 -若果 -若非 -范围 -莫 -莫不 -莫不然 -莫如 -莫若 -莫非 -获得 -藉以 -虽 -虽则 -虽然 -虽说 -蛮 -行为 -行动 -表明 -表示 -被 -要 -要不 -要不是 -要不然 -要么 -要是 -要求 -见 -规定 -觉得 -譬喻 -譬如 -认为 -认真 -认识 -让 -许多 -论 -论说 -设使 -设或 -设若 -诚如 -诚然 -话说 -该 -该当 -说明 -说来 -说说 -请勿 -诸 -诸位 -诸如 -谁 -谁人 -谁料 -谁知 -谨 -豁然 -贼死 -赖以 -赶 -赶快 -赶早不赶晚 -起 -起先 -起初 -起头 -起来 -起见 -起首 -趁 -趁便 -趁势 -趁早 -趁机 -趁热 -趁着 -越是 -距 -跟 -路经 -转动 -转变 -转贴 -轰然 -较 -较为 -较之 -较比 -边 -达到 -达旦 -迄 -迅速 -过 -过于 -过去 -过来 -运用 -近 -近几年来 -近年来 -近来 -还 -还是 -还有 -还要 -这 -这一来 -这个 -这么 -这么些 -这么样 -这么点儿 -这些 -这会儿 -这儿 -这就是说 -这时 -这样 -这次 -这点 -这种 -这般 -这边 -这里 -这麽 -进入 -进去 -进来 -进步 -进而 -进行 -连 -连同 -连声 -连日 -连日来 -连袂 -连连 -迟早 -迫于 -适应 -适当 -适用 -逐步 -逐渐 -通常 -通过 -造成 -逢 -遇到 -遭到 -遵循 -遵照 -避免 -那 -那个 -那么 -那么些 -那么样 -那些 -那会儿 -那儿 -那时 -那末 -那样 -那般 -那边 -那里 -那麽 -部分 -都 -鄙人 -采取 -里面 -重大 -重新 -重要 -鉴于 -针对 -长期以来 -长此下去 -长线 -长话短说 -问题 -间或 -防止 -阿 -附近 -陈年 -限制 -陡然 -除 -除了 -除却 -除去 -除外 -除开 -除此 -除此之外 -除此以外 -除此而外 -除非 -随 -随后 -随时 -随着 -随著 -隔夜 -隔日 -难得 -难怪 -难说 -难道 -难道说 -集中 -零 -需要 -非但 -非常 -非徒 -非得 -非特 -非独 -靠 -顶多 -顷 -顷刻 -顷刻之间 -顷刻间 -顺 -顺着 -顿时 -颇 -风雨无阻 -饱 -首先 -马上 -高低 -高兴 -默然 -默默地 -齐 -︿ -! -# -$ -% -& -' -( -) -)÷(1- -)、 -* -+ -+ξ -++ -, -,也 -- --β --- --[*]- -. -/ -0 -0:2 -1 -1. -12% -2 -2.3% -3 -4 -5 -5:0 -6 -7 -8 -9 -: -; -< -<± -<Δ -<λ -<φ -<< -= -=″ -=☆ -=( -=- -=[ -={ -> ->λ -? -@ -A -LI -R.L. -ZXFITL -[ -[①①] -[①②] -[①③] -[①④] -[①⑤] -[①⑥] -[①⑦] -[①⑧] -[①⑨] -[①A] -[①B] -[①C] -[①D] -[①E] -[①] -[①a] -[①c] -[①d] -[①e] -[①f] -[①g] -[①h] -[①i] -[①o] -[② -[②①] -[②②] -[②③] -[②④ -[②⑤] -[②⑥] -[②⑦] -[②⑧] -[②⑩] -[②B] -[②G] -[②] -[②a] -[②b] -[②c] -[②d] -[②e] -[②f] -[②g] -[②h] -[②i] -[②j] -[③①] -[③⑩] -[③F] -[③] -[③a] -[③b] -[③c] -[③d] -[③e] -[③g] -[③h] -[④] -[④a] -[④b] -[④c] -[④d] -[④e] -[⑤] -[⑤]] -[⑤a] -[⑤b] -[⑤d] -[⑤e] -[⑤f] -[⑥] -[⑦] -[⑧] -[⑨] -[⑩] -[*] -[- -[] -] -]∧′=[ -][ -_ -a] -b] -c] -e] -f] -ng昉 -{ -{- -| -} -}> -~ -~± -~+ -¥ -""".split() -) diff --git a/spacy/tests/doc/test_token_api.py b/spacy/tests/doc/test_token_api.py index e715c5e85..0ebf7dc59 100644 --- a/spacy/tests/doc/test_token_api.py +++ b/spacy/tests/doc/test_token_api.py @@ -43,7 +43,6 @@ def test_doc_token_api_flags(en_tokenizer): assert tokens[0].check_flag(IS_TITLE) assert tokens[1].check_flag(IS_LOWER) assert tokens[3].check_flag(IS_PUNCT) - assert tokens[2].check_flag(IS_STOP) assert not tokens[5].check_flag(IS_STOP) # TODO: Test more of these, esp. if a bug is found diff --git a/spacy/tests/lang/ar/test_text.py b/spacy/tests/lang/ar/test_text.py index c5ab376f1..23d1a6acf 100644 --- a/spacy/tests/lang/ar/test_text.py +++ b/spacy/tests/lang/ar/test_text.py @@ -5,5 +5,4 @@ def test_ar_tokenizer_handles_long_text(ar_tokenizer): و قد نجح في الحصول على جائزة نوبل للآداب، ليكون بذلك العربي الوحيد الذي فاز بها.""" tokens = ar_tokenizer(text) - assert tokens[3].is_stop is True assert len(tokens) == 77 diff --git a/spacy/tests/lang/en/test_tokenizer.py b/spacy/tests/lang/en/test_tokenizer.py index 0133d00b0..3b905aa72 100644 --- a/spacy/tests/lang/en/test_tokenizer.py +++ b/spacy/tests/lang/en/test_tokenizer.py @@ -161,14 +161,6 @@ def test_issue3277(es_tokenizer): assert doc[9].text == "\u2013" -@pytest.mark.parametrize("word", ["don't", "don’t", "I'd", "I’d"]) -@pytest.mark.issue(3521) -def test_issue3521(en_tokenizer, word): - tok = en_tokenizer(word)[1] - # 'not' and 'would' should be stopwords, also in their abbreviated forms - assert tok.is_stop - - @pytest.mark.issue(10699) @pytest.mark.parametrize("text", ["theses", "thisre"]) def test_issue10699(en_tokenizer, text): diff --git a/spacy/tests/lang/it/test_stopwords.py b/spacy/tests/lang/it/test_stopwords.py deleted file mode 100644 index 954913164..000000000 --- a/spacy/tests/lang/it/test_stopwords.py +++ /dev/null @@ -1,17 +0,0 @@ -import pytest - - -@pytest.mark.parametrize( - "word", ["un", "lo", "dell", "dall", "si", "ti", "mi", "quest", "quel", "quello"] -) -def test_stopwords_basic(it_tokenizer, word): - tok = it_tokenizer(word)[0] - assert tok.is_stop - - -@pytest.mark.parametrize( - "word", ["quest'uomo", "l'ho", "un'amica", "dell'olio", "s'arrende", "m'ascolti"] -) -def test_stopwords_elided(it_tokenizer, word): - tok = it_tokenizer(word)[0] - assert tok.is_stop diff --git a/spacy/tests/lang/test_attrs.py b/spacy/tests/lang/test_attrs.py index 1c27c1744..841fb9da5 100644 --- a/spacy/tests/lang/test_attrs.py +++ b/spacy/tests/lang/test_attrs.py @@ -2,7 +2,6 @@ import pytest from spacy.attrs import intify_attrs, ENT_IOB from spacy.attrs import IS_ALPHA, LEMMA, NORM, ORTH, intify_attrs -from spacy.lang.en.stop_words import STOP_WORDS from spacy.lang.lex_attrs import is_ascii, is_currency, is_punct, is_stop from spacy.lang.lex_attrs import like_url, word_shape @@ -10,7 +9,8 @@ from spacy.lang.lex_attrs import like_url, word_shape @pytest.mark.parametrize("word", ["the"]) @pytest.mark.issue(1889) def test_issue1889(word): - assert is_stop(word, STOP_WORDS) == is_stop(word.upper(), STOP_WORDS) + stop_words = set(["a", "an", "the"]) + assert is_stop(word, stop_words) == is_stop(word.upper(), stop_words) @pytest.mark.parametrize("text", ["dog"]) diff --git a/spacy/tests/matcher/test_matcher_api.py b/spacy/tests/matcher/test_matcher_api.py index 636b07cbb..401c4a4dd 100644 --- a/spacy/tests/matcher/test_matcher_api.py +++ b/spacy/tests/matcher/test_matcher_api.py @@ -552,7 +552,6 @@ def test_attr_pipeline_checks(en_vocab): ([{"IS_QUOTE": True}], '"'), ([{"IS_LEFT_PUNCT": True}], "``"), ([{"IS_RIGHT_PUNCT": True}], "''"), - ([{"IS_STOP": True}], "the"), ([{"SPACY": True}], "the"), ([{"LIKE_NUM": True}], "1"), ([{"LIKE_URL": True}], "http://example.com"), diff --git a/website/docs/usage/spacy-101.md b/website/docs/usage/spacy-101.md index 52daf33b8..9dc752272 100644 --- a/website/docs/usage/spacy-101.md +++ b/website/docs/usage/spacy-101.md @@ -548,7 +548,7 @@ Another way of getting involved is to help us improve the [language data](/usage/linguistic-features#language-data) – especially if you happen to speak one of the languages currently in [alpha support](/usage/models#languages). Even adding simple tokenizer -exceptions, stop words or lemmatizer data can make a big difference. It will +exceptions or lexical attribute settings can make a big difference. It will also make it easier for us to provide a trained pipeline for the language in the future. Submitting a test that documents a bug or performance issue, or covers functionality that's especially important for your application is also very