mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-11 20:28:20 +03:00
2e31921d0a
* Add base classes for more languages * Add test for language class initialization Make sure language can be initialize – otherwise, it's difficult to catch serious errors in the test suite, because languages are lazy-loaded
270 lines
2.5 KiB
Python
270 lines
2.5 KiB
Python
# coding: utf8
|
||
from __future__ import unicode_literals
|
||
|
||
|
||
# Source: https://github.com/Alir3z4/stop-words
|
||
|
||
STOP_WORDS = set(
|
||
"""
|
||
а
|
||
автентичен
|
||
аз
|
||
ако
|
||
ала
|
||
бе
|
||
без
|
||
беше
|
||
би
|
||
бивш
|
||
бивша
|
||
бившо
|
||
бил
|
||
била
|
||
били
|
||
било
|
||
благодаря
|
||
близо
|
||
бъдат
|
||
бъде
|
||
бяха
|
||
в
|
||
вас
|
||
ваш
|
||
ваша
|
||
вероятно
|
||
вече
|
||
взема
|
||
ви
|
||
вие
|
||
винаги
|
||
внимава
|
||
време
|
||
все
|
||
всеки
|
||
всички
|
||
всичко
|
||
всяка
|
||
във
|
||
въпреки
|
||
върху
|
||
г
|
||
ги
|
||
главен
|
||
главна
|
||
главно
|
||
глас
|
||
го
|
||
година
|
||
години
|
||
годишен
|
||
д
|
||
да
|
||
дали
|
||
два
|
||
двама
|
||
двамата
|
||
две
|
||
двете
|
||
ден
|
||
днес
|
||
дни
|
||
до
|
||
добра
|
||
добре
|
||
добро
|
||
добър
|
||
докато
|
||
докога
|
||
дори
|
||
досега
|
||
доста
|
||
друг
|
||
друга
|
||
други
|
||
е
|
||
евтин
|
||
едва
|
||
един
|
||
една
|
||
еднаква
|
||
еднакви
|
||
еднакъв
|
||
едно
|
||
екип
|
||
ето
|
||
живот
|
||
за
|
||
забавям
|
||
зад
|
||
заедно
|
||
заради
|
||
засега
|
||
заспал
|
||
затова
|
||
защо
|
||
защото
|
||
и
|
||
из
|
||
или
|
||
им
|
||
има
|
||
имат
|
||
иска
|
||
й
|
||
каза
|
||
как
|
||
каква
|
||
какво
|
||
както
|
||
какъв
|
||
като
|
||
кога
|
||
когато
|
||
което
|
||
които
|
||
кой
|
||
който
|
||
колко
|
||
която
|
||
къде
|
||
където
|
||
към
|
||
лесен
|
||
лесно
|
||
ли
|
||
лош
|
||
м
|
||
май
|
||
малко
|
||
ме
|
||
между
|
||
мек
|
||
мен
|
||
месец
|
||
ми
|
||
много
|
||
мнозина
|
||
мога
|
||
могат
|
||
може
|
||
мокър
|
||
моля
|
||
момента
|
||
му
|
||
н
|
||
на
|
||
над
|
||
назад
|
||
най
|
||
направи
|
||
напред
|
||
например
|
||
нас
|
||
не
|
||
него
|
||
нещо
|
||
нея
|
||
ни
|
||
ние
|
||
никой
|
||
нито
|
||
нищо
|
||
но
|
||
нов
|
||
нова
|
||
нови
|
||
новина
|
||
някои
|
||
някой
|
||
няколко
|
||
няма
|
||
обаче
|
||
около
|
||
освен
|
||
особено
|
||
от
|
||
отгоре
|
||
отново
|
||
още
|
||
пак
|
||
по
|
||
повече
|
||
повечето
|
||
под
|
||
поне
|
||
поради
|
||
после
|
||
почти
|
||
прави
|
||
пред
|
||
преди
|
||
през
|
||
при
|
||
пък
|
||
първата
|
||
първи
|
||
първо
|
||
пъти
|
||
равен
|
||
равна
|
||
с
|
||
са
|
||
сам
|
||
само
|
||
се
|
||
сега
|
||
си
|
||
син
|
||
скоро
|
||
след
|
||
следващ
|
||
сме
|
||
смях
|
||
според
|
||
сред
|
||
срещу
|
||
сте
|
||
съм
|
||
със
|
||
също
|
||
т
|
||
тази
|
||
така
|
||
такива
|
||
такъв
|
||
там
|
||
твой
|
||
те
|
||
тези
|
||
ти
|
||
т.н.
|
||
то
|
||
това
|
||
тогава
|
||
този
|
||
той
|
||
толкова
|
||
точно
|
||
три
|
||
трябва
|
||
тук
|
||
тъй
|
||
тя
|
||
тях
|
||
у
|
||
утре
|
||
харесва
|
||
хиляди
|
||
ч
|
||
часа
|
||
че
|
||
често
|
||
чрез
|
||
ще
|
||
щом
|
||
юмрук
|
||
я
|
||
як
|
||
""".split()
|
||
)
|