Remove default stop words

This commit is contained in:
Adriane Boyd 2022-08-16 14:49:24 +02:00
parent 551e73ccfc
commit 29d2365022
145 changed files with 13 additions and 16530 deletions

View File

@ -1,9 +1,8 @@
from .stop_words import STOP_WORDS
from ...language import Language, BaseDefaults
class AfrikaansDefaults(BaseDefaults):
stop_words = STOP_WORDS
pass
class Afrikaans(Language):

View File

@ -1,57 +0,0 @@
# Source: https://github.com/stopwords-iso/stopwords-af
STOP_WORDS = set(
"""
'n
aan
af
al
as
baie
by
daar
dag
dat
die
dit
een
ek
en
gaan
gesê
haar
het
hom
hulle
hy
in
is
jou
jy
kan
kom
ma
maar
met
my
na
nie
om
ons
op
saam
sal
se
sien
so
sy
te
toe
uit
van
vir
was
wat
ʼn
""".split()
)

View File

@ -1,4 +1,3 @@
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from .punctuation import TOKENIZER_SUFFIXES
@ -14,7 +13,6 @@ class AmharicDefaults(BaseDefaults):
lex_attr_getters.update(LEX_ATTRS)
lex_attr_getters[LANG] = lambda text: "am"
tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
stop_words = STOP_WORDS
suffixes = TOKENIZER_SUFFIXES
writing_system = {"direction": "ltr", "has_case": False, "has_letters": True}

View File

@ -1,33 +0,0 @@
# Stop words by Teshome Kassie http://etd.aau.edu.et/bitstream/handle/123456789/3315/Teshome%20Kassie.pdf?sequence=1&isAllowed=y
# Stop words by Tihitina Petros http://etd.aau.edu.et/bitstream/handle/123456789/3384/Tihitina%20Petros.pdf?sequence=1&isAllowed=y
STOP_WORDS = set(
"""
ግን አንቺ አንተ እናንተ ያንተ ያንቺ የናንተ ራስህን ራስሽን ራሳችሁን
ሁሉ ኋላ በሰሞኑ አሉ በኋላ ሁኔታ በኩል አስታውቀዋል ሆነ በውስጥ
አስታውሰዋል ሆኑ ባጣም እስካሁን ሆኖም በተለይ አሳሰበ ሁል በተመለከተ
አሳስበዋል ላይ በተመሳሳይ አስፈላጊ ሌላ የተለያየ አስገነዘቡ ሌሎች የተለያዩ
አስገንዝበዋል ልዩ ተባለ አብራርተዋል መሆኑ ተገለጸ አስረድተዋል ተገልጿል
ማለቱ ተጨማሪ እባክህ የሚገኝ ተከናወነ እባክሽ ማድረግ ችግር አንጻር ማን
ትናንት እስኪደርስ ነበረች እንኳ ሰሞኑን ነበሩ እንኳን ሲሆን ነበር እዚሁ ሲል
ነው እንደገለጹት አለ እንደተናገሩት ቢሆን ነገር እንዳስረዱት ብለዋል ነገሮች
እንደገና ብዙ ናት ወቅት ቦታ ናቸው እንዲሁም በርካታ አሁን እንጂ እስከ
ማለት የሚሆኑት ስለማናቸውም ውስጥ ይሆናሉ ሲባል ከሆነው ስለዚሁ ከአንድ
ያልሆነ ሳለ የነበረውን ከአንዳንድ በማናቸውም በሙሉ የሆነው ያሉ በእነዚሁ
ወር መሆናቸው ከሌሎች በዋና አንዲት ወይም
በላይ እንደ በማቀድ ለሌሎች በሆኑ ቢሆንም ጊዜና ይሆኑበታል በሆነ አንዱ
ለዚህ ለሆነው ለነዚህ ከዚህ የሌላውን ሶስተኛ አንዳንድ ለማንኛውም የሆነ ከሁለት
የነገሩ ሰኣት አንደኛ እንዲሆን እንደነዚህ ማንኛውም ካልሆነ የሆኑት ጋር ቢያንስ
ይህንንም እነደሆነ እነዚህን ይኸው የማናቸውም
በሙሉም ይህችው በተለይም አንዱን የሚችለውን በነዚህ ከእነዚህ በሌላ
የዚሁ ከእነዚሁ ለዚሁ በሚገባ ለእያንዳንዱ የአንቀጹ ወደ ይህም ስለሆነ ወይ
ማናቸውንም ተብሎ እነዚህ መሆናቸውን የሆነችን ከአስር ሳይሆን ከዚያ የለውም
የማይበልጥ እንደሆነና እንዲሆኑ በሚችሉ ብቻ ብሎ ከሌላ የሌላቸውን
ለሆነ በሌሎች ሁለቱንም በቀር ይህ በታች አንደሆነ በነሱ
ይህን የሌላ እንዲህ ከሆነ ያላቸው በነዚሁ በሚል የዚህ ይህንኑ
በእንደዚህ ቁጥር ማናቸውም ሆነው ባሉ በዚህ በስተቀር ሲሆንና
በዚህም መሆን ምንጊዜም እነዚህም በዚህና ያለ ስም
ሲኖር ከዚህም መሆኑን በሁኔታው የማያንስ እነዚህኑ ማንም ከነዚሁ
ያላቸውን እጅግ ሲሆኑ ለሆኑ ሊሆን ለማናቸውም
""".split()
)

View File

@ -1,4 +1,3 @@
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from .punctuation import TOKENIZER_SUFFIXES
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
@ -8,7 +7,6 @@ from ...language import Language, BaseDefaults
class ArabicDefaults(BaseDefaults):
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
suffixes = TOKENIZER_SUFFIXES
stop_words = STOP_WORDS
lex_attr_getters = LEX_ATTRS
writing_system = {"direction": "rtl", "has_case": False, "has_letters": True}

View File

@ -1,390 +0,0 @@
STOP_WORDS = set(
"""
من
نحو
لعل
بما
بين
وبين
ايضا
وبينما
تحت
مثلا
لدي
عنه
مع
هي
وهذا
واذا
هذان
انه
بينما
أمسى
وسوف
ولم
لذلك
إلى
منه
منها
كما
ظل
هنا
به
كذلك
اما
هما
بعد
بينهم
التي
أبو
اذا
بدلا
لها
أمام
يلي
حين
ضد
الذي
قد
صار
إذا
مابرح
قبل
كل
وليست
الذين
لهذا
وثي
انهم
باللتي
مافتئ
ولا
بهذه
بحيث
كيف
وله
علي
بات
لاسيما
حتى
وقد
و
أما
فيها
بهذا
لذا
حيث
لقد
إن
فإن
اول
ليت
فاللتي
ولقد
لسوف
هذه
ولماذا
معه
الحالي
بإن
حول
في
عليه
مايزال
ولعل
أنه
أضحى
اي
ستكون
لن
أن
ضمن
وعلى
امسى
الي
ذات
ولايزال
ذلك
فقد
هم
أي
عند
ابن
أو
فهو
فانه
سوف
ما
آل
كلا
عنها
وكذلك
ليست
لم
وأن
ماذا
لو
وهل
اللتي
ولذا
يمكن
فيه
الا
عليها
وبينهم
يوم
وبما
لما
فكان
اضحى
اصبح
لهم
بها
او
الذى
الى
إلي
قال
والتي
لازال
أصبح
ولهذا
مثل
وكانت
لكنه
بذلك
هذا
لماذا
قالت
فقط
لكن
مما
وكل
وان
وأبو
ومن
كان
مازال
هل
بينهن
هو
وما
على
وهو
لأن
واللتي
والذي
دون
عن
وايضا
هناك
بلا
جدا
ثم
منذ
اللذين
لايزال
بعض
مساء
تكون
فلا
بيننا
لا
ولكن
إذ
وأثناء
ليس
ومع
فيهم
ولسوف
بل
تلك
أحد
وهي
وكان
ومنها
وفي
ماانفك
اليوم
وماذا
هؤلاء
وليس
له
أثناء
بد
اليه
كأن
اليها
بتلك
يكون
ولما
هن
والى
كانت
وقبل
ان
لدى
إذما
إذن
أف
أقل
أكثر
ألا
إلا
اللاتي
اللائي
اللتان
اللتيا
اللتين
اللذان
اللواتي
إليك
إليكم
إليكما
إليكن
أم
أما
إما
إنا
أنا
أنت
أنتم
أنتما
أنتن
إنما
إنه
أنى
أنى
آه
آها
أولاء
أولئك
أوه
آي
أيها
إي
أين
أين
أينما
إيه
بخ
بس
بك
بكم
بكم
بكما
بكن
بلى
بماذا
بمن
بنا
بهم
بهما
بهن
بي
بيد
تلكم
تلكما
ته
تي
تين
تينك
ثمة
حاشا
حبذا
حيثما
خلا
ذا
ذاك
ذان
ذانك
ذلكم
ذلكما
ذلكن
ذه
ذو
ذوا
ذواتا
ذواتي
ذي
ذين
ذينك
ريث
سوى
شتان
عدا
عسى
عل
عليك
عما
غير
فإذا
فمن
فيم
فيما
كأنما
كأي
كأين
كذا
كلاهما
كلتا
كلما
كليكما
كليهما
كم
كم
كي
كيت
كيفما
لست
لستم
لستما
لستن
لسن
لسنا
لك
لكم
لكما
لكنما
لكي
لكيلا
لنا
لهما
لهن
لولا
لوما
لي
لئن
ليسا
ليستا
ليسوا
متى
مذ
ممن
مه
مهما
نحن
نعم
ها
هاتان
هاته
هاتي
هاتين
هاك
هاهنا
هذي
هذين
هكذا
هلا
هنالك
هيا
هيت
هيهات
والذين
وإذ
وإذا
وإن
ولو
يا
""".split()
)

View File

@ -1,11 +1,9 @@
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from ...language import Language, BaseDefaults
class AzerbaijaniDefaults(BaseDefaults):
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
class Azerbaijani(Language):

View File

@ -1,145 +0,0 @@
# Source: https://github.com/eliasdabbas/advertools/blob/master/advertools/stopwords.py
STOP_WORDS = set(
"""
amma
arasında
artıq
ay
az
bax
belə
beş
bilər
bir
biraz
biri
birşey
biz
bizim
bizlər
bu
buna
bundan
bunların
bunu
bunun
buradan
bütün
bəli
bəlkə
bəy
bəzi
bəzən
daha
dedi
deyil
dir
düz
dək
dən
dəqiqə
edir
edən
elə
et
etdi
etmə
etmək
faiz
gilə
görə
ha
haqqında
harada
heç
həm
həmin
həmişə
hər
idi
il
ildə
ilk
ilə
in
indi
istifadə
isə
ki
kim
kimi
kimə
lakin
lap
mirşey
məhz
mən
mənə
niyə
nəhayət
o
obirisi
of
olan
olar
olaraq
oldu
olduğu
olmadı
olmaz
olmuşdur
olsun
olur
on
ona
ondan
onlar
onlardan
onların
onsuzda
onu
onun
oradan
qarşı
qədər
saat
sadəcə
saniyə
siz
sizin
sizlər
sonra
səhv
sən
sənin
sənə
təəssüf
var
xan
xanım
xeyr
ya
yalnız
yaxşı
yeddi
yenə
yox
yoxdur
yoxsa
yəni
zaman
çox
çünki
öz
özü
üçün
əgər
əlbəttə
ən
əslində
""".split()
)

View File

@ -1,4 +1,3 @@
from .stop_words import STOP_WORDS
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .lex_attrs import LEX_ATTRS
from ..tokenizer_exceptions import BASE_EXCEPTIONS
@ -15,7 +14,6 @@ class BulgarianDefaults(BaseDefaults):
lex_attr_getters.update(LEX_ATTRS)
stop_words = STOP_WORDS
tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
suffixes = COMBINING_DIACRITICS_TOKENIZER_SUFFIXES
infixes = COMBINING_DIACRITICS_TOKENIZER_INFIXES

View File

@ -1,79 +0,0 @@
"""
References:
https://github.com/Alir3z4/stop-words - Original list, serves as a base.
https://postvai.com/books/stop-dumi.pdf - Additions to the original list in order to improve it.
"""
STOP_WORDS = set(
"""
а автентичен аз ако ала
бе без беше би бивш бивша бившо бивши бил била били било благодаря близо бъдат
бъде бъда бяха
в вас ваш ваша вашата вашият вероятно вече взема ви вие винаги внимава време все
всеки всички вместо всичко вследствие всъщност всяка втори във въпреки върху
вътре веднъж
г ги главен главна главно глас го годно година години годишен
д да дали далеч далече два двама двамата две двете ден днес дни до добра добре
добро добър достатъчно докато докога дори досега доста друг друга другаде други
е евтин едва един една еднаква еднакви еднакъв едно екип ето
живот жив
за здравей здрасти знае зная забавям зад зададени заедно заради засега заспал
затова запазва започвам защо защото завинаги
и из или им има имат иска искам използвайки изглежда изглеждаше изглеждайки
извън имайки
й йо
каза казва казвайки казвам как каква какво както какъв като кога кауза каузи
когато когото което които кой който колко която къде където към край кратък
кръгъл
лесен лесно ли летя летиш летим лош
м май малко макар малцина междувременно минус ме между мек мен месец ми мис
мисля много мнозина мога могат може мой можем мокър моля момента му
н на над назад най наш навсякъде навътре нагоре направи напред надолу наистина
например наопаки наполовина напоследък нека независимо нас насам наскоро
настрана необходимо него негов нещо нея ни ние никой нито нищо но нов някак нова
нови новина някои някой някога някъде няколко няма
о обаче около описан опитах опитва опитвайки опитвам определен определено освен
обикновено осигурява обратно означава особен особено от ох отвъд отгоре отдолу
отново отива отивам отидох отсега отделно отколкото откъдето очевидно оттам
относно още
п пак по повече повечето под поне просто пряко поради после последен последно
посочен почти прави прав прави правя пред преди през при пък първата първи първо
път пъти плюс
равен равна различен различни разумен разумно
с са сам само себе сериозно сигурен сигурно се сега си син скоро скорошен след
следващ следващия следва следното следователно случва сме смях собствен
сравнително смея според сред става срещу съвсем съдържа съдържащ съжалявам
съответен съответно сте съм със също
т така техен техни такива такъв твърде там трета твой те тези ти то това
тогава този той търси толкова точно три трябва тук тъй тя тях
у утре ужасно употреба успоредно уточнен уточняване
харесва харесали хиляди
ч часа ценя цяло цялостен че често чрез чудя
ще щеше щом щяха
юмрук
я як
""".split()
)

View File

@ -2,7 +2,6 @@ from typing import Optional, Callable
from thinc.api import Model
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_SUFFIXES, TOKENIZER_INFIXES
from .stop_words import STOP_WORDS
from ...language import Language, BaseDefaults
from ...pipeline import Lemmatizer
@ -12,7 +11,6 @@ class BengaliDefaults(BaseDefaults):
prefixes = TOKENIZER_PREFIXES
suffixes = TOKENIZER_SUFFIXES
infixes = TOKENIZER_INFIXES
stop_words = STOP_WORDS
class Bengali(Language):

View File

@ -1,42 +0,0 @@
STOP_WORDS = set(
"""
অতএব অথচ অথব অন অন অন অন অনতত অবধি অবশ অর অন অন অরধভ
আগ আগ আগ আছ আজ আদযভ আপন আপনি আব আমর আম আম আম আমি আর আরও
ইতি ইহ
উচি উনি উপর উপর উততর
এই এক একই একজন একট একটি একব এক এখন এখনও এখ এখ এট এস
এট এটি এত এতট এত এদ এব এব এমন এমনি এমনকি এর এর এল এস এস
ওই ওক ওখ ওদ ওর ওর
কখনও কত কথ কব কয কযকটি করছ করছ করত করব করব করল কয় কয়কটি করি করি কর
করল কর কর কর কর করি করি করি করি কর কর করি কর কর কর উক
রও রণ ি ি ি ি ি উই নও মন ি
ি ি ি ি ি
চল
ি ি
জন জনক জন জন জন নত ি ি ি ি
ি
ি
তখন তত তথ তব তব রপর রই হল িনই
িি িি ি মন
কব কব
ি ি ি ি ি ি ি ি ওয ওয খত
ি ি ওয় ওয় ি
ধর ধর
নয ি ি ি ি ি ি ি ি ওয় ওয নয় নত
পক পর পর পর পর পরযন ওয ি রতি রভি ওয় রথম থমি
ফল ি
বছর বদল বর বলত বলল বলল বল বল বল বল বস বহ ি িি ি িষযি যবহ বকতব বন ি
মত মত মত মধযভ মধ মধ মধ মন যম
যখন যত যতট যথ যদি যদি ওয ওয িি
মন
রকম রয রয়
লক
রণ মন সঙ সঙ সব সব সমস সমরতি সময় সহ সহি তর ি পষ বয
হইত হইব হইয হওয হওয হওয হচ হত হত হত হন হব হব হয হয হযি হয হয হযি হয
হয় হল হল হল হল হল ি ি হয় হয় হয় হইয় হয়ি হয় হয়নি হয় হয়ত হওয় হওয় হওয়
""".split()
)

View File

@ -4,7 +4,6 @@ from thinc.api import Model
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES, TOKENIZER_PREFIXES
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from .syntax_iterators import SYNTAX_ITERATORS
from ...language import Language, BaseDefaults
@ -16,7 +15,6 @@ class CatalanDefaults(BaseDefaults):
infixes = TOKENIZER_INFIXES
suffixes = TOKENIZER_SUFFIXES
prefixes = TOKENIZER_PREFIXES
stop_words = STOP_WORDS
lex_attr_getters = LEX_ATTRS
syntax_iterators = SYNTAX_ITERATORS

View File

@ -1,52 +0,0 @@
STOP_WORDS = set(
"""
a abans ací ah així això al aleshores algun alguna algunes alguns alhora allà allí allò
als altra altre altres amb ambdues ambdós anar ans apa aquell aquella aquelles aquells
aquest aquesta aquestes aquests aquí
baix bastant
cada cadascuna cadascunes cadascuns cadascú com consegueixo conseguim conseguir
consigueix consigueixen consigueixes contra
d'un d'una d'unes d'uns dalt de del dels des des de després dins dintre donat doncs durant
e eh el elles ells els em en encara ens entre era erem eren eres es esta estan estat
estava estaven estem esteu estic està estàvem estàveu et etc ets érem éreu és éssent
fa faig fan fas fem fer feu fi fins fora
gairebé
ha han has haver havia he hem heu hi ho
i igual iguals inclòs
ja jo
l'hi la les li li'n llarg llavors
m'he ma mal malgrat mateix mateixa mateixes mateixos me mentre meu meus meva
meves mode molt molta moltes molts mon mons més
n'he n'hi ne ni no nogensmenys només nosaltres nostra nostre nostres
o oh oi on
pas pel pels per per que perquè però poc poca pocs podem poden poder
podeu poques potser primer propi puc
qual quals quan quant que quelcom qui quin quina quines quins què
s'ha s'han sa sabem saben saber sabeu sap saps semblant semblants sense ser ses
seu seus seva seves si sobre sobretot soc solament sols som son sons sota sou sóc són
t'ha t'han t'he ta tal també tampoc tan tant tanta tantes te tene tenim tenir teniu
teu teus teva teves tinc ton tons tot tota totes tots
un una unes uns us últim ús
va vaig vam van vas veu vosaltres vostra vostre vostres
""".split()
)

View File

@ -1,11 +1,9 @@
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from ...language import Language, BaseDefaults
class CzechDefaults(BaseDefaults):
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
class Czech(Language):

View File

@ -1,365 +0,0 @@
# Source: https://github.com/Alir3z4/stop-words
# Source: https://github.com/stopwords-iso/stopwords-cs/blob/master/stopwords-cs.txt
STOP_WORDS = set(
"""
a
aby
ahoj
ačkoli
ale
alespoň
anebo
ani
aniž
ano
atd.
atp.
asi
aspoň
během
bez
beze
blízko
bohužel
brzo
bude
budeme
budeš
budete
budou
budu
by
byl
byla
byli
bylo
byly
bys
být
čau
chce
chceme
chceš
chcete
chci
chtějí
chtít
chuť
chuti
co
což
cz
či
článek
článku
články
čtrnáct
čtyři
dál
dále
daleko
další
děkovat
děkujeme
děkuji
den
deset
devatenáct
devět
dnes
do
dobrý
docela
dva
dvacet
dvanáct
dvě
email
ho
hodně
i
jak
jakmile
jako
jakož
jde
je
jeden
jedenáct
jedna
jedno
jednou
jedou
jeho
jehož
jej
její
jejich
jejichž
jehož
jelikož
jemu
jen
jenom
jenž
jež
ještě
jestli
jestliže
ještě
ji
jich
jím
jim
jimi
jinak
jiné
již
jsi
jsme
jsem
jsou
jste
k
kam
každý
kde
kdo
kdy
když
ke
kolik
kromě
která
kterak
kterou
které
kteří
který
kvůli
ku
mají
málo
mám
máme
máš
máte
mezi
mi
mít
mne
mně
mnou
moc
mohl
mohou
moje
moji
možná
můj
musí
může
my
na
nad
nade
nám
námi
naproti
nás
náš
naše
naši
načež
ne
nebo
nebyl
nebyla
nebyli
nebyly
nechť
něco
nedělá
nedělají
nedělám
neděláme
neděláš
neděláte
nějak
nejsi
nejsou
někde
někdo
nemají
nemáme
nemáte
neměl
němu
němuž
není
nestačí
nevadí
nové
nový
noví
než
nic
nich
ním
nimi
nula
o
od
ode
on
ona
oni
ono
ony
osm
osmnáct
pak
patnáct
pět
po
pod
pokud
pořád
pouze
potom
pozdě
pravé
před
přede
přes
přece
pro
proč
prosím
prostě
proto
proti
první
právě
protože
při
přičemž
rovně
s
se
sedm
sedmnáct
si
sice
skoro
sic
šest
šestnáct
skoro
smějí
smí
snad
spolu
sta
svůj
své
svá
svých
svým
svými
svůj
sté
sto
strana
ta
tady
tak
takhle
taky
také
takže
tam
támhle
támhleto
tamto
tebe
tebou
teď
tedy
ten
tento
této
ti
tím
tímto
tisíc
tisíce
to
tobě
tohle
tohoto
tom
tomto
tomu
tomuto
toto
třeba
tři
třináct
trošku
trochu
tu
tuto
tvá
tvé
tvoje
tvůj
ty
tyto
těm
těma
těmi
u
určitě
v
vám
vámi
vás
váš
vaše
vaši
ve
večer
vedle
více
vlastně
však
všechen
všechno
všichni
vůbec
vy
vždy
z
zda
za
zde
zač
zatímco
ze
že
""".split()
)

View File

@ -1,6 +1,5 @@
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from .syntax_iterators import SYNTAX_ITERATORS
from ...language import Language, BaseDefaults
@ -11,7 +10,6 @@ class DanishDefaults(BaseDefaults):
infixes = TOKENIZER_INFIXES
suffixes = TOKENIZER_SUFFIXES
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
syntax_iterators = SYNTAX_ITERATORS

View File

@ -1,45 +0,0 @@
# Source: Handpicked by Jens Dahl Møllerhøj.
STOP_WORDS = set(
"""
af aldrig alene alle allerede alligevel alt altid anden andet andre at
bag begge blandt blev blive bliver burde bør
da de dem den denne dens der derefter deres derfor derfra deri dermed derpå derved det dette dig din dine disse dog du
efter egen eller ellers en end endnu ene eneste enhver ens enten er et
flere flest fleste for foran fordi forrige fra før først
gennem gjorde gjort god gør gøre gørende
ham han hans har havde have hel heller hen hende hendes henover her herefter heri hermed herpå hun hvad hvem hver hvilke hvilken hvilkes hvis hvor hvordan hvorefter hvorfor hvorfra hvorhen hvori hvorimod hvornår hvorved
i igen igennem ikke imellem imens imod ind indtil ingen intet
jeg jer jeres jo
kan kom kommer kun kunne
lad langs lav lave lavet lidt lige ligesom lille længere
man mange med meget mellem men mens mere mest mig min mindre mindst mine mit måske
ned nemlig nogen nogensinde noget nogle nok nu ny nyt nær næste næsten
og også om omkring op os over overalt
samme sammen selv selvom senere ses siden sig sige skal skulle som stadig synes syntes sådan således
temmelig tidligere til tilbage tit
ud uden udover under undtagen
var ved vi via vil ville vore vores vær være været
øvrigt
""".split()
)

View File

@ -1,6 +1,5 @@
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_SUFFIXES, TOKENIZER_INFIXES
from .stop_words import STOP_WORDS
from .syntax_iterators import SYNTAX_ITERATORS
from ...language import Language, BaseDefaults
@ -11,7 +10,6 @@ class GermanDefaults(BaseDefaults):
suffixes = TOKENIZER_SUFFIXES
infixes = TOKENIZER_INFIXES
syntax_iterators = SYNTAX_ITERATORS
stop_words = STOP_WORDS
class German(Language):

View File

@ -1,78 +0,0 @@
STOP_WORDS = set(
"""
á a ab aber ach acht achte achten achter achtes ag alle allein allem allen
aller allerdings alles allgemeinen als also am an andere anderen anderem andern
anders auch auf aus ausser außer ausserdem außerdem
bald bei beide beiden beim beispiel bekannt bereits besonders besser besten bin
bis bisher bist
da dabei dadurch dafür dagegen daher dahin dahinter damals damit danach daneben
dank dann daran darauf daraus darf darfst darin darüber darum darunter das
dasein daselbst dass daß dasselbe davon davor dazu dazwischen dein deine deinem
deiner dem dementsprechend demgegenüber demgemäss demgemäß demselben demzufolge
den denen denn denselben der deren derjenige derjenigen dermassen dermaßen
derselbe derselben des deshalb desselben dessen deswegen dich die diejenige
diejenigen dies diese dieselbe dieselben diesem diesen dieser dieses dir doch
dort drei drin dritte dritten dritter drittes du durch durchaus dürfen dürft
durfte durften
eben ebenso ehrlich eigen eigene eigenen eigener eigenes ein einander eine
einem einen einer eines einige einigen einiger einiges einmal einmaleins elf en
ende endlich entweder er erst erste ersten erster erstes es etwa etwas euch
früher fünf fünfte fünften fünfter fünftes für
gab ganz ganze ganzen ganzer ganzes gar gedurft gegen gegenüber gehabt gehen
geht gekannt gekonnt gemacht gemocht gemusst genug gerade gern gesagt geschweige
gewesen gewollt geworden gibt ging gleich gross groß grosse große grossen
großen grosser großer grosses großes gut gute guter gutes
habe haben habt hast hat hatte hätte hatten hätten heisst heißt her heute hier
hin hinter hoch
ich ihm ihn ihnen ihr ihre ihrem ihren ihrer ihres im immer in indem
infolgedessen ins irgend ist
ja jahr jahre jahren je jede jedem jeden jeder jedermann jedermanns jedoch
jemand jemandem jemanden jene jenem jenen jener jenes jetzt
kam kann kannst kaum kein keine keinem keinen keiner kleine kleinen kleiner
kleines kommen kommt können könnt konnte könnte konnten kurz
lang lange leicht leider lieber los
machen macht machte mag magst man manche manchem manchen mancher manches mehr
mein meine meinem meinen meiner meines mich mir mit mittel mochte möchte mochten
mögen möglich mögt morgen muss muß müssen musst müsst musste mussten
na nach nachdem nahm natürlich neben nein neue neuen neun neunte neunten neunter
neuntes nicht nichts nie niemand niemandem niemanden noch nun nur
ob oben oder offen oft ohne
recht rechte rechten rechter rechtes richtig rund
sagt sagte sah satt schlecht schon sechs sechste sechsten sechster sechstes
sehr sei seid seien sein seine seinem seinen seiner seines seit seitdem selbst
selbst sich sie sieben siebente siebenten siebenter siebentes siebte siebten
siebter siebtes sind so solang solche solchem solchen solcher solches soll
sollen sollte sollten sondern sonst sowie später statt
tag tage tagen tat teil tel trotzdem tun
über überhaupt übrigens uhr um und uns unser unsere unserer unter
vergangene vergangenen viel viele vielem vielen vielleicht vier vierte vierten
vierter viertes vom von vor
wahr während währenddem währenddessen wann war wäre waren wart warum was wegen
weil weit weiter weitere weiteren weiteres welche welchem welchen welcher
welches wem wen wenig wenige weniger weniges wenigstens wenn wer werde werden
werdet wessen wie wieder will willst wir wird wirklich wirst wo wohl wollen
wollt wollte wollten worden wurde würde wurden würden
zehn zehnte zehnten zehnter zehntes zeit zu zuerst zugleich zum zunächst zur
zurück zusammen zwanzig zwar zwei zweite zweiten zweiter zweites zwischen
""".split()
)

View File

@ -1,11 +1,9 @@
from .lex_attrs import LEX_ATTRS
from .stop_words import STOP_WORDS
from ...language import Language, BaseDefaults
class LowerSorbianDefaults(BaseDefaults):
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
class LowerSorbian(Language):

View File

@ -1,15 +0,0 @@
STOP_WORDS = set(
"""
a abo aby ako ale
daniž dokulaž
gaž
jolic
pak pótom
teke togodla
""".split()
)

View File

@ -2,7 +2,6 @@ from typing import Optional, Callable
from thinc.api import Model
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from .syntax_iterators import SYNTAX_ITERATORS
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_SUFFIXES, TOKENIZER_INFIXES
@ -16,7 +15,6 @@ class GreekDefaults(BaseDefaults):
suffixes = TOKENIZER_SUFFIXES
infixes = TOKENIZER_INFIXES
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
syntax_iterators = SYNTAX_ITERATORS

View File

@ -1,87 +0,0 @@
# Stop words
# Link to greek stop words: https://www.translatum.gr/forum/index.php?topic=3550.0?topic=3550.0
STOP_WORDS = set(
"""
αδιάκοπα αι ακόμα ακόμη ακριβώς άλλα αλλά αλλαχού άλλες άλλη άλλην
άλλης αλλιώς αλλιώτικα άλλο άλλοι αλλοιώς αλλοιώτικα άλλον άλλος άλλοτε αλλού
άλλους άλλων άμα άμεσα αμέσως αν ανά ανάμεσα αναμεταξύ άνευ αντί αντίπερα αντίς
άνω ανωτέρω άξαφνα απ απέναντι από απόψε άρα άραγε αρκετά αρκετές
αρχικά ας αύριο αυτά αυτές αυτή αυτήν αυτής αυτό αυτοί αυτόν αυτός αυτού αυτούς
αυτών αφότου αφού
βέβαια βεβαιότατα
γι για γιατί γρήγορα γύρω
δα δε δείνα δεν δεξιά δήθεν δηλαδή δι δια διαρκώς δικά δικό δικοί δικός δικού
δικούς διόλου δίπλα δίχως
εάν εαυτό εαυτόν εαυτού εαυτούς εαυτών έγκαιρα εγκαίρως εγώ εδώ ειδεμή είθε είμαι
είμαστε είναι εις είσαι είσαστε είστε είτε είχα είχαμε είχαν είχατε είχε είχες έκαστα
έκαστες έκαστη έκαστην έκαστης έκαστο έκαστοι έκαστον έκαστος εκάστου εκάστους εκάστων
εκεί εκείνα εκείνες εκείνη εκείνην εκείνης εκείνο εκείνοι εκείνον εκείνος εκείνου
εκείνους εκείνων εκτός εμάς εμείς εμένα εμπρός εν ένα έναν ένας ενός εντελώς εντός
εναντίον εξής εξαιτίας επιπλέον επόμενη εντωμεταξύ ενώ εξ έξαφνα εξήσ εξίσου έξω επάνω
επειδή έπειτα επί επίσης επομένως εσάς εσείς εσένα έστω εσύ ετέρα ετέραι ετέρας έτερες
έτερη έτερης έτερο έτεροι έτερον έτερος ετέρου έτερους ετέρων ετούτα ετούτες ετούτη ετούτην
ετούτης ετούτο ετούτοι ετούτον ετούτος ετούτου ετούτους ετούτων έτσι εύγε ευθύς ευτυχώς εφεξής
έχει έχεις έχετε έχομε έχουμε έχουν εχτές έχω έως έγιναν έγινε έκανε έξι έχοντας
η ήδη ήμασταν ήμαστε ήμουν ήσασταν ήσαστε ήσουν ήταν ήτανε ήτοι ήττον
θα
ι ιδία ίδια ίδιαν ιδίας ίδιες ίδιο ίδιοι ίδιον ίδιοσ ίδιος ιδίου ίδιους ίδιων ιδίως ιι ιιι
ίσαμε ίσια ίσως
κάθε καθεμία καθεμίας καθένα καθένας καθενός καθετί καθόλου καθώς και κακά κακώς καλά
καλώς καμία καμίαν καμίας κάμποσα κάμποσες κάμποση κάμποσην κάμποσης κάμποσο κάμποσοι
κάμποσον κάμποσος κάμποσου κάμποσους κάμποσων κανείς κάνεν κανένα κανέναν κανένας
κανενός κάποια κάποιαν κάποιας κάποιες κάποιο κάποιοι κάποιον κάποιος κάποιου κάποιους
κάποιων κάποτε κάπου κάπως κατ κατά κάτι κατιτί κατόπιν κάτω κιόλας κλπ κοντά κτλ κυρίως
λιγάκι λίγο λιγότερο λόγω λοιπά λοιπόν
μα μαζί μακάρι μακρυά μάλιστα μάλλον μας με μεθαύριο μείον μέλει μέλλεται μεμιάς μεν
μερικά μερικές μερικοί μερικούς μερικών μέσα μετ μετά μεταξύ μέχρι μη μήδε μην μήπως
μήτε μια μιαν μιας μόλις μολονότι μονάχα μόνες μόνη μόνην μόνης μόνο μόνοι μονομιάς
μόνος μόνου μόνους μόνων μου μπορεί μπορούν μπρος μέσω μία μεσώ
να ναι νωρίς
ξανά ξαφνικά
ο οι όλα όλες όλη όλην όλης όλο ολόγυρα όλοι όλον ολονέν όλος ολότελα όλου όλους όλων
όλως ολωσδιόλου όμως όποια οποιαδήποτε οποίαν οποιανδήποτε οποίας οποίος οποιασδήποτε οποιδήποτε
όποιες οποιεσδήποτε όποιο οποιοδηήποτε όποιοι όποιον οποιονδήποτε όποιος οποιοσδήποτε
οποίου οποιουδήποτε οποίους οποιουσδήποτε οποίων οποιωνδήποτε όποτε οποτεδήποτε όπου
οπουδήποτε όπως ορισμένα ορισμένες ορισμένων ορισμένως όσα οσαδήποτε όσες οσεσδήποτε
όση οσηδήποτε όσην οσηνδήποτε όσης οσησδήποτε όσο οσοδήποτε όσοι οσοιδήποτε όσον οσονδήποτε
όσος οσοσδήποτε όσου οσουδήποτε όσους οσουσδήποτε όσων οσωνδήποτε όταν ότι οτιδήποτε
ότου ου ουδέ ούτε όχι οποία οποίες οποίο οποίοι οπότε ος
πάνω παρά περί πολλά πολλές πολλοί πολλούς που πρώτα πρώτες πρώτη πρώτο πρώτος πως
πάλι πάντα πάντοτε παντού πάντως πάρα πέρα πέρι περίπου περισσότερο πέρσι πέρυσι πια πιθανόν
πιο πίσω πλάι πλέον πλην ποιά ποιάν ποιάς ποιές ποιό ποιοί ποιόν ποιός ποιού ποιούς
ποιών πολύ πόσες πόση πόσην πόσης πόσοι πόσος πόσους πότε ποτέ πού πούθε πουθενά πρέπει
πριν προ προκειμένου πρόκειται πρόπερσι προς προτού προχθές προχτές πρωτύτερα πώς
σαν σας σε σεις σου στα στη στην στης στις στο στον στου στους στων συγχρόνως
συν συνάμα συνεπώς συχνάς συχνές συχνή συχνήν συχνής συχνό συχνοί συχνόν
συχνός συχνού συχνούς συχνών συχνώς σχεδόν
τα τάδε ταύτα ταύτες ταύτη ταύτην ταύτης ταύτοταύτον ταύτος ταύτου ταύτων τάχα τάχατε
τελευταία τελευταίο τελευταίος τού τρία τρίτη τρεις τελικά τελικώς τες τέτοια τέτοιαν
τέτοιας τέτοιες τέτοιο τέτοιοι τέτοιον τέτοιος τέτοιου
τέτοιους τέτοιων τη την της τι τίποτα τίποτε τις το τοι τον τοσ τόσα τόσες τόση τόσην
τόσης τόσο τόσοι τόσον τόσος τόσου τόσους τόσων τότε του τουλάχιστο τουλάχιστον τους τούς τούτα
τούτες τούτη τούτην τούτης τούτο τούτοι τούτοις τούτον τούτος τούτου τούτους τούτων τυχόν
των τώρα
υπ υπέρ υπό υπόψη υπόψιν ύστερα
χωρίς χωριστά
ω ως ωσάν ωσότου ώσπου ώστε ωστόσο ωχ
""".split()
)

View File

@ -2,7 +2,6 @@ from typing import Optional, Callable
from thinc.api import Model
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from .syntax_iterators import SYNTAX_ITERATORS
from .punctuation import TOKENIZER_INFIXES
@ -15,7 +14,6 @@ class EnglishDefaults(BaseDefaults):
infixes = TOKENIZER_INFIXES
lex_attr_getters = LEX_ATTRS
syntax_iterators = SYNTAX_ITERATORS
stop_words = STOP_WORDS
class English(Language):

View File

@ -1,73 +0,0 @@
# Stop words
STOP_WORDS = set(
"""
a about above across after afterwards again against all almost alone along
already also although always am among amongst amount an and another any anyhow
anyone anything anyway anywhere are around as at
back be became because become becomes becoming been before beforehand behind
being below beside besides between beyond both bottom but by
call can cannot ca could
did do does doing done down due during
each eight either eleven else elsewhere empty enough even ever every
everyone everything everywhere except
few fifteen fifty first five for former formerly forty four from front full
further
get give go
had has have he hence her here hereafter hereby herein hereupon hers herself
him himself his how however hundred
i if in indeed into is it its itself
keep
last latter latterly least less
just
made make many may me meanwhile might mine more moreover most mostly move much
must my myself
name namely neither never nevertheless next nine no nobody none noone nor not
nothing now nowhere
of off often on once one only onto or other others otherwise our ours ourselves
out over own
part per perhaps please put
quite
rather re really regarding
same say see seem seemed seeming seems serious several she should show side
since six sixty so some somehow someone something sometime sometimes somewhere
still such
take ten than that the their them themselves then thence there thereafter
thereby therefore therein thereupon these they third this those though three
through throughout thru thus to together too top toward towards twelve twenty
two
under until up unless upon us used using
various very very via was we well were what whatever when whence whenever where
whereafter whereas whereby wherein whereupon wherever whether which while
whither who whoever whole whom whose why will with within without would
yet you your yours yourself yourselves
""".split()
)
contractions = ["n't", "'d", "'ll", "'m", "'re", "'s", "'ve"]
STOP_WORDS.update(contractions)
for apostrophe in ["", ""]:
for stopword in contractions:
STOP_WORDS.add(stopword.replace("'", apostrophe))

View File

@ -1,7 +1,6 @@
from typing import Optional, Callable
from thinc.api import Model
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from .lemmatizer import SpanishLemmatizer
from .syntax_iterators import SYNTAX_ITERATORS
@ -15,7 +14,6 @@ class SpanishDefaults(BaseDefaults):
suffixes = TOKENIZER_SUFFIXES
lex_attr_getters = LEX_ATTRS
syntax_iterators = SYNTAX_ITERATORS
stop_words = STOP_WORDS
class Spanish(Language):

View File

@ -1,80 +0,0 @@
STOP_WORDS = set(
"""
a acuerdo adelante ademas además afirmó agregó ahi ahora ahí al algo alguna
algunas alguno algunos algún alli allí alrededor ambos ante anterior antes
apenas aproximadamente aquel aquella aquellas aquello aquellos aqui aquél
aquélla aquéllas aquéllos aquí arriba aseguró asi así atras aun aunque añadió
aún
bajo bastante bien breve buen buena buenas bueno buenos
cada casi cierta ciertas cierto ciertos cinco claro comentó como con conmigo
conocer conseguimos conseguir considera consideró consigo consigue consiguen
consigues contigo contra creo cual cuales cualquier cuando cuanta cuantas
cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas cuánto cuántos
cómo
da dado dan dar de debajo debe deben debido decir dejó del delante demasiado
demás dentro deprisa desde despacio despues después detras detrás dia dias dice
dicen dicho dieron diez diferente diferentes dijeron dijo dio doce donde dos
durante día días dónde
e el ella ellas ello ellos embargo en encima encuentra enfrente enseguida
entonces entre era eramos eran eras eres es esa esas ese eso esos esta estaba
estaban estado estados estais estamos estan estar estará estas este esto estos
estoy estuvo está están excepto existe existen explicó expresó él ésa ésas ése
ésos ésta éstas éste éstos
fin final fue fuera fueron fui fuimos
gran grande grandes
ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer
hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron
hizo hoy hubo
igual incluso indicó informo informó ir
junto
la lado largo las le les llegó lleva llevar lo los luego
mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi
mia mias mientras mio mios mis misma mismas mismo mismos modo mucha muchas
mucho muchos muy más mía mías mío míos
nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros
nuestra nuestras nuestro nuestros nueva nuevas nueve nuevo nuevos nunca
o ocho once os otra otras otro otros
para parece parte partir pasada pasado paìs peor pero pesar poca pocas poco
pocos podeis podemos poder podria podriais podriamos podrian podrias podrá
podrán podría podrían poner por porque posible primer primera primero primeros
pronto propia propias propio propios proximo próximo próximos pudo pueda puede
pueden puedo pues
qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién
quiénes qué
realizado realizar realizó repente respecto
sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo
según seis ser sera será serán sería señaló si sido siempre siendo siete sigue
siguiente sin sino sobre sois sola solamente solas solo solos somos son soy su
supuesto sus suya suyas suyo suyos sólo
tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis
tenemos tener tenga tengo tenido tenía tercera tercero ti tiene tienen toda
todas todavia todavía todo todos total tras trata través tres tu tus tuvo tuya
tuyas tuyo tuyos
u ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes
última últimas último últimos
va vais vamos van varias varios vaya veces ver verdad verdadera verdadero vez
vosotras vosotros voy vuestra vuestras vuestro vuestros
y ya yo
""".split()
)

View File

@ -1,9 +1,8 @@
from .stop_words import STOP_WORDS
from ...language import Language, BaseDefaults
class EstonianDefaults(BaseDefaults):
stop_words = STOP_WORDS
pass
class Estonian(Language):

View File

@ -1,41 +0,0 @@
# Source: https://github.com/stopwords-iso/stopwords-et
STOP_WORDS = set(
"""
aga
ei
et
ja
jah
kas
kui
kõik
ma
me
mida
midagi
mind
minu
mis
mu
mul
mulle
nad
nii
oled
olen
oli
oma
on
pole
sa
seda
see
selle
siin
siis
ta
te
ära
""".split()
)

View File

@ -1,4 +1,3 @@
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from .punctuation import TOKENIZER_SUFFIXES
from ...language import Language, BaseDefaults
@ -6,7 +5,6 @@ from ...language import Language, BaseDefaults
class BasqueDefaults(BaseDefaults):
suffixes = TOKENIZER_SUFFIXES
stop_words = STOP_WORDS
lex_attr_getters = LEX_ATTRS

View File

@ -1,105 +0,0 @@
# Source: https://github.com/stopwords-iso/stopwords-eu
# https://www.ranks.nl/stopwords/basque
# https://www.mustgo.com/worldlanguages/basque/
STOP_WORDS = set(
"""
al
anitz
arabera
asko
baina
bat
batean
batek
bati
batzuei
batzuek
batzuetan
batzuk
bera
beraiek
berau
berauek
bere
berori
beroriek
beste
bezala
da
dago
dira
ditu
du
dute
edo
egin
ere
eta
eurak
ez
gainera
gu
gutxi
guzti
haiei
haiek
haietan
hainbeste
hala
han
handik
hango
hara
hari
hark
hartan
hau
hauei
hauek
hauetan
hemen
hemendik
hemengo
hi
hona
honek
honela
honetan
honi
hor
hori
horiei
horiek
horietan
horko
horra
horrek
horrela
horretan
horri
hortik
hura
izan
ni
noiz
nola
non
nondik
nongo
nor
nora
ze
zein
zen
zenbait
zenbat
zer
zergatik
ziren
zituen
zu
zuek
zuen
zuten
""".split()
)

View File

@ -1,6 +1,5 @@
from typing import Optional, Callable
from thinc.api import Model
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .punctuation import TOKENIZER_SUFFIXES
@ -14,7 +13,6 @@ class PersianDefaults(BaseDefaults):
suffixes = TOKENIZER_SUFFIXES
lex_attr_getters = LEX_ATTRS
syntax_iterators = SYNTAX_ITERATORS
stop_words = STOP_WORDS
writing_system = {"direction": "rtl", "has_case": False, "has_letters": True}

View File

@ -1,393 +0,0 @@
# Stop words from HAZM package
STOP_WORDS = set(
"""
و
در
به
از
که
این
را
با
است
برای
آن
یک
خود
تا
کرد
بر
هم
نیز
گفت
میشود
وی
شد
دارد
ما
اما
یا
شده
باید
هر
آنها
بود
او
دیگر
دو
مورد
میکند
شود
کند
وجود
بین
پیش
شدهاست
پس
نظر
اگر
همه
یکی
حال
هستند
من
کنند
نیست
باشد
چه
بی
می
بخش
میکنند
همین
افزود
هایی
دارند
راه
همچنین
روی
داد
بیشتر
بسیار
سه
داشت
چند
سوی
تنها
هیچ
میان
اینکه
شدن
بعد
جدید
ولی
حتی
کردن
برخی
کردند
میدهد
اول
نه
کردهاست
نسبت
بیش
شما
چنین
طور
افراد
تمام
درباره
بار
بسیاری
میتواند
کرده
چون
ندارد
دوم
بزرگ
طی
حدود
همان
بدون
البته
آنان
میگوید
دیگری
خواهدشد
کنیم
قابل
یعنی
رشد
میتوان
وارد
کل
ویژه
قبل
براساس
نیاز
گذاری
هنوز
لازم
سازی
بودهاست
چرا
میشوند
وقتی
گرفت
کم
جای
حالی
تغییر
پیدا
اکنون
تحت
باعث
مدت
فقط
زیادی
تعداد
آیا
بیان
رو
شدند
عدم
کردهاند
بودن
نوع
بلکه
جاری
دهد
برابر
مهم
بوده
اخیر
مربوط
امر
زیر
گیری
شاید
خصوص
آقای
اثر
کننده
بودند
فکر
کنار
اولین
سوم
سایر
کنید
ضمن
مانند
باز
میگیرد
ممکن
حل
دارای
پی
مثل
میرسد
اجرا
دور
منظور
کسی
موجب
طول
امکان
آنچه
تعیین
گفته
شوند
جمع
خیلی
علاوه
گونه
تاکنون
رسید
ساله
گرفته
شدهاند
علت
چهار
داشتهباشد
خواهدبود
طرف
تهیه
تبدیل
مناسب
زیرا
مشخص
میتوانند
نزدیک
جریان
روند
بنابراین
میدهند
یافت
نخستین
بالا
پنج
ریزی
عالی
چیزی
نخست
بیشتری
ترتیب
شدهبود
خاص
خوبی
خوب
شروع
فرد
کامل
غیر
میرود
دهند
آخرین
دادن
جدی
بهترین
شامل
گیرد
بخشی
باشند
تمامی
بهتر
دادهاست
حد
نبود
کسانی
میکرد
داریم
علیه
میباشد
دانست
ناشی
داشتند
دهه
میشد
ایشان
آنجا
گرفتهاست
دچار
میآید
لحاظ
آنکه
داده
بعضی
هستیم
اند
برداری
نباید
میکنیم
نشست
سهم
همیشه
آمد
اش
وگو
میکنم
حداقل
طبق
جا
خواهدکرد
نوعی
چگونه
رفت
هنگام
فوق
روش
ندارند
سعی
بندی
شمار
کلی
کافی
مواجه
همچنان
زیاد
سمت
کوچک
داشتهاست
چیز
پشت
آورد
حالا
روبه
سالهای
دادند
میکردند
عهده
نیمه
جایی
دیگران
سی
بروز
یکدیگر
آمدهاست
جز
کنم
سپس
کنندگان
خودش
همواره
یافته
شان
صرف
نمیشود
رسیدن
چهارم
یابد
متر
ساز
داشته
کردهبود
باره
نحوه
کردم
تو
شخصی
داشتهباشند
محسوب
پخش
کمی
متفاوت
سراسر
کاملا
داشتن
نظیر
آمده
گروهی
فردی
ع
همچون
خطر
خویش
کدام
دسته
سبب
عین
آوری
متاسفانه
بیرون
دار
ابتدا
شش
افرادی
میگویند
سالهای
درون
نیستند
یافتهاست
پر
خاطرنشان
گاه
جمعی
اغلب
دوباره
مییابد
لذا
زاده
گردد
اینجا""".split()
)

View File

@ -1,5 +1,4 @@
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES
from .syntax_iterators import SYNTAX_ITERATORS
@ -11,7 +10,6 @@ class FinnishDefaults(BaseDefaults):
suffixes = TOKENIZER_SUFFIXES
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
syntax_iterators = SYNTAX_ITERATORS

View File

@ -1,110 +0,0 @@
# Source https://github.com/stopwords-iso/stopwords-fi/blob/master/stopwords-fi.txt
# Reformatted with some minor corrections
STOP_WORDS = set(
"""
aiemmin aika aikaa aikaan aikaisemmin aikaisin aikana aikoina aikoo aikovat
aina ainakaan ainakin ainoa ainoat aiomme aion aiotte aivan ajan alas alemmas
alkuisin alkuun alla alle aloitamme aloitan aloitat aloitatte aloitattivat
aloitettava aloitettavaksi aloitettu aloitimme aloitin aloitit aloititte
aloittaa aloittamatta aloitti aloittivat alta aluksi alussa alusta annettavaksi
annettava annettu ansiosta antaa antamatta antoi apu asia asiaa asian asiasta
asiat asioiden asioihin asioita asti avuksi avulla avun avutta
edelle edelleen edellä edeltä edemmäs edes edessä edestä ehkä ei eikä eilen
eivät eli ellei elleivät ellemme ellen ellet ellette emme en enemmän eniten
ennen ensi ensimmäinen ensimmäiseksi ensimmäisen ensimmäisenä ensimmäiset
ensimmäisiksi ensimmäisinä ensimmäisiä ensimmäistä ensin entinen entisen
entisiä entisten entistä enää eri erittäin erityisesti eräiden eräs eräät esi
esiin esillä esimerkiksi et eteen etenkin ette ettei että
halua haluaa haluamatta haluamme haluan haluat haluatte haluavat halunnut
halusi halusimme halusin halusit halusitte halusivat halutessa haluton he hei
heidän heidät heihin heille heillä heiltä heissä heistä heitä helposti heti
hetkellä hieman hitaasti huolimatta huomenna hyvien hyviin hyviksi hyville
hyviltä hyvin hyvinä hyvissä hyvistä hyviä hyvä hyvät hyvää hän häneen hänelle
hänellä häneltä hänen hänessä hänestä hänet häntä
ihan ilman ilmeisesti itse itsensä itseään
ja jo johon joiden joihin joiksi joilla joille joilta joina joissa joista joita
joka jokainen jokin joko joksi joku jolla jolle jolloin jolta jompikumpi jona
jonka jonkin jonne joo jopa jos joskus jossa josta jota jotain joten jotenkin
jotenkuten jotka jotta jouduimme jouduin jouduit jouduitte joudumme joudun
joudutte joukkoon joukossa joukosta joutua joutui joutuivat joutumaan joutuu
joutuvat juuri jälkeen jälleen jää
kahdeksan kahdeksannen kahdella kahdelle kahdelta kahden kahdessa kahdesta
kahta kahteen kai kaiken kaikille kaikilta kaikkea kaikki kaikkia kaikkiaan
kaikkialla kaikkialle kaikkialta kaikkien kaikkiin kaksi kannalta kannattaa
kanssa kanssaan kanssamme kanssani kanssanne kanssasi kauan kauemmas kaukana
kautta kehen keiden keihin keiksi keille keillä keiltä keinä keissä keistä
keitten keittä keitä keneen keneksi kenelle kenellä keneltä kenen kenenä
kenessä kenestä kenet kenettä kenties kerran kerta kertaa keskellä kesken
keskimäärin ketkä ketä kiitos kohti koko kokonaan kolmas kolme kolmen kolmesti
koska koskaan kovin kuin kuinka kuinkaan kuitenkaan kuitenkin kuka kukaan kukin
kumpainen kumpainenkaan kumpi kumpikaan kumpikin kun kuten kuuden kuusi kuutta
kylliksi kyllä kymmenen kyse
liian liki lisäksi lisää lla luo luona lähekkäin lähelle lähellä läheltä
lähemmäs lähes lähinnä lähtien läpi
mahdollisimman mahdollista me meidän meidät meihin meille meillä meiltä meissä
meistä meitä melkein melko menee menemme menen menet menette menevät meni
menimme menin menit menivät mennessä mennyt menossa mihin miksi mikä mikäli
mikään mille milloin milloinkan millä miltä minkä minne minua minulla minulle
minulta minun minussa minusta minut minuun minä missä mistä miten mitkä mitä
mitään moi molemmat mones monesti monet moni moniaalla moniaalle moniaalta
monta muassa muiden muita muka mukaan mukaansa mukana mutta muu muualla muualle
muualta muuanne muulloin muun muut muuta muutama muutaman muuten myöhemmin myös
myöskin myöskään myötä
ne neljä neljän neljää niiden niihin niiksi niille niillä niiltä niin niinä
niissä niistä niitä noiden noihin noiksi noilla noille noilta noin noina noissa
noista noita nopeammin nopeasti nopeiten nro nuo nyt näiden näihin näiksi
näille näillä näiltä näin näinä näissä näistä näitä nämä
ohi oikea oikealla oikein ole olemme olen olet olette oleva olevan olevat oli
olimme olin olisi olisimme olisin olisit olisitte olisivat olit olitte olivat
olla olleet ollut oma omaa omaan omaksi omalle omalta oman omassa omat omia
omien omiin omiksi omille omilta omissa omista on onkin onko ovat
paikoittain paitsi pakosti paljon paremmin parempi parhaillaan parhaiten
perusteella peräti pian pieneen pieneksi pienelle pienellä pieneltä pienempi
pienestä pieni pienin poikki puolesta puolestaan päälle
runsaasti
saakka sama samaa samaan samalla saman samat samoin satojen se
seitsemän sekä sen seuraavat siellä sieltä siihen siinä siis siitä sijaan siksi
sille silloin sillä silti siltä sinne sinua sinulla sinulle sinulta sinun
sinussa sinusta sinut sinuun sinä sisäkkäin sisällä siten sitten sitä ssa sta
suoraan suuntaan suuren suuret suuri suuria suurin suurten
taa taas taemmas tahansa tai takaa takaisin takana takia tallä tapauksessa
tarpeeksi tavalla tavoitteena te teidän teidät teihin teille teillä teiltä
teissä teistä teitä tietysti todella toinen toisaalla toisaalle toisaalta
toiseen toiseksi toisella toiselle toiselta toisemme toisen toisensa toisessa
toisesta toista toistaiseksi toki tosin tule tulee tulemme tulen
tulet tulette tulevat tulimme tulin tulisi tulisimme tulisin tulisit tulisitte
tulisivat tulit tulitte tulivat tulla tulleet tullut tuntuu tuo tuohon tuoksi
tuolla tuolle tuolloin tuolta tuon tuona tuonne tuossa tuosta tuota tuskin tykö
tähän täksi tälle tällä tällöin tältä tämä tämän tänne tänä tänään tässä tästä
täten tätä täysin täytyvät täytyy täällä täältä
ulkopuolella usea useasti useimmiten usein useita uudeksi uudelleen uuden uudet
uusi uusia uusien uusinta uuteen uutta
vaan vai vaiheessa vaikea vaikean vaikeat vaikeilla vaikeille vaikeilta
vaikeissa vaikeista vaikka vain varmasti varsin varsinkin varten vasen
vasemmalla vasta vastaan vastakkain vastan verran vielä vierekkäin vieressä
vieri viiden viime viimeinen viimeisen viimeksi viisi voi voidaan voimme voin
voisi voit voitte voivat vuoden vuoksi vuosi vuosien vuosina vuotta vähemmän
vähintään vähiten vähän välillä
yhdeksän yhden yhdessä yhteen yhteensä yhteydessä yhteyteen yhtä yhtäälle
yhtäällä yhtäältä yhtään yhä yksi yksin yksittäin yleensä ylemmäs yli ylös
ympäri
älköön älä
""".split()
)

View File

@ -5,7 +5,6 @@ from thinc.api import Model
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, TOKEN_MATCH
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES
from .punctuation import TOKENIZER_SUFFIXES
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from .syntax_iterators import SYNTAX_ITERATORS
from .lemmatizer import FrenchLemmatizer
@ -20,7 +19,6 @@ class FrenchDefaults(BaseDefaults):
token_match = TOKEN_MATCH
lex_attr_getters = LEX_ATTRS
syntax_iterators = SYNTAX_ITERATORS
stop_words = STOP_WORDS
class French(Language):

View File

@ -1,84 +0,0 @@
STOP_WORDS = set(
"""
a à â abord afin ah ai aie ainsi ait allaient allons
alors anterieur anterieure anterieures antérieur antérieure antérieures
apres après as assez attendu au
aupres auquel aura auraient aurait auront
aussi autre autrement autres autrui aux auxquelles auxquels avaient
avais avait avant avec avoir avons ayant
bas basee bat
c' c ça car ce ceci cela celle celle-ci celle-la celle-là celles celles-ci celles-la celles-là
celui celui-ci celui-la celui- cent cependant certain certaine certaines certains certes ces
cet cette ceux ceux-ci ceux- chacun chacune chaque chez ci cinq cinquantaine cinquante
cinquantième cinquième combien comme comment compris concernant
d' d da dans de debout dedans dehors deja dejà delà depuis derriere
derrière des desormais desquelles desquels dessous dessus deux deuxième
deuxièmement devant devers devra different differente differentes differents différent
différente différentes différents dire directe directement dit dite dits divers
diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont
douze douzième du duquel durant dès déja déjà désormais
effet egalement eh elle elle-meme elle-même elles elles-memes elles-mêmes en encore
enfin entre envers environ es ès est et etaient étaient etais étais etait était
etant étant etc etre être eu eux eux-mêmes exactement excepté également
fais faisaient faisant fait facon façon feront font
gens
ha hem hep hi ho hormis hors hou houp hue hui huit huitième
i il ils importe
j' j je jusqu jusque juste
l' l la laisser laquelle le lequel les lesquelles lesquels leur leurs longtemps
lors lorsque lui lui-meme lui-même lès
m' m ma maint maintenant mais malgre malgré me meme memes merci mes mien
mienne miennes miens mille moi moi-meme moi-même moindres moins
mon même mêmes
n' n na ne neanmoins neuvième ni nombreuses nombreux nos notamment
notre nous nous-mêmes nouveau nul néanmoins nôtre nôtres
o ô on ont onze onzième or ou ouias ouste outre
ouvert ouverte ouverts
par parce parfois parle parlent parler parmi partant
pas pendant pense permet personne peu peut peuvent peux plus
plusieurs plutot plutôt possible possibles pour pourquoi
pourrais pourrait pouvait prealable precisement
premier première premièrement
pres procedant proche près préalable précisement pu puis puisque
qu' qu quand quant quant-à-soi quarante quatorze quatre quatre-vingt
quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque
quelques quels qui quiconque quinze quoi quoique
relative relativement rend rendre restant reste
restent retour revoici revoila revoilà
s' s sa sait sans sauf se seize selon semblable semblaient
semble semblent sent sept septième sera seraient serait seront ses seul seule
seulement seuls seules si sien sienne siennes siens sinon six sixième soi soi-meme soi-même soit
soixante son sont sous souvent specifique specifiques spécifique spécifiques stop
suffisant suffisante suffit suis suit suivant suivante
suivantes suivants suivre sur surtout
t' t ta tant te tel telle tellement telles tels tenant tend tenir tente
tes tien tienne tiennes tiens toi toi-meme toi-même ton touchant toujours tous
tout toute toutes treize trente tres trois troisième troisièmement très
tu
un une unes uns
va vais vas vers via vingt voici voila voilà vont vos
votre votres vous vous-mêmes vu vôtre vôtres
y
""".split()
)

View File

@ -3,14 +3,12 @@ from typing import Optional
from thinc.api import Model
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .stop_words import STOP_WORDS
from ...language import Language, BaseDefaults
from .lemmatizer import IrishLemmatizer
class IrishDefaults(BaseDefaults):
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
stop_words = STOP_WORDS
class Irish(Language):

View File

@ -1,43 +0,0 @@
STOP_WORDS = set(
"""
a ach ag agus an aon ar arna as
ba beirt bhúr
caoga ceathair ceathrar chomh chuig chun cois céad cúig cúigear
daichead dar de deich deichniúr den dhá do don dtí dár
faoi faoin faoina faoinár fara fiche
gach gan go gur
haon hocht
i iad idir in ina ins inár is
le leis lena lenár
mar mo muid
na nach naoi naonúr níor nócha
ocht ochtar ochtó os
roimh
sa seacht seachtar seachtó seasca seisear siad sibh sinn sna
tar thar thú triúr trí trína trínár tríocha
um
ár
é éis
í
ó ón óna ónár
""".split()
)

View File

@ -1,5 +1,4 @@
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from ...language import Language, BaseDefaults
@ -7,7 +6,6 @@ from ...language import Language, BaseDefaults
class AncientGreekDefaults(BaseDefaults):
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
class AncientGreek(Language):

View File

@ -1,61 +0,0 @@
STOP_WORDS = set(
"""
αὐτῷ αὐτοῦ αὐτῆς αὐτόν αὐτὸν αὐτῶν αὐτὸς αὐτὸ αὐτό αὐτός αὐτὴν αὐτοῖς αὐτοὺς αὔτ' αὐτὰ αὐτῇ αὐτὴ
αὐτὼ αὑταὶ καὐτὸς αὐτά αὑτός αὐτοῖσι αὐτοῖσιν αὑτὸς αὐτήν αὐτοῖσί αὐτοί αὐτοὶ αὐτοῖο αὐτάων αὐτὰς
αὐτέων αὐτώ αὐτάς αὐτούς αὐτή αὐταί αὐταὶ αὐτῇσιν τὠυτῷ τὠυτὸ ταὐτὰ ταύτῃ αὐτῇσι αὐτῇς αὐταῖς αὐτᾶς αὐτὰν ταὐτὸν
γε γ' γέ γὰρ γάρ δαῖτα δαιτὸς δαιτὶ δαὶ δαιτί δαῖτ' δαΐδας δαΐδων δἰ διὰ διά δὲ δ' δέ δὴ δή εἰ εἴ κεἰ κεἴ αἴ αἲ εἲ αἰ
ἐστί ἐστιν ὢν ἦν ἐστὶν ὦσιν εἶναι ὄντι εἰσιν ἐστι ὄντα οὖσαν ἦσαν ἔστι ὄντας ἐστὲ εἰσὶ εἶ ὤν οὖσαι ἔσται ἐσμὲν ἐστ' ἐστίν ἔστ' ἔσει ἦμεν εἰμι εἰσὶν ἦσθ'
ἐστὶ οὖσ' ἔστιν εἰμὶ εἴμ' ἐσθ' ᾖς στί εἴην εἶναί οὖσα κἄστ' εἴη ἦσθα εἰμ' ἔστω ὄντ' ἔσθ' ἔμμεναι ἔω ἐὼν ἐσσι ἔσσεται ἐστὸν ἔσαν ἔστων ἐόντα ἦεν ἐοῦσαν ἔην
ἔσσομαι εἰσί ἐστόν ἔσκεν ἐόντ' ἐών ἔσσεσθ' εἰσ' ἐόντες ἐόντε ἐσσεῖται εἰμεν ἔασιν ἔσκε ἔμεναι ἔσεσθαι ἔῃ εἰμὲν εἰσι ἐόντας ἔστε εἰς ἦτε εἰμί ἔσσεαι ἔμμεν
ἐοῦσα ἔμεν ᾖσιν ἐστε ἐόντι εἶεν ἔσσονται ἔησθα ἔσεσθε ἐσσί ἐοῦσ' ἔασι ἔα ἦα ἐόν ἔσσεσθαι ἔσομαι ἔσκον εἴης ἔωσιν εἴησαν ἐὸν ἐουσέων ἔσσῃ ἐούσης ἔσονται
ἐούσας ἐόντων ἐόντος ἐσομένην ἔστωσαν ἔωσι ἔας ἐοῦσαι ἣν εἰσίν ἤστην ὄντες ὄντων οὔσας οὔσαις ὄντος οὖσι οὔσης ἔσῃ ὂν ἐσμεν ἐσμέν οὖσιν ἐσομένους ἐσσόμεσθα
ἒς ἐς ἔς ἐν κεἰς εἲς κἀν ἔν κατὰ κατ' καθ' κατά κάτα κὰπ κὰκ κὰδ κὰρ κάρ κὰγ κὰμ καὶ καί μετὰ μεθ' μετ' μέτα μετά μέθ' μέτ' μὲν μέν μὴ
μή μη οὐκ οὒ οὐ οὐχ οὐχὶ κοὐ κοὐχ οὔ κοὐκ οὐχί οὐκὶ οὐδὲν οὐδεὶς οὐδέν κοὐδεὶς κοὐδὲν οὐδένα οὐδενὸς οὐδέν' οὐδενός οὐδενὶ
οὐδεμία οὐδείς οὐδεμίαν οὐδὲ οὐδ' κοὐδ' οὐδέ οὔτε οὔθ' οὔτέ τε οὔτ' οὕτως οὕτω οὕτῶ χοὔτως οὖν ὦν ὧν τοῦτο τοῦθ' τοῦτον τούτῳ
τούτοις ταύτας αὕτη ταῦτα οὗτος ταύτης ταύτην τούτων ταῦτ' τοῦτ' τούτου αὗται τούτους τοῦτό ταῦτά τούτοισι χαὔτη ταῦθ' χοὖτοι
τούτοισιν οὗτός οὗτοι τούτω τουτέων τοῦτὸν οὗτοί τοῦτου οὗτοὶ ταύτῃσι ταύταις ταυτὶ παρὰ παρ' πάρα παρά πὰρ παραὶ πάρ' περὶ
πέρι περί πρὸς πρός ποτ' ποτὶ προτὶ προτί πότι
σὸς σήν σὴν σὸν σόν σὰ σῶν σοῖσιν σός σῆς σῷ σαῖς σῇ σοῖς σοῦ σ' σὰν σά σὴ σὰς
σᾷ σοὺς σούς σοῖσι σῇς σῇσι σή σῇσιν σοὶ σου ὑμεῖς σὲ σύ σοι ὑμᾶς ὑμῶν ὑμῖν σε
σέ σὺ σέθεν σοί ὑμὶν σφῷν ὑμίν τοι τοὶ σφὼ ὔμμ' σφῶϊ σεῖο τ' σφῶϊν ὔμμιν σέο σευ σεῦ
ὔμμι ὑμέων τύνη ὑμείων τοί ὔμμες σεο τέ τεοῖο ὑμέας σὺν ξὺν σύν
θ' τί τι τις τινες τινα τινος τινὸς τινὶ τινῶν τίς τίνες τινὰς τιν' τῳ του τίνα τοῦ τῷ τινί τινά τίνος τινι τινας τινὰ τινων
τίν' τευ τέο τινές τεο τινὲς τεῷ τέῳ τινός τεῳ τισὶ
τοιαῦτα τοιοῦτον τοιοῦθ' τοιοῦτος τοιαύτην τοιαῦτ' τοιούτου τοιαῦθ' τοιαύτῃ τοιούτοις τοιαῦται τοιαῦτά τοιαύτη τοιοῦτοι τοιούτων τοιούτοισι
τοιοῦτο τοιούτους τοιούτῳ τοιαύτης τοιαύταις τοιαύτας τοιοῦτός τίνι τοῖσι τίνων τέων τέοισί τὰ τῇ τώ τὼ
ἀλλὰ ἀλλ' ἀλλά ἀπ' ἀπὸ κἀπ' ἀφ' τἀπὸ κἀφ' ἄπο ἀπό τὠπὸ τἀπ' ἄλλων ἄλλῳ ἄλλη ἄλλης ἄλλους ἄλλοις ἄλλον ἄλλο ἄλλου τἄλλα ἄλλα
ἄλλᾳ ἄλλοισιν τἄλλ' ἄλλ' ἄλλος ἄλλοισι κἄλλ' ἄλλοι ἄλλῃσι ἄλλόν ἄλλην ἄλλά ἄλλαι ἄλλοισίν ὧλλοι ἄλλῃ ἄλλας ἀλλέων τἆλλα ἄλλως
ἀλλάων ἄλλαις τἆλλ'
ἂν ἄν κἂν τἂν ἃν κεν κ' κέν κέ κε χ' ἄρα τἄρα ἄρ' τἄρ' ἄρ ῥα ῥά τὰρ ἄρά ἂρ
ἡμᾶς με ἐγὼ ἐμὲ μοι κἀγὼ ἡμῶν ἡμεῖς ἐμοὶ ἔγωγ' ἁμοὶ ἡμῖν μ' ἔγωγέ ἐγώ ἐμοί ἐμοῦ κἀμοῦ ἔμ' κἀμὲ ἡμὶν μου ἐμέ ἔγωγε νῷν νὼ χἠμεῖς ἁμὲ κἀγώ κἀμοὶ χἠμᾶς
ἁγὼ ἡμίν κἄμ' ἔμοιγ' μοί τοὐμὲ ἄμμε ἐγὼν ἐμεῦ ἐμεῖο μευ ἔμοιγε ἄμμι μέ ἡμέας νῶϊ ἄμμιν ἧμιν ἐγών νῶΐ ἐμέθεν ἥμιν ἄμμες νῶι ἡμείων ἄμμ' ἡμέων ἐμέο
ἐκ ἔκ ἐξ κἀκ κ ἃκ κἀξ ἔξ εξ Ἐκ τἀμὰ ἐμοῖς τοὐμόν ἐμᾶς τοὐμὸν ἐμῶν ἐμὸς ἐμῆς ἐμῷ τὠμῷ ἐμὸν τἄμ' ἐμὴ ἐμὰς ἐμαῖς ἐμὴν ἐμόν ἐμὰ ἐμός ἐμοὺς ἐμῇ ἐμᾷ
οὑμὸς ἐμοῖν οὑμός κἀμὸν ἐμαὶ ἐμή ἐμάς ἐμοῖσι ἐμοῖσιν ἐμῇσιν ἐμῇσι ἐμῇς ἐμήν
ἔνι ἐνὶ εἰνὶ εἰν ἐμ ἐπὶ ἐπ' ἔπι ἐφ' κἀπὶ τἀπὶ ἐπί ἔφ' ἔπ' ἐὰν ἢν ἐάν ἤν ἄνπερ
αὑτοῖς αὑτὸν αὑτῷ ἑαυτοῦ αὑτόν αὑτῆς αὑτῶν αὑτοῦ αὑτὴν αὑτοῖν χαὐτοῦ αὑταῖς ἑωυτοῦ ἑωυτῇ ἑωυτὸν ἐωυτῷ ἑωυτῆς ἑωυτόν ἑωυτῷ
ἑωυτάς ἑωυτῶν ἑωυτοὺς ἑωυτοῖσι ἑαυτῇ ἑαυτούς αὑτοὺς ἑαυτῶν ἑαυτοὺς ἑαυτὸν ἑαυτῷ ἑαυτοῖς ἑαυτὴν ἑαυτῆς
ἔτι ἔτ' ἔθ' κἄτι ἠέ ἠὲ ἦε ἦέ τοὺς τὴν τὸ τῶν τὸν οἱ τοῖς ταῖς τῆς τὰς αἱ τό τὰν τᾶς τοῖσιν αἳ χὠ τήν τά τοῖν τάς
χοἰ χἠ τάν τᾶν οἳ οἵ τοῖο τόν τοῖιν τούς τάων ταὶ τῇς τῇσι τῇσιν αἵ τοῖό τοῖσίν ὅττί ταί Τὴν τῆ τῶ τάδε ὅδε τοῦδε τόδε τόνδ'
τάδ' τῆσδε τῷδε ὅδ' τῶνδ' τῇδ' τοῦδέ τῶνδε τόνδε τόδ' τοῦδ' τάσδε τήνδε τάσδ' τήνδ' ταῖσδέ τῇδε τῆσδ' τάνδ' τῷδ' τάνδε ἅδε τοῖσδ' ἥδ'
τᾷδέ τοῖσδε τούσδ' ἥδε τούσδε τώδ' ἅδ' οἵδ' τῶνδέ οἵδε τᾷδε τοῖσδεσσι τώδε τῇδέ τοῖσιδε αἵδε τοῦδὲ τῆδ' αἵδ' τοῖσδεσι ὃν ὃς οὗ ἅπερ
οὓς ἧς οἷς ἅσπερ χὦνπερ αἷς ὅς ἥπερ ἃς ὅσπερ ὅνπερ ὧνπερ ᾧπερ ὅν αἷν οἷσι ἇς ἅς οὕς ἥν οἷσιν ἕης ὅου ᾗς οἷσί οἷσίν τοῖσί ᾗσιν οἵπερ αἷσπερ
ὅστις ἥτις ὅτου ὅτοισι ἥντιν' ὅτῳ ὅντιν' ὅττι ἅσσά ὅτεῳ ὅτις ὅτιν' ὅτευ ἥντινα αἵτινές ὅντινα ἅσσα ᾧτινι οἵτινες ὅτι ἅτις ὅτ' ὑμὴ
ὑμήν ὑμὸν ὑπὲρ ὕπερ ὑπέρτερον ὑπεὶρ ὑπέρτατος ὑπὸ ὑπ' ὑφ' ὕπο ὑπαὶ ὑπό ὕπ' ὕφ'
ὣς ὡς ὥς ὧς ὥστ' ὥστε ὥσθ'
""".split()
)

View File

@ -1,9 +1,8 @@
from .stop_words import STOP_WORDS
from ...language import Language, BaseDefaults
class GujaratiDefaults(BaseDefaults):
stop_words = STOP_WORDS
pass
class Gujarati(Language):

View File

@ -1,88 +0,0 @@
STOP_WORDS = set(
"""
એમ
રહ
હત
હત
હત
હત
શક
મન
મન
મણ
મન
અન
અહ
થઈ
પણ
પર
પરથ
આવ
એવ
આવ
થઈ
છત
રહ
કર
કર
ટલ
કર
કર
કર
રબ
તથ
શક
નથ
હવ
અથવ
થત
દર
એટલ
પર
""".split()
)

View File

@ -1,10 +1,8 @@
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from ...language import Language, BaseDefaults
class HebrewDefaults(BaseDefaults):
stop_words = STOP_WORDS
lex_attr_getters = LEX_ATTRS
writing_system = {"direction": "rtl", "has_case": False, "has_letters": True}

View File

@ -1,222 +0,0 @@
STOP_WORDS = set(
"""
אני
את
אתה
אנחנו
אתן
אתם
הם
הן
היא
הוא
שלי
שלו
שלך
שלה
שלנו
שלכם
שלכן
שלהם
שלהן
לי
לו
לה
לנו
לכם
לכן
להם
להן
אותה
אותו
זה
זאת
אלה
אלו
תחת
מתחת
מעל
בין
עם
עד
על
אל
מול
של
אצל
כמו
אחר
אותו
בלי
לפני
אחרי
מאחורי
עלי
עליו
עליה
עליך
עלינו
עליכם
עליכן
עליהם
עליהן
כל
כולם
כולן
כך
ככה
כזה
כזאת
זה
אותי
אותה
אותם
אותך
אותו
אותן
אותנו
ואת
את
אתכם
אתכן
איתי
איתו
איתך
איתה
איתם
איתן
איתנו
איתכם
איתכן
יהיה
תהיה
הייתי
היתה
היה
להיות
עצמי
עצמו
עצמה
עצמם
עצמן
עצמנו
מי
מה
איפה
היכן
במקום שבו
אם
לאן
למקום שבו
מקום בו
איזה
מהיכן
איך
כיצד
באיזו מידה
מתי
בשעה ש
כאשר
כש
למרות
לפני
אחרי
מאיזו סיבה
הסיבה שבגללה
למה
מדוע
לאיזו תכלית
כי
יש
אין
אך
מנין
מאין
מאיפה
יכל
יכלה
יכלו
יכול
יכולה
יכולים
יכולות
יוכלו
יוכל
מסוגל
לא
רק
אולי
אין
לאו
אי
כלל
בעד
נגד
אם
עם
אל
אלה
אלו
אף
על
מעל
מתחת
מצד
בשביל
לבין
באמצע
בתוך
דרך
מבעד
באמצעות
למעלה
למטה
מחוץ
מן
לעבר
מכאן
כאן
הנה
הרי
פה
שם
אך
ברם
שוב
אבל
מבלי
בלי
מלבד
רק
בגלל
מכיוון
עד
אשר
ואילו
למרות
כמו
כפי
אז
אחרי
כן
לכן
לפיכך
עז
מאוד
מעט
מעטים
במידה
שוב
יותר
מדי
גם
כן
נו
אחר
אחרת
אחרים
אחרות
אשר
או
""".split()
)

View File

@ -1,10 +1,8 @@
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from ...language import Language, BaseDefaults
class HindiDefaults(BaseDefaults):
stop_words = STOP_WORDS
lex_attr_getters = LEX_ATTRS

View File

@ -1,239 +0,0 @@
# Source: https://github.com/taranjeet/hindi-tokenizer/blob/master/stopwords.txt, https://data.mendeley.com/datasets/bsr3frvvjc/1#file-a21d5092-99d7-45d8-b044-3ae9edd391c6
STOP_WORDS = set(
"""
दर
अत
अदि
अप
अपन
अपनि
अपन
अपन
अभि
अभ
दर
आदि
आप
अगर
ि
इतयि
इति
इन
इनक
इन
इन
इन
इस
इसक
इसकि
इसक
इसक
इसम
इसि
इस
इस
ि
उन
उनक
उनकि
उनक
उनक
उनक
उन
उन
उन
उस
उसक
उसि
उस
उस
एक
एव
एस
एस
ऐस
ओर
और
कइ
कई
कर
करत
करत
करन
करन
कर
कहत
कह
ि
ि
ि
ि
ितन
ि
ि
ि
ि
ि
िि
ि
ि
नस
नस
गय
घर
जब
जह
जह
ि
ि
ितन
िधर
ि
ि
ि
ि
ि
धर
तक
तब
तरह
ि
ि
ि
ि
ि
ि
ि
ि
दब
दव
ि
सर
सर
सर
नहि
नह
ि
ियत
पर
पहल
ि
बनि
बन
बहि
बह
बह
िलक
ि
ितर
तर
मगर
झक
यदि
यह
यह
यह
यहि
यह
ि
रख
रव
रह
रह
ि
ि
ि
वगरह
वग़रह
वरग
वर
वह
वह
वह
वहि
वह
वग़रह
सकत
सकत
सबस
सभि
सभ
ि
ि
""".split()
)

View File

@ -1,9 +1,8 @@
from .stop_words import STOP_WORDS
from ...language import Language, BaseDefaults
class CroatianDefaults(BaseDefaults):
stop_words = STOP_WORDS
pass
class Croatian(Language):

View File

@ -1,344 +0,0 @@
# Source: https://github.com/stopwords-iso/stopwords-hr
STOP_WORDS = set(
"""
a
ah
aha
aj
ako
al
ali
arh
au
avaj
bar
baš
bez
bi
bih
bijah
bijahu
bijaše
bijasmo
bijaste
bila
bili
bilo
bio
bismo
biste
biti
brr
buć
budavši
bude
budimo
budite
budu
budući
bum
bumo
će
ćemo
ćeš
ćete
čijem
čijim
čijima
ću
da
daj
dakle
de
deder
dem
djelomice
djelomično
do
doista
dok
dokle
donekle
dosad
doskoro
dotad
dotle
dovečer
drugamo
drugdje
duž
e
eh
ehe
ej
eno
eto
evo
ga
gdjekakav
gdjekoje
gic
god
halo
hej
hm
hoće
hoćemo
hoćeš
hoćete
hoću
hop
htijahu
htijasmo
htijaste
htio
htjedoh
htjedoše
htjedoste
htjela
htjele
htjeli
hura
i
iako
ih
iju
ijuju
ikada
ikakav
ikakva
ikakve
ikakvi
ikakvih
ikakvim
ikakvima
ikakvo
ikakvog
ikakvoga
ikakvoj
ikakvom
ikakvome
ili
im
iz
ja
je
jedna
jedne
jedni
jedno
jer
jesam
jesi
jesmo
jest
jeste
jesu
jim
joj
još
ju
kada
kako
kao
koja
koje
koji
kojima
koju
kroz
lani
li
me
mene
meni
mi
mimo
moj
moja
moje
moji
moju
mu
na
nad
nakon
nam
nama
nas
naš
naša
naše
našeg
naši
ne
neće
nećemo
nećeš
nećete
neću
nego
neka
neke
neki
nekog
neku
nema
nešto
netko
ni
nije
nikoga
nikoje
nikoji
nikoju
nisam
nisi
nismo
niste
nisu
njega
njegov
njegova
njegovo
njemu
njezin
njezina
njezino
njih
njihov
njihova
njihovo
njim
njima
njoj
nju
no
o
od
odmah
on
ona
one
oni
ono
onu
onoj
onom
onim
onima
ova
ovaj
ovim
ovima
ovoj
pa
pak
pljus
po
pod
podalje
poimence
poizdalje
ponekad
pored
postrance
potajice
potrbuške
pouzdano
prije
s
sa
sam
samo
sasvim
sav
se
sebe
sebi
si
šic
smo
ste
što
šta
štogod
štagod
su
sva
sve
svi
svi
svog
svoj
svoja
svoje
svoju
svom
svu
ta
tada
taj
tako
te
tebe
tebi
ti
tim
tima
to
toj
tome
tu
tvoj
tvoja
tvoje
tvoji
tvoju
u
usprkos
utaman
uvijek
uz
uza
uzagrapce
uzalud
uzduž
valjda
vam
vama
vas
vaš
vaša
vaše
vašim
vašima
već
vi
vjerojatno
vjerovatno
vrh
vrlo
za
zaista
zar
zatim
zato
zbija
zbog
želeći
željah
željela
željele
željeli
željelo
željen
željena
željene
željeni
željenu
željeo
zimus
zum
""".split()
)

View File

@ -1,12 +1,10 @@
from .lex_attrs import LEX_ATTRS
from .stop_words import STOP_WORDS
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from ...language import Language, BaseDefaults
class UpperSorbianDefaults(BaseDefaults):
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
tokenizer_exceptions = TOKENIZER_EXCEPTIONS

View File

@ -1,19 +0,0 @@
STOP_WORDS = set(
"""
a abo ale ani
dokelž
hdyž
jeli jelizo
kaž
pak potom
tež tohodla
zo zoby
""".split()
)

View File

@ -1,6 +1,5 @@
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, TOKEN_MATCH
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_SUFFIXES, TOKENIZER_INFIXES
from .stop_words import STOP_WORDS
from ...language import Language, BaseDefaults
@ -10,7 +9,6 @@ class HungarianDefaults(BaseDefaults):
suffixes = TOKENIZER_SUFFIXES
infixes = TOKENIZER_INFIXES
token_match = TOKEN_MATCH
stop_words = STOP_WORDS
class Hungarian(Language):

View File

@ -1,62 +0,0 @@
STOP_WORDS = set(
"""
a abban ahhoz ahogy ahol aki akik akkor akár alatt amely amelyek amelyekben
amelyeket amelyet amelynek ami amikor amit amolyan amíg annak arra arról az
azok azon azonban azt aztán azután azzal azért
be belül benne bár
cikk cikkek cikkeket csak
de
e ebben eddig egy egyes egyetlen egyik egyre egyéb egész ehhez ekkor el ellen
elo eloször elott elso elég előtt emilyen ennek erre ez ezek ezen ezt ezzel
ezért
fel felé
ha hanem hiszen hogy hogyan hát
ide igen ill ill. illetve ilyen ilyenkor inkább is ismét ison itt
jobban jól
kell kellett keressünk keresztül ki kívül között közül
le legalább legyen lehet lehetett lenne lenni lesz lett
ma maga magát majd meg mellett mely melyek mert mi miatt mikor milyen minden
mindenki mindent mindig mint mintha mit mivel miért mondta most már más másik
még míg
nagy nagyobb nagyon ne nekem neki nem nincs néha néhány nélkül
o oda ok oket olyan ott
pedig persze például
s saját sem semmi sok sokat sokkal stb. szemben szerint szinte számára szét
talán te tehát teljes ti tovább továbbá több túl ugyanis
utolsó után utána
vagy vagyis vagyok valaki valami valamint való van vannak vele vissza viszont
volna volt voltak voltam voltunk
által általában át
én éppen és
így
ön össze
úgy új újabb újra
ő őket
""".split()
)

View File

@ -1,11 +1,9 @@
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from ...language import Language, BaseDefaults
class ArmenianDefaults(BaseDefaults):
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
class Armenian(Language):

View File

@ -1,107 +0,0 @@
STOP_WORDS = set(
"""
նա
ողջը
այստեղ
ենք
նա
էիր
որպես
ուրիշ
բոլորը
այն
այլ
նույնչափ
էի
մի
և
ողջ
ես
ոմն
հետ
նրանք
ամենքը
ըստ
ինչ-ինչ
այսպես
համայն
մի
նաև
նույնքան
դա
ովևէ
համար
այնտեղ
էին
որոնք
սույն
ինչ-որ
ամենը
նույնպիսի
ու
իր
որոշ
միևնույն
ի
այնպիսի
մենք
ամեն ոք
նույն
երբևէ
այն
որևէ
ին
այդպես
նրա
որը
վրա
դու
էինք
այդպիսի
էիք
յուրաքանչյուրը
եմ
պիտի
այդ
ամբողջը
հետո
եք
ամեն
այլ
կամ
այսքան
որ
այնպես
այսինչ
բոլոր
է
մեկնումեկը
այդչափ
այնքան
ամբողջ
երբևիցե
այնչափ
ամենայն
մյուս
այնինչ
իսկ
այդտեղ
այս
սա
են
ամեն ինչ
որևիցե
ում
մեկը
այդ
դուք
այսչափ
այդքան
այսպիսի
էր
յուրաքանչյուր
այս
մեջ
թ
""".split()
)

View File

@ -1,4 +1,3 @@
from .stop_words import STOP_WORDS
from .punctuation import TOKENIZER_SUFFIXES, TOKENIZER_PREFIXES, TOKENIZER_INFIXES
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .lex_attrs import LEX_ATTRS
@ -13,7 +12,6 @@ class IndonesianDefaults(BaseDefaults):
infixes = TOKENIZER_INFIXES
syntax_iterators = SYNTAX_ITERATORS
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
class Indonesian(Language):

View File

@ -1,118 +0,0 @@
STOP_WORDS = set(
"""
ada adalah adanya adapun agak agaknya agar akan akankah akhir akhiri akhirnya
aku akulah amat amatlah anda andalah antar antara antaranya apa apaan apabila
apakah apalagi apatah artinya asal asalkan atas atau ataukah ataupun awal
awalnya
bagai bagaikan bagaimana bagaimanakah bagaimanapun bagi bagian bahkan bahwa
bahwasanya baik bakal bakalan balik banyak bapak baru bawah beberapa begini
beginian beginikah beginilah begitu begitukah begitulah begitupun bekerja
belakang belakangan belum belumlah benar benarkah benarlah berada berakhir
berakhirlah berakhirnya berapa berapakah berapalah berapapun berarti berawal
berbagai berdatangan beri berikan berikut berikutnya berjumlah berkali-kali
berkata berkehendak berkeinginan berkenaan berlainan berlalu berlangsung
berlebihan bermacam bermacam-macam bermaksud bermula bersama bersama-sama
bersiap bersiap-siap bertanya bertanya-tanya berturut berturut-turut bertutur
berujar berupa besar betul betulkah biasa biasanya bila bilakah bisa bisakah
boleh bolehkah bolehlah buat bukan bukankah bukanlah bukannya bulan bung
cara caranya cukup cukupkah cukuplah cuma
dahulu dalam dan dapat dari daripada datang dekat demi demikian demikianlah
dengan depan di dia diakhiri diakhirinya dialah diantara diantaranya diberi
diberikan diberikannya dibuat dibuatnya didapat didatangkan digunakan
diibaratkan diibaratkannya diingat diingatkan diinginkan dijawab dijelaskan
dijelaskannya dikarenakan dikatakan dikatakannya dikerjakan diketahui
diketahuinya dikira dilakukan dilalui dilihat dimaksud dimaksudkan
dimaksudkannya dimaksudnya diminta dimintai dimisalkan dimulai dimulailah
dimulainya dimungkinkan dini dipastikan diperbuat diperbuatnya dipergunakan
diperkirakan diperlihatkan diperlukan diperlukannya dipersoalkan dipertanyakan
dipunyai diri dirinya disampaikan disebut disebutkan disebutkannya disini
disinilah ditambahkan ditandaskan ditanya ditanyai ditanyakan ditegaskan
ditujukan ditunjuk ditunjuki ditunjukkan ditunjukkannya ditunjuknya dituturkan
dituturkannya diucapkan diucapkannya diungkapkan dong dua dulu
empat enggak enggaknya entah entahlah
guna gunakan
hal hampir hanya hanyalah hari harus haruslah harusnya hendak hendaklah
hendaknya hingga
ia ialah ibarat ibaratkan ibaratnya ibu ikut ingat ingat-ingat ingin inginkah
inginkan ini inikah inilah itu itukah itulah
jadi jadilah jadinya jangan jangankan janganlah jauh jawab jawaban jawabnya
jelas jelaskan jelaslah jelasnya jika jikalau juga jumlah jumlahnya justru
kala kalau kalaulah kalaupun kalian kami kamilah kamu kamulah kan kapan
kapankah kapanpun karena karenanya kasus kata katakan katakanlah katanya ke
keadaan kebetulan kecil kedua keduanya keinginan kelamaan kelihatan
kelihatannya kelima keluar kembali kemudian kemungkinan kemungkinannya kenapa
kepada kepadanya kesampaian keseluruhan keseluruhannya keterlaluan ketika
khususnya kini kinilah kira kira-kira kiranya kita kitalah kok kurang
lagi lagian lah lain lainnya lalu lama lamanya lanjut lanjutnya lebih lewat
lima luar
macam maka makanya makin malah malahan mampu mampukah mana manakala manalagi
masa masalah masalahnya masih masihkah masing masing-masing mau maupun
melainkan melakukan melalui melihat melihatnya memang memastikan memberi
memberikan membuat memerlukan memihak meminta memintakan memisalkan memperbuat
mempergunakan memperkirakan memperlihatkan mempersiapkan mempersoalkan
mempertanyakan mempunyai memulai memungkinkan menaiki menambahkan menandaskan
menanti menanti-nanti menantikan menanya menanyai menanyakan mendapat
mendapatkan mendatang mendatangi mendatangkan menegaskan mengakhiri mengapa
mengatakan mengatakannya mengenai mengerjakan mengetahui menggunakan
menghendaki mengibaratkan mengibaratkannya mengingat mengingatkan menginginkan
mengira mengucapkan mengucapkannya mengungkapkan menjadi menjawab menjelaskan
menuju menunjuk menunjuki menunjukkan menunjuknya menurut menuturkan
menyampaikan menyangkut menyatakan menyebutkan menyeluruh menyiapkan merasa
mereka merekalah merupakan meski meskipun meyakini meyakinkan minta mirip
misal misalkan misalnya mula mulai mulailah mulanya mungkin mungkinkah
nah naik namun nanti nantinya nyaris nyatanya
oleh olehnya
pada padahal padanya pak paling panjang pantas para pasti pastilah penting
pentingnya per percuma perlu perlukah perlunya pernah persoalan pertama
pertama-tama pertanyaan pertanyakan pihak pihaknya pukul pula pun punya
rasa rasanya rata rupanya
saat saatnya saja sajalah saling sama sama-sama sambil sampai sampai-sampai
sampaikan sana sangat sangatlah satu saya sayalah se sebab sebabnya sebagai
sebagaimana sebagainya sebagian sebaik sebaik-baiknya sebaiknya sebaliknya
sebanyak sebegini sebegitu sebelum sebelumnya sebenarnya seberapa sebesar
sebetulnya sebisanya sebuah sebut sebutlah sebutnya secara secukupnya sedang
sedangkan sedemikian sedikit sedikitnya seenaknya segala segalanya segera
seharusnya sehingga seingat sejak sejauh sejenak sejumlah sekadar sekadarnya
sekali sekali-kali sekalian sekaligus sekalipun sekarang sekarang sekecil
seketika sekiranya sekitar sekitarnya sekurang-kurangnya sekurangnya sela
selain selaku selalu selama selama-lamanya selamanya selanjutnya seluruh
seluruhnya semacam semakin semampu semampunya semasa semasih semata semata-mata
semaunya sementara semisal semisalnya sempat semua semuanya semula sendiri
sendirian sendirinya seolah seolah-olah seorang sepanjang sepantasnya
sepantasnyalah seperlunya seperti sepertinya sepihak sering seringnya serta
serupa sesaat sesama sesampai sesegera sesekali seseorang sesuatu sesuatunya
sesudah sesudahnya setelah setempat setengah seterusnya setiap setiba setibanya
setidak-tidaknya setidaknya setinggi seusai sewaktu siap siapa siapakah
siapapun sini sinilah soal soalnya suatu sudah sudahkah sudahlah supaya
tadi tadinya tahu tahun tak tambah tambahnya tampak tampaknya tandas tandasnya
tanpa tanya tanyakan tanyanya tapi tegas tegasnya telah tempat tengah tentang
tentu tentulah tentunya tepat terakhir terasa terbanyak terdahulu terdapat
terdiri terhadap terhadapnya teringat teringat-ingat terjadi terjadilah
terjadinya terkira terlalu terlebih terlihat termasuk ternyata tersampaikan
tersebut tersebutlah tertentu tertuju terus terutama tetap tetapi tiap tiba
tiba-tiba tidak tidakkah tidaklah tiga tinggi toh tunjuk turut tutur tuturnya
ucap ucapnya ujar ujarnya umum umumnya ungkap ungkapnya untuk usah usai
waduh wah wahai waktu waktunya walau walaupun wong
yaitu yakin yakni yang
""".split()
)

View File

@ -1,9 +1,8 @@
from .stop_words import STOP_WORDS
from ...language import Language, BaseDefaults
class IcelandicDefaults(BaseDefaults):
stop_words = STOP_WORDS
pass
class Icelandic(Language):

View File

@ -1,158 +0,0 @@
# Source: https://github.com/Xangis/extra-stopwords
STOP_WORDS = set(
"""
afhverju
aftan
aftur
afþví
aldrei
allir
allt
alveg
annað
annars
bara
dag
eða
eftir
eiga
einhver
einhverjir
einhvers
eins
einu
eitthvað
ekkert
ekki
ennþá
eru
fara
fer
finna
fjöldi
fólk
framan
frá
frekar
fyrir
gegnum
geta
getur
gmg
gott
hann
hafa
hef
hefur
heyra
hér
hérna
hjá
hún
hvað
hvar
hver
hverjir
hverjum
hvernig
hvor
hvort
hægt
img
inn
kannski
koma
líka
lol
maður
mátt
mér
með
mega
meira
mig
mikið
minna
minni
missa
mjög
nei
niður
núna
oft
okkar
okkur
póst
póstur
rofl
saman
sem
sér
sig
sinni
síðan
sjá
smá
smátt
spurja
spyrja
staðar
stórt
svo
svona
sælir
sæll
taka
takk
til
tilvitnun
titlar
upp
var
vel
velkomin
velkominn
vera
verður
verið
vel
við
vil
vilja
vill
vita
væri
yfir
ykkar
það
þakka
þakkir
þannig
það
þar
þarf
þau
þeim
þeir
þeirra
þeirra
þegar
þess
þessa
þessi
þessu
þessum
þetta
þér
þið
þinn
þitt
þín
þráð
þráður
því
þær
ætti
""".split()
)

View File

@ -1,7 +1,6 @@
from typing import Optional, Callable
from thinc.api import Model
from .stop_words import STOP_WORDS
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES
from ...language import Language, BaseDefaults
@ -13,7 +12,6 @@ class ItalianDefaults(BaseDefaults):
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
prefixes = TOKENIZER_PREFIXES
infixes = TOKENIZER_INFIXES
stop_words = STOP_WORDS
syntax_iterators = SYNTAX_ITERATORS

View File

@ -1,83 +0,0 @@
STOP_WORDS = set(
"""
a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl
agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri
altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai
attesa attraverso avanti avemmo avendo avente aver avere averlo avesse
avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate
avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste
avresti avrete avrà avrò avuta avute avuti avuto
basta bene benissimo brava bravo
casa caso cento certa certe certi certo che chi chicchessia chiunque ci c'
ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto
cogli coi col colei coll coloro colui come cominci comunque con concernente
conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui
d' da dagl dagli dai dal dall dall' dalla dalle dallo dappertutto davanti degl degli
dei del dell dell' della delle dello dentro detto deve di dice dietro dire
dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due
dunque durante
e ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era
erano eravamo eravate eri ero esempio esse essendo esser essere essi ex è
fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero
facessi facessimo faceste facesti faceva facevamo facevano facevate facevi
facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo
fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente
finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra
frattempo fu fui fummo fuori furono futuro generale
gia già giacche giorni giorno gli gl' gliela gliele glieli glielo gliene governo
grande grazie gruppo
ha haha hai hanno ho
ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io
l' la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo
m' ma macche magari maggior mai male malgrado malissimo mancanza marche me
medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi
milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto
nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun nessun'
nessuna nessuno nient' niente no noi non nondimeno nonostante nonsia nostra nostre
nostri nostro novanta nove nulla nuovo
od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto
paese parecchi parecchie parecchio parte partendo peccato peggio per perche
perché percio perciò perfino pero persino persone però piedi pieno piglia piu
piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto
potrebbe preferibilmente presa press prima primo principalmente probabilmente
proprio puo può pure purtroppo
qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante
quanti quanto quantunque quasi quattro quel quel' quella quelle quelli quello quest quest'
questa queste questi questo qui quindi
realmente recente recentemente registrazione relativo riecco salvo
s' sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste
saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei
sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate
siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando
stanno starai staranno starebbe starebbero starei staremmo staremo stareste
staresti starete starà starò stata state stati stato stava stavamo stavano
stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso
steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua
subito successivamente successivo sue sugl sugli sui sul sull sulla sulle
sullo suo suoi
t' tale tali talvolta tanto te tempo ti titolo tra tranne tre trenta
troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto
uguali ulteriore ultimo un un' una uno uomo
v' va vale vari varia varie vario verso vi via vicino visto vita voi volta volte
vostra vostre vostri vostro
""".split()
)

View File

@ -5,7 +5,6 @@ from collections import namedtuple
from thinc.api import Model
import re
from .stop_words import STOP_WORDS
from .syntax_iterators import SYNTAX_ITERATORS
from .tag_map import TAG_MAP
from .tag_orth_map import TAG_ORTH_MAP
@ -184,7 +183,6 @@ class JapaneseTokenizer(DummyTokenizer):
class JapaneseDefaults(BaseDefaults):
config = load_config_from_str(DEFAULT_CONFIG)
stop_words = STOP_WORDS
syntax_iterators = SYNTAX_ITERATORS
writing_system = {"direction": "ltr", "has_case": False, "has_letters": False}

View File

@ -1,48 +0,0 @@
# This list was created by taking the top 2000 words from a Wikipedia dump and
# filtering out everything that wasn't hiragana. ー (one) was also added.
# Considered keeping some non-hiragana words but too many place names were
# present.
STOP_WORDS = set(
"""
あっ あまり あり ある あるいは あれ
いい いう いく いずれ いっ いつ いる いわ
うち
おい おけ および おら おり
かけ かつ かつて かなり から
きっかけ
くる くん
こう ここ こと この これ ごと
さらに さん
しか しかし しまう しまっ しよう
すぐ すべて する
せい せる
そう そこ そして その それ それぞれ
たい ただし たち ため たら たり だけ だっ
ちゃん
つい つけ つつ
でき できる です
とき ところ とっ とも どう
ない なお なかっ ながら なく なけれ なし なっ など なら なり なる
にて
のち のみ
はじめ
ひと
ぶり
べき
ほか ほとんど ほど ほぼ
ます また まで まま
もう もっ もと もの
やっ
よう よく よっ より よる よれ
らしい られ られる
れる
""".split()
)

View File

@ -1,9 +1,8 @@
from .stop_words import STOP_WORDS
from ...language import Language, BaseDefaults
class KannadaDefaults(BaseDefaults):
stop_words = STOP_WORDS
pass
class Kannada(Language):

View File

@ -1,86 +0,0 @@
STOP_WORDS = set(
"""
ಹಲವ
ಲಕ
ಅದ
ಿ
ದರ
ಅವರ
ಈಗ
ಿ
ಅಷ
ಇದ
ಿ
ತಮ
ನಮ
ಿದರ
ಮತ
ಇದ
ಇತ
ಎಲ
ನಡ
ಅದನ
ದರ
ಿ
ಿ
ಇದರಿ
ನನಗ
ಅಲಲದ
ಎಷ
ಇದರ
ಇಲ
ಕಳ
ಈಗಗಲ
ಿ
ಅದಕ
ಬಗ
ಅವರ
ಇದನ
ಇದ
ಇನ
ಎಲ
ಇರ
ಅವರಿ
ಿ
ಏನ
ಇಲಿ
ನನನನ
ಲವ
ಬಳಿ
ತನ
ಆಗ
ಅಥವ
ಅಲ
ವಲ
ಆದರ
ಮತ
ಇನ
ಅದ
ಆಗಿ
ಅವರನ
ಿ
ನಡಿ
ಇದಕ
ನನ
""".split()
)

View File

@ -1,7 +1,6 @@
from typing import Iterator, Any, Dict
from .punctuation import TOKENIZER_INFIXES
from .stop_words import STOP_WORDS
from .tag_map import TAG_MAP
from .lex_attrs import LEX_ATTRS
from ...language import Language, BaseDefaults
@ -87,7 +86,6 @@ class KoreanTokenizer(DummyTokenizer):
class KoreanDefaults(BaseDefaults):
config = load_config_from_str(DEFAULT_CONFIG)
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
writing_system = {"direction": "ltr", "has_case": False, "has_letters": False}
infixes = TOKENIZER_INFIXES

View File

@ -1,67 +0,0 @@
STOP_WORDS = set(
"""
아니
그렇
위하
때문
그것
말하
그러나
못하
그런
그리고
시키
그러
하나
어떤
다른
어떻
이렇
""".split()
)

View File

@ -1,6 +1,5 @@
from .lex_attrs import LEX_ATTRS
from .punctuation import TOKENIZER_INFIXES
from .stop_words import STOP_WORDS
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from ...language import Language, BaseDefaults
@ -9,7 +8,6 @@ class KyrgyzDefaults(BaseDefaults):
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
infixes = TOKENIZER_INFIXES
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
class Kyrgyz(Language):

View File

@ -1,42 +0,0 @@
STOP_WORDS = set(
"""
ага адам айтты айтымында айтып ал алар
алардын алган алуу алып анда андан аны
анын ар
бар басма баш башка башкы башчысы берген
биз билдирген билдирди бир биринчи бирок
бишкек болгон болот болсо болуп боюнча
буга бул
гана
да дагы деген деди деп
жана жатат жаткан жаңы же жогорку жок жол
жолу
кабыл калган кандай карата каршы катары
келген керек кийин кол кылмыш кыргыз
күнү көп
маалымат мамлекеттик мен менен миң
мурдагы мыйзам мындай мүмкүн
ошол ошондой
сүрөт сөз
тарабынан турган тууралуу
укук учурда
чейин чек
экенин эки эл эле эмес эми эч
үч үчүн
өз
""".split()
)

View File

@ -1,7 +1,6 @@
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .punctuation import TOKENIZER_INFIXES
from .lex_attrs import LEX_ATTRS
from .stop_words import STOP_WORDS
from ...language import Language, BaseDefaults
@ -9,7 +8,6 @@ class LuxembourgishDefaults(BaseDefaults):
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
infixes = TOKENIZER_INFIXES
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
class Luxembourgish(Language):

View File

@ -1,211 +0,0 @@
STOP_WORDS = set(
"""
a
à
äis
är
ärt
äert
ären
all
allem
alles
alleguer
als
also
am
an
anerefalls
ass
aus
awer
bei
beim
bis
bis
d'
dach
datt
däin
där
dat
de
dee
den
deel
deem
deen
deene
déi
den
deng
denger
dem
der
dësem
di
dir
do
da
dann
domat
dozou
drop
du
duerch
duerno
e
ee
em
een
eent
ë
en
ënner
ëm
ech
eis
eise
eisen
eiser
eises
eisereen
esou
een
eng
enger
engem
entweder
et
eréischt
falls
fir
géint
géif
gëtt
gët
geet
gi
ginn
gouf
gouff
goung
hat
haten
hatt
hätt
hei
hu
huet
hun
hunn
hiren
hien
hin
hier
hir
jidderen
jiddereen
jiddwereen
jiddereng
jiddwerengen
jo
ins
iech
iwwer
kann
kee
keen
kënne
kënnt
kéng
kéngen
kéngem
koum
kuckt
mam
mat
ma
mech
méi
mécht
meng
menger
mer
mir
muss
nach
nämmlech
nämmelech
näischt
nawell
nëmme
nëmmen
net
nees
nee
no
nu
nom
och
oder
ons
onsen
onser
onsereen
onst
om
op
ouni
säi
säin
schonn
schonns
si
sid
sie
se
sech
seng
senge
sengem
senger
selwecht
selwer
sinn
sollten
souguer
sou
soss
sot
't
tëscht
u
un
um
virdrun
vu
vum
vun
wann
war
waren
was
wat
wëllt
weider
wéi
wéini
wéinst
wi
wollt
wou
wouhin
zanter
ze
zu
zum
zwar
""".split()
)

View File

@ -1,4 +1,3 @@
from .stop_words import STOP_WORDS
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .punctuation import TOKENIZER_INFIXES
from ...language import Language, BaseDefaults
@ -7,7 +6,6 @@ from ...language import Language, BaseDefaults
class LigurianDefaults(BaseDefaults):
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
infixes = TOKENIZER_INFIXES
stop_words = STOP_WORDS
class Ligurian(Language):

View File

@ -1,39 +0,0 @@
STOP_WORDS = set(
"""
a à â a-a a-e a-i a-o aiva aloa an ancheu ancon apreuvo ascì atra atre atri atro avanti avei
bella belle belli bello ben
ch' che chì chi ciù co-a co-e co-i co-o comm' comme con cösa coscì cöse
d' da da-a da-e da-i da-o dapeu de delongo derê di do doe doî donde dòppo
é e ê ea ean emmo en ëse
fin fiña
gh' ghe guæei
i î in insemme int' inta inte inti into
l' lê lì lô
m' ma manco me megio meno mezo mi
na n' ne ni ninte nisciun nisciuña no
o ò ô oua
parte pe pe-a pe-i pe-e pe-o perché pittin primma pròpio
quæ quand' quande quarche quella quelle quelli quello
s' sce scê sci sciâ sciô sciù se segge seu sò solo son sott' sta stæta stæte stæti stæto ste sti sto
tanta tante tanti tanto te ti torna tra tròppo tutta tutte tutti tutto
un uña unn' unna
za zu
""".split()
)

View File

@ -1,6 +1,5 @@
from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from ...language import Language, BaseDefaults
@ -9,7 +8,6 @@ class LithuanianDefaults(BaseDefaults):
infixes = TOKENIZER_INFIXES
suffixes = TOKENIZER_SUFFIXES
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
stop_words = STOP_WORDS
lex_attr_getters = LEX_ATTRS

File diff suppressed because it is too large Load Diff

View File

@ -1,9 +1,8 @@
from .stop_words import STOP_WORDS
from ...language import Language, BaseDefaults
class LatvianDefaults(BaseDefaults):
stop_words = STOP_WORDS
pass
class Latvian(Language):

View File

@ -1,167 +0,0 @@
# Source: https://github.com/stopwords-iso/stopwords-lv
STOP_WORDS = set(
"""
aiz
ap
apakš
apakšpus
ar
arī
augšpus
bet
bez
bija
biji
biju
bijām
bijāt
būs
būsi
būsiet
būsim
būt
būšu
caur
diemžēl
diezin
droši
dēļ
esam
esat
esi
esmu
gan
gar
iekam
iekams
iekām
iekāms
iekš
iekšpus
ik
ir
it
itin
iz
ja
jau
jeb
jebšu
jel
jo
ka
kamēr
kaut
kolīdz
kopš
kļuva
kļuvi
kļuvu
kļuvām
kļuvāt
kļūs
kļūsi
kļūsiet
kļūsim
kļūst
kļūstam
kļūstat
kļūsti
kļūstu
kļūt
kļūšu
labad
lai
lejpus
līdz
līdzko
ne
nebūt
nedz
nekā
nevis
nezin
no
nu
otrpus
pa
par
pat
pie
pirms
pret
priekš
pār
pēc
starp
tad
tak
tapi
taps
tapsi
tapsiet
tapsim
tapt
tapāt
tapšu
taču
te
tiec
tiek
tiekam
tiekat
tieku
tik
tika
tikai
tiki
tikko
tiklab
tiklīdz
tiks
tiksiet
tiksim
tikt
tiku
tikvien
tikām
tikāt
tikšu
tomēr
topat
turpretim
turpretī
tādēļ
tālab
tāpēc
un
uz
vai
var
varat
varēja
varēji
varēju
varējām
varējāt
varēs
varēsi
varēsiet
varēsim
varēt
varēšu
vien
virs
virspus
vis
viņpus
zem
ārpus
šaipus
""".split()
)

View File

@ -1,7 +1,6 @@
from typing import Optional, Callable
from thinc.api import Model
from .lemmatizer import MacedonianLemmatizer
from .stop_words import STOP_WORDS
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .lex_attrs import LEX_ATTRS
from ..tokenizer_exceptions import BASE_EXCEPTIONS
@ -21,7 +20,6 @@ class MacedonianDefaults(BaseDefaults):
# Merge base exceptions and custom tokenizer exceptions
tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
stop_words = STOP_WORDS
@classmethod
def create_lemmatizer(cls, nlp=None, lookups=None):

View File

@ -1,815 +0,0 @@
STOP_WORDS = set(
"""
а
абре
аи
ако
алало
ам
ама
аман
ами
амин
априли-ли-ли
ау
аух
ауч
ах
аха
аха-ха
аш
ашколсум
ашколсун
ај
ајде
ајс
аџаба
бавно
бам
бам-бум
бап
бар
баре
барем
бау
бау-бау
баш
бај
бе
беа
бев
бевме
бевте
без
безбели
бездруго
белки
беше
би
бидејќи
бим
бис
бла
блазе
богами
божем
боц
браво
бравос
бре
бреј
брзо
бришка
бррр
бу
бум
буф
буц
бујрум
ваа
вам
варај
варда
вас
вај
ве
велат
вели
версус
веќе
ви
виа
види
вие
вистина
витос
внатре
во
воз
вон
впрочем
врв
вред
време
врз
всушност
втор
галиба
ги
гитла
го
годе
годишник
горе
гра
гуц
гљу
да
даан
дава
дал
дали
дан
два
дваесет
дванаесет
двајца
две
двесте
движам
движат
движи
движиме
движите
движиш
де
деведесет
девет
деветнаесет
деветстотини
деветти
дека
дел
делми
демек
десет
десетина
десетти
деситици
дејгиди
дејди
ди
дилми
дин
дип
дно
до
доволно
додека
додуша
докај
доколку
доправено
доправи
досамоти
доста
држи
дрн
друг
друга
другата
други
другиот
другите
друго
другото
дум
дур
дури
е
евала
еве
евет
ега
егиди
еден
едикојси
единаесет
единствено
еднаш
едно
ексик
ела
елбете
елем
ели
ем
еми
ене
ете
еурека
ех
еј
жими
жити
за
завал
заврши
зад
задека
задоволна
задржи
заедно
зар
зарад
заради
заре
зарем
затоа
зашто
згора
зема
земе
земува
зер
значи
зошто
зуј
и
иако
из
извезен
изгледа
измеѓу
износ
или
или-или
илјада
илјади
им
има
имаа
имаат
имавме
имавте
имам
имаме
имате
имаш
имаше
име
имено
именува
имплицира
имплицираат
имплицирам
имплицираме
имплицирате
имплицираш
инаку
индицира
исечок
исклучен
исклучена
исклучени
исклучено
искористен
искористена
искористени
искористено
искористи
искрај
исти
исто
итака
итн
их
иха
ихуу
иш
ишала
иј
ка
каде
кажува
како
каков
камоли
кај
ква
ки
кит
кло
клум
кога
кого
кого-годе
кое
кои
количество
количина
колку
кому
кон
користена
користени
користено
користи
кот
котрр
кош-кош
кој
која
којзнае
којшто
кр-кр-кр
крај
крек
крз
крк
крц
куку
кукуригу
куш
ле
лебами
леле
лели
ли
лиду
луп
ма
макар
малку
марш
мат
мац
машала
ме
мене
место
меѓу
меѓувреме
меѓутоа
ми
мое
може
можеби
молам
моли
мор
мора
море
мори
мразец
му
муклец
мутлак
муц
мјау
на
навидум
навистина
над
надвор
назад
накај
накрај
нали
нам
наместо
наоколу
направено
направи
напред
нас
наспоред
наспрема
наспроти
насред
натаму
натема
начин
наш
наша
наше
наши
нај
најдоцна
најмалку
најмногу
не
неа
него
негов
негова
негови
негово
незе
нека
некаде
некако
некаков
некого
некое
некои
неколку
некому
некој
некојси
нели
немој
нему
неоти
нечиј
нешто
нејзе
нејзин
нејзини
нејзино
нејсе
ни
нив
нивен
нивна
нивни
нивно
ние
низ
никаде
никако
никогаш
никого
никому
никој
ним
нити
нито
ниту
ничиј
ништо
но
нѐ
о
обр
ова
ова-она
оваа
овај
овде
овега
овие
овој
од
одавде
оди
однесува
односно
одошто
околу
олеле
олкацок
он
она
онаа
онака
онаков
онде
они
оние
оно
оној
оп
освем
освен
осем
осми
осум
осумдесет
осумнаесет
осумстотитни
отаде
оти
откако
откај
откога
отколку
оттаму
оттука
оф
ох
ој
па
пак
папа
пардон
пате-ќуте
пати
пау
паче
пеесет
пеки
пет
петнаесет
петстотини
петти
пи
пи-пи
пис
плас
плус
по
побавно
поблиску
побрзо
побуни
повеќе
повторно
под
подалеку
подолу
подоцна
подруго
позади
поинаква
поинакви
поинакво
поинаков
поинаку
покаже
покажува
покрај
полно
помалку
помеѓу
понатаму
понекогаш
понекој
поради
поразличен
поразлична
поразлични
поразлично
поседува
после
последен
последна
последни
последно
поспоро
потег
потоа
пошироко
прави
празно
прв
пред
през
преку
претежно
претходен
претходна
претходни
претходник
претходно
при
присвои
притоа
причинува
пријатно
просто
против
прр
пст
пук
пусто
пуф
пуј
пфуј
пшт
ради
различен
различна
различни
различно
разни
разоружен
разредлив
рамките
рамнообразно
растревожено
растреперено
расчувствувано
ратоборно
рече
роден
с
сакан
сам
сама
сами
самите
само
самоти
свое
свои
свој
своја
се
себе
себеси
сега
седми
седум
седумдесет
седумнаесет
седумстотини
секаде
секаков
секи
секогаш
секого
секому
секој
секојдневно
сем
сенешто
сепак
сериозен
сериозна
сериозни
сериозно
сет
сечиј
сешто
си
сиктер
сиот
сип
сиреч
сите
сичко
скок
скоро
скрц
следбеник
следбеничка
следен
следователно
следствено
сме
со
соне
сопствен
сопствена
сопствени
сопствено
сосе
сосем
сполај
според
споро
спрема
спроти
спротив
сред
среде
среќно
срочен
сст
става
ставаат
ставам
ставаме
ставате
ставаш
стави
сте
сто
стоп
страна
сум
сума
супер
сус
сѐ
та
таа
така
таква
такви
таков
тамам
таму
тангар-мангар
тандар-мандар
тап
твое
те
тебе
тебека
тек
текот
ти
тие
тизе
тик-так
тики
тоа
тогаш
тој
трак
трака-трука
трас
треба
трет
три
триесет
тринаест
триста
труп
трупа
трус
ту
тука
туку
тукушто
туф
у
уа
убаво
уви
ужасно
уз
ура
уу
уф
уха
уш
уште
фазен
фала
фил
филан
фис
фиу
фиљан
фоб
фон
ха
ха-ха
хе
хеј
хеј
хи
хм
хо
цак
цап
целина
цело
цигу-лигу
циц
чекај
често
четврт
четири
четириесет
четиринаесет
четирстотини
чие
чии
чик
чик-чирик
чини
чиш
чиј
чија
чијшто
чкрап
чому
чук
чукш
чуму
чунки
шеесет
шеснаесет
шест
шести
шестотини
ширум
шлак
шлап
шлапа-шлупа
шлуп
шмрк
што
штогоде
штом
штотуку
штрак
штрап
штрап-штруп
шуќур
ѓиди
ѓоа
ѓоамити
ѕан
ѕе
ѕин
ја
јадец
јазе
јали
јас
јаска
јок
ќе
ќешки
ѝ
џагара-магара
џанам
џив-џив
""".split()
)

View File

@ -1,11 +1,9 @@
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from ...language import Language, BaseDefaults
class MalayalamDefaults(BaseDefaults):
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
class Malayalam(Language):

View File

@ -1,13 +0,0 @@
STOP_WORDS = set(
"""
അത
ഇത
ആയി
ആക
വര
അന
അന
ഇന
ആണ
""".split()
)

View File

@ -1,9 +1,8 @@
from .stop_words import STOP_WORDS
from ...language import Language, BaseDefaults
class MarathiDefaults(BaseDefaults):
stop_words = STOP_WORDS
pass
class Marathi(Language):

View File

@ -1,192 +0,0 @@
# Source: https://github.com/stopwords-iso/stopwords-mr/blob/master/stopwords-mr.txt, https://github.com/6/stopwords-json/edit/master/dist/mr.json
STOP_WORDS = set(
"""
अतर
आणि
मग
पर
ऐस
आत
तय
अस
हण
आह
जर
हणि
एक
ऐस
मज
एथ
जय
अस
कर
ऐस
हल
ि
आघव
ऊनि
एक
सकळ
एऱहव
ि
ि
ि
तरि
आपण
ि
कर
इय
पड
अधि
अन
अश
असलय
असल
अस
अस
अस
आज
आणि
आत
आपल
आल
आल
आल
आह
आह
एक
एक
कम
करणय
कर
ि
ऊन
तर
तर
तस
ि
पण
पम
परयतन
ि
हणज
हण
हण
यकत
सर
ि
हज
""".split()
)

View File

@ -3,7 +3,6 @@ from thinc.api import Model
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES
from .punctuation import TOKENIZER_SUFFIXES
from .stop_words import STOP_WORDS
from .syntax_iterators import SYNTAX_ITERATORS
from ...language import Language, BaseDefaults
from ...pipeline import Lemmatizer
@ -15,7 +14,6 @@ class NorwegianDefaults(BaseDefaults):
infixes = TOKENIZER_INFIXES
suffixes = TOKENIZER_SUFFIXES
syntax_iterators = SYNTAX_ITERATORS
stop_words = STOP_WORDS
class Norwegian(Language):

View File

@ -1,50 +0,0 @@
STOP_WORDS = set(
"""
alle allerede alt and andre annen annet at av
bak bare bedre beste blant ble bli blir blitt bris by både
da dag de del dem den denne der dermed det dette disse du
eller en enn er et ett etter
fem fikk fire fjor flere folk for fortsatt fra fram
funnet får fått før først første
gang gi gikk gjennom gjorde gjort gjør gjøre god godt grunn går
ha hadde ham han hans har hele helt henne hennes her hun
i ifølge igjen ikke ingen inn
ja jeg
kamp kampen kan kl klart kom komme kommer kontakt kort kroner kunne kveld
la laget land landet langt leder ligger like litt løpet
man mange med meg mellom men mener mennesker mens mer mot mye mål måtte
ned neste noe noen nok ny nye når
og også om opp opplyser oss over
personer plass poeng
runde rundt
sa saken samme sammen samtidig satt se seg seks selv senere ser sett
siden sier sin sine siste sitt skal skriver skulle slik som sted stedet stor
store står svært
ta tatt tid tidligere til tilbake tillegg tok tror
under ut uten utenfor
vant var ved veldig vi videre viktig vil ville viser vår være vært
å år
ønsker
""".split()
)

View File

@ -1,10 +1,8 @@
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from ...language import Language, BaseDefaults
class NepaliDefaults(BaseDefaults):
stop_words = STOP_WORDS
lex_attr_getters = LEX_ATTRS

View File

@ -1,494 +0,0 @@
# Source: https://github.com/sanjaalcorps/NepaliStopWords/blob/master/NepaliStopWords.txt
STOP_WORDS = set(
"""
अकसर
अगि
अग
अघि
अझ
अठ
अथव
अनि
अन
अनतरगत
अन
अनयत
अनयथ
अब
अर
अर
अर
अर
अर
अर
अलग
अलि
अवस
अहि
आए
आएक
आएक
आज
आजक
आठ
आत
आदि
आदि
आफन
आफ
आफ
आफ
आफ
आफ
आफ
आय
उक
उदहरण
उनक
उनल
उनल
उनि
उन
उनहर
उनइस
उप
उसक
उसल
उसल
उह
एउट
एउट
एक
एकदम
एघ
ओठ
कत
कति
कत
कम
कमसकम
कसरि
कसर
कस
कस
कस
कस
कस
कस
कह
कहि
रण
ि
ि
िनभन
पय
ि
ि
िपनि
पनि
रमश
गए
गएक
गएर
गय
गरि
गर
गर
गर
गर
गर
गर
गर
गरछन
गर
गर
गर
गर
गर
गरपर
गर
घर
हन
हन
ि
ि
ि
छन
छन
नन
जत
जततत
जन
जन
जन
जन
जब
जबकि
जबक
जसक
जसब
जसम
जसर
जसल
जसल
जस
जस
जस
जस
जह
ि
पनि
पन
तत
तत
तथ
तथि
तथ
तदन
तप
तप
तपईक
तब
तर
तर
तल
तसर
पनि
पन
ि
िि
ििहर
ि
िहर
िहर
िहर
िहर
ि
ि
ि
िरक
रन
रण
पनि
पन
यति
यति
यस
यसकरण
यसक
यसल
यस
यस
यस
यस
यह
यहि
यह
यह
यह
सपछि
थप
थरि
थर
ि
ि
िएन
ि
दर
दश
ि
िएक
ि
िभएक
ि
इवट
ि
ि
ि
धन
नगर
नगर
नजि
नत
नतरभन
नभई
नभएक
नभन
नय
ि
ि
िि
ि
ि
िि
पक
पक
पछि
पछ
पछि
पछि
पछ
पटक
पनि
पन
पर
पर
पर
पर
पर
पर
पहि
पहि
पहि
ि
रति
रत
रतयक
लस
फरक
ि
बढ
बत
बन
बर
ि
ि
िचम
ि
ि
ि
चम
भए
भए
भएक
भएक
भएक
भएन
भएर
भन
भन
भन
भन
भन
भनछन
भन
भन
भन
भनभय
भन
भन
भय
भय
भर
भरि
भर
ि
ि
मध
मध
मल
ि
ि
ि
यति
यथि
यदि
यदयपि
यदयपि
यस
यसक
यसक
यसपछि
यसब
यसम
यसर
यसल
यस
यस
यस
यह
यहसम
यह
रह
रह
रह
रह
पम
लगभग
लगयत
ि
वट
वरपर
पत
तवम
यद
सक
सक
गक
गस
सङ
सङगक
सट
सत
सध
सब
सब
सब
समय
सम
समभव
सम
सय
सरह
सहि
सहि
सह
यद
ि
पष
हज
हर
हर
नत
इन
ि
""".split()
)

View File

@ -6,7 +6,6 @@ from .lemmatizer import DutchLemmatizer
from .lex_attrs import LEX_ATTRS
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES
from .punctuation import TOKENIZER_SUFFIXES
from .stop_words import STOP_WORDS
from .syntax_iterators import SYNTAX_ITERATORS
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from ...language import Language, BaseDefaults
@ -19,7 +18,6 @@ class DutchDefaults(BaseDefaults):
suffixes = TOKENIZER_SUFFIXES
lex_attr_getters = LEX_ATTRS
syntax_iterators = SYNTAX_ITERATORS
stop_words = STOP_WORDS
class Dutch(Language):

View File

@ -1,72 +0,0 @@
# The original stop words list (added in f46ffe3) was taken from
# http://www.damienvanholten.com/downloads/dutch-stop-words.txt
# and consisted of about 100 tokens.
# In order to achieve parity with some of the better-supported
# languages, e.g., English, French, and German, this original list has been
# extended with 200 additional tokens. The main source of inspiration was
# https://raw.githubusercontent.com/stopwords-iso/stopwords-nl/master/stopwords-nl.txt.
# However, quite a bit of manual editing has taken place as well.
# Tokens whose status as a stop word is not entirely clear were admitted or
# rejected by deferring to their counterparts in the stop words lists for English
# and French. Similarly, those lists were used to identify and fill in gaps so
# that -- in principle -- each token contained in the English stop words list
# should have a Dutch counterpart here.
STOP_WORDS = set(
"""
aan af al alle alles allebei alleen allen als altijd ander anders andere anderen aangaangde aangezien achter achterna
afgelopen aldus alhoewel anderzijds
ben bij bijna bijvoorbeeld behalve beide beiden beneden bent bepaald beter betere betreffende binnen binnenin boven
bovenal bovendien bovenstaand buiten
daar dan dat de der den deze die dit doch doen door dus daarheen daarin daarna daarnet daarom daarop des dezelfde dezen
dien dikwijls doet doorgaand doorgaans
een eens en er echter enige eerder eerst eerste eersten effe eigen elk elke enkel enkele enz erdoor etc even eveneens
evenwel
ff
ge geen geweest gauw gedurende gegeven gehad geheel gekund geleden gelijk gemogen geven geweest gewoon gewoonweg
geworden gij
haar had heb hebben heeft hem het hier hij hoe hun hadden hare hebt hele hen hierbeneden hierboven hierin hoewel hun
iemand iets ik in is idd ieder ikke ikzelf indien inmiddels inz inzake
ja je jou jouw jullie jezelf jij jijzelf jouwe juist
kan kon kunnen klaar konden krachtens kunnen kunt
lang later liet liever
maar me meer men met mij mijn moet mag mede meer meesten mezelf mijzelf min minder misschien mocht mochten moest moesten
moet moeten mogelijk mogen
na naar niet niets nog nu nabij nadat net nogal nooit nr nu
of om omdat ons ook op over omhoog omlaag omstreeks omtrent omver onder ondertussen ongeveer onszelf onze ooit opdat
opnieuw opzij over overigens
pas pp precies prof publ
reeds rond rondom
sedert sinds sindsdien slechts sommige spoedig steeds
t 't te tegen toch toen tot tamelijk ten tenzij ter terwijl thans tijdens toe totdat tussen
u uit uw uitgezonderd uwe uwen
van veel voor vaak vanaf vandaan vanuit vanwege veeleer verder verre vervolgens vgl volgens vooraf vooral vooralsnog
voorbij voordat voordien voorheen voorop voort voorts vooruit vrij vroeg
want waren was wat we wel werd wezen wie wij wil worden waar waarom wanneer want weer weg wegens weinig weinige weldra
welk welke welken werd werden wiens wier wilde wordt
zal ze zei zelf zich zij zijn zo zonder zou zeer zeker zekere zelfde zelfs zichzelf zijnde zijne zon zoals zodra zouden
zoveel zowat zulk zulke zulks zullen zult
""".split()
)

View File

@ -4,7 +4,6 @@ from thinc.api import Model
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES
from .punctuation import TOKENIZER_SUFFIXES
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from .lemmatizer import PolishLemmatizer
from ..tokenizer_exceptions import BASE_EXCEPTIONS
@ -22,7 +21,6 @@ class PolishDefaults(BaseDefaults):
infixes = TOKENIZER_INFIXES
suffixes = TOKENIZER_SUFFIXES
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
class Polish(Language):

View File

@ -1,78 +0,0 @@
# sources: https://github.com/bieli/stopwords/blob/master/polish.stopwords.txt and https://github.com/stopwords-iso/stopwords-pl
STOP_WORDS = set(
"""
a aby ach acz aczkolwiek aj albo ale alez
ależ ani az
bardziej bardzo beda bede bedzie bez bo bowiem by
byc byl byla byli bylo byly bym bynajmniej być był
była było były będzie będą będę
cala cali caly cała cały chce choć ci cie
ciebie cię co cokolwiek coraz cos coś czasami czasem czemu
czy czyli często
daleko dla dlaczego dlatego do dobrze dokad dokąd
dosc dość duzo dużo dwa dwaj dwie dwoje dzis
dzisiaj dziś
gdy gdyby gdyz gdyż gdzie gdziekolwiek gdzies gdzieś go
godz
i ich ile im inna inne inny
innych iv ix iz
ja jak jakas jakaś jakby jaki jakichs jakichś jakie
jakis jakiz jakiś jakiż jakkolwiek jako jakos jakoś je jeden
jedna jednak jednakze jednakże jedno jednym jedynie jego jej jemu
jesli jest jestem jeszcze jezeli jeśli jeżeli juz już
kazdy każdy kiedy kierunku kilka kilku kims kimś kto
ktokolwiek ktora ktore ktorego ktorej ktory ktorych ktorym ktorzy ktos
ktoś która które którego której który których którym którzy ku
lecz lub
ma mają mam mamy mało mi miał miedzy
mimo między mna mnie mną moga mogą moi moim moj
moja moje moze mozliwe mozna może możliwe można mu musi
my mój
na nad nam nami nas nasi nasz nasza nasze
naszego naszych natomiast natychmiast nawet nia nic nich nie niech
niego niej niemu nigdy nim nimi niz nią niż no
o obok od ok około on ona one
oni ono oraz oto owszem
pan pana pani po pod podczas pomimo ponad
poniewaz ponieważ powinien powinna powinni powinno poza prawie przeciez
przecież przed przede przedtem przez przy
raz razie roku rowniez również
sam sama sie się skad skąd soba sobie sobą
sposob sposób swoje
ta tak taka taki takich takie takze także tam
te tego tej tel temu ten teraz też to toba
tobie tobą totez toteż totobą trzeba tu tutaj twoi twoim
twoj twoja twoje twym twój ty tych tylko tym tys
tzw
u
vi vii viii
w wam wami was wasi wasz wasza wasze we
według wie wiele wielu więc więcej wlasnie wszyscy wszystkich wszystkie
wszystkim wszystko wtedy wy właśnie wśród
xi xii xiii xiv xv
z za zaden zadna zadne zadnych zapewne zawsze zaś
ze zeby znow znowu znów zostal został
żaden żadna żadne żadnych że żeby""".split()
)

View File

@ -1,5 +1,4 @@
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from .syntax_iterators import SYNTAX_ITERATORS
from .punctuation import TOKENIZER_INFIXES, TOKENIZER_PREFIXES
@ -12,7 +11,6 @@ class PortugueseDefaults(BaseDefaults):
prefixes = TOKENIZER_PREFIXES
lex_attr_getters = LEX_ATTRS
syntax_iterators = SYNTAX_ITERATORS
stop_words = STOP_WORDS
class Portuguese(Language):

View File

@ -1,66 +0,0 @@
STOP_WORDS = set(
"""
a à às área acerca ademais adeus agora ainda algo algumas alguns ali além ambas ambos antes
ao aos apenas apoia apoio apontar após aquela aquelas aquele aqueles aqui aquilo
as assim através atrás até
baixo bastante bem boa bom breve
cada caminho catorze cedo cento certamente certeza cima cinco coisa com como
comprida comprido conhecida conhecido conselho contra contudo corrente cuja
cujo custa
da daquela daquele dar das de debaixo demais dentro depois des desde dessa desse
desta deste deve devem deverá dez dezanove dezasseis dezassete dezoito diante
direita disso diz dizem dizer do dois dos doze duas dão
e é és ela elas ele eles em embora enquanto entre então era essa essas esse esses esta
estado estar estará estas estava este estes esteve estive estivemos estiveram
estiveste estivestes estou está estás estão eu eventual exemplo
falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final
foi fomos for fora foram forma foste fostes fui
geral grande grandes grupo
inclusive iniciar inicio ir irá isso isto
lado lhe ligado local logo longe lugar
maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus mil
minha minhas momento muito muitos máximo mês
na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no nos nossa
nossas nosso nossos nova novas nove novo novos num numa nunca nuns não nível nós
número números
o obrigada obrigado oitava oitavo oito onde ontem onze ora os ou outra outras outros
para parece parte partir pegar pela pelas pelo pelos perto pode podem poder poderá
podia pois ponto pontos por porquanto porque porquê portanto porém posição
possivelmente posso possível pouca pouco povo primeira primeiro próprio próxima
próximo puderam pôde põe põem
quais qual qualquer quando quanto quarta quarto quatro que quem quer querem quero
questão quieta quieto quinta quinto quinze quê
relação
sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta
sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo
tais tal talvez também tanta tanto tarde te tem temos tempo tendes tenho tens
tentar tentaram tente tentei ter terceira terceiro teu teus teve tipo tive
tivemos tiveram tiveste tivestes toda todas todo todos treze três tu tua tuas
tudo tão têm
um uma umas uns usa usar último
vai vais valor veja vem vens ver vez vezes vinda vindo vinte você vocês vos vossa
vossas vosso vossos vários vão vêm vós
zero
""".split()
)

View File

@ -1,5 +1,4 @@
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .stop_words import STOP_WORDS
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES
from .punctuation import TOKENIZER_SUFFIXES
from .lex_attrs import LEX_ATTRS
@ -16,7 +15,6 @@ class RomanianDefaults(BaseDefaults):
suffixes = TOKENIZER_SUFFIXES
infixes = TOKENIZER_INFIXES
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
class Romanian(Language):

View File

@ -1,499 +0,0 @@
# Source: https://github.com/stopwords-iso/stopwords-ro
STOP_WORDS = set(
"""
a
abia
acea
aceasta
această
aceea
aceeasi
aceeași
acei
aceia
acel
acela
acelasi
același
acele
acelea
acest
acesta
aceste
acestea
acestei
acestia
acestui
aceşti
aceştia
acolo
acord
acum
adica
adică
ai
aia
aibă
aici
aiurea
al
ala
alaturi
ale
alea
alt
alta
altceva
altcineva
alte
altfel
alti
altii
altul
alături
am
anume
apoi
apai
apăi
ar
are
as
asa
asemenea
asta
astazi
astea
astfel
astăzi
asupra
atare
atat
atata
atatea
atatia
ati
atit
atita
atitea
atitia
atunci
au
avea
avem
aveţi
aveți
avut
azi
aşadar
aţi
așadar
ați
b
ba
bine
bucur
bună
c
ca
cam
cand
capat
care
careia
carora
caruia
cat
catre
caut
ce
cea
ceea
cei
ceilalti
cel
cele
celor
ceva
chiar
ci
cinci
cind
cine
cineva
cit
cita
cite
citeva
citi
citiva
conform
contra
cu
cui
cum
cumva
curând
curînd
când
cât
câte
câtva
câţi
câți
cînd
cît
cîte
cîtva
cîţi
cîți
căci
cărei
căror
cărora
cărui
căruia
către
d
da
daca
dacă
dar
dat
datorită
dată
dau
de
deasupra
deci
decit
degraba
deja
deoarece
departe
desi
despre
deşi
deși
din
dinaintea
dincolo
dincoace
dintr
dintr-
dintre
doar
doi
doilea
două
drept
dupa
după
deunaseara
deunăseară
deunazi
deunăzi
e
ea
ei
el
ele
era
eram
este
eu
exact
eşti
ești
f
face
fara
fata
fel
fi
fie
fiecare
fii
fim
fiu
fiţi
fiți
foarte
fost
frumos
fără
g
geaba
graţie
grație
h
i
ia
iar
ieri
ii
il
imi
in
inainte
inapoi
inca
incotro
incit
insa
intr
intre
isi
iti
j
k
l
la
le
li
lor
lui
lângă
lîngă
m
ma
mai
mare
macar
măcar
mata
matale
mea
mei
mele
mereu
meu
mi
mie
mine
mod
mult
multa
multe
multi
multă
mulţi
mulţumesc
mulți
mulțumesc
mâine
mîine
n
na
ne
neincetat
neîncetat
nevoie
ni
nici
nicidecum
nicidecat
nicidecât
niciodata
niciodată
nicăieri
nimeni
nimeri
nimic
niste
nişte
niște
noastre
noastră
noi
noroc
nostri
nostru
nou
noua
nouă
noştri
noștri
nu
numai
o
odata
odată
odinioara
odinioară
opt
or
ori
oricare
orice
oricine
oricum
oricând
oricât
oricînd
oricît
oriunde
p
pai
păi
parca
parcă
patra
patru
patrulea
pe
pentru
peste
pic
pina
plus
poate
pot
prea
prima
primul
prin
printr-
printre
putini
puţin
puţina
puţină
până
pînă
r
rog
s
sa
sa-mi
sa-ti
sai
sale
sau
se
si
sint
sintem
spate
spre
sub
sunt
suntem
sunteţi
sunteți
sus
sută
sînt
sîntem
sînteţi
sînteți
săi
său
t
ta
tale
te
ti
timp
tine
toata
toate
toată
tocmai
tot
toti
totul
totusi
totuşi
totuși
toţi
toți
trei
treia
treilea
tu
tuturor
tăi
tău
u
ul
ului
un
una
unde
undeva
unei
uneia
unele
uneori
unii
unor
unora
unu
unui
unuia
unul
v
va
vai
vi
voastre
voastră
voi
vom
vor
vostru
vouă
voştri
voștri
vreme
vreo
vreun
x
z
zece
zero
zi
zice
îi
îl
îmi
împotriva
în
înainte
înaintea
încotro
încât
încît
între
întrucât
întrucît
îţi
îți
ăla
ălea
ăsta
ăstea
ăştia
ăștia
şapte
şase
şi
ştiu
ţi
ţie
șapte
șase
și
știu
ți
ție
""".split()
)

View File

@ -1,7 +1,6 @@
from typing import Optional, Callable
from thinc.api import Model
from .stop_words import STOP_WORDS
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .lex_attrs import LEX_ATTRS
from .lemmatizer import RussianLemmatizer
@ -13,7 +12,6 @@ from ...language import Language, BaseDefaults
class RussianDefaults(BaseDefaults):
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
suffixes = COMBINING_DIACRITICS_TOKENIZER_SUFFIXES
infixes = COMBINING_DIACRITICS_TOKENIZER_INFIXES

View File

@ -1,111 +0,0 @@
STOP_WORDS = set(
"""
а авось ага агу аж ай али алло ау ах ая
б будем будет будете будешь буду будут будучи будь будьте бы был была были было
быть бац без безусловно бишь благо благодаря ближайшие близко более больше
будто бывает бывала бывали бываю бывают бытует
в вам вами вас весь во вот все всё всего всей всем всём всеми всему всех всею
всея всю вся вы ваш ваша ваше ваши вдали вдобавок вдруг ведь везде вернее
взаимно взаправду видно вишь включая вместо внакладе вначале вне вниз внизу
вновь вовсе возможно воистину вокруг вон вообще вопреки вперекор вплоть
вполне вправду вправе впрочем впрямь вресноту вроде вряд всегда всюду
всякий всякого всякой всячески вчеред
г го где гораздо гав
д да для до дабы давайте давно давным даже далее далеко дальше данная
данного данное данной данном данному данные данный данных дану данунах
даром де действительно довольно доколе доколь долго должен должна
должно должны должный дополнительно другая другие другим другими
других другое другой
е его едим едят ее её ей ел ела ем ему емъ если ест есть ешь еще ещё ею едва
ежели еле
ж же
з за затем зато зачем здесь значит зря
и из или им ими имъ их ибо иль имеет имел имела имело именно иметь иначе
иногда иным иными итак ишь
й
к как кем ко когда кого ком кому комья которая которого которое которой котором
которому которою которую которые который которым которыми которых кто ка кабы
каждая каждое каждые каждый кажется казалась казались казалось казался казаться
какая какие каким какими каков какого какой какому какою касательно кой коли
коль конечно короче кроме кстати ку куда
л ли либо лишь любая любого любое любой любом любую любыми любых
м меня мне мной мною мог моги могите могла могли могло могу могут мое моё моего
моей моем моём моему моею можем может можете можешь мои мой моим моими моих
мочь мою моя мы мало меж между менее меньше мимо многие много многого многое
многом многому можно мол му
н на нам нами нас наса наш наша наше нашего нашей нашем нашему нашею наши нашим
нашими наших нашу не него нее неё ней нем нём нему нет нею ним ними них но
наверняка наверху навряд навыворот над надо назад наиболее наизворот
наизнанку наипаче накануне наконец наоборот наперед наперекор наподобие
например напротив напрямую насилу настоящая настоящее настоящие настоящий
насчет нате находиться начала начале неважно негде недавно недалеко незачем
некем некогда некому некоторая некоторые некоторый некоторых некто некуда
нельзя немногие немногим немного необходимо необходимости необходимые
необходимым неоткуда непрерывно нередко несколько нету неужели нечего
нечем нечему нечто нешто нибудь нигде ниже низко никак никакой никем
никогда никого никому никто никуда ниоткуда нипочем ничего ничем ничему
ничто ну нужная нужно нужного нужные нужный нужных ныне нынешнее нынешней
нынешних нынче
о об один одна одни одним одними одних одно одного одной одном одному одною
одну он она оне они оно от оба общую обычно ого однажды однако ой около оный
оп опять особенно особо особую особые откуда отнелижа отнелиже отовсюду
отсюда оттого оттот оттуда отчего отчему ох очевидно очень ом
п по при паче перед под подавно поди подобная подобно подобного подобные
подобный подобным подобных поелику пожалуй пожалуйста позже поистине
пока покамест поколе поколь покуда покудова помимо понеже поприще пор
пора посему поскольку после посреди посредством потом потому потомушта
похожем почему почти поэтому прежде притом причем про просто прочего
прочее прочему прочими проще прям пусть
р ради разве ранее рано раньше рядом
с сам сама сами самим самими самих само самого самом самому саму свое своё
своего своей своем своём своему своею свои свой своим своими своих свою своя
себе себя собой собою самая самое самой самый самых сверх свыше се сего сей
сейчас сие сих сквозь сколько скорее скоро следует слишком смогут сможет
сначала снова со собственно совсем сперва спокону спустя сразу среди сродни
стал стала стали стало стать суть сызнова
та то ту ты ти так такая такие таким такими таких такого такое такой таком такому такою
такую те тебе тебя тем теми тех тобой тобою того той только том томах тому
тот тою также таки таков такова там твои твоим твоих твой твоя твоё
теперь тогда тоже тотчас точно туда тут тьфу тая
у уже увы уж ура ух ую
ф фу
х ха хе хорошо хотел хотела хотелось хотеть хоть хотя хочешь хочу хуже
ч чего чем чём чему что чтобы часто чаще чей через чтоб чуть чхать чьим
чьих чьё чё
ш ша
щ ща щас
ы ых ые ый
э эта эти этим этими этих это этого этой этом этому этот этою эту эдак эдакий
эй эка экий этак этакий эх
ю
я явно явных яко якобы якоже
""".split()
)

View File

@ -1,11 +1,9 @@
from .stop_words import STOP_WORDS
from .lex_attrs import LEX_ATTRS
from ...language import Language, BaseDefaults
class SanskritDefaults(BaseDefaults):
lex_attr_getters = LEX_ATTRS
stop_words = STOP_WORDS
class Sanskrit(Language):

View File

@ -1,515 +0,0 @@
# Source: https://gist.github.com/Akhilesh28/fe8b8e180f64b72e64751bc31cb6d323
STOP_WORDS = set(
"""
अहम
आव
वयम
आव
अस
मय
आव
असि
महयम
आव
असमभयम
मत
आव
असमत
मम
आवय
असकम
मयि
आवय
अस
वम
यम
वय
ि
यम
मभयम
वत
मत
तव
वय
कम
वयि
वय
तम
तस
तस
तस
तय
तसि
तय
तय
ि
तस
तस
तस
तय
तस
तय
तत
ि
तत
ि
तय
ि
तस
तस
तस
तय
तस
तय
अयम
इम
इम
इमम
इम
इम
अन
आभ
एभि
अस
आभ
एभ
अस
आभ
एभ
अस
अनय
एष
असि
अनय
एष
इयम
इम
इम
इम
इम
इम
अनय
आभ
आभि
अस
आभ
आभ
अस
आभ
आभ
अस
अनय
आस
अस
अनय
आस
इदम
इम
इमि
इदम
इम
इमि
अन
आभ
एभि
अस
आभ
एभ
अस
आभ
एभ
अस
अनय
एष
असि
अनय
एष
एष
एत
एत
एतम एनम
एत एन
एत एन
एत
एत
एत
एतस
एत
एत
एतस
एत
एत
एतस
एतसि
एत
एतसि
एतसि
एत
एष
एत
एत
एत एन
एत एन
एत एन
एतय एनय
एत
एति
एतस
एत
एत
एतस
एत
एत
एतस
एतय एनय
एत
एतस
एतय एनय
एत
एतत एतद
एत
एति
एतत एतद एनत एनद
एत एन
एति एनि
एत एन
एत
एत
एतस
एत
एत
एतस
एत
एत
एतस
एतय एनय
एत
एतसि
एतय एनय
एत
अस
अम
अम
अम
अम
अम
अम
अम
अमि
अम
अम
अम
अम
अम
अम
अम
अम
अम
अमि
अम
अम
अस
अम
अम
अम
अम
अम
अम
अम
अमि
अम
अम
अम
अम
अम
अम
अम
अम
अम
अम
अम
अम
अम
अम
अमि
अम
अम
अमि
अम
अम
अमि
अम
अम
अम
अम
अम
अम
अम
अम
अम
अमि
अम
अम
कम
कस
कस
कस
कय
कसि
कय
कय
ि
कस
कस
कस
कय
कस
कय
ि
ि
ि
ि
कस
कस
कस
कय
कसि
कय
भव
भवन
भवन
भवनतम
भवन
भवत
भवत
भवद
भवदि
भवत
भवद
भवद
भवत
भवद
भवद
भवत
भवत
भवत
भवति
भवत
भवत
भवत
भवत
भवत
भवत
भवत
भवत
भवत
भवत
भवति
भवत
भवत
भवति
भवत
भवत
भवति
भवत
भवत
भवत
भवत
भवत
भवत
भवत
भवत
भवनि
भवत
भवत
भवनि
भवत
भवद
भवदि
भवत
भवद
भवद
भवत
भवद
भवद
भवत
भवत
भवत
भवति
भवत
भवत
अय
अर
अर
अवि
अस
अस
अहह
अहवस
आम
आरयहलम
आह
आह
इस
उम
उव
चमत
टसत
ि
फत
बत
वट
यवसभति यवस
अति
अधि
अन
अप
अपि
अभि
अव
उद
उप
ि
ि
पर
परि
रति
ि
सम
अथव उत
अनयथ
इव
यदि
परन
यत करण ि यतस यदरथम यदर यरि यथ यतरणम ि
यथ यतस
यदयपि
अवध वति
रक
अह
एव
एवम
कचि
ि
पत
चण
तत
नकि
नह
नम
यस
मकि
मकि
यत
गपत
शशवत
पत
हन
ि
""".split()
)

Some files were not shown because too many files have changed in this diff Show More