mirror of
https://github.com/explosion/spaCy.git
synced 2025-08-02 19:30:19 +03:00
Remove default stop words
This commit is contained in:
parent
551e73ccfc
commit
29d2365022
|
@ -1,9 +1,8 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class AfrikaansDefaults(BaseDefaults):
|
||||
stop_words = STOP_WORDS
|
||||
pass
|
||||
|
||||
|
||||
class Afrikaans(Language):
|
||||
|
|
|
@ -1,57 +0,0 @@
|
|||
# Source: https://github.com/stopwords-iso/stopwords-af
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
'n
|
||||
aan
|
||||
af
|
||||
al
|
||||
as
|
||||
baie
|
||||
by
|
||||
daar
|
||||
dag
|
||||
dat
|
||||
die
|
||||
dit
|
||||
een
|
||||
ek
|
||||
en
|
||||
gaan
|
||||
gesê
|
||||
haar
|
||||
het
|
||||
hom
|
||||
hulle
|
||||
hy
|
||||
in
|
||||
is
|
||||
jou
|
||||
jy
|
||||
kan
|
||||
kom
|
||||
ma
|
||||
maar
|
||||
met
|
||||
my
|
||||
na
|
||||
nie
|
||||
om
|
||||
ons
|
||||
op
|
||||
saam
|
||||
sal
|
||||
se
|
||||
sien
|
||||
so
|
||||
sy
|
||||
te
|
||||
toe
|
||||
uit
|
||||
van
|
||||
vir
|
||||
was
|
||||
wat
|
||||
ʼn
|
||||
""".split()
|
||||
)
|
|
@ -1,4 +1,3 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .punctuation import TOKENIZER_SUFFIXES
|
||||
|
||||
|
@ -14,7 +13,6 @@ class AmharicDefaults(BaseDefaults):
|
|||
lex_attr_getters.update(LEX_ATTRS)
|
||||
lex_attr_getters[LANG] = lambda text: "am"
|
||||
tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
|
||||
stop_words = STOP_WORDS
|
||||
suffixes = TOKENIZER_SUFFIXES
|
||||
writing_system = {"direction": "ltr", "has_case": False, "has_letters": True}
|
||||
|
||||
|
|
|
@ -1,33 +0,0 @@
|
|||
# Stop words by Teshome Kassie http://etd.aau.edu.et/bitstream/handle/123456789/3315/Teshome%20Kassie.pdf?sequence=1&isAllowed=y
|
||||
# Stop words by Tihitina Petros http://etd.aau.edu.et/bitstream/handle/123456789/3384/Tihitina%20Petros.pdf?sequence=1&isAllowed=y
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
ግን አንቺ አንተ እናንተ ያንተ ያንቺ የናንተ ራስህን ራስሽን ራሳችሁን
|
||||
ሁሉ ኋላ በሰሞኑ አሉ በኋላ ሁኔታ በኩል አስታውቀዋል ሆነ በውስጥ
|
||||
አስታውሰዋል ሆኑ ባጣም እስካሁን ሆኖም በተለይ አሳሰበ ሁል በተመለከተ
|
||||
አሳስበዋል ላይ በተመሳሳይ አስፈላጊ ሌላ የተለያየ አስገነዘቡ ሌሎች የተለያዩ
|
||||
አስገንዝበዋል ልዩ ተባለ አብራርተዋል መሆኑ ተገለጸ አስረድተዋል ተገልጿል
|
||||
ማለቱ ተጨማሪ እባክህ የሚገኝ ተከናወነ እባክሽ ማድረግ ችግር አንጻር ማን
|
||||
ትናንት እስኪደርስ ነበረች እንኳ ሰሞኑን ነበሩ እንኳን ሲሆን ነበር እዚሁ ሲል
|
||||
ነው እንደገለጹት አለ ና እንደተናገሩት ቢሆን ነገር እንዳስረዱት ብለዋል ነገሮች
|
||||
እንደገና ብዙ ናት ወቅት ቦታ ናቸው እንዲሁም በርካታ አሁን እንጂ እስከ
|
||||
ማለት የሚሆኑት ስለማናቸውም ውስጥ ይሆናሉ ሲባል ከሆነው ስለዚሁ ከአንድ
|
||||
ያልሆነ ሳለ የነበረውን ከአንዳንድ በማናቸውም በሙሉ የሆነው ያሉ በእነዚሁ
|
||||
ወር መሆናቸው ከሌሎች በዋና አንዲት ወይም
|
||||
በላይ እንደ በማቀድ ለሌሎች በሆኑ ቢሆንም ጊዜና ይሆኑበታል በሆነ አንዱ
|
||||
ለዚህ ለሆነው ለነዚህ ከዚህ የሌላውን ሶስተኛ አንዳንድ ለማንኛውም የሆነ ከሁለት
|
||||
የነገሩ ሰኣት አንደኛ እንዲሆን እንደነዚህ ማንኛውም ካልሆነ የሆኑት ጋር ቢያንስ
|
||||
ይህንንም እነደሆነ እነዚህን ይኸው የማናቸውም
|
||||
በሙሉም ይህችው በተለይም አንዱን የሚችለውን በነዚህ ከእነዚህ በሌላ
|
||||
የዚሁ ከእነዚሁ ለዚሁ በሚገባ ለእያንዳንዱ የአንቀጹ ወደ ይህም ስለሆነ ወይ
|
||||
ማናቸውንም ተብሎ እነዚህ መሆናቸውን የሆነችን ከአስር ሳይሆን ከዚያ የለውም
|
||||
የማይበልጥ እንደሆነና እንዲሆኑ በሚችሉ ብቻ ብሎ ከሌላ የሌላቸውን
|
||||
ለሆነ በሌሎች ሁለቱንም በቀር ይህ በታች አንደሆነ በነሱ
|
||||
ይህን የሌላ እንዲህ ከሆነ ያላቸው በነዚሁ በሚል የዚህ ይህንኑ
|
||||
በእንደዚህ ቁጥር ማናቸውም ሆነው ባሉ በዚህ በስተቀር ሲሆንና
|
||||
በዚህም መሆን ምንጊዜም እነዚህም በዚህና ያለ ስም
|
||||
ሲኖር ከዚህም መሆኑን በሁኔታው የማያንስ እነዚህኑ ማንም ከነዚሁ
|
||||
ያላቸውን እጅግ ሲሆኑ ለሆኑ ሊሆን ለማናቸውም
|
||||
""".split()
|
||||
)
|
|
@ -1,4 +1,3 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .punctuation import TOKENIZER_SUFFIXES
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
|
@ -8,7 +7,6 @@ from ...language import Language, BaseDefaults
|
|||
class ArabicDefaults(BaseDefaults):
|
||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||
suffixes = TOKENIZER_SUFFIXES
|
||||
stop_words = STOP_WORDS
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
writing_system = {"direction": "rtl", "has_case": False, "has_letters": True}
|
||||
|
||||
|
|
|
@ -1,390 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
من
|
||||
نحو
|
||||
لعل
|
||||
بما
|
||||
بين
|
||||
وبين
|
||||
ايضا
|
||||
وبينما
|
||||
تحت
|
||||
مثلا
|
||||
لدي
|
||||
عنه
|
||||
مع
|
||||
هي
|
||||
وهذا
|
||||
واذا
|
||||
هذان
|
||||
انه
|
||||
بينما
|
||||
أمسى
|
||||
وسوف
|
||||
ولم
|
||||
لذلك
|
||||
إلى
|
||||
منه
|
||||
منها
|
||||
كما
|
||||
ظل
|
||||
هنا
|
||||
به
|
||||
كذلك
|
||||
اما
|
||||
هما
|
||||
بعد
|
||||
بينهم
|
||||
التي
|
||||
أبو
|
||||
اذا
|
||||
بدلا
|
||||
لها
|
||||
أمام
|
||||
يلي
|
||||
حين
|
||||
ضد
|
||||
الذي
|
||||
قد
|
||||
صار
|
||||
إذا
|
||||
مابرح
|
||||
قبل
|
||||
كل
|
||||
وليست
|
||||
الذين
|
||||
لهذا
|
||||
وثي
|
||||
انهم
|
||||
باللتي
|
||||
مافتئ
|
||||
ولا
|
||||
بهذه
|
||||
بحيث
|
||||
كيف
|
||||
وله
|
||||
علي
|
||||
بات
|
||||
لاسيما
|
||||
حتى
|
||||
وقد
|
||||
و
|
||||
أما
|
||||
فيها
|
||||
بهذا
|
||||
لذا
|
||||
حيث
|
||||
لقد
|
||||
إن
|
||||
فإن
|
||||
اول
|
||||
ليت
|
||||
فاللتي
|
||||
ولقد
|
||||
لسوف
|
||||
هذه
|
||||
ولماذا
|
||||
معه
|
||||
الحالي
|
||||
بإن
|
||||
حول
|
||||
في
|
||||
عليه
|
||||
مايزال
|
||||
ولعل
|
||||
أنه
|
||||
أضحى
|
||||
اي
|
||||
ستكون
|
||||
لن
|
||||
أن
|
||||
ضمن
|
||||
وعلى
|
||||
امسى
|
||||
الي
|
||||
ذات
|
||||
ولايزال
|
||||
ذلك
|
||||
فقد
|
||||
هم
|
||||
أي
|
||||
عند
|
||||
ابن
|
||||
أو
|
||||
فهو
|
||||
فانه
|
||||
سوف
|
||||
ما
|
||||
آل
|
||||
كلا
|
||||
عنها
|
||||
وكذلك
|
||||
ليست
|
||||
لم
|
||||
وأن
|
||||
ماذا
|
||||
لو
|
||||
وهل
|
||||
اللتي
|
||||
ولذا
|
||||
يمكن
|
||||
فيه
|
||||
الا
|
||||
عليها
|
||||
وبينهم
|
||||
يوم
|
||||
وبما
|
||||
لما
|
||||
فكان
|
||||
اضحى
|
||||
اصبح
|
||||
لهم
|
||||
بها
|
||||
او
|
||||
الذى
|
||||
الى
|
||||
إلي
|
||||
قال
|
||||
والتي
|
||||
لازال
|
||||
أصبح
|
||||
ولهذا
|
||||
مثل
|
||||
وكانت
|
||||
لكنه
|
||||
بذلك
|
||||
هذا
|
||||
لماذا
|
||||
قالت
|
||||
فقط
|
||||
لكن
|
||||
مما
|
||||
وكل
|
||||
وان
|
||||
وأبو
|
||||
ومن
|
||||
كان
|
||||
مازال
|
||||
هل
|
||||
بينهن
|
||||
هو
|
||||
وما
|
||||
على
|
||||
وهو
|
||||
لأن
|
||||
واللتي
|
||||
والذي
|
||||
دون
|
||||
عن
|
||||
وايضا
|
||||
هناك
|
||||
بلا
|
||||
جدا
|
||||
ثم
|
||||
منذ
|
||||
اللذين
|
||||
لايزال
|
||||
بعض
|
||||
مساء
|
||||
تكون
|
||||
فلا
|
||||
بيننا
|
||||
لا
|
||||
ولكن
|
||||
إذ
|
||||
وأثناء
|
||||
ليس
|
||||
ومع
|
||||
فيهم
|
||||
ولسوف
|
||||
بل
|
||||
تلك
|
||||
أحد
|
||||
وهي
|
||||
وكان
|
||||
ومنها
|
||||
وفي
|
||||
ماانفك
|
||||
اليوم
|
||||
وماذا
|
||||
هؤلاء
|
||||
وليس
|
||||
له
|
||||
أثناء
|
||||
بد
|
||||
اليه
|
||||
كأن
|
||||
اليها
|
||||
بتلك
|
||||
يكون
|
||||
ولما
|
||||
هن
|
||||
والى
|
||||
كانت
|
||||
وقبل
|
||||
ان
|
||||
لدى
|
||||
إذما
|
||||
إذن
|
||||
أف
|
||||
أقل
|
||||
أكثر
|
||||
ألا
|
||||
إلا
|
||||
اللاتي
|
||||
اللائي
|
||||
اللتان
|
||||
اللتيا
|
||||
اللتين
|
||||
اللذان
|
||||
اللواتي
|
||||
إليك
|
||||
إليكم
|
||||
إليكما
|
||||
إليكن
|
||||
أم
|
||||
أما
|
||||
إما
|
||||
إنا
|
||||
أنا
|
||||
أنت
|
||||
أنتم
|
||||
أنتما
|
||||
أنتن
|
||||
إنما
|
||||
إنه
|
||||
أنى
|
||||
أنى
|
||||
آه
|
||||
آها
|
||||
أولاء
|
||||
أولئك
|
||||
أوه
|
||||
آي
|
||||
أيها
|
||||
إي
|
||||
أين
|
||||
أين
|
||||
أينما
|
||||
إيه
|
||||
بخ
|
||||
بس
|
||||
بك
|
||||
بكم
|
||||
بكم
|
||||
بكما
|
||||
بكن
|
||||
بلى
|
||||
بماذا
|
||||
بمن
|
||||
بنا
|
||||
بهم
|
||||
بهما
|
||||
بهن
|
||||
بي
|
||||
بيد
|
||||
تلكم
|
||||
تلكما
|
||||
ته
|
||||
تي
|
||||
تين
|
||||
تينك
|
||||
ثمة
|
||||
حاشا
|
||||
حبذا
|
||||
حيثما
|
||||
خلا
|
||||
ذا
|
||||
ذاك
|
||||
ذان
|
||||
ذانك
|
||||
ذلكم
|
||||
ذلكما
|
||||
ذلكن
|
||||
ذه
|
||||
ذو
|
||||
ذوا
|
||||
ذواتا
|
||||
ذواتي
|
||||
ذي
|
||||
ذين
|
||||
ذينك
|
||||
ريث
|
||||
سوى
|
||||
شتان
|
||||
عدا
|
||||
عسى
|
||||
عل
|
||||
عليك
|
||||
عما
|
||||
غير
|
||||
فإذا
|
||||
فمن
|
||||
فيم
|
||||
فيما
|
||||
كأنما
|
||||
كأي
|
||||
كأين
|
||||
كذا
|
||||
كلاهما
|
||||
كلتا
|
||||
كلما
|
||||
كليكما
|
||||
كليهما
|
||||
كم
|
||||
كم
|
||||
كي
|
||||
كيت
|
||||
كيفما
|
||||
لست
|
||||
لستم
|
||||
لستما
|
||||
لستن
|
||||
لسن
|
||||
لسنا
|
||||
لك
|
||||
لكم
|
||||
لكما
|
||||
لكنما
|
||||
لكي
|
||||
لكيلا
|
||||
لنا
|
||||
لهما
|
||||
لهن
|
||||
لولا
|
||||
لوما
|
||||
لي
|
||||
لئن
|
||||
ليسا
|
||||
ليستا
|
||||
ليسوا
|
||||
متى
|
||||
مذ
|
||||
ممن
|
||||
مه
|
||||
مهما
|
||||
نحن
|
||||
نعم
|
||||
ها
|
||||
هاتان
|
||||
هاته
|
||||
هاتي
|
||||
هاتين
|
||||
هاك
|
||||
هاهنا
|
||||
هذي
|
||||
هذين
|
||||
هكذا
|
||||
هلا
|
||||
هنالك
|
||||
هيا
|
||||
هيت
|
||||
هيهات
|
||||
والذين
|
||||
وإذ
|
||||
وإذا
|
||||
وإن
|
||||
ولو
|
||||
يا
|
||||
""".split()
|
||||
)
|
|
@ -1,11 +1,9 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class AzerbaijaniDefaults(BaseDefaults):
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Azerbaijani(Language):
|
||||
|
|
|
@ -1,145 +0,0 @@
|
|||
# Source: https://github.com/eliasdabbas/advertools/blob/master/advertools/stopwords.py
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
amma
|
||||
arasında
|
||||
artıq
|
||||
ay
|
||||
az
|
||||
bax
|
||||
belə
|
||||
beş
|
||||
bilər
|
||||
bir
|
||||
biraz
|
||||
biri
|
||||
birşey
|
||||
biz
|
||||
bizim
|
||||
bizlər
|
||||
bu
|
||||
buna
|
||||
bundan
|
||||
bunların
|
||||
bunu
|
||||
bunun
|
||||
buradan
|
||||
bütün
|
||||
bəli
|
||||
bəlkə
|
||||
bəy
|
||||
bəzi
|
||||
bəzən
|
||||
daha
|
||||
dedi
|
||||
deyil
|
||||
dir
|
||||
düz
|
||||
də
|
||||
dək
|
||||
dən
|
||||
dəqiqə
|
||||
edir
|
||||
edən
|
||||
elə
|
||||
et
|
||||
etdi
|
||||
etmə
|
||||
etmək
|
||||
faiz
|
||||
gilə
|
||||
görə
|
||||
ha
|
||||
haqqında
|
||||
harada
|
||||
heç
|
||||
hə
|
||||
həm
|
||||
həmin
|
||||
həmişə
|
||||
hər
|
||||
idi
|
||||
il
|
||||
ildə
|
||||
ilk
|
||||
ilə
|
||||
in
|
||||
indi
|
||||
istifadə
|
||||
isə
|
||||
ki
|
||||
kim
|
||||
kimi
|
||||
kimə
|
||||
lakin
|
||||
lap
|
||||
mirşey
|
||||
məhz
|
||||
mən
|
||||
mənə
|
||||
niyə
|
||||
nə
|
||||
nəhayət
|
||||
o
|
||||
obirisi
|
||||
of
|
||||
olan
|
||||
olar
|
||||
olaraq
|
||||
oldu
|
||||
olduğu
|
||||
olmadı
|
||||
olmaz
|
||||
olmuşdur
|
||||
olsun
|
||||
olur
|
||||
on
|
||||
ona
|
||||
ondan
|
||||
onlar
|
||||
onlardan
|
||||
onların
|
||||
onsuzda
|
||||
onu
|
||||
onun
|
||||
oradan
|
||||
qarşı
|
||||
qədər
|
||||
saat
|
||||
sadəcə
|
||||
saniyə
|
||||
siz
|
||||
sizin
|
||||
sizlər
|
||||
sonra
|
||||
səhv
|
||||
sən
|
||||
sənin
|
||||
sənə
|
||||
təəssüf
|
||||
var
|
||||
və
|
||||
xan
|
||||
xanım
|
||||
xeyr
|
||||
ya
|
||||
yalnız
|
||||
yaxşı
|
||||
yeddi
|
||||
yenə
|
||||
yox
|
||||
yoxdur
|
||||
yoxsa
|
||||
yəni
|
||||
zaman
|
||||
çox
|
||||
çünki
|
||||
öz
|
||||
özü
|
||||
üçün
|
||||
əgər
|
||||
əlbəttə
|
||||
ən
|
||||
əslində
|
||||
""".split()
|
||||
)
|
|
@ -1,4 +1,3 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from ..tokenizer_exceptions import BASE_EXCEPTIONS
|
||||
|
@ -15,7 +14,6 @@ class BulgarianDefaults(BaseDefaults):
|
|||
|
||||
lex_attr_getters.update(LEX_ATTRS)
|
||||
|
||||
stop_words = STOP_WORDS
|
||||
tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
|
||||
suffixes = COMBINING_DIACRITICS_TOKENIZER_SUFFIXES
|
||||
infixes = COMBINING_DIACRITICS_TOKENIZER_INFIXES
|
||||
|
|
|
@ -1,79 +0,0 @@
|
|||
"""
|
||||
References:
|
||||
https://github.com/Alir3z4/stop-words - Original list, serves as a base.
|
||||
https://postvai.com/books/stop-dumi.pdf - Additions to the original list in order to improve it.
|
||||
"""
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
а автентичен аз ако ала
|
||||
|
||||
бе без беше би бивш бивша бившо бивши бил била били било благодаря близо бъдат
|
||||
бъде бъда бяха
|
||||
|
||||
в вас ваш ваша вашата вашият вероятно вече взема ви вие винаги внимава време все
|
||||
всеки всички вместо всичко вследствие всъщност всяка втори във въпреки върху
|
||||
вътре веднъж
|
||||
|
||||
г ги главен главна главно глас го годно година години годишен
|
||||
|
||||
д да дали далеч далече два двама двамата две двете ден днес дни до добра добре
|
||||
добро добър достатъчно докато докога дори досега доста друг друга другаде други
|
||||
|
||||
е евтин едва един една еднаква еднакви еднакъв едно екип ето
|
||||
|
||||
живот жив
|
||||
|
||||
за здравей здрасти знае зная забавям зад зададени заедно заради засега заспал
|
||||
затова запазва започвам защо защото завинаги
|
||||
|
||||
и из или им има имат иска искам използвайки изглежда изглеждаше изглеждайки
|
||||
извън имайки
|
||||
|
||||
й йо
|
||||
|
||||
каза казва казвайки казвам как каква какво както какъв като кога кауза каузи
|
||||
когато когото което които кой който колко която къде където към край кратък
|
||||
кръгъл
|
||||
|
||||
лесен лесно ли летя летиш летим лош
|
||||
|
||||
м май малко макар малцина междувременно минус ме между мек мен месец ми мис
|
||||
мисля много мнозина мога могат може мой можем мокър моля момента му
|
||||
|
||||
н на над назад най наш навсякъде навътре нагоре направи напред надолу наистина
|
||||
например наопаки наполовина напоследък нека независимо нас насам наскоро
|
||||
настрана необходимо него негов нещо нея ни ние никой нито нищо но нов някак нова
|
||||
нови новина някои някой някога някъде няколко няма
|
||||
|
||||
о обаче около описан опитах опитва опитвайки опитвам определен определено освен
|
||||
обикновено осигурява обратно означава особен особено от ох отвъд отгоре отдолу
|
||||
отново отива отивам отидох отсега отделно отколкото откъдето очевидно оттам
|
||||
относно още
|
||||
|
||||
п пак по повече повечето под поне просто пряко поради после последен последно
|
||||
посочен почти прави прав прави правя пред преди през при пък първата първи първо
|
||||
път пъти плюс
|
||||
|
||||
равен равна различен различни разумен разумно
|
||||
|
||||
с са сам само себе сериозно сигурен сигурно се сега си син скоро скорошен след
|
||||
следващ следващия следва следното следователно случва сме смях собствен
|
||||
сравнително смея според сред става срещу съвсем съдържа съдържащ съжалявам
|
||||
съответен съответно сте съм със също
|
||||
|
||||
т така техен техни такива такъв твърде там трета твой те тези ти то това
|
||||
тогава този той търси толкова точно три трябва тук тъй тя тях
|
||||
|
||||
у утре ужасно употреба успоредно уточнен уточняване
|
||||
|
||||
харесва харесали хиляди
|
||||
|
||||
ч часа ценя цяло цялостен че често чрез чудя
|
||||
|
||||
ще щеше щом щяха
|
||||
|
||||
юмрук
|
||||
|
||||
я як
|
||||
""".split()
|
||||
)
|
|
@ -2,7 +2,6 @@ from typing import Optional, Callable
|
|||
from thinc.api import Model
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_SUFFIXES, TOKENIZER_INFIXES
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language, BaseDefaults
|
||||
from ...pipeline import Lemmatizer
|
||||
|
||||
|
@ -12,7 +11,6 @@ class BengaliDefaults(BaseDefaults):
|
|||
prefixes = TOKENIZER_PREFIXES
|
||||
suffixes = TOKENIZER_SUFFIXES
|
||||
infixes = TOKENIZER_INFIXES
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Bengali(Language):
|
||||
|
|
|
@ -1,42 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
অতএব অথচ অথবা অনুযায়ী অনেক অনেকে অনেকেই অন্তত অবধি অবশ্য অর্থাৎ অন্য অনুযায়ী অর্ধভাগে
|
||||
আগামী আগে আগেই আছে আজ আদ্যভাগে আপনার আপনি আবার আমরা আমাকে আমাদের আমার আমি আর আরও
|
||||
ইত্যাদি ইহা
|
||||
উচিত উনি উপর উপরে উত্তর
|
||||
এ এঁদের এঁরা এই এক একই একজন একটা একটি একবার একে এখন এখনও এখানে এখানেই এটা এসো
|
||||
এটাই এটি এত এতটাই এতে এদের এবং এবার এমন এমনি এমনকি এর এরা এলো এস এসে
|
||||
ঐ
|
||||
ও ওঁদের ওঁর ওঁরা ওই ওকে ওখানে ওদের ওর ওরা
|
||||
কখনও কত কথা কবে কয়েক কয়েকটি করছে করছেন করতে করবে করবেন করলে কয়েক কয়েকটি করিয়ে করিয়া করায়
|
||||
করলেন করা করাই করায় করার করি করিতে করিয়া করিয়ে করে করেই করেছিলেন করেছে করেছেন করেন কাউকে
|
||||
কাছ কাছে কাজ কাজে কারও কারণ কি কিংবা কিছু কিছুই কিন্তু কী কে কেউ কেউই কেন কোন কোনও কোনো কেমনে কোটি
|
||||
ক্ষেত্রে খুব
|
||||
গিয়ে গিয়েছে গুলি গেছে গেল গেলে গোটা গিয়ে গিয়েছে
|
||||
চলে চান চায় চেয়ে চায় চেয়ে চার চালু চেষ্টা
|
||||
ছাড়া ছাড়াও ছিল ছিলেন ছাড়া ছাড়াও
|
||||
জন জনকে জনের জন্য জন্যে জানতে জানা জানানো জানায় জানিয়ে জানিয়েছে জানায় জাানিয়ে জানিয়েছে
|
||||
টি
|
||||
ঠিক
|
||||
তখন তত তথা তবু তবে তা তাঁকে তাঁদের তাঁর তাঁরা তাঁহারা তাই তাও তাকে তাতে তাদের তার তারপর তারা তারই তাহলে তাহা তাহাতে তাহার তিনই
|
||||
তিনি তিনিও তুমি তুলে তেমন তো তোমার তুই তোরা তোর তোমাদের তোদের
|
||||
থাকবে থাকবেন থাকা থাকায় থাকে থাকেন থেকে থেকেই থেকেও থাকায়
|
||||
দিকে দিতে দিয়ে দিয়েছে দিয়েছেন দিলেন দিয়ে দু দুটি দুটো দেওয়া দেওয়ার দেখতে দেখা দেখে দেন দেয় দেশের
|
||||
দ্বারা দিয়েছে দিয়েছেন দেয় দেওয়া দেওয়ার দিন দুই
|
||||
ধরা ধরে
|
||||
নয় না নাই নাকি নাগাদ নানা নিজে নিজেই নিজেদের নিজের নিতে নিয়ে নিয়ে নেই নেওয়া নেওয়ার নয় নতুন
|
||||
পক্ষে পর পরে পরেই পরেও পর্যন্ত পাওয়া পারি পারে পারেন পেয়ে প্রতি প্রভৃতি প্রায় পাওয়া পেয়ে প্রায় পাঁচ প্রথম প্রাথমিক
|
||||
ফলে ফিরে ফের
|
||||
বছর বদলে বরং বলতে বলল বললেন বলা বলে বলেছেন বলেন বসে বহু বা বাদে বার বিনা বিভিন্ন বিশেষ বিষয়টি বেশ ব্যবহার ব্যাপারে বক্তব্য বন বেশি
|
||||
ভাবে ভাবেই
|
||||
মত মতো মতোই মধ্যভাগে মধ্যে মধ্যেই মধ্যেও মনে মাত্র মাধ্যমে মানুষ মানুষের মোট মোটেই মোদের মোর
|
||||
যখন যত যতটা যথেষ্ট যদি যদিও যা যাঁর যাঁরা যাওয়া যাওয়ার যাকে যাচ্ছে যাতে যাদের যান যাবে যায় যার যারা যায় যিনি যে যেখানে যেতে যেন
|
||||
যেমন
|
||||
রকম রয়েছে রাখা রেখে রয়েছে
|
||||
লক্ষ
|
||||
শুধু শুরু
|
||||
সাধারণ সামনে সঙ্গে সঙ্গেও সব সবার সমস্ত সম্প্রতি সময় সহ সহিত সাথে সুতরাং সে সেই সেখান সেখানে সেটা সেটাই সেটাও সেটি স্পষ্ট স্বয়ং
|
||||
হইতে হইবে হইয়া হওয়া হওয়ায় হওয়ার হচ্ছে হত হতে হতেই হন হবে হবেন হয় হয়তো হয়নি হয়ে হয়েই হয়েছিল হয়েছে হাজার
|
||||
হয়েছেন হল হলে হলেই হলেও হলো হিসাবে হিসেবে হৈলে হোক হয় হয়ে হয়েছে হৈতে হইয়া হয়েছিল হয়েছেন হয়নি হয়েই হয়তো হওয়া হওয়ার হওয়ায়
|
||||
""".split()
|
||||
)
|
|
@ -4,7 +4,6 @@ from thinc.api import Model
|
|||
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES, TOKENIZER_PREFIXES
|
||||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .syntax_iterators import SYNTAX_ITERATORS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
@ -16,7 +15,6 @@ class CatalanDefaults(BaseDefaults):
|
|||
infixes = TOKENIZER_INFIXES
|
||||
suffixes = TOKENIZER_SUFFIXES
|
||||
prefixes = TOKENIZER_PREFIXES
|
||||
stop_words = STOP_WORDS
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
|
||||
|
|
|
@ -1,52 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
a abans ací ah així això al aleshores algun alguna algunes alguns alhora allà allí allò
|
||||
als altra altre altres amb ambdues ambdós anar ans apa aquell aquella aquelles aquells
|
||||
aquest aquesta aquestes aquests aquí
|
||||
|
||||
baix bastant bé
|
||||
|
||||
cada cadascuna cadascunes cadascuns cadascú com consegueixo conseguim conseguir
|
||||
consigueix consigueixen consigueixes contra
|
||||
|
||||
d'un d'una d'unes d'uns dalt de del dels des des de després dins dintre donat doncs durant
|
||||
|
||||
e eh el elles ells els em en encara ens entre era erem eren eres es esta estan estat
|
||||
estava estaven estem esteu estic està estàvem estàveu et etc ets érem éreu és éssent
|
||||
|
||||
fa faig fan fas fem fer feu fi fins fora
|
||||
|
||||
gairebé
|
||||
|
||||
ha han has haver havia he hem heu hi ho
|
||||
|
||||
i igual iguals inclòs
|
||||
|
||||
ja jo
|
||||
|
||||
l'hi la les li li'n llarg llavors
|
||||
|
||||
m'he ma mal malgrat mateix mateixa mateixes mateixos me mentre meu meus meva
|
||||
meves mode molt molta moltes molts mon mons més
|
||||
|
||||
n'he n'hi ne ni no nogensmenys només nosaltres nostra nostre nostres
|
||||
|
||||
o oh oi on
|
||||
|
||||
pas pel pels per per que perquè però poc poca pocs podem poden poder
|
||||
podeu poques potser primer propi puc
|
||||
|
||||
qual quals quan quant que quelcom qui quin quina quines quins què
|
||||
|
||||
s'ha s'han sa sabem saben saber sabeu sap saps semblant semblants sense ser ses
|
||||
seu seus seva seves si sobre sobretot soc solament sols som son sons sota sou sóc són
|
||||
|
||||
t'ha t'han t'he ta tal també tampoc tan tant tanta tantes te tene tenim tenir teniu
|
||||
teu teus teva teves tinc ton tons tot tota totes tots
|
||||
|
||||
un una unes uns us últim ús
|
||||
|
||||
va vaig vam van vas veu vosaltres vostra vostre vostres
|
||||
|
||||
""".split()
|
||||
)
|
|
@ -1,11 +1,9 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class CzechDefaults(BaseDefaults):
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Czech(Language):
|
||||
|
|
|
@ -1,365 +0,0 @@
|
|||
# Source: https://github.com/Alir3z4/stop-words
|
||||
# Source: https://github.com/stopwords-iso/stopwords-cs/blob/master/stopwords-cs.txt
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
a
|
||||
aby
|
||||
ahoj
|
||||
ačkoli
|
||||
ale
|
||||
alespoň
|
||||
anebo
|
||||
ani
|
||||
aniž
|
||||
ano
|
||||
atd.
|
||||
atp.
|
||||
asi
|
||||
aspoň
|
||||
až
|
||||
během
|
||||
bez
|
||||
beze
|
||||
blízko
|
||||
bohužel
|
||||
brzo
|
||||
bude
|
||||
budeme
|
||||
budeš
|
||||
budete
|
||||
budou
|
||||
budu
|
||||
by
|
||||
byl
|
||||
byla
|
||||
byli
|
||||
bylo
|
||||
byly
|
||||
bys
|
||||
být
|
||||
čau
|
||||
chce
|
||||
chceme
|
||||
chceš
|
||||
chcete
|
||||
chci
|
||||
chtějí
|
||||
chtít
|
||||
chuť
|
||||
chuti
|
||||
co
|
||||
což
|
||||
cz
|
||||
či
|
||||
článek
|
||||
článku
|
||||
články
|
||||
čtrnáct
|
||||
čtyři
|
||||
dál
|
||||
dále
|
||||
daleko
|
||||
další
|
||||
děkovat
|
||||
děkujeme
|
||||
děkuji
|
||||
den
|
||||
deset
|
||||
devatenáct
|
||||
devět
|
||||
dnes
|
||||
do
|
||||
dobrý
|
||||
docela
|
||||
dva
|
||||
dvacet
|
||||
dvanáct
|
||||
dvě
|
||||
email
|
||||
ho
|
||||
hodně
|
||||
i
|
||||
já
|
||||
jak
|
||||
jakmile
|
||||
jako
|
||||
jakož
|
||||
jde
|
||||
je
|
||||
jeden
|
||||
jedenáct
|
||||
jedna
|
||||
jedno
|
||||
jednou
|
||||
jedou
|
||||
jeho
|
||||
jehož
|
||||
jej
|
||||
její
|
||||
jejich
|
||||
jejichž
|
||||
jehož
|
||||
jelikož
|
||||
jemu
|
||||
jen
|
||||
jenom
|
||||
jenž
|
||||
jež
|
||||
ještě
|
||||
jestli
|
||||
jestliže
|
||||
ještě
|
||||
ji
|
||||
jí
|
||||
jich
|
||||
jím
|
||||
jim
|
||||
jimi
|
||||
jinak
|
||||
jiné
|
||||
již
|
||||
jsi
|
||||
jsme
|
||||
jsem
|
||||
jsou
|
||||
jste
|
||||
k
|
||||
kam
|
||||
každý
|
||||
kde
|
||||
kdo
|
||||
kdy
|
||||
když
|
||||
ke
|
||||
kolik
|
||||
kromě
|
||||
která
|
||||
kterak
|
||||
kterou
|
||||
které
|
||||
kteří
|
||||
který
|
||||
kvůli
|
||||
ku
|
||||
má
|
||||
mají
|
||||
málo
|
||||
mám
|
||||
máme
|
||||
máš
|
||||
máte
|
||||
mé
|
||||
mě
|
||||
mezi
|
||||
mi
|
||||
mí
|
||||
mít
|
||||
mne
|
||||
mně
|
||||
mnou
|
||||
moc
|
||||
mohl
|
||||
mohou
|
||||
moje
|
||||
moji
|
||||
možná
|
||||
můj
|
||||
musí
|
||||
může
|
||||
my
|
||||
na
|
||||
nad
|
||||
nade
|
||||
nám
|
||||
námi
|
||||
naproti
|
||||
nás
|
||||
náš
|
||||
naše
|
||||
naši
|
||||
načež
|
||||
ne
|
||||
ně
|
||||
nebo
|
||||
nebyl
|
||||
nebyla
|
||||
nebyli
|
||||
nebyly
|
||||
nechť
|
||||
něco
|
||||
nedělá
|
||||
nedělají
|
||||
nedělám
|
||||
neděláme
|
||||
neděláš
|
||||
neděláte
|
||||
nějak
|
||||
nejsi
|
||||
nejsou
|
||||
někde
|
||||
někdo
|
||||
nemají
|
||||
nemáme
|
||||
nemáte
|
||||
neměl
|
||||
němu
|
||||
němuž
|
||||
není
|
||||
nestačí
|
||||
ně
|
||||
nevadí
|
||||
nové
|
||||
nový
|
||||
noví
|
||||
než
|
||||
nic
|
||||
nich
|
||||
ní
|
||||
ním
|
||||
nimi
|
||||
nula
|
||||
o
|
||||
od
|
||||
ode
|
||||
on
|
||||
ona
|
||||
oni
|
||||
ono
|
||||
ony
|
||||
osm
|
||||
osmnáct
|
||||
pak
|
||||
patnáct
|
||||
pět
|
||||
po
|
||||
pod
|
||||
pokud
|
||||
pořád
|
||||
pouze
|
||||
potom
|
||||
pozdě
|
||||
pravé
|
||||
před
|
||||
přede
|
||||
přes
|
||||
přece
|
||||
pro
|
||||
proč
|
||||
prosím
|
||||
prostě
|
||||
proto
|
||||
proti
|
||||
první
|
||||
právě
|
||||
protože
|
||||
při
|
||||
přičemž
|
||||
rovně
|
||||
s
|
||||
se
|
||||
sedm
|
||||
sedmnáct
|
||||
si
|
||||
sice
|
||||
skoro
|
||||
sic
|
||||
šest
|
||||
šestnáct
|
||||
skoro
|
||||
smějí
|
||||
smí
|
||||
snad
|
||||
spolu
|
||||
sta
|
||||
svůj
|
||||
své
|
||||
svá
|
||||
svých
|
||||
svým
|
||||
svými
|
||||
svůj
|
||||
sté
|
||||
sto
|
||||
strana
|
||||
ta
|
||||
tady
|
||||
tak
|
||||
takhle
|
||||
taky
|
||||
také
|
||||
takže
|
||||
tam
|
||||
támhle
|
||||
támhleto
|
||||
tamto
|
||||
tě
|
||||
tebe
|
||||
tebou
|
||||
teď
|
||||
tedy
|
||||
ten
|
||||
tento
|
||||
této
|
||||
ti
|
||||
tím
|
||||
tímto
|
||||
tisíc
|
||||
tisíce
|
||||
to
|
||||
tobě
|
||||
tohle
|
||||
tohoto
|
||||
tom
|
||||
tomto
|
||||
tomu
|
||||
tomuto
|
||||
toto
|
||||
třeba
|
||||
tři
|
||||
třináct
|
||||
trošku
|
||||
trochu
|
||||
tu
|
||||
tuto
|
||||
tvá
|
||||
tvé
|
||||
tvoje
|
||||
tvůj
|
||||
ty
|
||||
tyto
|
||||
těm
|
||||
těma
|
||||
těmi
|
||||
u
|
||||
určitě
|
||||
už
|
||||
v
|
||||
vám
|
||||
vámi
|
||||
vás
|
||||
váš
|
||||
vaše
|
||||
vaši
|
||||
ve
|
||||
večer
|
||||
vedle
|
||||
více
|
||||
vlastně
|
||||
však
|
||||
všechen
|
||||
všechno
|
||||
všichni
|
||||
vůbec
|
||||
vy
|
||||
vždy
|
||||
z
|
||||
zda
|
||||
za
|
||||
zde
|
||||
zač
|
||||
zatímco
|
||||
ze
|
||||
že
|
||||
""".split()
|
||||
)
|
|
@ -1,6 +1,5 @@
|
|||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES
|
||||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .syntax_iterators import SYNTAX_ITERATORS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
@ -11,7 +10,6 @@ class DanishDefaults(BaseDefaults):
|
|||
infixes = TOKENIZER_INFIXES
|
||||
suffixes = TOKENIZER_SUFFIXES
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
|
||||
|
||||
|
|
|
@ -1,45 +0,0 @@
|
|||
# Source: Handpicked by Jens Dahl Møllerhøj.
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
af aldrig alene alle allerede alligevel alt altid anden andet andre at
|
||||
|
||||
bag begge blandt blev blive bliver burde bør
|
||||
|
||||
da de dem den denne dens der derefter deres derfor derfra deri dermed derpå derved det dette dig din dine disse dog du
|
||||
|
||||
efter egen eller ellers en end endnu ene eneste enhver ens enten er et
|
||||
|
||||
flere flest fleste for foran fordi forrige fra få før først
|
||||
|
||||
gennem gjorde gjort god gør gøre gørende
|
||||
|
||||
ham han hans har havde have hel heller hen hende hendes henover her herefter heri hermed herpå hun hvad hvem hver hvilke hvilken hvilkes hvis hvor hvordan hvorefter hvorfor hvorfra hvorhen hvori hvorimod hvornår hvorved
|
||||
|
||||
i igen igennem ikke imellem imens imod ind indtil ingen intet
|
||||
|
||||
jeg jer jeres jo
|
||||
|
||||
kan kom kommer kun kunne
|
||||
|
||||
lad langs lav lave lavet lidt lige ligesom lille længere
|
||||
|
||||
man mange med meget mellem men mens mere mest mig min mindre mindst mine mit må måske
|
||||
|
||||
ned nemlig nogen nogensinde noget nogle nok nu ny nyt nær næste næsten
|
||||
|
||||
og også om omkring op os over overalt
|
||||
|
||||
på
|
||||
|
||||
samme sammen selv selvom senere ses siden sig sige skal skulle som stadig synes syntes så sådan således
|
||||
|
||||
temmelig tidligere til tilbage tit
|
||||
|
||||
ud uden udover under undtagen
|
||||
|
||||
var ved vi via vil ville vore vores vær være været
|
||||
|
||||
øvrigt
|
||||
""".split()
|
||||
)
|
|
@ -1,6 +1,5 @@
|
|||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_SUFFIXES, TOKENIZER_INFIXES
|
||||
from .stop_words import STOP_WORDS
|
||||
from .syntax_iterators import SYNTAX_ITERATORS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
@ -11,7 +10,6 @@ class GermanDefaults(BaseDefaults):
|
|||
suffixes = TOKENIZER_SUFFIXES
|
||||
infixes = TOKENIZER_INFIXES
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class German(Language):
|
||||
|
|
|
@ -1,78 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
á a ab aber ach acht achte achten achter achtes ag alle allein allem allen
|
||||
aller allerdings alles allgemeinen als also am an andere anderen anderem andern
|
||||
anders auch auf aus ausser außer ausserdem außerdem
|
||||
|
||||
bald bei beide beiden beim beispiel bekannt bereits besonders besser besten bin
|
||||
bis bisher bist
|
||||
|
||||
da dabei dadurch dafür dagegen daher dahin dahinter damals damit danach daneben
|
||||
dank dann daran darauf daraus darf darfst darin darüber darum darunter das
|
||||
dasein daselbst dass daß dasselbe davon davor dazu dazwischen dein deine deinem
|
||||
deiner dem dementsprechend demgegenüber demgemäss demgemäß demselben demzufolge
|
||||
den denen denn denselben der deren derjenige derjenigen dermassen dermaßen
|
||||
derselbe derselben des deshalb desselben dessen deswegen dich die diejenige
|
||||
diejenigen dies diese dieselbe dieselben diesem diesen dieser dieses dir doch
|
||||
dort drei drin dritte dritten dritter drittes du durch durchaus dürfen dürft
|
||||
durfte durften
|
||||
|
||||
eben ebenso ehrlich eigen eigene eigenen eigener eigenes ein einander eine
|
||||
einem einen einer eines einige einigen einiger einiges einmal einmaleins elf en
|
||||
ende endlich entweder er erst erste ersten erster erstes es etwa etwas euch
|
||||
|
||||
früher fünf fünfte fünften fünfter fünftes für
|
||||
|
||||
gab ganz ganze ganzen ganzer ganzes gar gedurft gegen gegenüber gehabt gehen
|
||||
geht gekannt gekonnt gemacht gemocht gemusst genug gerade gern gesagt geschweige
|
||||
gewesen gewollt geworden gibt ging gleich gross groß grosse große grossen
|
||||
großen grosser großer grosses großes gut gute guter gutes
|
||||
|
||||
habe haben habt hast hat hatte hätte hatten hätten heisst heißt her heute hier
|
||||
hin hinter hoch
|
||||
|
||||
ich ihm ihn ihnen ihr ihre ihrem ihren ihrer ihres im immer in indem
|
||||
infolgedessen ins irgend ist
|
||||
|
||||
ja jahr jahre jahren je jede jedem jeden jeder jedermann jedermanns jedoch
|
||||
jemand jemandem jemanden jene jenem jenen jener jenes jetzt
|
||||
|
||||
kam kann kannst kaum kein keine keinem keinen keiner kleine kleinen kleiner
|
||||
kleines kommen kommt können könnt konnte könnte konnten kurz
|
||||
|
||||
lang lange leicht leider lieber los
|
||||
|
||||
machen macht machte mag magst man manche manchem manchen mancher manches mehr
|
||||
mein meine meinem meinen meiner meines mich mir mit mittel mochte möchte mochten
|
||||
mögen möglich mögt morgen muss muß müssen musst müsst musste mussten
|
||||
|
||||
na nach nachdem nahm natürlich neben nein neue neuen neun neunte neunten neunter
|
||||
neuntes nicht nichts nie niemand niemandem niemanden noch nun nur
|
||||
|
||||
ob oben oder offen oft ohne
|
||||
|
||||
recht rechte rechten rechter rechtes richtig rund
|
||||
|
||||
sagt sagte sah satt schlecht schon sechs sechste sechsten sechster sechstes
|
||||
sehr sei seid seien sein seine seinem seinen seiner seines seit seitdem selbst
|
||||
selbst sich sie sieben siebente siebenten siebenter siebentes siebte siebten
|
||||
siebter siebtes sind so solang solche solchem solchen solcher solches soll
|
||||
sollen sollte sollten sondern sonst sowie später statt
|
||||
|
||||
tag tage tagen tat teil tel trotzdem tun
|
||||
|
||||
über überhaupt übrigens uhr um und uns unser unsere unserer unter
|
||||
|
||||
vergangene vergangenen viel viele vielem vielen vielleicht vier vierte vierten
|
||||
vierter viertes vom von vor
|
||||
|
||||
wahr während währenddem währenddessen wann war wäre waren wart warum was wegen
|
||||
weil weit weiter weitere weiteren weiteres welche welchem welchen welcher
|
||||
welches wem wen wenig wenige weniger weniges wenigstens wenn wer werde werden
|
||||
werdet wessen wie wieder will willst wir wird wirklich wirst wo wohl wollen
|
||||
wollt wollte wollten worden wurde würde wurden würden
|
||||
|
||||
zehn zehnte zehnten zehnter zehntes zeit zu zuerst zugleich zum zunächst zur
|
||||
zurück zusammen zwanzig zwar zwei zweite zweiten zweiter zweites zwischen
|
||||
""".split()
|
||||
)
|
|
@ -1,11 +1,9 @@
|
|||
from .lex_attrs import LEX_ATTRS
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class LowerSorbianDefaults(BaseDefaults):
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class LowerSorbian(Language):
|
||||
|
|
|
@ -1,15 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
a abo aby ako ale až
|
||||
|
||||
daniž dokulaž
|
||||
|
||||
gaž
|
||||
|
||||
jolic
|
||||
|
||||
pak pótom
|
||||
|
||||
teke togodla
|
||||
""".split()
|
||||
)
|
|
@ -2,7 +2,6 @@ from typing import Optional, Callable
|
|||
from thinc.api import Model
|
||||
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .syntax_iterators import SYNTAX_ITERATORS
|
||||
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_SUFFIXES, TOKENIZER_INFIXES
|
||||
|
@ -16,7 +15,6 @@ class GreekDefaults(BaseDefaults):
|
|||
suffixes = TOKENIZER_SUFFIXES
|
||||
infixes = TOKENIZER_INFIXES
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
|
||||
|
||||
|
|
|
@ -1,87 +0,0 @@
|
|||
# Stop words
|
||||
# Link to greek stop words: https://www.translatum.gr/forum/index.php?topic=3550.0?topic=3550.0
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
αδιάκοπα αι ακόμα ακόμη ακριβώς άλλα αλλά αλλαχού άλλες άλλη άλλην
|
||||
άλλης αλλιώς αλλιώτικα άλλο άλλοι αλλοιώς αλλοιώτικα άλλον άλλος άλλοτε αλλού
|
||||
άλλους άλλων άμα άμεσα αμέσως αν ανά ανάμεσα αναμεταξύ άνευ αντί αντίπερα αντίς
|
||||
άνω ανωτέρω άξαφνα απ απέναντι από απόψε άρα άραγε αρκετά αρκετές
|
||||
αρχικά ας αύριο αυτά αυτές αυτή αυτήν αυτής αυτό αυτοί αυτόν αυτός αυτού αυτούς
|
||||
αυτών αφότου αφού
|
||||
|
||||
βέβαια βεβαιότατα
|
||||
|
||||
γι για γιατί γρήγορα γύρω
|
||||
|
||||
δα δε δείνα δεν δεξιά δήθεν δηλαδή δι δια διαρκώς δικά δικό δικοί δικός δικού
|
||||
δικούς διόλου δίπλα δίχως
|
||||
|
||||
εάν εαυτό εαυτόν εαυτού εαυτούς εαυτών έγκαιρα εγκαίρως εγώ εδώ ειδεμή είθε είμαι
|
||||
είμαστε είναι εις είσαι είσαστε είστε είτε είχα είχαμε είχαν είχατε είχε είχες έκαστα
|
||||
έκαστες έκαστη έκαστην έκαστης έκαστο έκαστοι έκαστον έκαστος εκάστου εκάστους εκάστων
|
||||
εκεί εκείνα εκείνες εκείνη εκείνην εκείνης εκείνο εκείνοι εκείνον εκείνος εκείνου
|
||||
εκείνους εκείνων εκτός εμάς εμείς εμένα εμπρός εν ένα έναν ένας ενός εντελώς εντός
|
||||
εναντίον εξής εξαιτίας επιπλέον επόμενη εντωμεταξύ ενώ εξ έξαφνα εξήσ εξίσου έξω επάνω
|
||||
επειδή έπειτα επί επίσης επομένως εσάς εσείς εσένα έστω εσύ ετέρα ετέραι ετέρας έτερες
|
||||
έτερη έτερης έτερο έτεροι έτερον έτερος ετέρου έτερους ετέρων ετούτα ετούτες ετούτη ετούτην
|
||||
ετούτης ετούτο ετούτοι ετούτον ετούτος ετούτου ετούτους ετούτων έτσι εύγε ευθύς ευτυχώς εφεξής
|
||||
έχει έχεις έχετε έχομε έχουμε έχουν εχτές έχω έως έγιναν έγινε έκανε έξι έχοντας
|
||||
|
||||
η ήδη ήμασταν ήμαστε ήμουν ήσασταν ήσαστε ήσουν ήταν ήτανε ήτοι ήττον
|
||||
|
||||
θα
|
||||
|
||||
ι ιδία ίδια ίδιαν ιδίας ίδιες ίδιο ίδιοι ίδιον ίδιοσ ίδιος ιδίου ίδιους ίδιων ιδίως ιι ιιι
|
||||
ίσαμε ίσια ίσως
|
||||
|
||||
κάθε καθεμία καθεμίας καθένα καθένας καθενός καθετί καθόλου καθώς και κακά κακώς καλά
|
||||
καλώς καμία καμίαν καμίας κάμποσα κάμποσες κάμποση κάμποσην κάμποσης κάμποσο κάμποσοι
|
||||
κάμποσον κάμποσος κάμποσου κάμποσους κάμποσων κανείς κάνεν κανένα κανέναν κανένας
|
||||
κανενός κάποια κάποιαν κάποιας κάποιες κάποιο κάποιοι κάποιον κάποιος κάποιου κάποιους
|
||||
κάποιων κάποτε κάπου κάπως κατ κατά κάτι κατιτί κατόπιν κάτω κιόλας κλπ κοντά κτλ κυρίως
|
||||
|
||||
λιγάκι λίγο λιγότερο λόγω λοιπά λοιπόν
|
||||
|
||||
μα μαζί μακάρι μακρυά μάλιστα μάλλον μας με μεθαύριο μείον μέλει μέλλεται μεμιάς μεν
|
||||
μερικά μερικές μερικοί μερικούς μερικών μέσα μετ μετά μεταξύ μέχρι μη μήδε μην μήπως
|
||||
μήτε μια μιαν μιας μόλις μολονότι μονάχα μόνες μόνη μόνην μόνης μόνο μόνοι μονομιάς
|
||||
μόνος μόνου μόνους μόνων μου μπορεί μπορούν μπρος μέσω μία μεσώ
|
||||
|
||||
να ναι νωρίς
|
||||
|
||||
ξανά ξαφνικά
|
||||
|
||||
ο οι όλα όλες όλη όλην όλης όλο ολόγυρα όλοι όλον ολονέν όλος ολότελα όλου όλους όλων
|
||||
όλως ολωσδιόλου όμως όποια οποιαδήποτε οποίαν οποιανδήποτε οποίας οποίος οποιασδήποτε οποιδήποτε
|
||||
όποιες οποιεσδήποτε όποιο οποιοδηήποτε όποιοι όποιον οποιονδήποτε όποιος οποιοσδήποτε
|
||||
οποίου οποιουδήποτε οποίους οποιουσδήποτε οποίων οποιωνδήποτε όποτε οποτεδήποτε όπου
|
||||
οπουδήποτε όπως ορισμένα ορισμένες ορισμένων ορισμένως όσα οσαδήποτε όσες οσεσδήποτε
|
||||
όση οσηδήποτε όσην οσηνδήποτε όσης οσησδήποτε όσο οσοδήποτε όσοι οσοιδήποτε όσον οσονδήποτε
|
||||
όσος οσοσδήποτε όσου οσουδήποτε όσους οσουσδήποτε όσων οσωνδήποτε όταν ότι οτιδήποτε
|
||||
ότου ου ουδέ ούτε όχι οποία οποίες οποίο οποίοι οπότε ος
|
||||
|
||||
πάνω παρά περί πολλά πολλές πολλοί πολλούς που πρώτα πρώτες πρώτη πρώτο πρώτος πως
|
||||
πάλι πάντα πάντοτε παντού πάντως πάρα πέρα πέρι περίπου περισσότερο πέρσι πέρυσι πια πιθανόν
|
||||
πιο πίσω πλάι πλέον πλην ποιά ποιάν ποιάς ποιές ποιό ποιοί ποιόν ποιός ποιού ποιούς
|
||||
ποιών πολύ πόσες πόση πόσην πόσης πόσοι πόσος πόσους πότε ποτέ πού πούθε πουθενά πρέπει
|
||||
πριν προ προκειμένου πρόκειται πρόπερσι προς προτού προχθές προχτές πρωτύτερα πώς
|
||||
|
||||
σαν σας σε σεις σου στα στη στην στης στις στο στον στου στους στων συγχρόνως
|
||||
συν συνάμα συνεπώς συχνάς συχνές συχνή συχνήν συχνής συχνό συχνοί συχνόν
|
||||
συχνός συχνού συχνούς συχνών συχνώς σχεδόν
|
||||
|
||||
τα τάδε ταύτα ταύτες ταύτη ταύτην ταύτης ταύτοταύτον ταύτος ταύτου ταύτων τάχα τάχατε
|
||||
τελευταία τελευταίο τελευταίος τού τρία τρίτη τρεις τελικά τελικώς τες τέτοια τέτοιαν
|
||||
τέτοιας τέτοιες τέτοιο τέτοιοι τέτοιον τέτοιος τέτοιου
|
||||
τέτοιους τέτοιων τη την της τι τίποτα τίποτε τις το τοι τον τοσ τόσα τόσες τόση τόσην
|
||||
τόσης τόσο τόσοι τόσον τόσος τόσου τόσους τόσων τότε του τουλάχιστο τουλάχιστον τους τούς τούτα
|
||||
τούτες τούτη τούτην τούτης τούτο τούτοι τούτοις τούτον τούτος τούτου τούτους τούτων τυχόν
|
||||
των τώρα
|
||||
|
||||
υπ υπέρ υπό υπόψη υπόψιν ύστερα
|
||||
|
||||
χωρίς χωριστά
|
||||
|
||||
ω ως ωσάν ωσότου ώσπου ώστε ωστόσο ωχ
|
||||
""".split()
|
||||
)
|
|
@ -2,7 +2,6 @@ from typing import Optional, Callable
|
|||
from thinc.api import Model
|
||||
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .syntax_iterators import SYNTAX_ITERATORS
|
||||
from .punctuation import TOKENIZER_INFIXES
|
||||
|
@ -15,7 +14,6 @@ class EnglishDefaults(BaseDefaults):
|
|||
infixes = TOKENIZER_INFIXES
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class English(Language):
|
||||
|
|
|
@ -1,73 +0,0 @@
|
|||
# Stop words
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
a about above across after afterwards again against all almost alone along
|
||||
already also although always am among amongst amount an and another any anyhow
|
||||
anyone anything anyway anywhere are around as at
|
||||
|
||||
back be became because become becomes becoming been before beforehand behind
|
||||
being below beside besides between beyond both bottom but by
|
||||
|
||||
call can cannot ca could
|
||||
|
||||
did do does doing done down due during
|
||||
|
||||
each eight either eleven else elsewhere empty enough even ever every
|
||||
everyone everything everywhere except
|
||||
|
||||
few fifteen fifty first five for former formerly forty four from front full
|
||||
further
|
||||
|
||||
get give go
|
||||
|
||||
had has have he hence her here hereafter hereby herein hereupon hers herself
|
||||
him himself his how however hundred
|
||||
|
||||
i if in indeed into is it its itself
|
||||
|
||||
keep
|
||||
|
||||
last latter latterly least less
|
||||
|
||||
just
|
||||
|
||||
made make many may me meanwhile might mine more moreover most mostly move much
|
||||
must my myself
|
||||
|
||||
name namely neither never nevertheless next nine no nobody none noone nor not
|
||||
nothing now nowhere
|
||||
|
||||
of off often on once one only onto or other others otherwise our ours ourselves
|
||||
out over own
|
||||
|
||||
part per perhaps please put
|
||||
|
||||
quite
|
||||
|
||||
rather re really regarding
|
||||
|
||||
same say see seem seemed seeming seems serious several she should show side
|
||||
since six sixty so some somehow someone something sometime sometimes somewhere
|
||||
still such
|
||||
|
||||
take ten than that the their them themselves then thence there thereafter
|
||||
thereby therefore therein thereupon these they third this those though three
|
||||
through throughout thru thus to together too top toward towards twelve twenty
|
||||
two
|
||||
|
||||
under until up unless upon us used using
|
||||
|
||||
various very very via was we well were what whatever when whence whenever where
|
||||
whereafter whereas whereby wherein whereupon wherever whether which while
|
||||
whither who whoever whole whom whose why will with within without would
|
||||
|
||||
yet you your yours yourself yourselves
|
||||
""".split()
|
||||
)
|
||||
|
||||
contractions = ["n't", "'d", "'ll", "'m", "'re", "'s", "'ve"]
|
||||
STOP_WORDS.update(contractions)
|
||||
|
||||
for apostrophe in ["‘", "’"]:
|
||||
for stopword in contractions:
|
||||
STOP_WORDS.add(stopword.replace("'", apostrophe))
|
|
@ -1,7 +1,6 @@
|
|||
from typing import Optional, Callable
|
||||
from thinc.api import Model
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .lemmatizer import SpanishLemmatizer
|
||||
from .syntax_iterators import SYNTAX_ITERATORS
|
||||
|
@ -15,7 +14,6 @@ class SpanishDefaults(BaseDefaults):
|
|||
suffixes = TOKENIZER_SUFFIXES
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Spanish(Language):
|
||||
|
|
|
@ -1,80 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
a acuerdo adelante ademas además afirmó agregó ahi ahora ahí al algo alguna
|
||||
algunas alguno algunos algún alli allí alrededor ambos ante anterior antes
|
||||
apenas aproximadamente aquel aquella aquellas aquello aquellos aqui aquél
|
||||
aquélla aquéllas aquéllos aquí arriba aseguró asi así atras aun aunque añadió
|
||||
aún
|
||||
|
||||
bajo bastante bien breve buen buena buenas bueno buenos
|
||||
|
||||
cada casi cierta ciertas cierto ciertos cinco claro comentó como con conmigo
|
||||
conocer conseguimos conseguir considera consideró consigo consigue consiguen
|
||||
consigues contigo contra creo cual cuales cualquier cuando cuanta cuantas
|
||||
cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas cuánto cuántos
|
||||
cómo
|
||||
|
||||
da dado dan dar de debajo debe deben debido decir dejó del delante demasiado
|
||||
demás dentro deprisa desde despacio despues después detras detrás dia dias dice
|
||||
dicen dicho dieron diez diferente diferentes dijeron dijo dio doce donde dos
|
||||
durante día días dónde
|
||||
|
||||
e el ella ellas ello ellos embargo en encima encuentra enfrente enseguida
|
||||
entonces entre era eramos eran eras eres es esa esas ese eso esos esta estaba
|
||||
estaban estado estados estais estamos estan estar estará estas este esto estos
|
||||
estoy estuvo está están excepto existe existen explicó expresó él ésa ésas ése
|
||||
ésos ésta éstas éste éstos
|
||||
|
||||
fin final fue fuera fueron fui fuimos
|
||||
|
||||
gran grande grandes
|
||||
|
||||
ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer
|
||||
hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron
|
||||
hizo hoy hubo
|
||||
|
||||
igual incluso indicó informo informó ir
|
||||
|
||||
junto
|
||||
|
||||
la lado largo las le les llegó lleva llevar lo los luego
|
||||
|
||||
mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi
|
||||
mia mias mientras mio mios mis misma mismas mismo mismos modo mucha muchas
|
||||
mucho muchos muy más mí mía mías mío míos
|
||||
|
||||
nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros
|
||||
nuestra nuestras nuestro nuestros nueva nuevas nueve nuevo nuevos nunca
|
||||
|
||||
o ocho once os otra otras otro otros
|
||||
|
||||
para parece parte partir pasada pasado paìs peor pero pesar poca pocas poco
|
||||
pocos podeis podemos poder podria podriais podriamos podrian podrias podrá
|
||||
podrán podría podrían poner por porque posible primer primera primero primeros
|
||||
pronto propia propias propio propios proximo próximo próximos pudo pueda puede
|
||||
pueden puedo pues
|
||||
|
||||
qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién
|
||||
quiénes qué
|
||||
|
||||
realizado realizar realizó repente respecto
|
||||
|
||||
sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo
|
||||
según seis ser sera será serán sería señaló si sido siempre siendo siete sigue
|
||||
siguiente sin sino sobre sois sola solamente solas solo solos somos son soy su
|
||||
supuesto sus suya suyas suyo suyos sé sí sólo
|
||||
|
||||
tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis
|
||||
tenemos tener tenga tengo tenido tenía tercera tercero ti tiene tienen toda
|
||||
todas todavia todavía todo todos total tras trata través tres tu tus tuvo tuya
|
||||
tuyas tuyo tuyos tú
|
||||
|
||||
u ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes
|
||||
última últimas último últimos
|
||||
|
||||
va vais vamos van varias varios vaya veces ver verdad verdadera verdadero vez
|
||||
vosotras vosotros voy vuestra vuestras vuestro vuestros
|
||||
|
||||
y ya yo
|
||||
""".split()
|
||||
)
|
|
@ -1,9 +1,8 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class EstonianDefaults(BaseDefaults):
|
||||
stop_words = STOP_WORDS
|
||||
pass
|
||||
|
||||
|
||||
class Estonian(Language):
|
||||
|
|
|
@ -1,41 +0,0 @@
|
|||
# Source: https://github.com/stopwords-iso/stopwords-et
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
aga
|
||||
ei
|
||||
et
|
||||
ja
|
||||
jah
|
||||
kas
|
||||
kui
|
||||
kõik
|
||||
ma
|
||||
me
|
||||
mida
|
||||
midagi
|
||||
mind
|
||||
minu
|
||||
mis
|
||||
mu
|
||||
mul
|
||||
mulle
|
||||
nad
|
||||
nii
|
||||
oled
|
||||
olen
|
||||
oli
|
||||
oma
|
||||
on
|
||||
pole
|
||||
sa
|
||||
seda
|
||||
see
|
||||
selle
|
||||
siin
|
||||
siis
|
||||
ta
|
||||
te
|
||||
ära
|
||||
""".split()
|
||||
)
|
|
@ -1,4 +1,3 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .punctuation import TOKENIZER_SUFFIXES
|
||||
from ...language import Language, BaseDefaults
|
||||
|
@ -6,7 +5,6 @@ from ...language import Language, BaseDefaults
|
|||
|
||||
class BasqueDefaults(BaseDefaults):
|
||||
suffixes = TOKENIZER_SUFFIXES
|
||||
stop_words = STOP_WORDS
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
|
||||
|
||||
|
|
|
@ -1,105 +0,0 @@
|
|||
# Source: https://github.com/stopwords-iso/stopwords-eu
|
||||
# https://www.ranks.nl/stopwords/basque
|
||||
# https://www.mustgo.com/worldlanguages/basque/
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
al
|
||||
anitz
|
||||
arabera
|
||||
asko
|
||||
baina
|
||||
bat
|
||||
batean
|
||||
batek
|
||||
bati
|
||||
batzuei
|
||||
batzuek
|
||||
batzuetan
|
||||
batzuk
|
||||
bera
|
||||
beraiek
|
||||
berau
|
||||
berauek
|
||||
bere
|
||||
berori
|
||||
beroriek
|
||||
beste
|
||||
bezala
|
||||
da
|
||||
dago
|
||||
dira
|
||||
ditu
|
||||
du
|
||||
dute
|
||||
edo
|
||||
egin
|
||||
ere
|
||||
eta
|
||||
eurak
|
||||
ez
|
||||
gainera
|
||||
gu
|
||||
gutxi
|
||||
guzti
|
||||
haiei
|
||||
haiek
|
||||
haietan
|
||||
hainbeste
|
||||
hala
|
||||
han
|
||||
handik
|
||||
hango
|
||||
hara
|
||||
hari
|
||||
hark
|
||||
hartan
|
||||
hau
|
||||
hauei
|
||||
hauek
|
||||
hauetan
|
||||
hemen
|
||||
hemendik
|
||||
hemengo
|
||||
hi
|
||||
hona
|
||||
honek
|
||||
honela
|
||||
honetan
|
||||
honi
|
||||
hor
|
||||
hori
|
||||
horiei
|
||||
horiek
|
||||
horietan
|
||||
horko
|
||||
horra
|
||||
horrek
|
||||
horrela
|
||||
horretan
|
||||
horri
|
||||
hortik
|
||||
hura
|
||||
izan
|
||||
ni
|
||||
noiz
|
||||
nola
|
||||
non
|
||||
nondik
|
||||
nongo
|
||||
nor
|
||||
nora
|
||||
ze
|
||||
zein
|
||||
zen
|
||||
zenbait
|
||||
zenbat
|
||||
zer
|
||||
zergatik
|
||||
ziren
|
||||
zituen
|
||||
zu
|
||||
zuek
|
||||
zuen
|
||||
zuten
|
||||
""".split()
|
||||
)
|
|
@ -1,6 +1,5 @@
|
|||
from typing import Optional, Callable
|
||||
from thinc.api import Model
|
||||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .punctuation import TOKENIZER_SUFFIXES
|
||||
|
@ -14,7 +13,6 @@ class PersianDefaults(BaseDefaults):
|
|||
suffixes = TOKENIZER_SUFFIXES
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
stop_words = STOP_WORDS
|
||||
writing_system = {"direction": "rtl", "has_case": False, "has_letters": True}
|
||||
|
||||
|
||||
|
|
|
@ -1,393 +0,0 @@
|
|||
# Stop words from HAZM package
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
و
|
||||
در
|
||||
به
|
||||
از
|
||||
که
|
||||
این
|
||||
را
|
||||
با
|
||||
است
|
||||
برای
|
||||
آن
|
||||
یک
|
||||
خود
|
||||
تا
|
||||
کرد
|
||||
بر
|
||||
هم
|
||||
نیز
|
||||
گفت
|
||||
میشود
|
||||
وی
|
||||
شد
|
||||
دارد
|
||||
ما
|
||||
اما
|
||||
یا
|
||||
شده
|
||||
باید
|
||||
هر
|
||||
آنها
|
||||
بود
|
||||
او
|
||||
دیگر
|
||||
دو
|
||||
مورد
|
||||
میکند
|
||||
شود
|
||||
کند
|
||||
وجود
|
||||
بین
|
||||
پیش
|
||||
شدهاست
|
||||
پس
|
||||
نظر
|
||||
اگر
|
||||
همه
|
||||
یکی
|
||||
حال
|
||||
هستند
|
||||
من
|
||||
کنند
|
||||
نیست
|
||||
باشد
|
||||
چه
|
||||
بی
|
||||
می
|
||||
بخش
|
||||
میکنند
|
||||
همین
|
||||
افزود
|
||||
هایی
|
||||
دارند
|
||||
راه
|
||||
همچنین
|
||||
روی
|
||||
داد
|
||||
بیشتر
|
||||
بسیار
|
||||
سه
|
||||
داشت
|
||||
چند
|
||||
سوی
|
||||
تنها
|
||||
هیچ
|
||||
میان
|
||||
اینکه
|
||||
شدن
|
||||
بعد
|
||||
جدید
|
||||
ولی
|
||||
حتی
|
||||
کردن
|
||||
برخی
|
||||
کردند
|
||||
میدهد
|
||||
اول
|
||||
نه
|
||||
کردهاست
|
||||
نسبت
|
||||
بیش
|
||||
شما
|
||||
چنین
|
||||
طور
|
||||
افراد
|
||||
تمام
|
||||
درباره
|
||||
بار
|
||||
بسیاری
|
||||
میتواند
|
||||
کرده
|
||||
چون
|
||||
ندارد
|
||||
دوم
|
||||
بزرگ
|
||||
طی
|
||||
حدود
|
||||
همان
|
||||
بدون
|
||||
البته
|
||||
آنان
|
||||
میگوید
|
||||
دیگری
|
||||
خواهدشد
|
||||
کنیم
|
||||
قابل
|
||||
یعنی
|
||||
رشد
|
||||
میتوان
|
||||
وارد
|
||||
کل
|
||||
ویژه
|
||||
قبل
|
||||
براساس
|
||||
نیاز
|
||||
گذاری
|
||||
هنوز
|
||||
لازم
|
||||
سازی
|
||||
بودهاست
|
||||
چرا
|
||||
میشوند
|
||||
وقتی
|
||||
گرفت
|
||||
کم
|
||||
جای
|
||||
حالی
|
||||
تغییر
|
||||
پیدا
|
||||
اکنون
|
||||
تحت
|
||||
باعث
|
||||
مدت
|
||||
فقط
|
||||
زیادی
|
||||
تعداد
|
||||
آیا
|
||||
بیان
|
||||
رو
|
||||
شدند
|
||||
عدم
|
||||
کردهاند
|
||||
بودن
|
||||
نوع
|
||||
بلکه
|
||||
جاری
|
||||
دهد
|
||||
برابر
|
||||
مهم
|
||||
بوده
|
||||
اخیر
|
||||
مربوط
|
||||
امر
|
||||
زیر
|
||||
گیری
|
||||
شاید
|
||||
خصوص
|
||||
آقای
|
||||
اثر
|
||||
کننده
|
||||
بودند
|
||||
فکر
|
||||
کنار
|
||||
اولین
|
||||
سوم
|
||||
سایر
|
||||
کنید
|
||||
ضمن
|
||||
مانند
|
||||
باز
|
||||
میگیرد
|
||||
ممکن
|
||||
حل
|
||||
دارای
|
||||
پی
|
||||
مثل
|
||||
میرسد
|
||||
اجرا
|
||||
دور
|
||||
منظور
|
||||
کسی
|
||||
موجب
|
||||
طول
|
||||
امکان
|
||||
آنچه
|
||||
تعیین
|
||||
گفته
|
||||
شوند
|
||||
جمع
|
||||
خیلی
|
||||
علاوه
|
||||
گونه
|
||||
تاکنون
|
||||
رسید
|
||||
ساله
|
||||
گرفته
|
||||
شدهاند
|
||||
علت
|
||||
چهار
|
||||
داشتهباشد
|
||||
خواهدبود
|
||||
طرف
|
||||
تهیه
|
||||
تبدیل
|
||||
مناسب
|
||||
زیرا
|
||||
مشخص
|
||||
میتوانند
|
||||
نزدیک
|
||||
جریان
|
||||
روند
|
||||
بنابراین
|
||||
میدهند
|
||||
یافت
|
||||
نخستین
|
||||
بالا
|
||||
پنج
|
||||
ریزی
|
||||
عالی
|
||||
چیزی
|
||||
نخست
|
||||
بیشتری
|
||||
ترتیب
|
||||
شدهبود
|
||||
خاص
|
||||
خوبی
|
||||
خوب
|
||||
شروع
|
||||
فرد
|
||||
کامل
|
||||
غیر
|
||||
میرود
|
||||
دهند
|
||||
آخرین
|
||||
دادن
|
||||
جدی
|
||||
بهترین
|
||||
شامل
|
||||
گیرد
|
||||
بخشی
|
||||
باشند
|
||||
تمامی
|
||||
بهتر
|
||||
دادهاست
|
||||
حد
|
||||
نبود
|
||||
کسانی
|
||||
میکرد
|
||||
داریم
|
||||
علیه
|
||||
میباشد
|
||||
دانست
|
||||
ناشی
|
||||
داشتند
|
||||
دهه
|
||||
میشد
|
||||
ایشان
|
||||
آنجا
|
||||
گرفتهاست
|
||||
دچار
|
||||
میآید
|
||||
لحاظ
|
||||
آنکه
|
||||
داده
|
||||
بعضی
|
||||
هستیم
|
||||
اند
|
||||
برداری
|
||||
نباید
|
||||
میکنیم
|
||||
نشست
|
||||
سهم
|
||||
همیشه
|
||||
آمد
|
||||
اش
|
||||
وگو
|
||||
میکنم
|
||||
حداقل
|
||||
طبق
|
||||
جا
|
||||
خواهدکرد
|
||||
نوعی
|
||||
چگونه
|
||||
رفت
|
||||
هنگام
|
||||
فوق
|
||||
روش
|
||||
ندارند
|
||||
سعی
|
||||
بندی
|
||||
شمار
|
||||
کلی
|
||||
کافی
|
||||
مواجه
|
||||
همچنان
|
||||
زیاد
|
||||
سمت
|
||||
کوچک
|
||||
داشتهاست
|
||||
چیز
|
||||
پشت
|
||||
آورد
|
||||
حالا
|
||||
روبه
|
||||
سالهای
|
||||
دادند
|
||||
میکردند
|
||||
عهده
|
||||
نیمه
|
||||
جایی
|
||||
دیگران
|
||||
سی
|
||||
بروز
|
||||
یکدیگر
|
||||
آمدهاست
|
||||
جز
|
||||
کنم
|
||||
سپس
|
||||
کنندگان
|
||||
خودش
|
||||
همواره
|
||||
یافته
|
||||
شان
|
||||
صرف
|
||||
نمیشود
|
||||
رسیدن
|
||||
چهارم
|
||||
یابد
|
||||
متر
|
||||
ساز
|
||||
داشته
|
||||
کردهبود
|
||||
باره
|
||||
نحوه
|
||||
کردم
|
||||
تو
|
||||
شخصی
|
||||
داشتهباشند
|
||||
محسوب
|
||||
پخش
|
||||
کمی
|
||||
متفاوت
|
||||
سراسر
|
||||
کاملا
|
||||
داشتن
|
||||
نظیر
|
||||
آمده
|
||||
گروهی
|
||||
فردی
|
||||
ع
|
||||
همچون
|
||||
خطر
|
||||
خویش
|
||||
کدام
|
||||
دسته
|
||||
سبب
|
||||
عین
|
||||
آوری
|
||||
متاسفانه
|
||||
بیرون
|
||||
دار
|
||||
ابتدا
|
||||
شش
|
||||
افرادی
|
||||
میگویند
|
||||
سالهای
|
||||
درون
|
||||
نیستند
|
||||
یافتهاست
|
||||
پر
|
||||
خاطرنشان
|
||||
گاه
|
||||
جمعی
|
||||
اغلب
|
||||
دوباره
|
||||
مییابد
|
||||
لذا
|
||||
زاده
|
||||
گردد
|
||||
اینجا""".split()
|
||||
)
|
|
@ -1,5 +1,4 @@
|
|||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES
|
||||
from .syntax_iterators import SYNTAX_ITERATORS
|
||||
|
@ -11,7 +10,6 @@ class FinnishDefaults(BaseDefaults):
|
|||
suffixes = TOKENIZER_SUFFIXES
|
||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
|
||||
|
||||
|
|
|
@ -1,110 +0,0 @@
|
|||
# Source https://github.com/stopwords-iso/stopwords-fi/blob/master/stopwords-fi.txt
|
||||
# Reformatted with some minor corrections
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
aiemmin aika aikaa aikaan aikaisemmin aikaisin aikana aikoina aikoo aikovat
|
||||
aina ainakaan ainakin ainoa ainoat aiomme aion aiotte aivan ajan alas alemmas
|
||||
alkuisin alkuun alla alle aloitamme aloitan aloitat aloitatte aloitattivat
|
||||
aloitettava aloitettavaksi aloitettu aloitimme aloitin aloitit aloititte
|
||||
aloittaa aloittamatta aloitti aloittivat alta aluksi alussa alusta annettavaksi
|
||||
annettava annettu ansiosta antaa antamatta antoi apu asia asiaa asian asiasta
|
||||
asiat asioiden asioihin asioita asti avuksi avulla avun avutta
|
||||
|
||||
edelle edelleen edellä edeltä edemmäs edes edessä edestä ehkä ei eikä eilen
|
||||
eivät eli ellei elleivät ellemme ellen ellet ellette emme en enemmän eniten
|
||||
ennen ensi ensimmäinen ensimmäiseksi ensimmäisen ensimmäisenä ensimmäiset
|
||||
ensimmäisiksi ensimmäisinä ensimmäisiä ensimmäistä ensin entinen entisen
|
||||
entisiä entisten entistä enää eri erittäin erityisesti eräiden eräs eräät esi
|
||||
esiin esillä esimerkiksi et eteen etenkin ette ettei että
|
||||
|
||||
halua haluaa haluamatta haluamme haluan haluat haluatte haluavat halunnut
|
||||
halusi halusimme halusin halusit halusitte halusivat halutessa haluton he hei
|
||||
heidän heidät heihin heille heillä heiltä heissä heistä heitä helposti heti
|
||||
hetkellä hieman hitaasti huolimatta huomenna hyvien hyviin hyviksi hyville
|
||||
hyviltä hyvin hyvinä hyvissä hyvistä hyviä hyvä hyvät hyvää hän häneen hänelle
|
||||
hänellä häneltä hänen hänessä hänestä hänet häntä
|
||||
|
||||
ihan ilman ilmeisesti itse itsensä itseään
|
||||
|
||||
ja jo johon joiden joihin joiksi joilla joille joilta joina joissa joista joita
|
||||
joka jokainen jokin joko joksi joku jolla jolle jolloin jolta jompikumpi jona
|
||||
jonka jonkin jonne joo jopa jos joskus jossa josta jota jotain joten jotenkin
|
||||
jotenkuten jotka jotta jouduimme jouduin jouduit jouduitte joudumme joudun
|
||||
joudutte joukkoon joukossa joukosta joutua joutui joutuivat joutumaan joutuu
|
||||
joutuvat juuri jälkeen jälleen jää
|
||||
|
||||
kahdeksan kahdeksannen kahdella kahdelle kahdelta kahden kahdessa kahdesta
|
||||
kahta kahteen kai kaiken kaikille kaikilta kaikkea kaikki kaikkia kaikkiaan
|
||||
kaikkialla kaikkialle kaikkialta kaikkien kaikkiin kaksi kannalta kannattaa
|
||||
kanssa kanssaan kanssamme kanssani kanssanne kanssasi kauan kauemmas kaukana
|
||||
kautta kehen keiden keihin keiksi keille keillä keiltä keinä keissä keistä
|
||||
keitten keittä keitä keneen keneksi kenelle kenellä keneltä kenen kenenä
|
||||
kenessä kenestä kenet kenettä kenties kerran kerta kertaa keskellä kesken
|
||||
keskimäärin ketkä ketä kiitos kohti koko kokonaan kolmas kolme kolmen kolmesti
|
||||
koska koskaan kovin kuin kuinka kuinkaan kuitenkaan kuitenkin kuka kukaan kukin
|
||||
kumpainen kumpainenkaan kumpi kumpikaan kumpikin kun kuten kuuden kuusi kuutta
|
||||
kylliksi kyllä kymmenen kyse
|
||||
|
||||
liian liki lisäksi lisää lla luo luona lähekkäin lähelle lähellä läheltä
|
||||
lähemmäs lähes lähinnä lähtien läpi
|
||||
|
||||
mahdollisimman mahdollista me meidän meidät meihin meille meillä meiltä meissä
|
||||
meistä meitä melkein melko menee menemme menen menet menette menevät meni
|
||||
menimme menin menit menivät mennessä mennyt menossa mihin miksi mikä mikäli
|
||||
mikään mille milloin milloinkan millä miltä minkä minne minua minulla minulle
|
||||
minulta minun minussa minusta minut minuun minä missä mistä miten mitkä mitä
|
||||
mitään moi molemmat mones monesti monet moni moniaalla moniaalle moniaalta
|
||||
monta muassa muiden muita muka mukaan mukaansa mukana mutta muu muualla muualle
|
||||
muualta muuanne muulloin muun muut muuta muutama muutaman muuten myöhemmin myös
|
||||
myöskin myöskään myötä
|
||||
|
||||
ne neljä neljän neljää niiden niihin niiksi niille niillä niiltä niin niinä
|
||||
niissä niistä niitä noiden noihin noiksi noilla noille noilta noin noina noissa
|
||||
noista noita nopeammin nopeasti nopeiten nro nuo nyt näiden näihin näiksi
|
||||
näille näillä näiltä näin näinä näissä näistä näitä nämä
|
||||
|
||||
ohi oikea oikealla oikein ole olemme olen olet olette oleva olevan olevat oli
|
||||
olimme olin olisi olisimme olisin olisit olisitte olisivat olit olitte olivat
|
||||
olla olleet ollut oma omaa omaan omaksi omalle omalta oman omassa omat omia
|
||||
omien omiin omiksi omille omilta omissa omista on onkin onko ovat
|
||||
|
||||
paikoittain paitsi pakosti paljon paremmin parempi parhaillaan parhaiten
|
||||
perusteella peräti pian pieneen pieneksi pienelle pienellä pieneltä pienempi
|
||||
pienestä pieni pienin poikki puolesta puolestaan päälle
|
||||
|
||||
runsaasti
|
||||
|
||||
saakka sama samaa samaan samalla saman samat samoin satojen se
|
||||
seitsemän sekä sen seuraavat siellä sieltä siihen siinä siis siitä sijaan siksi
|
||||
sille silloin sillä silti siltä sinne sinua sinulla sinulle sinulta sinun
|
||||
sinussa sinusta sinut sinuun sinä sisäkkäin sisällä siten sitten sitä ssa sta
|
||||
suoraan suuntaan suuren suuret suuri suuria suurin suurten
|
||||
|
||||
taa taas taemmas tahansa tai takaa takaisin takana takia tallä tapauksessa
|
||||
tarpeeksi tavalla tavoitteena te teidän teidät teihin teille teillä teiltä
|
||||
teissä teistä teitä tietysti todella toinen toisaalla toisaalle toisaalta
|
||||
toiseen toiseksi toisella toiselle toiselta toisemme toisen toisensa toisessa
|
||||
toisesta toista toistaiseksi toki tosin tule tulee tulemme tulen
|
||||
tulet tulette tulevat tulimme tulin tulisi tulisimme tulisin tulisit tulisitte
|
||||
tulisivat tulit tulitte tulivat tulla tulleet tullut tuntuu tuo tuohon tuoksi
|
||||
tuolla tuolle tuolloin tuolta tuon tuona tuonne tuossa tuosta tuota tuskin tykö
|
||||
tähän täksi tälle tällä tällöin tältä tämä tämän tänne tänä tänään tässä tästä
|
||||
täten tätä täysin täytyvät täytyy täällä täältä
|
||||
|
||||
ulkopuolella usea useasti useimmiten usein useita uudeksi uudelleen uuden uudet
|
||||
uusi uusia uusien uusinta uuteen uutta
|
||||
|
||||
vaan vai vaiheessa vaikea vaikean vaikeat vaikeilla vaikeille vaikeilta
|
||||
vaikeissa vaikeista vaikka vain varmasti varsin varsinkin varten vasen
|
||||
vasemmalla vasta vastaan vastakkain vastan verran vielä vierekkäin vieressä
|
||||
vieri viiden viime viimeinen viimeisen viimeksi viisi voi voidaan voimme voin
|
||||
voisi voit voitte voivat vuoden vuoksi vuosi vuosien vuosina vuotta vähemmän
|
||||
vähintään vähiten vähän välillä
|
||||
|
||||
yhdeksän yhden yhdessä yhteen yhteensä yhteydessä yhteyteen yhtä yhtäälle
|
||||
yhtäällä yhtäältä yhtään yhä yksi yksin yksittäin yleensä ylemmäs yli ylös
|
||||
ympäri
|
||||
|
||||
älköön älä
|
||||
""".split()
|
||||
)
|
|
@ -5,7 +5,6 @@ from thinc.api import Model
|
|||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, TOKEN_MATCH
|
||||
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES
|
||||
from .punctuation import TOKENIZER_SUFFIXES
|
||||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .syntax_iterators import SYNTAX_ITERATORS
|
||||
from .lemmatizer import FrenchLemmatizer
|
||||
|
@ -20,7 +19,6 @@ class FrenchDefaults(BaseDefaults):
|
|||
token_match = TOKEN_MATCH
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class French(Language):
|
||||
|
|
|
@ -1,84 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
a à â abord afin ah ai aie ainsi ait allaient allons
|
||||
alors anterieur anterieure anterieures antérieur antérieure antérieures
|
||||
apres après as assez attendu au
|
||||
aupres auquel aura auraient aurait auront
|
||||
aussi autre autrement autres autrui aux auxquelles auxquels avaient
|
||||
avais avait avant avec avoir avons ayant
|
||||
|
||||
bas basee bat
|
||||
|
||||
c' c’ ça car ce ceci cela celle celle-ci celle-la celle-là celles celles-ci celles-la celles-là
|
||||
celui celui-ci celui-la celui-là cent cependant certain certaine certaines certains certes ces
|
||||
cet cette ceux ceux-ci ceux-là chacun chacune chaque chez ci cinq cinquantaine cinquante
|
||||
cinquantième cinquième combien comme comment compris concernant
|
||||
|
||||
d' d’ da dans de debout dedans dehors deja dejà delà depuis derriere
|
||||
derrière des desormais desquelles desquels dessous dessus deux deuxième
|
||||
deuxièmement devant devers devra different differente differentes differents différent
|
||||
différente différentes différents dire directe directement dit dite dits divers
|
||||
diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont
|
||||
douze douzième du duquel durant dès déja déjà désormais
|
||||
|
||||
effet egalement eh elle elle-meme elle-même elles elles-memes elles-mêmes en encore
|
||||
enfin entre envers environ es ès est et etaient étaient etais étais etait était
|
||||
etant étant etc etre être eu eux eux-mêmes exactement excepté également
|
||||
|
||||
fais faisaient faisant fait facon façon feront font
|
||||
|
||||
gens
|
||||
|
||||
ha hem hep hi ho hormis hors hou houp hue hui huit huitième
|
||||
hé i il ils importe
|
||||
|
||||
j' j’ je jusqu jusque juste
|
||||
|
||||
l' l’ la laisser laquelle le lequel les lesquelles lesquels leur leurs longtemps
|
||||
lors lorsque lui lui-meme lui-même là lès
|
||||
|
||||
m' m’ ma maint maintenant mais malgre malgré me meme memes merci mes mien
|
||||
mienne miennes miens mille moi moi-meme moi-même moindres moins
|
||||
mon même mêmes
|
||||
|
||||
n' n’ na ne neanmoins neuvième ni nombreuses nombreux nos notamment
|
||||
notre nous nous-mêmes nouveau nul néanmoins nôtre nôtres
|
||||
|
||||
o ô on ont onze onzième or ou ouias ouste outre
|
||||
ouvert ouverte ouverts où
|
||||
|
||||
par parce parfois parle parlent parler parmi partant
|
||||
pas pendant pense permet personne peu peut peuvent peux plus
|
||||
plusieurs plutot plutôt possible possibles pour pourquoi
|
||||
pourrais pourrait pouvait prealable precisement
|
||||
premier première premièrement
|
||||
pres procedant proche près préalable précisement pu puis puisque
|
||||
|
||||
qu' qu’ quand quant quant-à-soi quarante quatorze quatre quatre-vingt
|
||||
quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque
|
||||
quelques quels qui quiconque quinze quoi quoique
|
||||
|
||||
relative relativement rend rendre restant reste
|
||||
restent retour revoici revoila revoilà
|
||||
|
||||
s' s’ sa sait sans sauf se seize selon semblable semblaient
|
||||
semble semblent sent sept septième sera seraient serait seront ses seul seule
|
||||
seulement seuls seules si sien sienne siennes siens sinon six sixième soi soi-meme soi-même soit
|
||||
soixante son sont sous souvent specifique specifiques spécifique spécifiques stop
|
||||
suffisant suffisante suffit suis suit suivant suivante
|
||||
suivantes suivants suivre sur surtout
|
||||
|
||||
t' t’ ta tant te tel telle tellement telles tels tenant tend tenir tente
|
||||
tes tien tienne tiennes tiens toi toi-meme toi-même ton touchant toujours tous
|
||||
tout toute toutes treize trente tres trois troisième troisièmement très
|
||||
tu té
|
||||
|
||||
un une unes uns
|
||||
|
||||
va vais vas vers via vingt voici voila voilà vont vos
|
||||
votre votres vous vous-mêmes vu vé vôtre vôtres
|
||||
|
||||
y
|
||||
|
||||
""".split()
|
||||
)
|
|
@ -3,14 +3,12 @@ from typing import Optional
|
|||
from thinc.api import Model
|
||||
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language, BaseDefaults
|
||||
from .lemmatizer import IrishLemmatizer
|
||||
|
||||
|
||||
class IrishDefaults(BaseDefaults):
|
||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Irish(Language):
|
||||
|
|
|
@ -1,43 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
a ach ag agus an aon ar arna as
|
||||
|
||||
ba beirt bhúr
|
||||
|
||||
caoga ceathair ceathrar chomh chuig chun cois céad cúig cúigear
|
||||
|
||||
daichead dar de deich deichniúr den dhá do don dtí dá dár dó
|
||||
|
||||
faoi faoin faoina faoinár fara fiche
|
||||
|
||||
gach gan go gur
|
||||
|
||||
haon hocht
|
||||
|
||||
i iad idir in ina ins inár is
|
||||
|
||||
le leis lena lenár
|
||||
|
||||
mar mo muid mé
|
||||
|
||||
na nach naoi naonúr ná ní níor nó nócha
|
||||
|
||||
ocht ochtar ochtó os
|
||||
|
||||
roimh
|
||||
|
||||
sa seacht seachtar seachtó seasca seisear siad sibh sinn sna sé sí
|
||||
|
||||
tar thar thú triúr trí trína trínár tríocha tú
|
||||
|
||||
um
|
||||
|
||||
ár
|
||||
|
||||
é éis
|
||||
|
||||
í
|
||||
|
||||
ó ón óna ónár
|
||||
""".split()
|
||||
)
|
|
@ -1,5 +1,4 @@
|
|||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
@ -7,7 +6,6 @@ from ...language import Language, BaseDefaults
|
|||
class AncientGreekDefaults(BaseDefaults):
|
||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class AncientGreek(Language):
|
||||
|
|
|
@ -1,61 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
αὐτῷ αὐτοῦ αὐτῆς αὐτόν αὐτὸν αὐτῶν αὐτὸς αὐτὸ αὐτό αὐτός αὐτὴν αὐτοῖς αὐτοὺς αὔτ' αὐτὰ αὐτῇ αὐτὴ
|
||||
αὐτὼ αὑταὶ καὐτὸς αὐτά αὑτός αὐτοῖσι αὐτοῖσιν αὑτὸς αὐτήν αὐτοῖσί αὐτοί αὐτοὶ αὐτοῖο αὐτάων αὐτὰς
|
||||
αὐτέων αὐτώ αὐτάς αὐτούς αὐτή αὐταί αὐταὶ αὐτῇσιν τὠυτῷ τὠυτὸ ταὐτὰ ταύτῃ αὐτῇσι αὐτῇς αὐταῖς αὐτᾶς αὐτὰν ταὐτὸν
|
||||
|
||||
γε γ' γέ γὰρ γάρ δαῖτα δαιτὸς δαιτὶ δαὶ δαιτί δαῖτ' δαΐδας δαΐδων δἰ διὰ διά δὲ δ' δέ δὴ δή εἰ εἴ κεἰ κεἴ αἴ αἲ εἲ αἰ
|
||||
|
||||
ἐστί ἐστιν ὢν ἦν ἐστὶν ὦσιν εἶναι ὄντι εἰσιν ἐστι ὄντα οὖσαν ἦσαν ἔστι ὄντας ἐστὲ εἰσὶ εἶ ὤν ἦ οὖσαι ἔσται ἐσμὲν ἐστ' ἐστίν ἔστ' ὦ ἔσει ἦμεν εἰμι εἰσὶν ἦσθ'
|
||||
ἐστὶ ᾖ οὖσ' ἔστιν εἰμὶ εἴμ' ἐσθ' ᾖς στί εἴην εἶναί οὖσα κἄστ' εἴη ἦσθα εἰμ' ἔστω ὄντ' ἔσθ' ἔμμεναι ἔω ἐὼν ἐσσι ἔσσεται ἐστὸν ἔσαν ἔστων ἐόντα ἦεν ἐοῦσαν ἔην
|
||||
ἔσσομαι εἰσί ἐστόν ἔσκεν ἐόντ' ἐών ἔσσεσθ' εἰσ' ἐόντες ἐόντε ἐσσεῖται εἰμεν ἔασιν ἔσκε ἔμεναι ἔσεσθαι ἔῃ εἰμὲν εἰσι ἐόντας ἔστε εἰς ἦτε εἰμί ἔσσεαι ἔμμεν
|
||||
ἐοῦσα ἔμεν ᾖσιν ἐστε ἐόντι εἶεν ἔσσονται ἔησθα ἔσεσθε ἐσσί ἐοῦσ' ἔασι ἔα ἦα ἐόν ἔσσεσθαι ἔσομαι ἔσκον εἴης ἔωσιν εἴησαν ἐὸν ἐουσέων ἔσσῃ ἐούσης ἔσονται
|
||||
ἐούσας ἐόντων ἐόντος ἐσομένην ἔστωσαν ἔωσι ἔας ἐοῦσαι ἣν εἰσίν ἤστην ὄντες ὄντων οὔσας οὔσαις ὄντος οὖσι οὔσης ἔσῃ ὂν ἐσμεν ἐσμέν οὖσιν ἐσομένους ἐσσόμεσθα
|
||||
|
||||
ἒς ἐς ἔς ἐν κεἰς εἲς κἀν ἔν κατὰ κατ' καθ' κατά κάτα κὰπ κὰκ κὰδ κὰρ κάρ κὰγ κὰμ καὶ καί μετὰ μεθ' μετ' μέτα μετά μέθ' μέτ' μὲν μέν μὴ
|
||||
|
||||
μή μη οὐκ οὒ οὐ οὐχ οὐχὶ κοὐ κοὐχ οὔ κοὐκ οὐχί οὐκὶ οὐδὲν οὐδεὶς οὐδέν κοὐδεὶς κοὐδὲν οὐδένα οὐδενὸς οὐδέν' οὐδενός οὐδενὶ
|
||||
οὐδεμία οὐδείς οὐδεμίαν οὐδὲ οὐδ' κοὐδ' οὐδέ οὔτε οὔθ' οὔτέ τε οὔτ' οὕτως οὕτω οὕτῶ χοὔτως οὖν ὦν ὧν τοῦτο τοῦθ' τοῦτον τούτῳ
|
||||
τούτοις ταύτας αὕτη ταῦτα οὗτος ταύτης ταύτην τούτων ταῦτ' τοῦτ' τούτου αὗται τούτους τοῦτό ταῦτά τούτοισι χαὔτη ταῦθ' χοὖτοι
|
||||
τούτοισιν οὗτός οὗτοι τούτω τουτέων τοῦτὸν οὗτοί τοῦτου οὗτοὶ ταύτῃσι ταύταις ταυτὶ παρὰ παρ' πάρα παρά πὰρ παραὶ πάρ' περὶ
|
||||
πέρι περί πρὸς πρός ποτ' ποτὶ προτὶ προτί πότι
|
||||
|
||||
σὸς σήν σὴν σὸν σόν σὰ σῶν σοῖσιν σός σῆς σῷ σαῖς σῇ σοῖς σοῦ σ' σὰν σά σὴ σὰς
|
||||
σᾷ σοὺς σούς σοῖσι σῇς σῇσι σή σῇσιν σοὶ σου ὑμεῖς σὲ σύ σοι ὑμᾶς ὑμῶν ὑμῖν σε
|
||||
σέ σὺ σέθεν σοί ὑμὶν σφῷν ὑμίν τοι τοὶ σφὼ ὔμμ' σφῶϊ σεῖο τ' σφῶϊν ὔμμιν σέο σευ σεῦ
|
||||
ὔμμι ὑμέων τύνη ὑμείων τοί ὔμμες σεο τέ τεοῖο ὑμέας σὺν ξὺν σύν
|
||||
|
||||
θ' τί τι τις τινες τινα τινος τινὸς τινὶ τινῶν τίς τίνες τινὰς τιν' τῳ του τίνα τοῦ τῷ τινί τινά τίνος τινι τινας τινὰ τινων
|
||||
τίν' τευ τέο τινές τεο τινὲς τεῷ τέῳ τινός τεῳ τισὶ
|
||||
|
||||
τοιαῦτα τοιοῦτον τοιοῦθ' τοιοῦτος τοιαύτην τοιαῦτ' τοιούτου τοιαῦθ' τοιαύτῃ τοιούτοις τοιαῦται τοιαῦτά τοιαύτη τοιοῦτοι τοιούτων τοιούτοισι
|
||||
τοιοῦτο τοιούτους τοιούτῳ τοιαύτης τοιαύταις τοιαύτας τοιοῦτός τίνι τοῖσι τίνων τέων τέοισί τὰ τῇ τώ τὼ
|
||||
|
||||
ἀλλὰ ἀλλ' ἀλλά ἀπ' ἀπὸ κἀπ' ἀφ' τἀπὸ κἀφ' ἄπο ἀπό τὠπὸ τἀπ' ἄλλων ἄλλῳ ἄλλη ἄλλης ἄλλους ἄλλοις ἄλλον ἄλλο ἄλλου τἄλλα ἄλλα
|
||||
ἄλλᾳ ἄλλοισιν τἄλλ' ἄλλ' ἄλλος ἄλλοισι κἄλλ' ἄλλοι ἄλλῃσι ἄλλόν ἄλλην ἄλλά ἄλλαι ἄλλοισίν ὧλλοι ἄλλῃ ἄλλας ἀλλέων τἆλλα ἄλλως
|
||||
ἀλλάων ἄλλαις τἆλλ'
|
||||
|
||||
ἂν ἄν κἂν τἂν ἃν κεν κ' κέν κέ κε χ' ἄρα τἄρα ἄρ' τἄρ' ἄρ ῥα ῥά ῥ τὰρ ἄρά ἂρ
|
||||
|
||||
ἡμᾶς με ἐγὼ ἐμὲ μοι κἀγὼ ἡμῶν ἡμεῖς ἐμοὶ ἔγωγ' ἁμοὶ ἡμῖν μ' ἔγωγέ ἐγώ ἐμοί ἐμοῦ κἀμοῦ ἔμ' κἀμὲ ἡμὶν μου ἐμέ ἔγωγε νῷν νὼ χἠμεῖς ἁμὲ κἀγώ κἀμοὶ χἠμᾶς
|
||||
ἁγὼ ἡμίν κἄμ' ἔμοιγ' μοί τοὐμὲ ἄμμε ἐγὼν ἐμεῦ ἐμεῖο μευ ἔμοιγε ἄμμι μέ ἡμέας νῶϊ ἄμμιν ἧμιν ἐγών νῶΐ ἐμέθεν ἥμιν ἄμμες νῶι ἡμείων ἄμμ' ἡμέων ἐμέο
|
||||
ἐκ ἔκ ἐξ κἀκ κ ἃκ κἀξ ἔξ εξ Ἐκ τἀμὰ ἐμοῖς τοὐμόν ἐμᾶς τοὐμὸν ἐμῶν ἐμὸς ἐμῆς ἐμῷ τὠμῷ ἐμὸν τἄμ' ἐμὴ ἐμὰς ἐμαῖς ἐμὴν ἐμόν ἐμὰ ἐμός ἐμοὺς ἐμῇ ἐμᾷ
|
||||
οὑμὸς ἐμοῖν οὑμός κἀμὸν ἐμαὶ ἐμή ἐμάς ἐμοῖσι ἐμοῖσιν ἐμῇσιν ἐμῇσι ἐμῇς ἐμήν
|
||||
|
||||
ἔνι ἐνὶ εἰνὶ εἰν ἐμ ἐπὶ ἐπ' ἔπι ἐφ' κἀπὶ τἀπὶ ἐπί ἔφ' ἔπ' ἐὰν ἢν ἐάν ἤν ἄνπερ
|
||||
|
||||
αὑτοῖς αὑτὸν αὑτῷ ἑαυτοῦ αὑτόν αὑτῆς αὑτῶν αὑτοῦ αὑτὴν αὑτοῖν χαὐτοῦ αὑταῖς ἑωυτοῦ ἑωυτῇ ἑωυτὸν ἐωυτῷ ἑωυτῆς ἑωυτόν ἑωυτῷ
|
||||
ἑωυτάς ἑωυτῶν ἑωυτοὺς ἑωυτοῖσι ἑαυτῇ ἑαυτούς αὑτοὺς ἑαυτῶν ἑαυτοὺς ἑαυτὸν ἑαυτῷ ἑαυτοῖς ἑαυτὴν ἑαυτῆς
|
||||
|
||||
ἔτι ἔτ' ἔθ' κἄτι ἢ ἤ ἠέ ἠὲ ἦε ἦέ ἡ τοὺς τὴν τὸ τῶν τὸν ὁ ἁ οἱ τοῖς ταῖς τῆς τὰς αἱ τό τὰν τᾶς τοῖσιν αἳ χὠ τήν τά τοῖν τάς ὅ
|
||||
χοἰ ἣ ἥ χἠ τάν τᾶν ὃ οἳ οἵ τοῖο τόν τοῖιν τούς τάων ταὶ τῇς τῇσι τῇσιν αἵ τοῖό τοῖσίν ὅττί ταί Τὴν τῆ τῶ τάδε ὅδε τοῦδε τόδε τόνδ'
|
||||
τάδ' τῆσδε τῷδε ὅδ' τῶνδ' τῇδ' τοῦδέ τῶνδε τόνδε τόδ' τοῦδ' τάσδε τήνδε τάσδ' τήνδ' ταῖσδέ τῇδε τῆσδ' τάνδ' τῷδ' τάνδε ἅδε τοῖσδ' ἥδ'
|
||||
τᾷδέ τοῖσδε τούσδ' ἥδε τούσδε τώδ' ἅδ' οἵδ' τῶνδέ οἵδε τᾷδε τοῖσδεσσι τώδε τῇδέ τοῖσιδε αἵδε τοῦδὲ τῆδ' αἵδ' τοῖσδεσι ὃν ἃ ὃς ᾧ οὗ ἅπερ
|
||||
οὓς ἧς οἷς ἅσπερ ᾗ ἅ χὦνπερ ὣ αἷς ᾇ ὅς ἥπερ ἃς ὅσπερ ὅνπερ ὧνπερ ᾧπερ ὅν αἷν οἷσι ἇς ἅς ὥ οὕς ἥν οἷσιν ἕης ὅου ᾗς οἷσί οἷσίν τοῖσί ᾗσιν οἵπερ αἷσπερ
|
||||
ὅστις ἥτις ὅτου ὅτοισι ἥντιν' ὅτῳ ὅντιν' ὅττι ἅσσά ὅτεῳ ὅτις ὅτιν' ὅτευ ἥντινα αἵτινές ὅντινα ἅσσα ᾧτινι οἵτινες ὅτι ἅτις ὅτ' ὑμὴ
|
||||
ὑμήν ὑμὸν ὑπὲρ ὕπερ ὑπέρτερον ὑπεὶρ ὑπέρτατος ὑπὸ ὑπ' ὑφ' ὕπο ὑπαὶ ὑπό ὕπ' ὕφ'
|
||||
|
||||
ὣς ὡς ὥς ὧς ὥστ' ὥστε ὥσθ' ὤ ὢ
|
||||
|
||||
""".split()
|
||||
)
|
|
@ -1,9 +1,8 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class GujaratiDefaults(BaseDefaults):
|
||||
stop_words = STOP_WORDS
|
||||
pass
|
||||
|
||||
|
||||
class Gujarati(Language):
|
||||
|
|
|
@ -1,88 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
એમ
|
||||
આ
|
||||
એ
|
||||
રહી
|
||||
છે
|
||||
છો
|
||||
હતા
|
||||
હતું
|
||||
હતી
|
||||
હોય
|
||||
હતો
|
||||
શકે
|
||||
તે
|
||||
તેના
|
||||
તેનું
|
||||
તેને
|
||||
તેની
|
||||
તેઓ
|
||||
તેમને
|
||||
તેમના
|
||||
તેમણે
|
||||
તેમનું
|
||||
તેમાં
|
||||
અને
|
||||
અહીં
|
||||
થી
|
||||
થઈ
|
||||
થાય
|
||||
જે
|
||||
ને
|
||||
કે
|
||||
ના
|
||||
ની
|
||||
નો
|
||||
ને
|
||||
નું
|
||||
શું
|
||||
માં
|
||||
પણ
|
||||
પર
|
||||
જેવા
|
||||
જેવું
|
||||
જાય
|
||||
જેમ
|
||||
જેથી
|
||||
માત્ર
|
||||
માટે
|
||||
પરથી
|
||||
આવ્યું
|
||||
એવી
|
||||
આવી
|
||||
રીતે
|
||||
સુધી
|
||||
થાય
|
||||
થઈ
|
||||
સાથે
|
||||
લાગે
|
||||
હોવા
|
||||
છતાં
|
||||
રહેલા
|
||||
કરી
|
||||
કરે
|
||||
કેટલા
|
||||
કોઈ
|
||||
કેમ
|
||||
કર્યો
|
||||
કર્યુ
|
||||
કરે
|
||||
સૌથી
|
||||
ત્યારબાદ
|
||||
તથા
|
||||
દ્વારા
|
||||
જુઓ
|
||||
જાઓ
|
||||
જ્યારે
|
||||
ત્યારે
|
||||
શકો
|
||||
નથી
|
||||
હવે
|
||||
અથવા
|
||||
થતો
|
||||
દર
|
||||
એટલો
|
||||
પરંતુ
|
||||
""".split()
|
||||
)
|
|
@ -1,10 +1,8 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class HebrewDefaults(BaseDefaults):
|
||||
stop_words = STOP_WORDS
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
writing_system = {"direction": "rtl", "has_case": False, "has_letters": True}
|
||||
|
||||
|
|
|
@ -1,222 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
אני
|
||||
את
|
||||
אתה
|
||||
אנחנו
|
||||
אתן
|
||||
אתם
|
||||
הם
|
||||
הן
|
||||
היא
|
||||
הוא
|
||||
שלי
|
||||
שלו
|
||||
שלך
|
||||
שלה
|
||||
שלנו
|
||||
שלכם
|
||||
שלכן
|
||||
שלהם
|
||||
שלהן
|
||||
לי
|
||||
לו
|
||||
לה
|
||||
לנו
|
||||
לכם
|
||||
לכן
|
||||
להם
|
||||
להן
|
||||
אותה
|
||||
אותו
|
||||
זה
|
||||
זאת
|
||||
אלה
|
||||
אלו
|
||||
תחת
|
||||
מתחת
|
||||
מעל
|
||||
בין
|
||||
עם
|
||||
עד
|
||||
על
|
||||
אל
|
||||
מול
|
||||
של
|
||||
אצל
|
||||
כמו
|
||||
אחר
|
||||
אותו
|
||||
בלי
|
||||
לפני
|
||||
אחרי
|
||||
מאחורי
|
||||
עלי
|
||||
עליו
|
||||
עליה
|
||||
עליך
|
||||
עלינו
|
||||
עליכם
|
||||
עליכן
|
||||
עליהם
|
||||
עליהן
|
||||
כל
|
||||
כולם
|
||||
כולן
|
||||
כך
|
||||
ככה
|
||||
כזה
|
||||
כזאת
|
||||
זה
|
||||
אותי
|
||||
אותה
|
||||
אותם
|
||||
אותך
|
||||
אותו
|
||||
אותן
|
||||
אותנו
|
||||
ואת
|
||||
את
|
||||
אתכם
|
||||
אתכן
|
||||
איתי
|
||||
איתו
|
||||
איתך
|
||||
איתה
|
||||
איתם
|
||||
איתן
|
||||
איתנו
|
||||
איתכם
|
||||
איתכן
|
||||
יהיה
|
||||
תהיה
|
||||
הייתי
|
||||
היתה
|
||||
היה
|
||||
להיות
|
||||
עצמי
|
||||
עצמו
|
||||
עצמה
|
||||
עצמם
|
||||
עצמן
|
||||
עצמנו
|
||||
מי
|
||||
מה
|
||||
איפה
|
||||
היכן
|
||||
במקום שבו
|
||||
אם
|
||||
לאן
|
||||
למקום שבו
|
||||
מקום בו
|
||||
איזה
|
||||
מהיכן
|
||||
איך
|
||||
כיצד
|
||||
באיזו מידה
|
||||
מתי
|
||||
בשעה ש
|
||||
כאשר
|
||||
כש
|
||||
למרות
|
||||
לפני
|
||||
אחרי
|
||||
מאיזו סיבה
|
||||
הסיבה שבגללה
|
||||
למה
|
||||
מדוע
|
||||
לאיזו תכלית
|
||||
כי
|
||||
יש
|
||||
אין
|
||||
אך
|
||||
מנין
|
||||
מאין
|
||||
מאיפה
|
||||
יכל
|
||||
יכלה
|
||||
יכלו
|
||||
יכול
|
||||
יכולה
|
||||
יכולים
|
||||
יכולות
|
||||
יוכלו
|
||||
יוכל
|
||||
מסוגל
|
||||
לא
|
||||
רק
|
||||
אולי
|
||||
אין
|
||||
לאו
|
||||
אי
|
||||
כלל
|
||||
בעד
|
||||
נגד
|
||||
אם
|
||||
עם
|
||||
אל
|
||||
אלה
|
||||
אלו
|
||||
אף
|
||||
על
|
||||
מעל
|
||||
מתחת
|
||||
מצד
|
||||
בשביל
|
||||
לבין
|
||||
באמצע
|
||||
בתוך
|
||||
דרך
|
||||
מבעד
|
||||
באמצעות
|
||||
למעלה
|
||||
למטה
|
||||
מחוץ
|
||||
מן
|
||||
לעבר
|
||||
מכאן
|
||||
כאן
|
||||
הנה
|
||||
הרי
|
||||
פה
|
||||
שם
|
||||
אך
|
||||
ברם
|
||||
שוב
|
||||
אבל
|
||||
מבלי
|
||||
בלי
|
||||
מלבד
|
||||
רק
|
||||
בגלל
|
||||
מכיוון
|
||||
עד
|
||||
אשר
|
||||
ואילו
|
||||
למרות
|
||||
כמו
|
||||
כפי
|
||||
אז
|
||||
אחרי
|
||||
כן
|
||||
לכן
|
||||
לפיכך
|
||||
עז
|
||||
מאוד
|
||||
מעט
|
||||
מעטים
|
||||
במידה
|
||||
שוב
|
||||
יותר
|
||||
מדי
|
||||
גם
|
||||
כן
|
||||
נו
|
||||
אחר
|
||||
אחרת
|
||||
אחרים
|
||||
אחרות
|
||||
אשר
|
||||
או
|
||||
""".split()
|
||||
)
|
|
@ -1,10 +1,8 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class HindiDefaults(BaseDefaults):
|
||||
stop_words = STOP_WORDS
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
|
||||
|
||||
|
|
|
@ -1,239 +0,0 @@
|
|||
# Source: https://github.com/taranjeet/hindi-tokenizer/blob/master/stopwords.txt, https://data.mendeley.com/datasets/bsr3frvvjc/1#file-a21d5092-99d7-45d8-b044-3ae9edd391c6
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
अंदर
|
||||
अत
|
||||
अदि
|
||||
अप
|
||||
अपना
|
||||
अपनि
|
||||
अपनी
|
||||
अपने
|
||||
अभि
|
||||
अभी
|
||||
अंदर
|
||||
आदि
|
||||
आप
|
||||
अगर
|
||||
इंहिं
|
||||
इंहें
|
||||
इंहों
|
||||
इतयादि
|
||||
इत्यादि
|
||||
इन
|
||||
इनका
|
||||
इन्हीं
|
||||
इन्हें
|
||||
इन्हों
|
||||
इस
|
||||
इसका
|
||||
इसकि
|
||||
इसकी
|
||||
इसके
|
||||
इसमें
|
||||
इसि
|
||||
इसी
|
||||
इसे
|
||||
उंहिं
|
||||
उंहें
|
||||
उंहों
|
||||
उन
|
||||
उनका
|
||||
उनकि
|
||||
उनकी
|
||||
उनके
|
||||
उनको
|
||||
उन्हीं
|
||||
उन्हें
|
||||
उन्हों
|
||||
उस
|
||||
उसके
|
||||
उसि
|
||||
उसी
|
||||
उसे
|
||||
एक
|
||||
एवं
|
||||
एस
|
||||
एसे
|
||||
ऐसे
|
||||
ओर
|
||||
और
|
||||
कइ
|
||||
कई
|
||||
कर
|
||||
करता
|
||||
करते
|
||||
करना
|
||||
करने
|
||||
करें
|
||||
कहते
|
||||
कहा
|
||||
का
|
||||
काफि
|
||||
काफ़ी
|
||||
कि
|
||||
किंहें
|
||||
किंहों
|
||||
कितना
|
||||
किन्हें
|
||||
किन्हों
|
||||
किया
|
||||
किर
|
||||
किस
|
||||
किसि
|
||||
किसी
|
||||
किसे
|
||||
की
|
||||
कुछ
|
||||
कुल
|
||||
के
|
||||
को
|
||||
कोइ
|
||||
कोई
|
||||
कोन
|
||||
कोनसा
|
||||
कौन
|
||||
कौनसा
|
||||
गया
|
||||
घर
|
||||
जब
|
||||
जहाँ
|
||||
जहां
|
||||
जा
|
||||
जिंहें
|
||||
जिंहों
|
||||
जितना
|
||||
जिधर
|
||||
जिन
|
||||
जिन्हें
|
||||
जिन्हों
|
||||
जिस
|
||||
जिसे
|
||||
जीधर
|
||||
जेसा
|
||||
जेसे
|
||||
जैसा
|
||||
जैसे
|
||||
जो
|
||||
तक
|
||||
तब
|
||||
तरह
|
||||
तिंहें
|
||||
तिंहों
|
||||
तिन
|
||||
तिन्हें
|
||||
तिन्हों
|
||||
तिस
|
||||
तिसे
|
||||
तो
|
||||
था
|
||||
थि
|
||||
थी
|
||||
थे
|
||||
दबारा
|
||||
दवारा
|
||||
दिया
|
||||
दुसरा
|
||||
दुसरे
|
||||
दूसरे
|
||||
दो
|
||||
द्वारा
|
||||
न
|
||||
नहिं
|
||||
नहीं
|
||||
ना
|
||||
निचे
|
||||
निहायत
|
||||
नीचे
|
||||
ने
|
||||
पर
|
||||
पहले
|
||||
पुरा
|
||||
पूरा
|
||||
पे
|
||||
फिर
|
||||
बनि
|
||||
बनी
|
||||
बहि
|
||||
बही
|
||||
बहुत
|
||||
बाद
|
||||
बाला
|
||||
बिलकुल
|
||||
भि
|
||||
भितर
|
||||
भी
|
||||
भीतर
|
||||
मगर
|
||||
मानो
|
||||
मे
|
||||
में
|
||||
मैं
|
||||
मुझको
|
||||
मेरा
|
||||
यदि
|
||||
यह
|
||||
यहाँ
|
||||
यहां
|
||||
यहि
|
||||
यही
|
||||
या
|
||||
यिह
|
||||
ये
|
||||
रखें
|
||||
रवासा
|
||||
रहा
|
||||
रहे
|
||||
ऱ्वासा
|
||||
लिए
|
||||
लिये
|
||||
लेकिन
|
||||
व
|
||||
वगेरह
|
||||
वग़ैरह
|
||||
वरग
|
||||
वर्ग
|
||||
वह
|
||||
वहाँ
|
||||
वहां
|
||||
वहिं
|
||||
वहीं
|
||||
वाले
|
||||
वुह
|
||||
वे
|
||||
वग़ैरह
|
||||
संग
|
||||
सकता
|
||||
सकते
|
||||
सबसे
|
||||
सभि
|
||||
सभी
|
||||
साथ
|
||||
साबुत
|
||||
साभ
|
||||
सारा
|
||||
से
|
||||
सो
|
||||
संग
|
||||
हि
|
||||
ही
|
||||
हुअ
|
||||
हुआ
|
||||
हुइ
|
||||
हुई
|
||||
हुए
|
||||
हे
|
||||
हें
|
||||
है
|
||||
हैं
|
||||
हो
|
||||
हूँ
|
||||
होता
|
||||
होति
|
||||
होती
|
||||
होते
|
||||
होना
|
||||
होने
|
||||
""".split()
|
||||
)
|
|
@ -1,9 +1,8 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class CroatianDefaults(BaseDefaults):
|
||||
stop_words = STOP_WORDS
|
||||
pass
|
||||
|
||||
|
||||
class Croatian(Language):
|
||||
|
|
|
@ -1,344 +0,0 @@
|
|||
# Source: https://github.com/stopwords-iso/stopwords-hr
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
a
|
||||
ah
|
||||
aha
|
||||
aj
|
||||
ako
|
||||
al
|
||||
ali
|
||||
arh
|
||||
au
|
||||
avaj
|
||||
bar
|
||||
baš
|
||||
bez
|
||||
bi
|
||||
bih
|
||||
bijah
|
||||
bijahu
|
||||
bijaše
|
||||
bijasmo
|
||||
bijaste
|
||||
bila
|
||||
bili
|
||||
bilo
|
||||
bio
|
||||
bismo
|
||||
biste
|
||||
biti
|
||||
brr
|
||||
buć
|
||||
budavši
|
||||
bude
|
||||
budimo
|
||||
budite
|
||||
budu
|
||||
budući
|
||||
bum
|
||||
bumo
|
||||
će
|
||||
ćemo
|
||||
ćeš
|
||||
ćete
|
||||
čijem
|
||||
čijim
|
||||
čijima
|
||||
ću
|
||||
da
|
||||
daj
|
||||
dakle
|
||||
de
|
||||
deder
|
||||
dem
|
||||
djelomice
|
||||
djelomično
|
||||
do
|
||||
doista
|
||||
dok
|
||||
dokle
|
||||
donekle
|
||||
dosad
|
||||
doskoro
|
||||
dotad
|
||||
dotle
|
||||
dovečer
|
||||
drugamo
|
||||
drugdje
|
||||
duž
|
||||
e
|
||||
eh
|
||||
ehe
|
||||
ej
|
||||
eno
|
||||
eto
|
||||
evo
|
||||
ga
|
||||
gdjekakav
|
||||
gdjekoje
|
||||
gic
|
||||
god
|
||||
halo
|
||||
hej
|
||||
hm
|
||||
hoće
|
||||
hoćemo
|
||||
hoćeš
|
||||
hoćete
|
||||
hoću
|
||||
hop
|
||||
htijahu
|
||||
htijasmo
|
||||
htijaste
|
||||
htio
|
||||
htjedoh
|
||||
htjedoše
|
||||
htjedoste
|
||||
htjela
|
||||
htjele
|
||||
htjeli
|
||||
hura
|
||||
i
|
||||
iako
|
||||
ih
|
||||
iju
|
||||
ijuju
|
||||
ikada
|
||||
ikakav
|
||||
ikakva
|
||||
ikakve
|
||||
ikakvi
|
||||
ikakvih
|
||||
ikakvim
|
||||
ikakvima
|
||||
ikakvo
|
||||
ikakvog
|
||||
ikakvoga
|
||||
ikakvoj
|
||||
ikakvom
|
||||
ikakvome
|
||||
ili
|
||||
im
|
||||
iz
|
||||
ja
|
||||
je
|
||||
jedna
|
||||
jedne
|
||||
jedni
|
||||
jedno
|
||||
jer
|
||||
jesam
|
||||
jesi
|
||||
jesmo
|
||||
jest
|
||||
jeste
|
||||
jesu
|
||||
jim
|
||||
joj
|
||||
još
|
||||
ju
|
||||
kada
|
||||
kako
|
||||
kao
|
||||
koja
|
||||
koje
|
||||
koji
|
||||
kojima
|
||||
koju
|
||||
kroz
|
||||
lani
|
||||
li
|
||||
me
|
||||
mene
|
||||
meni
|
||||
mi
|
||||
mimo
|
||||
moj
|
||||
moja
|
||||
moje
|
||||
moji
|
||||
moju
|
||||
mu
|
||||
na
|
||||
nad
|
||||
nakon
|
||||
nam
|
||||
nama
|
||||
nas
|
||||
naš
|
||||
naša
|
||||
naše
|
||||
našeg
|
||||
naši
|
||||
ne
|
||||
neće
|
||||
nećemo
|
||||
nećeš
|
||||
nećete
|
||||
neću
|
||||
nego
|
||||
neka
|
||||
neke
|
||||
neki
|
||||
nekog
|
||||
neku
|
||||
nema
|
||||
nešto
|
||||
netko
|
||||
ni
|
||||
nije
|
||||
nikoga
|
||||
nikoje
|
||||
nikoji
|
||||
nikoju
|
||||
nisam
|
||||
nisi
|
||||
nismo
|
||||
niste
|
||||
nisu
|
||||
njega
|
||||
njegov
|
||||
njegova
|
||||
njegovo
|
||||
njemu
|
||||
njezin
|
||||
njezina
|
||||
njezino
|
||||
njih
|
||||
njihov
|
||||
njihova
|
||||
njihovo
|
||||
njim
|
||||
njima
|
||||
njoj
|
||||
nju
|
||||
no
|
||||
o
|
||||
od
|
||||
odmah
|
||||
on
|
||||
ona
|
||||
one
|
||||
oni
|
||||
ono
|
||||
onu
|
||||
onoj
|
||||
onom
|
||||
onim
|
||||
onima
|
||||
ova
|
||||
ovaj
|
||||
ovim
|
||||
ovima
|
||||
ovoj
|
||||
pa
|
||||
pak
|
||||
pljus
|
||||
po
|
||||
pod
|
||||
podalje
|
||||
poimence
|
||||
poizdalje
|
||||
ponekad
|
||||
pored
|
||||
postrance
|
||||
potajice
|
||||
potrbuške
|
||||
pouzdano
|
||||
prije
|
||||
s
|
||||
sa
|
||||
sam
|
||||
samo
|
||||
sasvim
|
||||
sav
|
||||
se
|
||||
sebe
|
||||
sebi
|
||||
si
|
||||
šic
|
||||
smo
|
||||
ste
|
||||
što
|
||||
šta
|
||||
štogod
|
||||
štagod
|
||||
su
|
||||
sva
|
||||
sve
|
||||
svi
|
||||
svi
|
||||
svog
|
||||
svoj
|
||||
svoja
|
||||
svoje
|
||||
svoju
|
||||
svom
|
||||
svu
|
||||
ta
|
||||
tada
|
||||
taj
|
||||
tako
|
||||
te
|
||||
tebe
|
||||
tebi
|
||||
ti
|
||||
tim
|
||||
tima
|
||||
to
|
||||
toj
|
||||
tome
|
||||
tu
|
||||
tvoj
|
||||
tvoja
|
||||
tvoje
|
||||
tvoji
|
||||
tvoju
|
||||
u
|
||||
usprkos
|
||||
utaman
|
||||
uvijek
|
||||
uz
|
||||
uza
|
||||
uzagrapce
|
||||
uzalud
|
||||
uzduž
|
||||
valjda
|
||||
vam
|
||||
vama
|
||||
vas
|
||||
vaš
|
||||
vaša
|
||||
vaše
|
||||
vašim
|
||||
vašima
|
||||
već
|
||||
vi
|
||||
vjerojatno
|
||||
vjerovatno
|
||||
vrh
|
||||
vrlo
|
||||
za
|
||||
zaista
|
||||
zar
|
||||
zatim
|
||||
zato
|
||||
zbija
|
||||
zbog
|
||||
želeći
|
||||
željah
|
||||
željela
|
||||
željele
|
||||
željeli
|
||||
željelo
|
||||
željen
|
||||
željena
|
||||
željene
|
||||
željeni
|
||||
željenu
|
||||
željeo
|
||||
zimus
|
||||
zum
|
||||
""".split()
|
||||
)
|
|
@ -1,12 +1,10 @@
|
|||
from .lex_attrs import LEX_ATTRS
|
||||
from .stop_words import STOP_WORDS
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class UpperSorbianDefaults(BaseDefaults):
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||
|
||||
|
||||
|
|
|
@ -1,19 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
a abo ale ani
|
||||
|
||||
dokelž
|
||||
|
||||
hdyž
|
||||
|
||||
jeli jelizo
|
||||
|
||||
kaž
|
||||
|
||||
pak potom
|
||||
|
||||
tež tohodla
|
||||
|
||||
zo zoby
|
||||
""".split()
|
||||
)
|
|
@ -1,6 +1,5 @@
|
|||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, TOKEN_MATCH
|
||||
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_SUFFIXES, TOKENIZER_INFIXES
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
|
@ -10,7 +9,6 @@ class HungarianDefaults(BaseDefaults):
|
|||
suffixes = TOKENIZER_SUFFIXES
|
||||
infixes = TOKENIZER_INFIXES
|
||||
token_match = TOKEN_MATCH
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Hungarian(Language):
|
||||
|
|
|
@ -1,62 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
a abban ahhoz ahogy ahol aki akik akkor akár alatt amely amelyek amelyekben
|
||||
amelyeket amelyet amelynek ami amikor amit amolyan amíg annak arra arról az
|
||||
azok azon azonban azt aztán azután azzal azért
|
||||
|
||||
be belül benne bár
|
||||
|
||||
cikk cikkek cikkeket csak
|
||||
|
||||
de
|
||||
|
||||
e ebben eddig egy egyes egyetlen egyik egyre egyéb egész ehhez ekkor el ellen
|
||||
elo eloször elott elso elég előtt emilyen ennek erre ez ezek ezen ezt ezzel
|
||||
ezért
|
||||
|
||||
fel felé
|
||||
|
||||
ha hanem hiszen hogy hogyan hát
|
||||
|
||||
ide igen ill ill. illetve ilyen ilyenkor inkább is ismét ison itt
|
||||
|
||||
jobban jó jól
|
||||
|
||||
kell kellett keressünk keresztül ki kívül között közül
|
||||
|
||||
le legalább legyen lehet lehetett lenne lenni lesz lett
|
||||
|
||||
ma maga magát majd meg mellett mely melyek mert mi miatt mikor milyen minden
|
||||
mindenki mindent mindig mint mintha mit mivel miért mondta most már más másik
|
||||
még míg
|
||||
|
||||
nagy nagyobb nagyon ne nekem neki nem nincs néha néhány nélkül
|
||||
|
||||
o oda ok oket olyan ott
|
||||
|
||||
pedig persze például
|
||||
|
||||
rá
|
||||
|
||||
s saját sem semmi sok sokat sokkal stb. szemben szerint szinte számára szét
|
||||
|
||||
talán te tehát teljes ti tovább továbbá több túl ugyanis
|
||||
|
||||
utolsó után utána
|
||||
|
||||
vagy vagyis vagyok valaki valami valamint való van vannak vele vissza viszont
|
||||
volna volt voltak voltam voltunk
|
||||
|
||||
által általában át
|
||||
|
||||
én éppen és
|
||||
|
||||
így
|
||||
|
||||
ön össze
|
||||
|
||||
úgy új újabb újra
|
||||
|
||||
ő őket
|
||||
""".split()
|
||||
)
|
|
@ -1,11 +1,9 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class ArmenianDefaults(BaseDefaults):
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Armenian(Language):
|
||||
|
|
|
@ -1,107 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
նա
|
||||
ողջը
|
||||
այստեղ
|
||||
ենք
|
||||
նա
|
||||
էիր
|
||||
որպես
|
||||
ուրիշ
|
||||
բոլորը
|
||||
այն
|
||||
այլ
|
||||
նույնչափ
|
||||
էի
|
||||
մի
|
||||
և
|
||||
ողջ
|
||||
ես
|
||||
ոմն
|
||||
հետ
|
||||
նրանք
|
||||
ամենքը
|
||||
ըստ
|
||||
ինչ-ինչ
|
||||
այսպես
|
||||
համայն
|
||||
մի
|
||||
նաև
|
||||
նույնքան
|
||||
դա
|
||||
ովևէ
|
||||
համար
|
||||
այնտեղ
|
||||
էին
|
||||
որոնք
|
||||
սույն
|
||||
ինչ-որ
|
||||
ամենը
|
||||
նույնպիսի
|
||||
ու
|
||||
իր
|
||||
որոշ
|
||||
միևնույն
|
||||
ի
|
||||
այնպիսի
|
||||
մենք
|
||||
ամեն ոք
|
||||
նույն
|
||||
երբևէ
|
||||
այն
|
||||
որևէ
|
||||
ին
|
||||
այդպես
|
||||
նրա
|
||||
որը
|
||||
վրա
|
||||
դու
|
||||
էինք
|
||||
այդպիսի
|
||||
էիք
|
||||
յուրաքանչյուրը
|
||||
եմ
|
||||
պիտի
|
||||
այդ
|
||||
ամբողջը
|
||||
հետո
|
||||
եք
|
||||
ամեն
|
||||
այլ
|
||||
կամ
|
||||
այսքան
|
||||
որ
|
||||
այնպես
|
||||
այսինչ
|
||||
բոլոր
|
||||
է
|
||||
մեկնումեկը
|
||||
այդչափ
|
||||
այնքան
|
||||
ամբողջ
|
||||
երբևիցե
|
||||
այնչափ
|
||||
ամենայն
|
||||
մյուս
|
||||
այնինչ
|
||||
իսկ
|
||||
այդտեղ
|
||||
այս
|
||||
սա
|
||||
են
|
||||
ամեն ինչ
|
||||
որևիցե
|
||||
ում
|
||||
մեկը
|
||||
այդ
|
||||
դուք
|
||||
այսչափ
|
||||
այդքան
|
||||
այսպիսի
|
||||
էր
|
||||
յուրաքանչյուր
|
||||
այս
|
||||
մեջ
|
||||
թ
|
||||
""".split()
|
||||
)
|
|
@ -1,4 +1,3 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .punctuation import TOKENIZER_SUFFIXES, TOKENIZER_PREFIXES, TOKENIZER_INFIXES
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
|
@ -13,7 +12,6 @@ class IndonesianDefaults(BaseDefaults):
|
|||
infixes = TOKENIZER_INFIXES
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Indonesian(Language):
|
||||
|
|
|
@ -1,118 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
ada adalah adanya adapun agak agaknya agar akan akankah akhir akhiri akhirnya
|
||||
aku akulah amat amatlah anda andalah antar antara antaranya apa apaan apabila
|
||||
apakah apalagi apatah artinya asal asalkan atas atau ataukah ataupun awal
|
||||
awalnya
|
||||
|
||||
bagai bagaikan bagaimana bagaimanakah bagaimanapun bagi bagian bahkan bahwa
|
||||
bahwasanya baik bakal bakalan balik banyak bapak baru bawah beberapa begini
|
||||
beginian beginikah beginilah begitu begitukah begitulah begitupun bekerja
|
||||
belakang belakangan belum belumlah benar benarkah benarlah berada berakhir
|
||||
berakhirlah berakhirnya berapa berapakah berapalah berapapun berarti berawal
|
||||
berbagai berdatangan beri berikan berikut berikutnya berjumlah berkali-kali
|
||||
berkata berkehendak berkeinginan berkenaan berlainan berlalu berlangsung
|
||||
berlebihan bermacam bermacam-macam bermaksud bermula bersama bersama-sama
|
||||
bersiap bersiap-siap bertanya bertanya-tanya berturut berturut-turut bertutur
|
||||
berujar berupa besar betul betulkah biasa biasanya bila bilakah bisa bisakah
|
||||
boleh bolehkah bolehlah buat bukan bukankah bukanlah bukannya bulan bung
|
||||
|
||||
cara caranya cukup cukupkah cukuplah cuma
|
||||
|
||||
dahulu dalam dan dapat dari daripada datang dekat demi demikian demikianlah
|
||||
dengan depan di dia diakhiri diakhirinya dialah diantara diantaranya diberi
|
||||
diberikan diberikannya dibuat dibuatnya didapat didatangkan digunakan
|
||||
diibaratkan diibaratkannya diingat diingatkan diinginkan dijawab dijelaskan
|
||||
dijelaskannya dikarenakan dikatakan dikatakannya dikerjakan diketahui
|
||||
diketahuinya dikira dilakukan dilalui dilihat dimaksud dimaksudkan
|
||||
dimaksudkannya dimaksudnya diminta dimintai dimisalkan dimulai dimulailah
|
||||
dimulainya dimungkinkan dini dipastikan diperbuat diperbuatnya dipergunakan
|
||||
diperkirakan diperlihatkan diperlukan diperlukannya dipersoalkan dipertanyakan
|
||||
dipunyai diri dirinya disampaikan disebut disebutkan disebutkannya disini
|
||||
disinilah ditambahkan ditandaskan ditanya ditanyai ditanyakan ditegaskan
|
||||
ditujukan ditunjuk ditunjuki ditunjukkan ditunjukkannya ditunjuknya dituturkan
|
||||
dituturkannya diucapkan diucapkannya diungkapkan dong dua dulu
|
||||
|
||||
empat enggak enggaknya entah entahlah
|
||||
|
||||
guna gunakan
|
||||
|
||||
hal hampir hanya hanyalah hari harus haruslah harusnya hendak hendaklah
|
||||
hendaknya hingga
|
||||
|
||||
ia ialah ibarat ibaratkan ibaratnya ibu ikut ingat ingat-ingat ingin inginkah
|
||||
inginkan ini inikah inilah itu itukah itulah
|
||||
|
||||
jadi jadilah jadinya jangan jangankan janganlah jauh jawab jawaban jawabnya
|
||||
jelas jelaskan jelaslah jelasnya jika jikalau juga jumlah jumlahnya justru
|
||||
|
||||
kala kalau kalaulah kalaupun kalian kami kamilah kamu kamulah kan kapan
|
||||
kapankah kapanpun karena karenanya kasus kata katakan katakanlah katanya ke
|
||||
keadaan kebetulan kecil kedua keduanya keinginan kelamaan kelihatan
|
||||
kelihatannya kelima keluar kembali kemudian kemungkinan kemungkinannya kenapa
|
||||
kepada kepadanya kesampaian keseluruhan keseluruhannya keterlaluan ketika
|
||||
khususnya kini kinilah kira kira-kira kiranya kita kitalah kok kurang
|
||||
|
||||
lagi lagian lah lain lainnya lalu lama lamanya lanjut lanjutnya lebih lewat
|
||||
lima luar
|
||||
|
||||
macam maka makanya makin malah malahan mampu mampukah mana manakala manalagi
|
||||
masa masalah masalahnya masih masihkah masing masing-masing mau maupun
|
||||
melainkan melakukan melalui melihat melihatnya memang memastikan memberi
|
||||
memberikan membuat memerlukan memihak meminta memintakan memisalkan memperbuat
|
||||
mempergunakan memperkirakan memperlihatkan mempersiapkan mempersoalkan
|
||||
mempertanyakan mempunyai memulai memungkinkan menaiki menambahkan menandaskan
|
||||
menanti menanti-nanti menantikan menanya menanyai menanyakan mendapat
|
||||
mendapatkan mendatang mendatangi mendatangkan menegaskan mengakhiri mengapa
|
||||
mengatakan mengatakannya mengenai mengerjakan mengetahui menggunakan
|
||||
menghendaki mengibaratkan mengibaratkannya mengingat mengingatkan menginginkan
|
||||
mengira mengucapkan mengucapkannya mengungkapkan menjadi menjawab menjelaskan
|
||||
menuju menunjuk menunjuki menunjukkan menunjuknya menurut menuturkan
|
||||
menyampaikan menyangkut menyatakan menyebutkan menyeluruh menyiapkan merasa
|
||||
mereka merekalah merupakan meski meskipun meyakini meyakinkan minta mirip
|
||||
misal misalkan misalnya mula mulai mulailah mulanya mungkin mungkinkah
|
||||
|
||||
nah naik namun nanti nantinya nyaris nyatanya
|
||||
|
||||
oleh olehnya
|
||||
|
||||
pada padahal padanya pak paling panjang pantas para pasti pastilah penting
|
||||
pentingnya per percuma perlu perlukah perlunya pernah persoalan pertama
|
||||
pertama-tama pertanyaan pertanyakan pihak pihaknya pukul pula pun punya
|
||||
|
||||
rasa rasanya rata rupanya
|
||||
|
||||
saat saatnya saja sajalah saling sama sama-sama sambil sampai sampai-sampai
|
||||
sampaikan sana sangat sangatlah satu saya sayalah se sebab sebabnya sebagai
|
||||
sebagaimana sebagainya sebagian sebaik sebaik-baiknya sebaiknya sebaliknya
|
||||
sebanyak sebegini sebegitu sebelum sebelumnya sebenarnya seberapa sebesar
|
||||
sebetulnya sebisanya sebuah sebut sebutlah sebutnya secara secukupnya sedang
|
||||
sedangkan sedemikian sedikit sedikitnya seenaknya segala segalanya segera
|
||||
seharusnya sehingga seingat sejak sejauh sejenak sejumlah sekadar sekadarnya
|
||||
sekali sekali-kali sekalian sekaligus sekalipun sekarang sekarang sekecil
|
||||
seketika sekiranya sekitar sekitarnya sekurang-kurangnya sekurangnya sela
|
||||
selain selaku selalu selama selama-lamanya selamanya selanjutnya seluruh
|
||||
seluruhnya semacam semakin semampu semampunya semasa semasih semata semata-mata
|
||||
semaunya sementara semisal semisalnya sempat semua semuanya semula sendiri
|
||||
sendirian sendirinya seolah seolah-olah seorang sepanjang sepantasnya
|
||||
sepantasnyalah seperlunya seperti sepertinya sepihak sering seringnya serta
|
||||
serupa sesaat sesama sesampai sesegera sesekali seseorang sesuatu sesuatunya
|
||||
sesudah sesudahnya setelah setempat setengah seterusnya setiap setiba setibanya
|
||||
setidak-tidaknya setidaknya setinggi seusai sewaktu siap siapa siapakah
|
||||
siapapun sini sinilah soal soalnya suatu sudah sudahkah sudahlah supaya
|
||||
|
||||
tadi tadinya tahu tahun tak tambah tambahnya tampak tampaknya tandas tandasnya
|
||||
tanpa tanya tanyakan tanyanya tapi tegas tegasnya telah tempat tengah tentang
|
||||
tentu tentulah tentunya tepat terakhir terasa terbanyak terdahulu terdapat
|
||||
terdiri terhadap terhadapnya teringat teringat-ingat terjadi terjadilah
|
||||
terjadinya terkira terlalu terlebih terlihat termasuk ternyata tersampaikan
|
||||
tersebut tersebutlah tertentu tertuju terus terutama tetap tetapi tiap tiba
|
||||
tiba-tiba tidak tidakkah tidaklah tiga tinggi toh tunjuk turut tutur tuturnya
|
||||
|
||||
ucap ucapnya ujar ujarnya umum umumnya ungkap ungkapnya untuk usah usai
|
||||
|
||||
waduh wah wahai waktu waktunya walau walaupun wong
|
||||
|
||||
yaitu yakin yakni yang
|
||||
""".split()
|
||||
)
|
|
@ -1,9 +1,8 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class IcelandicDefaults(BaseDefaults):
|
||||
stop_words = STOP_WORDS
|
||||
pass
|
||||
|
||||
|
||||
class Icelandic(Language):
|
||||
|
|
|
@ -1,158 +0,0 @@
|
|||
# Source: https://github.com/Xangis/extra-stopwords
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
afhverju
|
||||
aftan
|
||||
aftur
|
||||
afþví
|
||||
aldrei
|
||||
allir
|
||||
allt
|
||||
alveg
|
||||
annað
|
||||
annars
|
||||
bara
|
||||
dag
|
||||
eða
|
||||
eftir
|
||||
eiga
|
||||
einhver
|
||||
einhverjir
|
||||
einhvers
|
||||
eins
|
||||
einu
|
||||
eitthvað
|
||||
ekkert
|
||||
ekki
|
||||
ennþá
|
||||
eru
|
||||
fara
|
||||
fer
|
||||
finna
|
||||
fjöldi
|
||||
fólk
|
||||
framan
|
||||
frá
|
||||
frekar
|
||||
fyrir
|
||||
gegnum
|
||||
geta
|
||||
getur
|
||||
gmg
|
||||
gott
|
||||
hann
|
||||
hafa
|
||||
hef
|
||||
hefur
|
||||
heyra
|
||||
hér
|
||||
hérna
|
||||
hjá
|
||||
hún
|
||||
hvað
|
||||
hvar
|
||||
hver
|
||||
hverjir
|
||||
hverjum
|
||||
hvernig
|
||||
hvor
|
||||
hvort
|
||||
hægt
|
||||
img
|
||||
inn
|
||||
kannski
|
||||
koma
|
||||
líka
|
||||
lol
|
||||
maður
|
||||
mátt
|
||||
mér
|
||||
með
|
||||
mega
|
||||
meira
|
||||
mig
|
||||
mikið
|
||||
minna
|
||||
minni
|
||||
missa
|
||||
mjög
|
||||
nei
|
||||
niður
|
||||
núna
|
||||
oft
|
||||
okkar
|
||||
okkur
|
||||
póst
|
||||
póstur
|
||||
rofl
|
||||
saman
|
||||
sem
|
||||
sér
|
||||
sig
|
||||
sinni
|
||||
síðan
|
||||
sjá
|
||||
smá
|
||||
smátt
|
||||
spurja
|
||||
spyrja
|
||||
staðar
|
||||
stórt
|
||||
svo
|
||||
svona
|
||||
sælir
|
||||
sæll
|
||||
taka
|
||||
takk
|
||||
til
|
||||
tilvitnun
|
||||
titlar
|
||||
upp
|
||||
var
|
||||
vel
|
||||
velkomin
|
||||
velkominn
|
||||
vera
|
||||
verður
|
||||
verið
|
||||
vel
|
||||
við
|
||||
vil
|
||||
vilja
|
||||
vill
|
||||
vita
|
||||
væri
|
||||
yfir
|
||||
ykkar
|
||||
það
|
||||
þakka
|
||||
þakkir
|
||||
þannig
|
||||
það
|
||||
þar
|
||||
þarf
|
||||
þau
|
||||
þeim
|
||||
þeir
|
||||
þeirra
|
||||
þeirra
|
||||
þegar
|
||||
þess
|
||||
þessa
|
||||
þessi
|
||||
þessu
|
||||
þessum
|
||||
þetta
|
||||
þér
|
||||
þið
|
||||
þinn
|
||||
þitt
|
||||
þín
|
||||
þráð
|
||||
þráður
|
||||
því
|
||||
þær
|
||||
ætti
|
||||
""".split()
|
||||
)
|
|
@ -1,7 +1,6 @@
|
|||
from typing import Optional, Callable
|
||||
from thinc.api import Model
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES
|
||||
from ...language import Language, BaseDefaults
|
||||
|
@ -13,7 +12,6 @@ class ItalianDefaults(BaseDefaults):
|
|||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||
prefixes = TOKENIZER_PREFIXES
|
||||
infixes = TOKENIZER_INFIXES
|
||||
stop_words = STOP_WORDS
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
|
||||
|
||||
|
|
|
@ -1,83 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl
|
||||
agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri
|
||||
altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai
|
||||
attesa attraverso avanti avemmo avendo avente aver avere averlo avesse
|
||||
avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate
|
||||
avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste
|
||||
avresti avrete avrà avrò avuta avute avuti avuto
|
||||
|
||||
basta bene benissimo brava bravo
|
||||
|
||||
casa caso cento certa certe certi certo che chi chicchessia chiunque ci c'
|
||||
ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto
|
||||
cogli coi col colei coll coloro colui come cominci comunque con concernente
|
||||
conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui
|
||||
|
||||
d' da dagl dagli dai dal dall dall' dalla dalle dallo dappertutto davanti degl degli
|
||||
dei del dell dell' della delle dello dentro detto deve di dice dietro dire
|
||||
dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due
|
||||
dunque durante
|
||||
|
||||
e ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era
|
||||
erano eravamo eravate eri ero esempio esse essendo esser essere essi ex è
|
||||
|
||||
fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero
|
||||
facessi facessimo faceste facesti faceva facevamo facevano facevate facevi
|
||||
facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo
|
||||
fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente
|
||||
finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra
|
||||
frattempo fu fui fummo fuori furono futuro generale
|
||||
|
||||
gia già giacche giorni giorno gli gl' gliela gliele glieli glielo gliene governo
|
||||
grande grazie gruppo
|
||||
|
||||
ha haha hai hanno ho
|
||||
|
||||
ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io
|
||||
|
||||
l' la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo
|
||||
|
||||
m' ma macche magari maggior mai male malgrado malissimo mancanza marche me
|
||||
medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi
|
||||
milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto
|
||||
|
||||
nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun nessun'
|
||||
nessuna nessuno nient' niente no noi non nondimeno nonostante nonsia nostra nostre
|
||||
nostri nostro novanta nove nulla nuovo
|
||||
|
||||
od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto
|
||||
|
||||
paese parecchi parecchie parecchio parte partendo peccato peggio per perche
|
||||
perché percio perciò perfino pero persino persone però piedi pieno piglia piu
|
||||
piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto
|
||||
potrebbe preferibilmente presa press prima primo principalmente probabilmente
|
||||
proprio puo può pure purtroppo
|
||||
|
||||
qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante
|
||||
quanti quanto quantunque quasi quattro quel quel' quella quelle quelli quello quest quest'
|
||||
questa queste questi questo qui quindi
|
||||
|
||||
realmente recente recentemente registrazione relativo riecco salvo
|
||||
|
||||
s' sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste
|
||||
saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei
|
||||
sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate
|
||||
siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando
|
||||
stanno starai staranno starebbe starebbero starei staremmo staremo stareste
|
||||
staresti starete starà starò stata state stati stato stava stavamo stavano
|
||||
stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso
|
||||
steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua
|
||||
subito successivamente successivo sue sugl sugli sui sul sull sulla sulle
|
||||
sullo suo suoi
|
||||
|
||||
t' tale tali talvolta tanto te tempo ti titolo tra tranne tre trenta
|
||||
troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto
|
||||
|
||||
uguali ulteriore ultimo un un' una uno uomo
|
||||
|
||||
v' va vale vari varia varie vario verso vi via vicino visto vita voi volta volte
|
||||
vostra vostre vostri vostro
|
||||
""".split()
|
||||
)
|
|
@ -5,7 +5,6 @@ from collections import namedtuple
|
|||
from thinc.api import Model
|
||||
import re
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
from .syntax_iterators import SYNTAX_ITERATORS
|
||||
from .tag_map import TAG_MAP
|
||||
from .tag_orth_map import TAG_ORTH_MAP
|
||||
|
@ -184,7 +183,6 @@ class JapaneseTokenizer(DummyTokenizer):
|
|||
|
||||
class JapaneseDefaults(BaseDefaults):
|
||||
config = load_config_from_str(DEFAULT_CONFIG)
|
||||
stop_words = STOP_WORDS
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
writing_system = {"direction": "ltr", "has_case": False, "has_letters": False}
|
||||
|
||||
|
|
|
@ -1,48 +0,0 @@
|
|||
# This list was created by taking the top 2000 words from a Wikipedia dump and
|
||||
# filtering out everything that wasn't hiragana. ー (one) was also added.
|
||||
# Considered keeping some non-hiragana words but too many place names were
|
||||
# present.
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
あ あっ あまり あり ある あるいは あれ
|
||||
い いい いう いく いずれ いっ いつ いる いわ
|
||||
うち
|
||||
え
|
||||
お おい おけ および おら おり
|
||||
か かけ かつ かつて かなり から が
|
||||
き きっかけ
|
||||
くる くん
|
||||
こ こう ここ こと この これ ご ごと
|
||||
さ さらに さん
|
||||
し しか しかし しまう しまっ しよう
|
||||
す すぐ すべて する ず
|
||||
せ せい せる
|
||||
そう そこ そして その それ それぞれ
|
||||
た たい ただし たち ため たら たり だ だけ だっ
|
||||
ち ちゃん
|
||||
つ つい つけ つつ
|
||||
て で でき できる です
|
||||
と とき ところ とっ とも どう
|
||||
な ない なお なかっ ながら なく なけれ なし なっ など なら なり なる
|
||||
に にて
|
||||
ぬ
|
||||
ね
|
||||
の のち のみ
|
||||
は はじめ ば
|
||||
ひと
|
||||
ぶり
|
||||
へ べき
|
||||
ほか ほとんど ほど ほぼ
|
||||
ま ます また まで まま
|
||||
み
|
||||
も もう もっ もと もの
|
||||
や やっ
|
||||
よ よう よく よっ より よる よれ
|
||||
ら らしい られ られる
|
||||
る
|
||||
れ れる
|
||||
を
|
||||
ん
|
||||
一
|
||||
""".split()
|
||||
)
|
|
@ -1,9 +1,8 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class KannadaDefaults(BaseDefaults):
|
||||
stop_words = STOP_WORDS
|
||||
pass
|
||||
|
||||
|
||||
class Kannada(Language):
|
||||
|
|
|
@ -1,86 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
ಹಲವು
|
||||
ಮೂಲಕ
|
||||
ಹಾಗೂ
|
||||
ಅದು
|
||||
ನೀಡಿದ್ದಾರೆ
|
||||
ಯಾವ
|
||||
ಎಂದರು
|
||||
ಅವರು
|
||||
ಈಗ
|
||||
ಎಂಬ
|
||||
ಹಾಗಾಗಿ
|
||||
ಅಷ್ಟೇ
|
||||
ನಾವು
|
||||
ಇದೇ
|
||||
ಹೇಳಿ
|
||||
ತಮ್ಮ
|
||||
ಹೀಗೆ
|
||||
ನಮ್ಮ
|
||||
ಬೇರೆ
|
||||
ನೀಡಿದರು
|
||||
ಮತ್ತೆ
|
||||
ಇದು
|
||||
ಈ
|
||||
ನೀವು
|
||||
ನಾನು
|
||||
ಇತ್ತು
|
||||
ಎಲ್ಲಾ
|
||||
ಯಾವುದೇ
|
||||
ನಡೆದ
|
||||
ಅದನ್ನು
|
||||
ಎಂದರೆ
|
||||
ನೀಡಿದೆ
|
||||
ಹೀಗಾಗಿ
|
||||
ಜೊತೆಗೆ
|
||||
ಇದರಿಂದ
|
||||
ನನಗೆ
|
||||
ಅಲ್ಲದೆ
|
||||
ಎಷ್ಟು
|
||||
ಇದರ
|
||||
ಇಲ್ಲ
|
||||
ಕಳೆದ
|
||||
ತುಂಬಾ
|
||||
ಈಗಾಗಲೇ
|
||||
ಮಾಡಿ
|
||||
ಅದಕ್ಕೆ
|
||||
ಬಗ್ಗೆ
|
||||
ಅವರ
|
||||
ಇದನ್ನು
|
||||
ಆ
|
||||
ಇದೆ
|
||||
ಹೆಚ್ಚು
|
||||
ಇನ್ನು
|
||||
ಎಲ್ಲ
|
||||
ಇರುವ
|
||||
ಅವರಿಗೆ
|
||||
ನಿಮ್ಮ
|
||||
ಏನು
|
||||
ಕೂಡ
|
||||
ಇಲ್ಲಿ
|
||||
ನನ್ನನ್ನು
|
||||
ಕೆಲವು
|
||||
ಮಾತ್ರ
|
||||
ಬಳಿಕ
|
||||
ಅಂತ
|
||||
ತನ್ನ
|
||||
ಆಗ
|
||||
ಅಥವಾ
|
||||
ಅಲ್ಲ
|
||||
ಕೇವಲ
|
||||
ಆದರೆ
|
||||
ಮತ್ತು
|
||||
ಇನ್ನೂ
|
||||
ಅದೇ
|
||||
ಆಗಿ
|
||||
ಅವರನ್ನು
|
||||
ಹೇಳಿದ್ದಾರೆ
|
||||
ನಡೆದಿದೆ
|
||||
ಇದಕ್ಕೆ
|
||||
ಎಂಬುದು
|
||||
ಎಂದು
|
||||
ನನ್ನ
|
||||
ಮೇಲೆ
|
||||
""".split()
|
||||
)
|
|
@ -1,7 +1,6 @@
|
|||
from typing import Iterator, Any, Dict
|
||||
|
||||
from .punctuation import TOKENIZER_INFIXES
|
||||
from .stop_words import STOP_WORDS
|
||||
from .tag_map import TAG_MAP
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
@ -87,7 +86,6 @@ class KoreanTokenizer(DummyTokenizer):
|
|||
class KoreanDefaults(BaseDefaults):
|
||||
config = load_config_from_str(DEFAULT_CONFIG)
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
writing_system = {"direction": "ltr", "has_case": False, "has_letters": False}
|
||||
infixes = TOKENIZER_INFIXES
|
||||
|
||||
|
|
|
@ -1,67 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
이
|
||||
있
|
||||
하
|
||||
것
|
||||
들
|
||||
그
|
||||
되
|
||||
수
|
||||
이
|
||||
보
|
||||
않
|
||||
없
|
||||
나
|
||||
주
|
||||
아니
|
||||
등
|
||||
같
|
||||
때
|
||||
년
|
||||
가
|
||||
한
|
||||
지
|
||||
오
|
||||
말
|
||||
일
|
||||
그렇
|
||||
위하
|
||||
때문
|
||||
그것
|
||||
두
|
||||
말하
|
||||
알
|
||||
그러나
|
||||
받
|
||||
못하
|
||||
일
|
||||
그런
|
||||
또
|
||||
더
|
||||
많
|
||||
그리고
|
||||
좋
|
||||
크
|
||||
시키
|
||||
그러
|
||||
하나
|
||||
살
|
||||
데
|
||||
안
|
||||
어떤
|
||||
번
|
||||
나
|
||||
다른
|
||||
어떻
|
||||
들
|
||||
이렇
|
||||
점
|
||||
싶
|
||||
말
|
||||
좀
|
||||
원
|
||||
잘
|
||||
놓
|
||||
""".split()
|
||||
)
|
|
@ -1,6 +1,5 @@
|
|||
from .lex_attrs import LEX_ATTRS
|
||||
from .punctuation import TOKENIZER_INFIXES
|
||||
from .stop_words import STOP_WORDS
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
@ -9,7 +8,6 @@ class KyrgyzDefaults(BaseDefaults):
|
|||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||
infixes = TOKENIZER_INFIXES
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Kyrgyz(Language):
|
||||
|
|
|
@ -1,42 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
ага адам айтты айтымында айтып ал алар
|
||||
алардын алган алуу алып анда андан аны
|
||||
анын ар
|
||||
|
||||
бар басма баш башка башкы башчысы берген
|
||||
биз билдирген билдирди бир биринчи бирок
|
||||
бишкек болгон болот болсо болуп боюнча
|
||||
буга бул
|
||||
|
||||
гана
|
||||
|
||||
да дагы деген деди деп
|
||||
|
||||
жана жатат жаткан жаңы же жогорку жок жол
|
||||
жолу
|
||||
|
||||
кабыл калган кандай карата каршы катары
|
||||
келген керек кийин кол кылмыш кыргыз
|
||||
күнү көп
|
||||
|
||||
маалымат мамлекеттик мен менен миң
|
||||
мурдагы мыйзам мындай мүмкүн
|
||||
|
||||
ошол ошондой
|
||||
|
||||
сүрөт сөз
|
||||
|
||||
тарабынан турган тууралуу
|
||||
|
||||
укук учурда
|
||||
|
||||
чейин чек
|
||||
|
||||
экенин эки эл эле эмес эми эч
|
||||
|
||||
үч үчүн
|
||||
|
||||
өз
|
||||
""".split()
|
||||
)
|
|
@ -1,7 +1,6 @@
|
|||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .punctuation import TOKENIZER_INFIXES
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
|
@ -9,7 +8,6 @@ class LuxembourgishDefaults(BaseDefaults):
|
|||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||
infixes = TOKENIZER_INFIXES
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Luxembourgish(Language):
|
||||
|
|
|
@ -1,211 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
a
|
||||
à
|
||||
äis
|
||||
är
|
||||
ärt
|
||||
äert
|
||||
ären
|
||||
all
|
||||
allem
|
||||
alles
|
||||
alleguer
|
||||
als
|
||||
also
|
||||
am
|
||||
an
|
||||
anerefalls
|
||||
ass
|
||||
aus
|
||||
awer
|
||||
bei
|
||||
beim
|
||||
bis
|
||||
bis
|
||||
d'
|
||||
dach
|
||||
datt
|
||||
däin
|
||||
där
|
||||
dat
|
||||
de
|
||||
dee
|
||||
den
|
||||
deel
|
||||
deem
|
||||
deen
|
||||
deene
|
||||
déi
|
||||
den
|
||||
deng
|
||||
denger
|
||||
dem
|
||||
der
|
||||
dësem
|
||||
di
|
||||
dir
|
||||
do
|
||||
da
|
||||
dann
|
||||
domat
|
||||
dozou
|
||||
drop
|
||||
du
|
||||
duerch
|
||||
duerno
|
||||
e
|
||||
ee
|
||||
em
|
||||
een
|
||||
eent
|
||||
ë
|
||||
en
|
||||
ënner
|
||||
ëm
|
||||
ech
|
||||
eis
|
||||
eise
|
||||
eisen
|
||||
eiser
|
||||
eises
|
||||
eisereen
|
||||
esou
|
||||
een
|
||||
eng
|
||||
enger
|
||||
engem
|
||||
entweder
|
||||
et
|
||||
eréischt
|
||||
falls
|
||||
fir
|
||||
géint
|
||||
géif
|
||||
gëtt
|
||||
gët
|
||||
geet
|
||||
gi
|
||||
ginn
|
||||
gouf
|
||||
gouff
|
||||
goung
|
||||
hat
|
||||
haten
|
||||
hatt
|
||||
hätt
|
||||
hei
|
||||
hu
|
||||
huet
|
||||
hun
|
||||
hunn
|
||||
hiren
|
||||
hien
|
||||
hin
|
||||
hier
|
||||
hir
|
||||
jidderen
|
||||
jiddereen
|
||||
jiddwereen
|
||||
jiddereng
|
||||
jiddwerengen
|
||||
jo
|
||||
ins
|
||||
iech
|
||||
iwwer
|
||||
kann
|
||||
kee
|
||||
keen
|
||||
kënne
|
||||
kënnt
|
||||
kéng
|
||||
kéngen
|
||||
kéngem
|
||||
koum
|
||||
kuckt
|
||||
mam
|
||||
mat
|
||||
ma
|
||||
mä
|
||||
mech
|
||||
méi
|
||||
mécht
|
||||
meng
|
||||
menger
|
||||
mer
|
||||
mir
|
||||
muss
|
||||
nach
|
||||
nämmlech
|
||||
nämmelech
|
||||
näischt
|
||||
nawell
|
||||
nëmme
|
||||
nëmmen
|
||||
net
|
||||
nees
|
||||
nee
|
||||
no
|
||||
nu
|
||||
nom
|
||||
och
|
||||
oder
|
||||
ons
|
||||
onsen
|
||||
onser
|
||||
onsereen
|
||||
onst
|
||||
om
|
||||
op
|
||||
ouni
|
||||
säi
|
||||
säin
|
||||
schonn
|
||||
schonns
|
||||
si
|
||||
sid
|
||||
sie
|
||||
se
|
||||
sech
|
||||
seng
|
||||
senge
|
||||
sengem
|
||||
senger
|
||||
selwecht
|
||||
selwer
|
||||
sinn
|
||||
sollten
|
||||
souguer
|
||||
sou
|
||||
soss
|
||||
sot
|
||||
't
|
||||
tëscht
|
||||
u
|
||||
un
|
||||
um
|
||||
virdrun
|
||||
vu
|
||||
vum
|
||||
vun
|
||||
wann
|
||||
war
|
||||
waren
|
||||
was
|
||||
wat
|
||||
wëllt
|
||||
weider
|
||||
wéi
|
||||
wéini
|
||||
wéinst
|
||||
wi
|
||||
wollt
|
||||
wou
|
||||
wouhin
|
||||
zanter
|
||||
ze
|
||||
zu
|
||||
zum
|
||||
zwar
|
||||
""".split()
|
||||
)
|
|
@ -1,4 +1,3 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .punctuation import TOKENIZER_INFIXES
|
||||
from ...language import Language, BaseDefaults
|
||||
|
@ -7,7 +6,6 @@ from ...language import Language, BaseDefaults
|
|||
class LigurianDefaults(BaseDefaults):
|
||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||
infixes = TOKENIZER_INFIXES
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Ligurian(Language):
|
||||
|
|
|
@ -1,39 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
a à â a-a a-e a-i a-o aiva aloa an ancheu ancon apreuvo ascì atra atre atri atro avanti avei
|
||||
|
||||
bella belle belli bello ben
|
||||
|
||||
ch' che chì chi ciù co-a co-e co-i co-o comm' comme con cösa coscì cöse
|
||||
|
||||
d' da da-a da-e da-i da-o dapeu de delongo derê di do doe doî donde dòppo
|
||||
|
||||
é e ê ea ean emmo en ëse
|
||||
|
||||
fin fiña
|
||||
|
||||
gh' ghe guæei
|
||||
|
||||
i î in insemme int' inta inte inti into
|
||||
|
||||
l' lê lì lô
|
||||
|
||||
m' ma manco me megio meno mezo mi
|
||||
|
||||
na n' ne ni ninte nisciun nisciuña no
|
||||
|
||||
o ò ô oua
|
||||
|
||||
parte pe pe-a pe-i pe-e pe-o perché pittin pö primma pròpio
|
||||
|
||||
quæ quand' quande quarche quella quelle quelli quello
|
||||
|
||||
s' sce scê sci sciâ sciô sciù se segge seu sò solo son sott' sta stæta stæte stæti stæto ste sti sto
|
||||
|
||||
tanta tante tanti tanto te ti torna tra tròppo tutta tutte tutti tutto
|
||||
|
||||
un uña unn' unna
|
||||
|
||||
za zu
|
||||
""".split()
|
||||
)
|
|
@ -1,6 +1,5 @@
|
|||
from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
@ -9,7 +8,6 @@ class LithuanianDefaults(BaseDefaults):
|
|||
infixes = TOKENIZER_INFIXES
|
||||
suffixes = TOKENIZER_SUFFIXES
|
||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||
stop_words = STOP_WORDS
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
|
||||
|
||||
|
|
File diff suppressed because it is too large
Load Diff
|
@ -1,9 +1,8 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class LatvianDefaults(BaseDefaults):
|
||||
stop_words = STOP_WORDS
|
||||
pass
|
||||
|
||||
|
||||
class Latvian(Language):
|
||||
|
|
|
@ -1,167 +0,0 @@
|
|||
# Source: https://github.com/stopwords-iso/stopwords-lv
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
aiz
|
||||
ap
|
||||
apakš
|
||||
apakšpus
|
||||
ar
|
||||
arī
|
||||
augšpus
|
||||
bet
|
||||
bez
|
||||
bija
|
||||
biji
|
||||
biju
|
||||
bijām
|
||||
bijāt
|
||||
būs
|
||||
būsi
|
||||
būsiet
|
||||
būsim
|
||||
būt
|
||||
būšu
|
||||
caur
|
||||
diemžēl
|
||||
diezin
|
||||
droši
|
||||
dēļ
|
||||
esam
|
||||
esat
|
||||
esi
|
||||
esmu
|
||||
gan
|
||||
gar
|
||||
iekam
|
||||
iekams
|
||||
iekām
|
||||
iekāms
|
||||
iekš
|
||||
iekšpus
|
||||
ik
|
||||
ir
|
||||
it
|
||||
itin
|
||||
iz
|
||||
ja
|
||||
jau
|
||||
jeb
|
||||
jebšu
|
||||
jel
|
||||
jo
|
||||
jā
|
||||
ka
|
||||
kamēr
|
||||
kaut
|
||||
kolīdz
|
||||
kopš
|
||||
kā
|
||||
kļuva
|
||||
kļuvi
|
||||
kļuvu
|
||||
kļuvām
|
||||
kļuvāt
|
||||
kļūs
|
||||
kļūsi
|
||||
kļūsiet
|
||||
kļūsim
|
||||
kļūst
|
||||
kļūstam
|
||||
kļūstat
|
||||
kļūsti
|
||||
kļūstu
|
||||
kļūt
|
||||
kļūšu
|
||||
labad
|
||||
lai
|
||||
lejpus
|
||||
līdz
|
||||
līdzko
|
||||
ne
|
||||
nebūt
|
||||
nedz
|
||||
nekā
|
||||
nevis
|
||||
nezin
|
||||
no
|
||||
nu
|
||||
nē
|
||||
otrpus
|
||||
pa
|
||||
par
|
||||
pat
|
||||
pie
|
||||
pirms
|
||||
pret
|
||||
priekš
|
||||
pār
|
||||
pēc
|
||||
starp
|
||||
tad
|
||||
tak
|
||||
tapi
|
||||
taps
|
||||
tapsi
|
||||
tapsiet
|
||||
tapsim
|
||||
tapt
|
||||
tapāt
|
||||
tapšu
|
||||
taču
|
||||
te
|
||||
tiec
|
||||
tiek
|
||||
tiekam
|
||||
tiekat
|
||||
tieku
|
||||
tik
|
||||
tika
|
||||
tikai
|
||||
tiki
|
||||
tikko
|
||||
tiklab
|
||||
tiklīdz
|
||||
tiks
|
||||
tiksiet
|
||||
tiksim
|
||||
tikt
|
||||
tiku
|
||||
tikvien
|
||||
tikām
|
||||
tikāt
|
||||
tikšu
|
||||
tomēr
|
||||
topat
|
||||
turpretim
|
||||
turpretī
|
||||
tā
|
||||
tādēļ
|
||||
tālab
|
||||
tāpēc
|
||||
un
|
||||
uz
|
||||
vai
|
||||
var
|
||||
varat
|
||||
varēja
|
||||
varēji
|
||||
varēju
|
||||
varējām
|
||||
varējāt
|
||||
varēs
|
||||
varēsi
|
||||
varēsiet
|
||||
varēsim
|
||||
varēt
|
||||
varēšu
|
||||
vien
|
||||
virs
|
||||
virspus
|
||||
vis
|
||||
viņpus
|
||||
zem
|
||||
ārpus
|
||||
šaipus
|
||||
""".split()
|
||||
)
|
|
@ -1,7 +1,6 @@
|
|||
from typing import Optional, Callable
|
||||
from thinc.api import Model
|
||||
from .lemmatizer import MacedonianLemmatizer
|
||||
from .stop_words import STOP_WORDS
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from ..tokenizer_exceptions import BASE_EXCEPTIONS
|
||||
|
@ -21,7 +20,6 @@ class MacedonianDefaults(BaseDefaults):
|
|||
|
||||
# Merge base exceptions and custom tokenizer exceptions
|
||||
tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
@classmethod
|
||||
def create_lemmatizer(cls, nlp=None, lookups=None):
|
||||
|
|
|
@ -1,815 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
а
|
||||
абре
|
||||
aв
|
||||
аи
|
||||
ако
|
||||
алало
|
||||
ам
|
||||
ама
|
||||
аман
|
||||
ами
|
||||
амин
|
||||
априли-ли-ли
|
||||
ау
|
||||
аух
|
||||
ауч
|
||||
ах
|
||||
аха
|
||||
аха-ха
|
||||
аш
|
||||
ашколсум
|
||||
ашколсун
|
||||
ај
|
||||
ајде
|
||||
ајс
|
||||
аџаба
|
||||
бавно
|
||||
бам
|
||||
бам-бум
|
||||
бап
|
||||
бар
|
||||
баре
|
||||
барем
|
||||
бау
|
||||
бау-бау
|
||||
баш
|
||||
бај
|
||||
бе
|
||||
беа
|
||||
бев
|
||||
бевме
|
||||
бевте
|
||||
без
|
||||
безбели
|
||||
бездруго
|
||||
белки
|
||||
беше
|
||||
би
|
||||
бидејќи
|
||||
бим
|
||||
бис
|
||||
бла
|
||||
блазе
|
||||
богами
|
||||
божем
|
||||
боц
|
||||
браво
|
||||
бравос
|
||||
бре
|
||||
бреј
|
||||
брзо
|
||||
бришка
|
||||
бррр
|
||||
бу
|
||||
бум
|
||||
буф
|
||||
буц
|
||||
бујрум
|
||||
ваа
|
||||
вам
|
||||
варај
|
||||
варда
|
||||
вас
|
||||
вај
|
||||
ве
|
||||
велат
|
||||
вели
|
||||
версус
|
||||
веќе
|
||||
ви
|
||||
виа
|
||||
види
|
||||
вие
|
||||
вистина
|
||||
витос
|
||||
внатре
|
||||
во
|
||||
воз
|
||||
вон
|
||||
впрочем
|
||||
врв
|
||||
вред
|
||||
време
|
||||
врз
|
||||
всушност
|
||||
втор
|
||||
галиба
|
||||
ги
|
||||
гитла
|
||||
го
|
||||
годе
|
||||
годишник
|
||||
горе
|
||||
гра
|
||||
гуц
|
||||
гљу
|
||||
да
|
||||
даан
|
||||
дава
|
||||
дал
|
||||
дали
|
||||
дан
|
||||
два
|
||||
дваесет
|
||||
дванаесет
|
||||
двајца
|
||||
две
|
||||
двесте
|
||||
движам
|
||||
движат
|
||||
движи
|
||||
движиме
|
||||
движите
|
||||
движиш
|
||||
де
|
||||
деведесет
|
||||
девет
|
||||
деветнаесет
|
||||
деветстотини
|
||||
деветти
|
||||
дека
|
||||
дел
|
||||
делми
|
||||
демек
|
||||
десет
|
||||
десетина
|
||||
десетти
|
||||
деситици
|
||||
дејгиди
|
||||
дејди
|
||||
ди
|
||||
дилми
|
||||
дин
|
||||
дип
|
||||
дно
|
||||
до
|
||||
доволно
|
||||
додека
|
||||
додуша
|
||||
докај
|
||||
доколку
|
||||
доправено
|
||||
доправи
|
||||
досамоти
|
||||
доста
|
||||
држи
|
||||
дрн
|
||||
друг
|
||||
друга
|
||||
другата
|
||||
други
|
||||
другиот
|
||||
другите
|
||||
друго
|
||||
другото
|
||||
дум
|
||||
дур
|
||||
дури
|
||||
е
|
||||
евала
|
||||
еве
|
||||
евет
|
||||
ега
|
||||
егиди
|
||||
еден
|
||||
едикојси
|
||||
единаесет
|
||||
единствено
|
||||
еднаш
|
||||
едно
|
||||
ексик
|
||||
ела
|
||||
елбете
|
||||
елем
|
||||
ели
|
||||
ем
|
||||
еми
|
||||
ене
|
||||
ете
|
||||
еурека
|
||||
ех
|
||||
еј
|
||||
жими
|
||||
жити
|
||||
за
|
||||
завал
|
||||
заврши
|
||||
зад
|
||||
задека
|
||||
задоволна
|
||||
задржи
|
||||
заедно
|
||||
зар
|
||||
зарад
|
||||
заради
|
||||
заре
|
||||
зарем
|
||||
затоа
|
||||
зашто
|
||||
згора
|
||||
зема
|
||||
земе
|
||||
земува
|
||||
зер
|
||||
значи
|
||||
зошто
|
||||
зуј
|
||||
и
|
||||
иако
|
||||
из
|
||||
извезен
|
||||
изгледа
|
||||
измеѓу
|
||||
износ
|
||||
или
|
||||
или-или
|
||||
илјада
|
||||
илјади
|
||||
им
|
||||
има
|
||||
имаа
|
||||
имаат
|
||||
имавме
|
||||
имавте
|
||||
имам
|
||||
имаме
|
||||
имате
|
||||
имаш
|
||||
имаше
|
||||
име
|
||||
имено
|
||||
именува
|
||||
имплицира
|
||||
имплицираат
|
||||
имплицирам
|
||||
имплицираме
|
||||
имплицирате
|
||||
имплицираш
|
||||
инаку
|
||||
индицира
|
||||
исечок
|
||||
исклучен
|
||||
исклучена
|
||||
исклучени
|
||||
исклучено
|
||||
искористен
|
||||
искористена
|
||||
искористени
|
||||
искористено
|
||||
искористи
|
||||
искрај
|
||||
исти
|
||||
исто
|
||||
итака
|
||||
итн
|
||||
их
|
||||
иха
|
||||
ихуу
|
||||
иш
|
||||
ишала
|
||||
иј
|
||||
ка
|
||||
каде
|
||||
кажува
|
||||
како
|
||||
каков
|
||||
камоли
|
||||
кај
|
||||
ква
|
||||
ки
|
||||
кит
|
||||
кло
|
||||
клум
|
||||
кога
|
||||
кого
|
||||
кого-годе
|
||||
кое
|
||||
кои
|
||||
количество
|
||||
количина
|
||||
колку
|
||||
кому
|
||||
кон
|
||||
користена
|
||||
користени
|
||||
користено
|
||||
користи
|
||||
кот
|
||||
котрр
|
||||
кош-кош
|
||||
кој
|
||||
која
|
||||
којзнае
|
||||
којшто
|
||||
кр-кр-кр
|
||||
крај
|
||||
крек
|
||||
крз
|
||||
крк
|
||||
крц
|
||||
куку
|
||||
кукуригу
|
||||
куш
|
||||
ле
|
||||
лебами
|
||||
леле
|
||||
лели
|
||||
ли
|
||||
лиду
|
||||
луп
|
||||
ма
|
||||
макар
|
||||
малку
|
||||
марш
|
||||
мат
|
||||
мац
|
||||
машала
|
||||
ме
|
||||
мене
|
||||
место
|
||||
меѓу
|
||||
меѓувреме
|
||||
меѓутоа
|
||||
ми
|
||||
мое
|
||||
може
|
||||
можеби
|
||||
молам
|
||||
моли
|
||||
мор
|
||||
мора
|
||||
море
|
||||
мори
|
||||
мразец
|
||||
му
|
||||
муклец
|
||||
мутлак
|
||||
муц
|
||||
мјау
|
||||
на
|
||||
навидум
|
||||
навистина
|
||||
над
|
||||
надвор
|
||||
назад
|
||||
накај
|
||||
накрај
|
||||
нали
|
||||
нам
|
||||
наместо
|
||||
наоколу
|
||||
направено
|
||||
направи
|
||||
напред
|
||||
нас
|
||||
наспоред
|
||||
наспрема
|
||||
наспроти
|
||||
насред
|
||||
натаму
|
||||
натема
|
||||
начин
|
||||
наш
|
||||
наша
|
||||
наше
|
||||
наши
|
||||
нај
|
||||
најдоцна
|
||||
најмалку
|
||||
најмногу
|
||||
не
|
||||
неа
|
||||
него
|
||||
негов
|
||||
негова
|
||||
негови
|
||||
негово
|
||||
незе
|
||||
нека
|
||||
некаде
|
||||
некако
|
||||
некаков
|
||||
некого
|
||||
некое
|
||||
некои
|
||||
неколку
|
||||
некому
|
||||
некој
|
||||
некојси
|
||||
нели
|
||||
немој
|
||||
нему
|
||||
неоти
|
||||
нечиј
|
||||
нешто
|
||||
нејзе
|
||||
нејзин
|
||||
нејзини
|
||||
нејзино
|
||||
нејсе
|
||||
ни
|
||||
нив
|
||||
нивен
|
||||
нивна
|
||||
нивни
|
||||
нивно
|
||||
ние
|
||||
низ
|
||||
никаде
|
||||
никако
|
||||
никогаш
|
||||
никого
|
||||
никому
|
||||
никој
|
||||
ним
|
||||
нити
|
||||
нито
|
||||
ниту
|
||||
ничиј
|
||||
ништо
|
||||
но
|
||||
нѐ
|
||||
о
|
||||
обр
|
||||
ова
|
||||
ова-она
|
||||
оваа
|
||||
овај
|
||||
овде
|
||||
овега
|
||||
овие
|
||||
овој
|
||||
од
|
||||
одавде
|
||||
оди
|
||||
однесува
|
||||
односно
|
||||
одошто
|
||||
околу
|
||||
олеле
|
||||
олкацок
|
||||
он
|
||||
она
|
||||
онаа
|
||||
онака
|
||||
онаков
|
||||
онде
|
||||
они
|
||||
оние
|
||||
оно
|
||||
оној
|
||||
оп
|
||||
освем
|
||||
освен
|
||||
осем
|
||||
осми
|
||||
осум
|
||||
осумдесет
|
||||
осумнаесет
|
||||
осумстотитни
|
||||
отаде
|
||||
оти
|
||||
откако
|
||||
откај
|
||||
откога
|
||||
отколку
|
||||
оттаму
|
||||
оттука
|
||||
оф
|
||||
ох
|
||||
ој
|
||||
па
|
||||
пак
|
||||
папа
|
||||
пардон
|
||||
пате-ќуте
|
||||
пати
|
||||
пау
|
||||
паче
|
||||
пеесет
|
||||
пеки
|
||||
пет
|
||||
петнаесет
|
||||
петстотини
|
||||
петти
|
||||
пи
|
||||
пи-пи
|
||||
пис
|
||||
плас
|
||||
плус
|
||||
по
|
||||
побавно
|
||||
поблиску
|
||||
побрзо
|
||||
побуни
|
||||
повеќе
|
||||
повторно
|
||||
под
|
||||
подалеку
|
||||
подолу
|
||||
подоцна
|
||||
подруго
|
||||
позади
|
||||
поинаква
|
||||
поинакви
|
||||
поинакво
|
||||
поинаков
|
||||
поинаку
|
||||
покаже
|
||||
покажува
|
||||
покрај
|
||||
полно
|
||||
помалку
|
||||
помеѓу
|
||||
понатаму
|
||||
понекогаш
|
||||
понекој
|
||||
поради
|
||||
поразличен
|
||||
поразлична
|
||||
поразлични
|
||||
поразлично
|
||||
поседува
|
||||
после
|
||||
последен
|
||||
последна
|
||||
последни
|
||||
последно
|
||||
поспоро
|
||||
потег
|
||||
потоа
|
||||
пошироко
|
||||
прави
|
||||
празно
|
||||
прв
|
||||
пред
|
||||
през
|
||||
преку
|
||||
претежно
|
||||
претходен
|
||||
претходна
|
||||
претходни
|
||||
претходник
|
||||
претходно
|
||||
при
|
||||
присвои
|
||||
притоа
|
||||
причинува
|
||||
пријатно
|
||||
просто
|
||||
против
|
||||
прр
|
||||
пст
|
||||
пук
|
||||
пусто
|
||||
пуф
|
||||
пуј
|
||||
пфуј
|
||||
пшт
|
||||
ради
|
||||
различен
|
||||
различна
|
||||
различни
|
||||
различно
|
||||
разни
|
||||
разоружен
|
||||
разредлив
|
||||
рамките
|
||||
рамнообразно
|
||||
растревожено
|
||||
растреперено
|
||||
расчувствувано
|
||||
ратоборно
|
||||
рече
|
||||
роден
|
||||
с
|
||||
сакан
|
||||
сам
|
||||
сама
|
||||
сами
|
||||
самите
|
||||
само
|
||||
самоти
|
||||
свое
|
||||
свои
|
||||
свој
|
||||
своја
|
||||
се
|
||||
себе
|
||||
себеси
|
||||
сега
|
||||
седми
|
||||
седум
|
||||
седумдесет
|
||||
седумнаесет
|
||||
седумстотини
|
||||
секаде
|
||||
секаков
|
||||
секи
|
||||
секогаш
|
||||
секого
|
||||
секому
|
||||
секој
|
||||
секојдневно
|
||||
сем
|
||||
сенешто
|
||||
сепак
|
||||
сериозен
|
||||
сериозна
|
||||
сериозни
|
||||
сериозно
|
||||
сет
|
||||
сечиј
|
||||
сешто
|
||||
си
|
||||
сиктер
|
||||
сиот
|
||||
сип
|
||||
сиреч
|
||||
сите
|
||||
сичко
|
||||
скок
|
||||
скоро
|
||||
скрц
|
||||
следбеник
|
||||
следбеничка
|
||||
следен
|
||||
следователно
|
||||
следствено
|
||||
сме
|
||||
со
|
||||
соне
|
||||
сопствен
|
||||
сопствена
|
||||
сопствени
|
||||
сопствено
|
||||
сосе
|
||||
сосем
|
||||
сполај
|
||||
според
|
||||
споро
|
||||
спрема
|
||||
спроти
|
||||
спротив
|
||||
сред
|
||||
среде
|
||||
среќно
|
||||
срочен
|
||||
сст
|
||||
става
|
||||
ставаат
|
||||
ставам
|
||||
ставаме
|
||||
ставате
|
||||
ставаш
|
||||
стави
|
||||
сте
|
||||
сто
|
||||
стоп
|
||||
страна
|
||||
сум
|
||||
сума
|
||||
супер
|
||||
сус
|
||||
сѐ
|
||||
та
|
||||
таа
|
||||
така
|
||||
таква
|
||||
такви
|
||||
таков
|
||||
тамам
|
||||
таму
|
||||
тангар-мангар
|
||||
тандар-мандар
|
||||
тап
|
||||
твое
|
||||
те
|
||||
тебе
|
||||
тебека
|
||||
тек
|
||||
текот
|
||||
ти
|
||||
тие
|
||||
тизе
|
||||
тик-так
|
||||
тики
|
||||
тоа
|
||||
тогаш
|
||||
тој
|
||||
трак
|
||||
трака-трука
|
||||
трас
|
||||
треба
|
||||
трет
|
||||
три
|
||||
триесет
|
||||
тринаест
|
||||
триста
|
||||
труп
|
||||
трупа
|
||||
трус
|
||||
ту
|
||||
тука
|
||||
туку
|
||||
тукушто
|
||||
туф
|
||||
у
|
||||
уа
|
||||
убаво
|
||||
уви
|
||||
ужасно
|
||||
уз
|
||||
ура
|
||||
уу
|
||||
уф
|
||||
уха
|
||||
уш
|
||||
уште
|
||||
фазен
|
||||
фала
|
||||
фил
|
||||
филан
|
||||
фис
|
||||
фиу
|
||||
фиљан
|
||||
фоб
|
||||
фон
|
||||
ха
|
||||
ха-ха
|
||||
хе
|
||||
хеј
|
||||
хеј
|
||||
хи
|
||||
хм
|
||||
хо
|
||||
цак
|
||||
цап
|
||||
целина
|
||||
цело
|
||||
цигу-лигу
|
||||
циц
|
||||
чекај
|
||||
често
|
||||
четврт
|
||||
четири
|
||||
четириесет
|
||||
четиринаесет
|
||||
четирстотини
|
||||
чие
|
||||
чии
|
||||
чик
|
||||
чик-чирик
|
||||
чини
|
||||
чиш
|
||||
чиј
|
||||
чија
|
||||
чијшто
|
||||
чкрап
|
||||
чому
|
||||
чук
|
||||
чукш
|
||||
чуму
|
||||
чунки
|
||||
шеесет
|
||||
шеснаесет
|
||||
шест
|
||||
шести
|
||||
шестотини
|
||||
ширум
|
||||
шлак
|
||||
шлап
|
||||
шлапа-шлупа
|
||||
шлуп
|
||||
шмрк
|
||||
што
|
||||
штогоде
|
||||
штом
|
||||
штотуку
|
||||
штрак
|
||||
штрап
|
||||
штрап-штруп
|
||||
шуќур
|
||||
ѓиди
|
||||
ѓоа
|
||||
ѓоамити
|
||||
ѕан
|
||||
ѕе
|
||||
ѕин
|
||||
ја
|
||||
јадец
|
||||
јазе
|
||||
јали
|
||||
јас
|
||||
јаска
|
||||
јок
|
||||
ќе
|
||||
ќешки
|
||||
ѝ
|
||||
џагара-магара
|
||||
џанам
|
||||
џив-џив
|
||||
""".split()
|
||||
)
|
|
@ -1,11 +1,9 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class MalayalamDefaults(BaseDefaults):
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Malayalam(Language):
|
||||
|
|
|
@ -1,13 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
അത്
|
||||
ഇത്
|
||||
ആയിരുന്നു
|
||||
ആകുന്നു
|
||||
വരെ
|
||||
അന്നേരം
|
||||
അന്ന്
|
||||
ഇന്ന്
|
||||
ആണ്
|
||||
""".split()
|
||||
)
|
|
@ -1,9 +1,8 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class MarathiDefaults(BaseDefaults):
|
||||
stop_words = STOP_WORDS
|
||||
pass
|
||||
|
||||
|
||||
class Marathi(Language):
|
||||
|
|
|
@ -1,192 +0,0 @@
|
|||
# Source: https://github.com/stopwords-iso/stopwords-mr/blob/master/stopwords-mr.txt, https://github.com/6/stopwords-json/edit/master/dist/mr.json
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
न
|
||||
अतरी
|
||||
तो
|
||||
हें
|
||||
तें
|
||||
कां
|
||||
आणि
|
||||
जें
|
||||
जे
|
||||
मग
|
||||
ते
|
||||
मी
|
||||
जो
|
||||
परी
|
||||
गा
|
||||
हे
|
||||
ऐसें
|
||||
आतां
|
||||
नाहीं
|
||||
तेथ
|
||||
हा
|
||||
तया
|
||||
असे
|
||||
म्हणे
|
||||
काय
|
||||
कीं
|
||||
जैसें
|
||||
तंव
|
||||
तूं
|
||||
होय
|
||||
जैसा
|
||||
आहे
|
||||
पैं
|
||||
तैसा
|
||||
जरी
|
||||
म्हणोनि
|
||||
एक
|
||||
ऐसा
|
||||
जी
|
||||
ना
|
||||
मज
|
||||
एथ
|
||||
या
|
||||
जेथ
|
||||
जया
|
||||
तुज
|
||||
तेणें
|
||||
तैं
|
||||
पां
|
||||
असो
|
||||
करी
|
||||
ऐसी
|
||||
येणें
|
||||
जाहला
|
||||
तेंचि
|
||||
आघवें
|
||||
होती
|
||||
कांहीं
|
||||
होऊनि
|
||||
एकें
|
||||
मातें
|
||||
ठायीं
|
||||
ये
|
||||
सकळ
|
||||
केलें
|
||||
जेणें
|
||||
जाण
|
||||
जैसी
|
||||
होये
|
||||
जेवीं
|
||||
एऱ्हवीं
|
||||
मीचि
|
||||
किरीटी
|
||||
दिसे
|
||||
देवा
|
||||
हो
|
||||
तरि
|
||||
कीजे
|
||||
तैसे
|
||||
आपण
|
||||
तिये
|
||||
कर्म
|
||||
नोहे
|
||||
इये
|
||||
पडे
|
||||
माझें
|
||||
तैसी
|
||||
लागे
|
||||
नाना
|
||||
जंव
|
||||
कीर
|
||||
अधिक
|
||||
अनेक
|
||||
अशी
|
||||
असलयाचे
|
||||
असलेल्या
|
||||
असा
|
||||
असून
|
||||
असे
|
||||
आज
|
||||
आणि
|
||||
आता
|
||||
आपल्या
|
||||
आला
|
||||
आली
|
||||
आले
|
||||
आहे
|
||||
आहेत
|
||||
एक
|
||||
एका
|
||||
कमी
|
||||
करणयात
|
||||
करून
|
||||
का
|
||||
काम
|
||||
काय
|
||||
काही
|
||||
किवा
|
||||
की
|
||||
केला
|
||||
केली
|
||||
केले
|
||||
कोटी
|
||||
गेल्या
|
||||
घेऊन
|
||||
जात
|
||||
झाला
|
||||
झाली
|
||||
झाले
|
||||
झालेल्या
|
||||
टा
|
||||
तर
|
||||
तरी
|
||||
तसेच
|
||||
ता
|
||||
ती
|
||||
तीन
|
||||
ते
|
||||
तो
|
||||
त्या
|
||||
त्याचा
|
||||
त्याची
|
||||
त्याच्या
|
||||
त्याना
|
||||
त्यानी
|
||||
त्यामुळे
|
||||
त्री
|
||||
दिली
|
||||
दोन
|
||||
न
|
||||
पण
|
||||
पम
|
||||
परयतन
|
||||
पाटील
|
||||
म
|
||||
मात्र
|
||||
माहिती
|
||||
मी
|
||||
मुबी
|
||||
म्हणजे
|
||||
म्हणाले
|
||||
म्हणून
|
||||
या
|
||||
याचा
|
||||
याची
|
||||
याच्या
|
||||
याना
|
||||
यानी
|
||||
येणार
|
||||
येत
|
||||
येथील
|
||||
येथे
|
||||
लाख
|
||||
व
|
||||
व्यकत
|
||||
सर्व
|
||||
सागित्ले
|
||||
सुरू
|
||||
हजार
|
||||
हा
|
||||
ही
|
||||
हे
|
||||
होणार
|
||||
होत
|
||||
होता
|
||||
होती
|
||||
होते
|
||||
""".split()
|
||||
)
|
|
@ -3,7 +3,6 @@ from thinc.api import Model
|
|||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES
|
||||
from .punctuation import TOKENIZER_SUFFIXES
|
||||
from .stop_words import STOP_WORDS
|
||||
from .syntax_iterators import SYNTAX_ITERATORS
|
||||
from ...language import Language, BaseDefaults
|
||||
from ...pipeline import Lemmatizer
|
||||
|
@ -15,7 +14,6 @@ class NorwegianDefaults(BaseDefaults):
|
|||
infixes = TOKENIZER_INFIXES
|
||||
suffixes = TOKENIZER_SUFFIXES
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Norwegian(Language):
|
||||
|
|
|
@ -1,50 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
alle allerede alt and andre annen annet at av
|
||||
|
||||
bak bare bedre beste blant ble bli blir blitt bris by både
|
||||
|
||||
da dag de del dem den denne der dermed det dette disse du
|
||||
|
||||
eller en enn er et ett etter
|
||||
|
||||
fem fikk fire fjor flere folk for fortsatt fra fram
|
||||
funnet få får fått før først første
|
||||
|
||||
gang gi gikk gjennom gjorde gjort gjør gjøre god godt grunn gå går
|
||||
|
||||
ha hadde ham han hans har hele helt henne hennes her hun
|
||||
|
||||
i ifølge igjen ikke ingen inn
|
||||
|
||||
ja jeg
|
||||
|
||||
kamp kampen kan kl klart kom komme kommer kontakt kort kroner kunne kveld
|
||||
|
||||
la laget land landet langt leder ligger like litt løpet
|
||||
|
||||
man mange med meg mellom men mener mennesker mens mer mot mye må mål måtte
|
||||
|
||||
ned neste noe noen nok ny nye nå når
|
||||
|
||||
og også om opp opplyser oss over
|
||||
|
||||
personer plass poeng på
|
||||
|
||||
runde rundt
|
||||
|
||||
sa saken samme sammen samtidig satt se seg seks selv senere ser sett
|
||||
siden sier sin sine siste sitt skal skriver skulle slik som sted stedet stor
|
||||
store står svært så
|
||||
|
||||
ta tatt tid tidligere til tilbake tillegg tok tror
|
||||
|
||||
under ut uten utenfor
|
||||
|
||||
vant var ved veldig vi videre viktig vil ville viser vår være vært
|
||||
|
||||
å år
|
||||
|
||||
ønsker
|
||||
""".split()
|
||||
)
|
|
@ -1,10 +1,8 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class NepaliDefaults(BaseDefaults):
|
||||
stop_words = STOP_WORDS
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
|
||||
|
||||
|
|
|
@ -1,494 +0,0 @@
|
|||
# Source: https://github.com/sanjaalcorps/NepaliStopWords/blob/master/NepaliStopWords.txt
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
अक्सर
|
||||
अगाडि
|
||||
अगाडी
|
||||
अघि
|
||||
अझै
|
||||
अठार
|
||||
अथवा
|
||||
अनि
|
||||
अनुसार
|
||||
अन्तर्गत
|
||||
अन्य
|
||||
अन्यत्र
|
||||
अन्यथा
|
||||
अब
|
||||
अरु
|
||||
अरुलाई
|
||||
अरू
|
||||
अर्को
|
||||
अर्थात
|
||||
अर्थात्
|
||||
अलग
|
||||
अलि
|
||||
अवस्था
|
||||
अहिले
|
||||
आए
|
||||
आएका
|
||||
आएको
|
||||
आज
|
||||
आजको
|
||||
आठ
|
||||
आत्म
|
||||
आदि
|
||||
आदिलाई
|
||||
आफनो
|
||||
आफू
|
||||
आफूलाई
|
||||
आफै
|
||||
आफैँ
|
||||
आफ्नै
|
||||
आफ्नो
|
||||
आयो
|
||||
उ
|
||||
उक्त
|
||||
उदाहरण
|
||||
उनको
|
||||
उनलाई
|
||||
उनले
|
||||
उनि
|
||||
उनी
|
||||
उनीहरुको
|
||||
उन्नाइस
|
||||
उप
|
||||
उसको
|
||||
उसलाई
|
||||
उसले
|
||||
उहालाई
|
||||
ऊ
|
||||
एउटा
|
||||
एउटै
|
||||
एक
|
||||
एकदम
|
||||
एघार
|
||||
ओठ
|
||||
औ
|
||||
औं
|
||||
कता
|
||||
कति
|
||||
कतै
|
||||
कम
|
||||
कमसेकम
|
||||
कसरि
|
||||
कसरी
|
||||
कसै
|
||||
कसैको
|
||||
कसैलाई
|
||||
कसैले
|
||||
कसैसँग
|
||||
कस्तो
|
||||
कहाँबाट
|
||||
कहिलेकाहीं
|
||||
का
|
||||
काम
|
||||
कारण
|
||||
कि
|
||||
किन
|
||||
किनभने
|
||||
कुन
|
||||
कुनै
|
||||
कुन्नी
|
||||
कुरा
|
||||
कृपया
|
||||
के
|
||||
केहि
|
||||
केही
|
||||
को
|
||||
कोहि
|
||||
कोहिपनि
|
||||
कोही
|
||||
कोहीपनि
|
||||
क्रमशः
|
||||
गए
|
||||
गएको
|
||||
गएर
|
||||
गयौ
|
||||
गरि
|
||||
गरी
|
||||
गरे
|
||||
गरेका
|
||||
गरेको
|
||||
गरेर
|
||||
गरौं
|
||||
गर्छ
|
||||
गर्छन्
|
||||
गर्छु
|
||||
गर्दा
|
||||
गर्दै
|
||||
गर्न
|
||||
गर्नु
|
||||
गर्नुपर्छ
|
||||
गर्ने
|
||||
गैर
|
||||
घर
|
||||
चार
|
||||
चाले
|
||||
चाहनुहुन्छ
|
||||
चाहन्छु
|
||||
चाहिं
|
||||
चाहिए
|
||||
चाहिंले
|
||||
चाहीं
|
||||
चाहेको
|
||||
चाहेर
|
||||
चोटी
|
||||
चौथो
|
||||
चौध
|
||||
छ
|
||||
छन
|
||||
छन्
|
||||
छु
|
||||
छू
|
||||
छैन
|
||||
छैनन्
|
||||
छौ
|
||||
छौं
|
||||
जता
|
||||
जताततै
|
||||
जना
|
||||
जनाको
|
||||
जनालाई
|
||||
जनाले
|
||||
जब
|
||||
जबकि
|
||||
जबकी
|
||||
जसको
|
||||
जसबाट
|
||||
जसमा
|
||||
जसरी
|
||||
जसलाई
|
||||
जसले
|
||||
जस्ता
|
||||
जस्तै
|
||||
जस्तो
|
||||
जस्तोसुकै
|
||||
जहाँ
|
||||
जान
|
||||
जाने
|
||||
जाहिर
|
||||
जुन
|
||||
जुनै
|
||||
जे
|
||||
जो
|
||||
जोपनि
|
||||
जोपनी
|
||||
झैं
|
||||
ठाउँमा
|
||||
ठीक
|
||||
ठूलो
|
||||
त
|
||||
तता
|
||||
तत्काल
|
||||
तथा
|
||||
तथापि
|
||||
तथापी
|
||||
तदनुसार
|
||||
तपाइ
|
||||
तपाई
|
||||
तपाईको
|
||||
तब
|
||||
तर
|
||||
तर्फ
|
||||
तल
|
||||
तसरी
|
||||
तापनि
|
||||
तापनी
|
||||
तिन
|
||||
तिनि
|
||||
तिनिहरुलाई
|
||||
तिनी
|
||||
तिनीहरु
|
||||
तिनीहरुको
|
||||
तिनीहरू
|
||||
तिनीहरूको
|
||||
तिनै
|
||||
तिमी
|
||||
तिर
|
||||
तिरको
|
||||
ती
|
||||
तीन
|
||||
तुरन्त
|
||||
तुरुन्त
|
||||
तुरुन्तै
|
||||
तेश्रो
|
||||
तेस्कारण
|
||||
तेस्रो
|
||||
तेह्र
|
||||
तैपनि
|
||||
तैपनी
|
||||
त्यत्तिकै
|
||||
त्यत्तिकैमा
|
||||
त्यस
|
||||
त्यसकारण
|
||||
त्यसको
|
||||
त्यसले
|
||||
त्यसैले
|
||||
त्यसो
|
||||
त्यस्तै
|
||||
त्यस्तो
|
||||
त्यहाँ
|
||||
त्यहिँ
|
||||
त्यही
|
||||
त्यहीँ
|
||||
त्यहीं
|
||||
त्यो
|
||||
त्सपछि
|
||||
त्सैले
|
||||
थप
|
||||
थरि
|
||||
थरी
|
||||
थाहा
|
||||
थिए
|
||||
थिएँ
|
||||
थिएन
|
||||
थियो
|
||||
दर्ता
|
||||
दश
|
||||
दिए
|
||||
दिएको
|
||||
दिन
|
||||
दिनुभएको
|
||||
दिनुहुन्छ
|
||||
दुइ
|
||||
दुइवटा
|
||||
दुई
|
||||
देखि
|
||||
देखिन्छ
|
||||
देखियो
|
||||
देखे
|
||||
देखेको
|
||||
देखेर
|
||||
दोश्री
|
||||
दोश्रो
|
||||
दोस्रो
|
||||
द्वारा
|
||||
धन्न
|
||||
धेरै
|
||||
धौ
|
||||
न
|
||||
नगर्नु
|
||||
नगर्नू
|
||||
नजिकै
|
||||
नत्र
|
||||
नत्रभने
|
||||
नभई
|
||||
नभएको
|
||||
नभनेर
|
||||
नयाँ
|
||||
नि
|
||||
निकै
|
||||
निम्ति
|
||||
निम्न
|
||||
निम्नानुसार
|
||||
निर्दिष्ट
|
||||
नै
|
||||
नौ
|
||||
पक्का
|
||||
पक्कै
|
||||
पछाडि
|
||||
पछाडी
|
||||
पछि
|
||||
पछिल्लो
|
||||
पछी
|
||||
पटक
|
||||
पनि
|
||||
पन्ध्र
|
||||
पर्छ
|
||||
पर्थ्यो
|
||||
पर्दैन
|
||||
पर्ने
|
||||
पर्नेमा
|
||||
पर्याप्त
|
||||
पहिले
|
||||
पहिलो
|
||||
पहिल्यै
|
||||
पाँच
|
||||
पांच
|
||||
पाचौँ
|
||||
पाँचौं
|
||||
पिच्छे
|
||||
पूर्व
|
||||
पो
|
||||
प्रति
|
||||
प्रतेक
|
||||
प्रत्यक
|
||||
प्राय
|
||||
प्लस
|
||||
फरक
|
||||
फेरि
|
||||
फेरी
|
||||
बढी
|
||||
बताए
|
||||
बने
|
||||
बरु
|
||||
बाट
|
||||
बारे
|
||||
बाहिर
|
||||
बाहेक
|
||||
बाह्र
|
||||
बिच
|
||||
बिचमा
|
||||
बिरुद्ध
|
||||
बिशेष
|
||||
बिस
|
||||
बीच
|
||||
बीचमा
|
||||
बीस
|
||||
भए
|
||||
भएँ
|
||||
भएका
|
||||
भएकालाई
|
||||
भएको
|
||||
भएन
|
||||
भएर
|
||||
भन
|
||||
भने
|
||||
भनेको
|
||||
भनेर
|
||||
भन्
|
||||
भन्छन्
|
||||
भन्छु
|
||||
भन्दा
|
||||
भन्दै
|
||||
भन्नुभयो
|
||||
भन्ने
|
||||
भन्या
|
||||
भयेन
|
||||
भयो
|
||||
भर
|
||||
भरि
|
||||
भरी
|
||||
भा
|
||||
भित्र
|
||||
भित्री
|
||||
भीत्र
|
||||
म
|
||||
मध्य
|
||||
मध्ये
|
||||
मलाई
|
||||
मा
|
||||
मात्र
|
||||
मात्रै
|
||||
माथि
|
||||
माथी
|
||||
मुख्य
|
||||
मुनि
|
||||
मुन्तिर
|
||||
मेरो
|
||||
मैले
|
||||
यति
|
||||
यथोचित
|
||||
यदि
|
||||
यद्ध्यपि
|
||||
यद्यपि
|
||||
यस
|
||||
यसका
|
||||
यसको
|
||||
यसपछि
|
||||
यसबाहेक
|
||||
यसमा
|
||||
यसरी
|
||||
यसले
|
||||
यसो
|
||||
यस्तै
|
||||
यस्तो
|
||||
यहाँ
|
||||
यहाँसम्म
|
||||
यही
|
||||
या
|
||||
यी
|
||||
यो
|
||||
र
|
||||
रही
|
||||
रहेका
|
||||
रहेको
|
||||
रहेछ
|
||||
राखे
|
||||
राख्छ
|
||||
राम्रो
|
||||
रुपमा
|
||||
रूप
|
||||
रे
|
||||
लगभग
|
||||
लगायत
|
||||
लाई
|
||||
लाख
|
||||
लागि
|
||||
लागेको
|
||||
ले
|
||||
वटा
|
||||
वरीपरी
|
||||
वा
|
||||
वाट
|
||||
वापत
|
||||
वास्तवमा
|
||||
शायद
|
||||
सक्छ
|
||||
सक्ने
|
||||
सँग
|
||||
संग
|
||||
सँगको
|
||||
सँगसँगै
|
||||
सँगै
|
||||
संगै
|
||||
सङ्ग
|
||||
सङ्गको
|
||||
सट्टा
|
||||
सत्र
|
||||
सधै
|
||||
सबै
|
||||
सबैको
|
||||
सबैलाई
|
||||
समय
|
||||
समेत
|
||||
सम्भव
|
||||
सम्म
|
||||
सय
|
||||
सरह
|
||||
सहित
|
||||
सहितै
|
||||
सही
|
||||
साँच्चै
|
||||
सात
|
||||
साथ
|
||||
साथै
|
||||
सायद
|
||||
सारा
|
||||
सुनेको
|
||||
सुनेर
|
||||
सुरु
|
||||
सुरुको
|
||||
सुरुमै
|
||||
सो
|
||||
सोचेको
|
||||
सोचेर
|
||||
सोही
|
||||
सोह्र
|
||||
स्थित
|
||||
स्पष्ट
|
||||
हजार
|
||||
हरे
|
||||
हरेक
|
||||
हामी
|
||||
हामीले
|
||||
हाम्रा
|
||||
हाम्रो
|
||||
हुँदैन
|
||||
हुन
|
||||
हुनत
|
||||
हुनु
|
||||
हुने
|
||||
हुनेछ
|
||||
हुन्
|
||||
हुन्छ
|
||||
हुन्थ्यो
|
||||
हैन
|
||||
हो
|
||||
होइन
|
||||
होकि
|
||||
होला
|
||||
""".split()
|
||||
)
|
|
@ -6,7 +6,6 @@ from .lemmatizer import DutchLemmatizer
|
|||
from .lex_attrs import LEX_ATTRS
|
||||
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES
|
||||
from .punctuation import TOKENIZER_SUFFIXES
|
||||
from .stop_words import STOP_WORDS
|
||||
from .syntax_iterators import SYNTAX_ITERATORS
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
@ -19,7 +18,6 @@ class DutchDefaults(BaseDefaults):
|
|||
suffixes = TOKENIZER_SUFFIXES
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Dutch(Language):
|
||||
|
|
|
@ -1,72 +0,0 @@
|
|||
# The original stop words list (added in f46ffe3) was taken from
|
||||
# http://www.damienvanholten.com/downloads/dutch-stop-words.txt
|
||||
# and consisted of about 100 tokens.
|
||||
# In order to achieve parity with some of the better-supported
|
||||
# languages, e.g., English, French, and German, this original list has been
|
||||
# extended with 200 additional tokens. The main source of inspiration was
|
||||
# https://raw.githubusercontent.com/stopwords-iso/stopwords-nl/master/stopwords-nl.txt.
|
||||
# However, quite a bit of manual editing has taken place as well.
|
||||
# Tokens whose status as a stop word is not entirely clear were admitted or
|
||||
# rejected by deferring to their counterparts in the stop words lists for English
|
||||
# and French. Similarly, those lists were used to identify and fill in gaps so
|
||||
# that -- in principle -- each token contained in the English stop words list
|
||||
# should have a Dutch counterpart here.
|
||||
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
aan af al alle alles allebei alleen allen als altijd ander anders andere anderen aangaangde aangezien achter achterna
|
||||
afgelopen aldus alhoewel anderzijds
|
||||
|
||||
ben bij bijna bijvoorbeeld behalve beide beiden beneden bent bepaald beter betere betreffende binnen binnenin boven
|
||||
bovenal bovendien bovenstaand buiten
|
||||
|
||||
daar dan dat de der den deze die dit doch doen door dus daarheen daarin daarna daarnet daarom daarop des dezelfde dezen
|
||||
dien dikwijls doet doorgaand doorgaans
|
||||
|
||||
een eens en er echter enige eerder eerst eerste eersten effe eigen elk elke enkel enkele enz erdoor etc even eveneens
|
||||
evenwel
|
||||
|
||||
ff
|
||||
|
||||
ge geen geweest gauw gedurende gegeven gehad geheel gekund geleden gelijk gemogen geven geweest gewoon gewoonweg
|
||||
geworden gij
|
||||
|
||||
haar had heb hebben heeft hem het hier hij hoe hun hadden hare hebt hele hen hierbeneden hierboven hierin hoewel hun
|
||||
|
||||
iemand iets ik in is idd ieder ikke ikzelf indien inmiddels inz inzake
|
||||
|
||||
ja je jou jouw jullie jezelf jij jijzelf jouwe juist
|
||||
|
||||
kan kon kunnen klaar konden krachtens kunnen kunt
|
||||
|
||||
lang later liet liever
|
||||
|
||||
maar me meer men met mij mijn moet mag mede meer meesten mezelf mijzelf min minder misschien mocht mochten moest moesten
|
||||
moet moeten mogelijk mogen
|
||||
|
||||
na naar niet niets nog nu nabij nadat net nogal nooit nr nu
|
||||
|
||||
of om omdat ons ook op over omhoog omlaag omstreeks omtrent omver onder ondertussen ongeveer onszelf onze ooit opdat
|
||||
opnieuw opzij over overigens
|
||||
|
||||
pas pp precies prof publ
|
||||
|
||||
reeds rond rondom
|
||||
|
||||
sedert sinds sindsdien slechts sommige spoedig steeds
|
||||
|
||||
‘t 't te tegen toch toen tot tamelijk ten tenzij ter terwijl thans tijdens toe totdat tussen
|
||||
|
||||
u uit uw uitgezonderd uwe uwen
|
||||
|
||||
van veel voor vaak vanaf vandaan vanuit vanwege veeleer verder verre vervolgens vgl volgens vooraf vooral vooralsnog
|
||||
voorbij voordat voordien voorheen voorop voort voorts vooruit vrij vroeg
|
||||
|
||||
want waren was wat we wel werd wezen wie wij wil worden waar waarom wanneer want weer weg wegens weinig weinige weldra
|
||||
welk welke welken werd werden wiens wier wilde wordt
|
||||
|
||||
zal ze zei zelf zich zij zijn zo zonder zou zeer zeker zekere zelfde zelfs zichzelf zijnde zijne zo’n zoals zodra zouden
|
||||
zoveel zowat zulk zulke zulks zullen zult
|
||||
""".split()
|
||||
)
|
|
@ -4,7 +4,6 @@ from thinc.api import Model
|
|||
|
||||
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES
|
||||
from .punctuation import TOKENIZER_SUFFIXES
|
||||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .lemmatizer import PolishLemmatizer
|
||||
from ..tokenizer_exceptions import BASE_EXCEPTIONS
|
||||
|
@ -22,7 +21,6 @@ class PolishDefaults(BaseDefaults):
|
|||
infixes = TOKENIZER_INFIXES
|
||||
suffixes = TOKENIZER_SUFFIXES
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Polish(Language):
|
||||
|
|
|
@ -1,78 +0,0 @@
|
|||
# sources: https://github.com/bieli/stopwords/blob/master/polish.stopwords.txt and https://github.com/stopwords-iso/stopwords-pl
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
a aby ach acz aczkolwiek aj albo ale alez
|
||||
ależ ani az aż
|
||||
|
||||
bardziej bardzo beda bede bedzie bez bo bowiem by
|
||||
byc byl byla byli bylo byly bym bynajmniej być był
|
||||
była było były będzie będą będę
|
||||
|
||||
cala cali caly cała cały chce choć ci cie
|
||||
ciebie cię co cokolwiek coraz cos coś czasami czasem czemu
|
||||
czy czyli często
|
||||
|
||||
daleko dla dlaczego dlatego do dobrze dokad dokąd
|
||||
dosc dość duzo dużo dwa dwaj dwie dwoje dzis
|
||||
dzisiaj dziś
|
||||
|
||||
gdy gdyby gdyz gdyż gdzie gdziekolwiek gdzies gdzieś go
|
||||
godz
|
||||
|
||||
i ich ile im inna inne inny
|
||||
innych iv ix iz iż
|
||||
|
||||
ja jak jakas jakaś jakby jaki jakichs jakichś jakie
|
||||
jakis jakiz jakiś jakiż jakkolwiek jako jakos jakoś je jeden
|
||||
jedna jednak jednakze jednakże jedno jednym jedynie jego jej jemu
|
||||
jesli jest jestem jeszcze jezeli jeśli jeżeli juz już ją
|
||||
|
||||
kazdy każdy kiedy kierunku kilka kilku kims kimś kto
|
||||
ktokolwiek ktora ktore ktorego ktorej ktory ktorych ktorym ktorzy ktos
|
||||
ktoś która które którego której który których którym którzy ku
|
||||
|
||||
lecz lub
|
||||
|
||||
ma mają mam mamy mało mi miał miedzy
|
||||
mimo między mna mnie mną moga mogą moi moim moj
|
||||
moja moje moze mozliwe mozna może możliwe można mu musi
|
||||
my mój
|
||||
|
||||
na nad nam nami nas nasi nasz nasza nasze
|
||||
naszego naszych natomiast natychmiast nawet nia nic nich nie niech
|
||||
niego niej niemu nigdy nim nimi niz nią niż no
|
||||
|
||||
o obok od ok około on ona one
|
||||
oni ono oraz oto owszem
|
||||
|
||||
pan pana pani po pod podczas pomimo ponad
|
||||
poniewaz ponieważ powinien powinna powinni powinno poza prawie przeciez
|
||||
przecież przed przede przedtem przez przy
|
||||
|
||||
raz razie roku rowniez również
|
||||
|
||||
sam sama sie się skad skąd soba sobie sobą
|
||||
sposob sposób swoje są
|
||||
|
||||
ta tak taka taki takich takie takze także tam
|
||||
te tego tej tel temu ten teraz też to toba
|
||||
tobie tobą totez toteż totobą trzeba tu tutaj twoi twoim
|
||||
twoj twoja twoje twym twój ty tych tylko tym tys
|
||||
tzw tę
|
||||
|
||||
u
|
||||
|
||||
vi vii viii
|
||||
|
||||
w wam wami was wasi wasz wasza wasze we
|
||||
według wie wiele wielu więc więcej wlasnie wszyscy wszystkich wszystkie
|
||||
wszystkim wszystko wtedy wy właśnie wśród
|
||||
|
||||
xi xii xiii xiv xv
|
||||
|
||||
z za zaden zadna zadne zadnych zapewne zawsze zaś
|
||||
ze zeby znow znowu znów zostal został
|
||||
|
||||
żaden żadna żadne żadnych że żeby""".split()
|
||||
)
|
|
@ -1,5 +1,4 @@
|
|||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .syntax_iterators import SYNTAX_ITERATORS
|
||||
from .punctuation import TOKENIZER_INFIXES, TOKENIZER_PREFIXES
|
||||
|
@ -12,7 +11,6 @@ class PortugueseDefaults(BaseDefaults):
|
|||
prefixes = TOKENIZER_PREFIXES
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
syntax_iterators = SYNTAX_ITERATORS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Portuguese(Language):
|
||||
|
|
|
@ -1,66 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
a à às área acerca ademais adeus agora ainda algo algumas alguns ali além ambas ambos antes
|
||||
ao aos apenas apoia apoio apontar após aquela aquelas aquele aqueles aqui aquilo
|
||||
as assim através atrás até aí
|
||||
|
||||
baixo bastante bem boa bom breve
|
||||
|
||||
cada caminho catorze cedo cento certamente certeza cima cinco coisa com como
|
||||
comprida comprido conhecida conhecido conselho contra contudo corrente cuja
|
||||
cujo custa cá
|
||||
|
||||
da daquela daquele dar das de debaixo demais dentro depois des desde dessa desse
|
||||
desta deste deve devem deverá dez dezanove dezasseis dezassete dezoito diante
|
||||
direita disso diz dizem dizer do dois dos doze duas dá dão
|
||||
|
||||
e é és ela elas ele eles em embora enquanto entre então era essa essas esse esses esta
|
||||
estado estar estará estas estava este estes esteve estive estivemos estiveram
|
||||
estiveste estivestes estou está estás estão eu eventual exemplo
|
||||
|
||||
falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final
|
||||
foi fomos for fora foram forma foste fostes fui
|
||||
|
||||
geral grande grandes grupo
|
||||
|
||||
inclusive iniciar inicio ir irá isso isto
|
||||
|
||||
já
|
||||
|
||||
lado lhe ligado local logo longe lugar lá
|
||||
|
||||
maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus mil
|
||||
minha minhas momento muito muitos máximo mês
|
||||
|
||||
na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no nos nossa
|
||||
nossas nosso nossos nova novas nove novo novos num numa nunca nuns não nível nós
|
||||
número números
|
||||
|
||||
o obrigada obrigado oitava oitavo oito onde ontem onze ora os ou outra outras outros
|
||||
|
||||
para parece parte partir pegar pela pelas pelo pelos perto pode podem poder poderá
|
||||
podia pois ponto pontos por porquanto porque porquê portanto porém posição
|
||||
possivelmente posso possível pouca pouco povo primeira primeiro próprio próxima
|
||||
próximo puderam pôde põe põem
|
||||
|
||||
quais qual qualquer quando quanto quarta quarto quatro que quem quer querem quero
|
||||
questão quieta quieto quinta quinto quinze quê
|
||||
|
||||
relação
|
||||
|
||||
sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta
|
||||
sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo só
|
||||
|
||||
tais tal talvez também tanta tanto tarde te tem temos tempo tendes tenho tens
|
||||
tentar tentaram tente tentei ter terceira terceiro teu teus teve tipo tive
|
||||
tivemos tiveram tiveste tivestes toda todas todo todos treze três tu tua tuas
|
||||
tudo tão têm
|
||||
|
||||
um uma umas uns usa usar último
|
||||
|
||||
vai vais valor veja vem vens ver vez vezes vinda vindo vinte você vocês vos vossa
|
||||
vossas vosso vossos vários vão vêm vós
|
||||
|
||||
zero
|
||||
""".split()
|
||||
)
|
|
@ -1,5 +1,4 @@
|
|||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .stop_words import STOP_WORDS
|
||||
from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_INFIXES
|
||||
from .punctuation import TOKENIZER_SUFFIXES
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
|
@ -16,7 +15,6 @@ class RomanianDefaults(BaseDefaults):
|
|||
suffixes = TOKENIZER_SUFFIXES
|
||||
infixes = TOKENIZER_INFIXES
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Romanian(Language):
|
||||
|
|
|
@ -1,499 +0,0 @@
|
|||
# Source: https://github.com/stopwords-iso/stopwords-ro
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
a
|
||||
abia
|
||||
acea
|
||||
aceasta
|
||||
această
|
||||
aceea
|
||||
aceeasi
|
||||
aceeași
|
||||
acei
|
||||
aceia
|
||||
acel
|
||||
acela
|
||||
acelasi
|
||||
același
|
||||
acele
|
||||
acelea
|
||||
acest
|
||||
acesta
|
||||
aceste
|
||||
acestea
|
||||
acestei
|
||||
acestia
|
||||
acestui
|
||||
aceşti
|
||||
aceştia
|
||||
acolo
|
||||
acord
|
||||
acum
|
||||
adica
|
||||
adică
|
||||
ai
|
||||
aia
|
||||
aibă
|
||||
aici
|
||||
aiurea
|
||||
al
|
||||
ala
|
||||
alaturi
|
||||
ale
|
||||
alea
|
||||
alt
|
||||
alta
|
||||
altceva
|
||||
altcineva
|
||||
alte
|
||||
altfel
|
||||
alti
|
||||
altii
|
||||
altul
|
||||
alături
|
||||
am
|
||||
anume
|
||||
apoi
|
||||
apai
|
||||
apăi
|
||||
ar
|
||||
are
|
||||
as
|
||||
asa
|
||||
asemenea
|
||||
asta
|
||||
astazi
|
||||
astea
|
||||
astfel
|
||||
astăzi
|
||||
asupra
|
||||
atare
|
||||
atat
|
||||
atata
|
||||
atatea
|
||||
atatia
|
||||
ati
|
||||
atit
|
||||
atita
|
||||
atitea
|
||||
atitia
|
||||
atunci
|
||||
au
|
||||
avea
|
||||
avem
|
||||
aveţi
|
||||
aveți
|
||||
avut
|
||||
azi
|
||||
aş
|
||||
aşadar
|
||||
aţi
|
||||
aș
|
||||
așadar
|
||||
ați
|
||||
b
|
||||
ba
|
||||
bine
|
||||
bucur
|
||||
bună
|
||||
c
|
||||
ca
|
||||
cam
|
||||
cand
|
||||
capat
|
||||
care
|
||||
careia
|
||||
carora
|
||||
caruia
|
||||
cat
|
||||
catre
|
||||
caut
|
||||
ce
|
||||
cea
|
||||
ceea
|
||||
cei
|
||||
ceilalti
|
||||
cel
|
||||
cele
|
||||
celor
|
||||
ceva
|
||||
chiar
|
||||
ci
|
||||
cinci
|
||||
cind
|
||||
cine
|
||||
cineva
|
||||
cit
|
||||
cita
|
||||
cite
|
||||
citeva
|
||||
citi
|
||||
citiva
|
||||
conform
|
||||
contra
|
||||
cu
|
||||
cui
|
||||
cum
|
||||
cumva
|
||||
curând
|
||||
curînd
|
||||
când
|
||||
cât
|
||||
câte
|
||||
câtva
|
||||
câţi
|
||||
câți
|
||||
cînd
|
||||
cît
|
||||
cîte
|
||||
cîtva
|
||||
cîţi
|
||||
cîți
|
||||
că
|
||||
căci
|
||||
cărei
|
||||
căror
|
||||
cărora
|
||||
cărui
|
||||
căruia
|
||||
către
|
||||
d
|
||||
da
|
||||
daca
|
||||
dacă
|
||||
dar
|
||||
dat
|
||||
datorită
|
||||
dată
|
||||
dau
|
||||
de
|
||||
deasupra
|
||||
deci
|
||||
decit
|
||||
degraba
|
||||
deja
|
||||
deoarece
|
||||
departe
|
||||
desi
|
||||
despre
|
||||
deşi
|
||||
deși
|
||||
din
|
||||
dinaintea
|
||||
dincolo
|
||||
dincoace
|
||||
dintr
|
||||
dintr-
|
||||
dintre
|
||||
doar
|
||||
doi
|
||||
doilea
|
||||
două
|
||||
drept
|
||||
dupa
|
||||
după
|
||||
dă
|
||||
deunaseara
|
||||
deunăseară
|
||||
deunazi
|
||||
deunăzi
|
||||
e
|
||||
ea
|
||||
ei
|
||||
el
|
||||
ele
|
||||
era
|
||||
eram
|
||||
este
|
||||
eu
|
||||
exact
|
||||
eşti
|
||||
ești
|
||||
f
|
||||
face
|
||||
fara
|
||||
fata
|
||||
fel
|
||||
fi
|
||||
fie
|
||||
fiecare
|
||||
fii
|
||||
fim
|
||||
fiu
|
||||
fiţi
|
||||
fiți
|
||||
foarte
|
||||
fost
|
||||
frumos
|
||||
fără
|
||||
g
|
||||
geaba
|
||||
graţie
|
||||
grație
|
||||
h
|
||||
i
|
||||
ia
|
||||
iar
|
||||
ieri
|
||||
ii
|
||||
il
|
||||
imi
|
||||
in
|
||||
inainte
|
||||
inapoi
|
||||
inca
|
||||
incotro
|
||||
incit
|
||||
insa
|
||||
intr
|
||||
intre
|
||||
isi
|
||||
iti
|
||||
j
|
||||
k
|
||||
l
|
||||
la
|
||||
le
|
||||
li
|
||||
lor
|
||||
lui
|
||||
lângă
|
||||
lîngă
|
||||
m
|
||||
ma
|
||||
mai
|
||||
mare
|
||||
macar
|
||||
măcar
|
||||
mata
|
||||
matale
|
||||
mea
|
||||
mei
|
||||
mele
|
||||
mereu
|
||||
meu
|
||||
mi
|
||||
mie
|
||||
mine
|
||||
mod
|
||||
mult
|
||||
multa
|
||||
multe
|
||||
multi
|
||||
multă
|
||||
mulţi
|
||||
mulţumesc
|
||||
mulți
|
||||
mulțumesc
|
||||
mâine
|
||||
mîine
|
||||
mă
|
||||
n
|
||||
na
|
||||
ne
|
||||
neincetat
|
||||
neîncetat
|
||||
nevoie
|
||||
ni
|
||||
nici
|
||||
nicidecum
|
||||
nicidecat
|
||||
nicidecât
|
||||
niciodata
|
||||
niciodată
|
||||
nicăieri
|
||||
nimeni
|
||||
nimeri
|
||||
nimic
|
||||
niste
|
||||
nişte
|
||||
niște
|
||||
noastre
|
||||
noastră
|
||||
noi
|
||||
noroc
|
||||
nostri
|
||||
nostru
|
||||
nou
|
||||
noua
|
||||
nouă
|
||||
noştri
|
||||
noștri
|
||||
nu
|
||||
numai
|
||||
o
|
||||
odata
|
||||
odată
|
||||
odinioara
|
||||
odinioară
|
||||
opt
|
||||
or
|
||||
ori
|
||||
oricare
|
||||
orice
|
||||
oricine
|
||||
oricum
|
||||
oricând
|
||||
oricât
|
||||
oricînd
|
||||
oricît
|
||||
oriunde
|
||||
p
|
||||
pai
|
||||
păi
|
||||
parca
|
||||
parcă
|
||||
patra
|
||||
patru
|
||||
patrulea
|
||||
pe
|
||||
pentru
|
||||
peste
|
||||
pic
|
||||
pina
|
||||
plus
|
||||
poate
|
||||
pot
|
||||
prea
|
||||
prima
|
||||
primul
|
||||
prin
|
||||
printr-
|
||||
printre
|
||||
putini
|
||||
puţin
|
||||
puţina
|
||||
puţină
|
||||
până
|
||||
pînă
|
||||
r
|
||||
rog
|
||||
s
|
||||
sa
|
||||
sa-mi
|
||||
sa-ti
|
||||
sai
|
||||
sale
|
||||
sau
|
||||
se
|
||||
si
|
||||
sint
|
||||
sintem
|
||||
spate
|
||||
spre
|
||||
sub
|
||||
sunt
|
||||
suntem
|
||||
sunteţi
|
||||
sunteți
|
||||
sus
|
||||
sută
|
||||
sînt
|
||||
sîntem
|
||||
sînteţi
|
||||
sînteți
|
||||
să
|
||||
săi
|
||||
său
|
||||
t
|
||||
ta
|
||||
tale
|
||||
te
|
||||
ti
|
||||
timp
|
||||
tine
|
||||
toata
|
||||
toate
|
||||
toată
|
||||
tocmai
|
||||
tot
|
||||
toti
|
||||
totul
|
||||
totusi
|
||||
totuşi
|
||||
totuși
|
||||
toţi
|
||||
toți
|
||||
trei
|
||||
treia
|
||||
treilea
|
||||
tu
|
||||
tuturor
|
||||
tăi
|
||||
tău
|
||||
u
|
||||
ul
|
||||
ului
|
||||
un
|
||||
una
|
||||
unde
|
||||
undeva
|
||||
unei
|
||||
uneia
|
||||
unele
|
||||
uneori
|
||||
unii
|
||||
unor
|
||||
unora
|
||||
unu
|
||||
unui
|
||||
unuia
|
||||
unul
|
||||
v
|
||||
va
|
||||
vai
|
||||
vi
|
||||
voastre
|
||||
voastră
|
||||
voi
|
||||
vom
|
||||
vor
|
||||
vostru
|
||||
vouă
|
||||
voştri
|
||||
voștri
|
||||
vreme
|
||||
vreo
|
||||
vreun
|
||||
vă
|
||||
x
|
||||
z
|
||||
zece
|
||||
zero
|
||||
zi
|
||||
zice
|
||||
îi
|
||||
îl
|
||||
îmi
|
||||
împotriva
|
||||
în
|
||||
înainte
|
||||
înaintea
|
||||
încotro
|
||||
încât
|
||||
încît
|
||||
între
|
||||
întrucât
|
||||
întrucît
|
||||
îţi
|
||||
îți
|
||||
ăla
|
||||
ălea
|
||||
ăsta
|
||||
ăstea
|
||||
ăştia
|
||||
ăștia
|
||||
şapte
|
||||
şase
|
||||
şi
|
||||
ştiu
|
||||
ţi
|
||||
ţie
|
||||
șapte
|
||||
șase
|
||||
și
|
||||
știu
|
||||
ți
|
||||
ție
|
||||
""".split()
|
||||
)
|
|
@ -1,7 +1,6 @@
|
|||
from typing import Optional, Callable
|
||||
from thinc.api import Model
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from .lemmatizer import RussianLemmatizer
|
||||
|
@ -13,7 +12,6 @@ from ...language import Language, BaseDefaults
|
|||
class RussianDefaults(BaseDefaults):
|
||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
suffixes = COMBINING_DIACRITICS_TOKENIZER_SUFFIXES
|
||||
infixes = COMBINING_DIACRITICS_TOKENIZER_INFIXES
|
||||
|
||||
|
|
|
@ -1,111 +0,0 @@
|
|||
STOP_WORDS = set(
|
||||
"""
|
||||
а авось ага агу аж ай али алло ау ах ая
|
||||
|
||||
б будем будет будете будешь буду будут будучи будь будьте бы был была были было
|
||||
быть бац без безусловно бишь благо благодаря ближайшие близко более больше
|
||||
будто бывает бывала бывали бываю бывают бытует
|
||||
|
||||
в вам вами вас весь во вот все всё всего всей всем всём всеми всему всех всею
|
||||
всея всю вся вы ваш ваша ваше ваши вдали вдобавок вдруг ведь везде вернее
|
||||
взаимно взаправду видно вишь включая вместо внакладе вначале вне вниз внизу
|
||||
вновь вовсе возможно воистину вокруг вон вообще вопреки вперекор вплоть
|
||||
вполне вправду вправе впрочем впрямь вресноту вроде вряд всегда всюду
|
||||
всякий всякого всякой всячески вчеред
|
||||
|
||||
г го где гораздо гав
|
||||
|
||||
д да для до дабы давайте давно давным даже далее далеко дальше данная
|
||||
данного данное данной данном данному данные данный данных дану данунах
|
||||
даром де действительно довольно доколе доколь долго должен должна
|
||||
должно должны должный дополнительно другая другие другим другими
|
||||
других другое другой
|
||||
|
||||
е его едим едят ее её ей ел ела ем ему емъ если ест есть ешь еще ещё ею едва
|
||||
ежели еле
|
||||
|
||||
ж же
|
||||
|
||||
з за затем зато зачем здесь значит зря
|
||||
|
||||
и из или им ими имъ их ибо иль имеет имел имела имело именно иметь иначе
|
||||
иногда иным иными итак ишь
|
||||
|
||||
й
|
||||
|
||||
к как кем ко когда кого ком кому комья которая которого которое которой котором
|
||||
которому которою которую которые который которым которыми которых кто ка кабы
|
||||
каждая каждое каждые каждый кажется казалась казались казалось казался казаться
|
||||
какая какие каким какими каков какого какой какому какою касательно кой коли
|
||||
коль конечно короче кроме кстати ку куда
|
||||
|
||||
л ли либо лишь любая любого любое любой любом любую любыми любых
|
||||
|
||||
м меня мне мной мною мог моги могите могла могли могло могу могут мое моё моего
|
||||
моей моем моём моему моею можем может можете можешь мои мой моим моими моих
|
||||
мочь мою моя мы мало меж между менее меньше мимо многие много многого многое
|
||||
многом многому можно мол му
|
||||
|
||||
н на нам нами нас наса наш наша наше нашего нашей нашем нашему нашею наши нашим
|
||||
нашими наших нашу не него нее неё ней нем нём нему нет нею ним ними них но
|
||||
наверняка наверху навряд навыворот над надо назад наиболее наизворот
|
||||
наизнанку наипаче накануне наконец наоборот наперед наперекор наподобие
|
||||
например напротив напрямую насилу настоящая настоящее настоящие настоящий
|
||||
насчет нате находиться начала начале неважно негде недавно недалеко незачем
|
||||
некем некогда некому некоторая некоторые некоторый некоторых некто некуда
|
||||
нельзя немногие немногим немного необходимо необходимости необходимые
|
||||
необходимым неоткуда непрерывно нередко несколько нету неужели нечего
|
||||
нечем нечему нечто нешто нибудь нигде ниже низко никак никакой никем
|
||||
никогда никого никому никто никуда ниоткуда нипочем ничего ничем ничему
|
||||
ничто ну нужная нужно нужного нужные нужный нужных ныне нынешнее нынешней
|
||||
нынешних нынче
|
||||
|
||||
о об один одна одни одним одними одних одно одного одной одном одному одною
|
||||
одну он она оне они оно от оба общую обычно ого однажды однако ой около оный
|
||||
оп опять особенно особо особую особые откуда отнелижа отнелиже отовсюду
|
||||
отсюда оттого оттот оттуда отчего отчему ох очевидно очень ом
|
||||
|
||||
п по при паче перед под подавно поди подобная подобно подобного подобные
|
||||
подобный подобным подобных поелику пожалуй пожалуйста позже поистине
|
||||
пока покамест поколе поколь покуда покудова помимо понеже поприще пор
|
||||
пора посему поскольку после посреди посредством потом потому потомушта
|
||||
похожем почему почти поэтому прежде притом причем про просто прочего
|
||||
прочее прочему прочими проще прям пусть
|
||||
|
||||
р ради разве ранее рано раньше рядом
|
||||
|
||||
с сам сама сами самим самими самих само самого самом самому саму свое своё
|
||||
своего своей своем своём своему своею свои свой своим своими своих свою своя
|
||||
себе себя собой собою самая самое самой самый самых сверх свыше се сего сей
|
||||
сейчас сие сих сквозь сколько скорее скоро следует слишком смогут сможет
|
||||
сначала снова со собственно совсем сперва спокону спустя сразу среди сродни
|
||||
стал стала стали стало стать суть сызнова
|
||||
|
||||
та то ту ты ти так такая такие таким такими таких такого такое такой таком такому такою
|
||||
такую те тебе тебя тем теми тех тобой тобою того той только том томах тому
|
||||
тот тою также таки таков такова там твои твоим твоих твой твоя твоё
|
||||
теперь тогда тоже тотчас точно туда тут тьфу тая
|
||||
|
||||
у уже увы уж ура ух ую
|
||||
|
||||
ф фу
|
||||
|
||||
х ха хе хорошо хотел хотела хотелось хотеть хоть хотя хочешь хочу хуже
|
||||
|
||||
ч чего чем чём чему что чтобы часто чаще чей через чтоб чуть чхать чьим
|
||||
чьих чьё чё
|
||||
|
||||
ш ша
|
||||
|
||||
щ ща щас
|
||||
|
||||
ы ых ые ый
|
||||
|
||||
э эта эти этим этими этих это этого этой этом этому этот этою эту эдак эдакий
|
||||
эй эка экий этак этакий эх
|
||||
|
||||
ю
|
||||
|
||||
я явно явных яко якобы якоже
|
||||
""".split()
|
||||
)
|
|
@ -1,11 +1,9 @@
|
|||
from .stop_words import STOP_WORDS
|
||||
from .lex_attrs import LEX_ATTRS
|
||||
from ...language import Language, BaseDefaults
|
||||
|
||||
|
||||
class SanskritDefaults(BaseDefaults):
|
||||
lex_attr_getters = LEX_ATTRS
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Sanskrit(Language):
|
||||
|
|
|
@ -1,515 +0,0 @@
|
|||
# Source: https://gist.github.com/Akhilesh28/fe8b8e180f64b72e64751bc31cb6d323
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
अहम्
|
||||
आवाम्
|
||||
वयम्
|
||||
माम् मा
|
||||
आवाम्
|
||||
अस्मान् नः
|
||||
मया
|
||||
आवाभ्याम्
|
||||
अस्माभिस्
|
||||
मह्यम् मे
|
||||
आवाभ्याम् नौ
|
||||
अस्मभ्यम् नः
|
||||
मत्
|
||||
आवाभ्याम्
|
||||
अस्मत्
|
||||
मम मे
|
||||
आवयोः
|
||||
अस्माकम् नः
|
||||
मयि
|
||||
आवयोः
|
||||
अस्मासु
|
||||
त्वम्
|
||||
युवाम्
|
||||
यूयम्
|
||||
त्वाम् त्वा
|
||||
युवाम् वाम्
|
||||
युष्मान् वः
|
||||
त्वया
|
||||
युवाभ्याम्
|
||||
युष्माभिः
|
||||
तुभ्यम् ते
|
||||
युवाभ्याम् वाम्
|
||||
युष्मभ्यम् वः
|
||||
त्वत्
|
||||
युवाभ्याम्
|
||||
युष्मत्
|
||||
तव ते
|
||||
युवयोः वाम्
|
||||
युष्माकम् वः
|
||||
त्वयि
|
||||
युवयोः
|
||||
युष्मासु
|
||||
सः
|
||||
तौ
|
||||
ते
|
||||
तम्
|
||||
तौ
|
||||
तान्
|
||||
तेन
|
||||
ताभ्याम्
|
||||
तैः
|
||||
तस्मै
|
||||
ताभ्याम्
|
||||
तेभ्यः
|
||||
तस्मात्
|
||||
ताभ्याम्
|
||||
तेभ्यः
|
||||
तस्य
|
||||
तयोः
|
||||
तेषाम्
|
||||
तस्मिन्
|
||||
तयोः
|
||||
तेषु
|
||||
सा
|
||||
ते
|
||||
ताः
|
||||
ताम्
|
||||
ते
|
||||
ताः
|
||||
तया
|
||||
ताभ्याम्
|
||||
ताभिः
|
||||
तस्यै
|
||||
ताभ्याम्
|
||||
ताभ्यः
|
||||
तस्याः
|
||||
ताभ्याम्
|
||||
ताभ्यः
|
||||
तस्य
|
||||
तयोः
|
||||
तासाम्
|
||||
तस्याम्
|
||||
तयोः
|
||||
तासु
|
||||
तत्
|
||||
ते
|
||||
तानि
|
||||
तत्
|
||||
ते
|
||||
तानि
|
||||
तया
|
||||
ताभ्याम्
|
||||
ताभिः
|
||||
तस्यै
|
||||
ताभ्याम्
|
||||
ताभ्यः
|
||||
तस्याः
|
||||
ताभ्याम्
|
||||
ताभ्यः
|
||||
तस्य
|
||||
तयोः
|
||||
तासाम्
|
||||
तस्याम्
|
||||
तयोः
|
||||
तासु
|
||||
अयम्
|
||||
इमौ
|
||||
इमे
|
||||
इमम्
|
||||
इमौ
|
||||
इमान्
|
||||
अनेन
|
||||
आभ्याम्
|
||||
एभिः
|
||||
अस्मै
|
||||
आभ्याम्
|
||||
एभ्यः
|
||||
अस्मात्
|
||||
आभ्याम्
|
||||
एभ्यः
|
||||
अस्य
|
||||
अनयोः
|
||||
एषाम्
|
||||
अस्मिन्
|
||||
अनयोः
|
||||
एषु
|
||||
इयम्
|
||||
इमे
|
||||
इमाः
|
||||
इमाम्
|
||||
इमे
|
||||
इमाः
|
||||
अनया
|
||||
आभ्याम्
|
||||
आभिः
|
||||
अस्यै
|
||||
आभ्याम्
|
||||
आभ्यः
|
||||
अस्याः
|
||||
आभ्याम्
|
||||
आभ्यः
|
||||
अस्याः
|
||||
अनयोः
|
||||
आसाम्
|
||||
अस्याम्
|
||||
अनयोः
|
||||
आसु
|
||||
इदम्
|
||||
इमे
|
||||
इमानि
|
||||
इदम्
|
||||
इमे
|
||||
इमानि
|
||||
अनेन
|
||||
आभ्याम्
|
||||
एभिः
|
||||
अस्मै
|
||||
आभ्याम्
|
||||
एभ्यः
|
||||
अस्मात्
|
||||
आभ्याम्
|
||||
एभ्यः
|
||||
अस्य
|
||||
अनयोः
|
||||
एषाम्
|
||||
अस्मिन्
|
||||
अनयोः
|
||||
एषु
|
||||
एषः
|
||||
एतौ
|
||||
एते
|
||||
एतम् एनम्
|
||||
एतौ एनौ
|
||||
एतान् एनान्
|
||||
एतेन
|
||||
एताभ्याम्
|
||||
एतैः
|
||||
एतस्मै
|
||||
एताभ्याम्
|
||||
एतेभ्यः
|
||||
एतस्मात्
|
||||
एताभ्याम्
|
||||
एतेभ्यः
|
||||
एतस्य
|
||||
एतस्मिन्
|
||||
एतेषाम्
|
||||
एतस्मिन्
|
||||
एतस्मिन्
|
||||
एतेषु
|
||||
एषा
|
||||
एते
|
||||
एताः
|
||||
एताम् एनाम्
|
||||
एते एने
|
||||
एताः एनाः
|
||||
एतया एनया
|
||||
एताभ्याम्
|
||||
एताभिः
|
||||
एतस्यै
|
||||
एताभ्याम्
|
||||
एताभ्यः
|
||||
एतस्याः
|
||||
एताभ्याम्
|
||||
एताभ्यः
|
||||
एतस्याः
|
||||
एतयोः एनयोः
|
||||
एतासाम्
|
||||
एतस्याम्
|
||||
एतयोः एनयोः
|
||||
एतासु
|
||||
एतत् एतद्
|
||||
एते
|
||||
एतानि
|
||||
एतत् एतद् एनत् एनद्
|
||||
एते एने
|
||||
एतानि एनानि
|
||||
एतेन एनेन
|
||||
एताभ्याम्
|
||||
एतैः
|
||||
एतस्मै
|
||||
एताभ्याम्
|
||||
एतेभ्यः
|
||||
एतस्मात्
|
||||
एताभ्याम्
|
||||
एतेभ्यः
|
||||
एतस्य
|
||||
एतयोः एनयोः
|
||||
एतेषाम्
|
||||
एतस्मिन्
|
||||
एतयोः एनयोः
|
||||
एतेषु
|
||||
असौ
|
||||
अमू
|
||||
अमी
|
||||
अमूम्
|
||||
अमू
|
||||
अमून्
|
||||
अमुना
|
||||
अमूभ्याम्
|
||||
अमीभिः
|
||||
अमुष्मै
|
||||
अमूभ्याम्
|
||||
अमीभ्यः
|
||||
अमुष्मात्
|
||||
अमूभ्याम्
|
||||
अमीभ्यः
|
||||
अमुष्य
|
||||
अमुयोः
|
||||
अमीषाम्
|
||||
अमुष्मिन्
|
||||
अमुयोः
|
||||
अमीषु
|
||||
असौ
|
||||
अमू
|
||||
अमूः
|
||||
अमूम्
|
||||
अमू
|
||||
अमूः
|
||||
अमुया
|
||||
अमूभ्याम्
|
||||
अमूभिः
|
||||
अमुष्यै
|
||||
अमूभ्याम्
|
||||
अमूभ्यः
|
||||
अमुष्याः
|
||||
अमूभ्याम्
|
||||
अमूभ्यः
|
||||
अमुष्याः
|
||||
अमुयोः
|
||||
अमूषाम्
|
||||
अमुष्याम्
|
||||
अमुयोः
|
||||
अमूषु
|
||||
अमु
|
||||
अमुनी
|
||||
अमूनि
|
||||
अमु
|
||||
अमुनी
|
||||
अमूनि
|
||||
अमुना
|
||||
अमूभ्याम्
|
||||
अमीभिः
|
||||
अमुष्मै
|
||||
अमूभ्याम्
|
||||
अमीभ्यः
|
||||
अमुष्मात्
|
||||
अमूभ्याम्
|
||||
अमीभ्यः
|
||||
अमुष्य
|
||||
अमुयोः
|
||||
अमीषाम्
|
||||
अमुष्मिन्
|
||||
अमुयोः
|
||||
अमीषु
|
||||
कः
|
||||
कौ
|
||||
के
|
||||
कम्
|
||||
कौ
|
||||
कान्
|
||||
केन
|
||||
काभ्याम्
|
||||
कैः
|
||||
कस्मै
|
||||
काभ्याम्
|
||||
केभ्य
|
||||
कस्मात्
|
||||
काभ्याम्
|
||||
केभ्य
|
||||
कस्य
|
||||
कयोः
|
||||
केषाम्
|
||||
कस्मिन्
|
||||
कयोः
|
||||
केषु
|
||||
का
|
||||
के
|
||||
काः
|
||||
काम्
|
||||
के
|
||||
काः
|
||||
कया
|
||||
काभ्याम्
|
||||
काभिः
|
||||
कस्यै
|
||||
काभ्याम्
|
||||
काभ्यः
|
||||
कस्याः
|
||||
काभ्याम्
|
||||
काभ्यः
|
||||
कस्याः
|
||||
कयोः
|
||||
कासाम्
|
||||
कस्याम्
|
||||
कयोः
|
||||
कासु
|
||||
किम्
|
||||
के
|
||||
कानि
|
||||
किम्
|
||||
के
|
||||
कानि
|
||||
केन
|
||||
काभ्याम्
|
||||
कैः
|
||||
कस्मै
|
||||
काभ्याम्
|
||||
केभ्य
|
||||
कस्मात्
|
||||
काभ्याम्
|
||||
केभ्य
|
||||
कस्य
|
||||
कयोः
|
||||
केषाम्
|
||||
कस्मिन्
|
||||
कयोः
|
||||
केषु
|
||||
भवान्
|
||||
भवन्तौ
|
||||
भवन्तः
|
||||
भवन्तम्
|
||||
भवन्तौ
|
||||
भवतः
|
||||
भवता
|
||||
भवद्भ्याम्
|
||||
भवद्भिः
|
||||
भवते
|
||||
भवद्भ्याम्
|
||||
भवद्भ्यः
|
||||
भवतः
|
||||
भवद्भ्याम्
|
||||
भवद्भ्यः
|
||||
भवतः
|
||||
भवतोः
|
||||
भवताम्
|
||||
भवति
|
||||
भवतोः
|
||||
भवत्सु
|
||||
भवती
|
||||
भवत्यौ
|
||||
भवत्यः
|
||||
भवतीम्
|
||||
भवत्यौ
|
||||
भवतीः
|
||||
भवत्या
|
||||
भवतीभ्याम्
|
||||
भवतीभिः
|
||||
भवत्यै
|
||||
भवतीभ्याम्
|
||||
भवतीभिः
|
||||
भवत्याः
|
||||
भवतीभ्याम्
|
||||
भवतीभिः
|
||||
भवत्याः
|
||||
भवत्योः
|
||||
भवतीनाम्
|
||||
भवत्याम्
|
||||
भवत्योः
|
||||
भवतीषु
|
||||
भवत्
|
||||
भवती
|
||||
भवन्ति
|
||||
भवत्
|
||||
भवती
|
||||
भवन्ति
|
||||
भवता
|
||||
भवद्भ्याम्
|
||||
भवद्भिः
|
||||
भवते
|
||||
भवद्भ्याम्
|
||||
भवद्भ्यः
|
||||
भवतः
|
||||
भवद्भ्याम्
|
||||
भवद्भ्यः
|
||||
भवतः
|
||||
भवतोः
|
||||
भवताम्
|
||||
भवति
|
||||
भवतोः
|
||||
भवत्सु
|
||||
अये
|
||||
अरे
|
||||
अरेरे
|
||||
अविधा
|
||||
असाधुना
|
||||
अस्तोभ
|
||||
अहह
|
||||
अहावस्
|
||||
आम्
|
||||
आर्यहलम्
|
||||
आह
|
||||
आहो
|
||||
इस्
|
||||
उम्
|
||||
उवे
|
||||
काम्
|
||||
कुम्
|
||||
चमत्
|
||||
टसत्
|
||||
दृन्
|
||||
धिक्
|
||||
पाट्
|
||||
फत्
|
||||
फाट्
|
||||
फुडुत्
|
||||
बत
|
||||
बाल्
|
||||
वट्
|
||||
व्यवस्तोभति व्यवस्तुभ्
|
||||
षाट्
|
||||
स्तोभ
|
||||
हुम्मा
|
||||
हूम्
|
||||
अति
|
||||
अधि
|
||||
अनु
|
||||
अप
|
||||
अपि
|
||||
अभि
|
||||
अव
|
||||
आ
|
||||
उद्
|
||||
उप
|
||||
नि
|
||||
निर्
|
||||
परा
|
||||
परि
|
||||
प्र
|
||||
प्रति
|
||||
वि
|
||||
सम्
|
||||
अथवा उत
|
||||
अन्यथा
|
||||
इव
|
||||
च
|
||||
चेत् यदि
|
||||
तु परन्तु
|
||||
यतः करणेन हि यतस् यदर्थम् यदर्थे यर्हि यथा यत्कारणम् येन ही हिन
|
||||
यथा यतस्
|
||||
यद्यपि
|
||||
यात् अवधेस् यावति
|
||||
येन प्रकारेण
|
||||
स्थाने
|
||||
अह
|
||||
एव
|
||||
एवम्
|
||||
कच्चित्
|
||||
कु
|
||||
कुवित्
|
||||
कूपत्
|
||||
च
|
||||
चण्
|
||||
चेत्
|
||||
तत्र
|
||||
नकिम्
|
||||
नह
|
||||
नुनम्
|
||||
नेत्
|
||||
भूयस्
|
||||
मकिम्
|
||||
मकिर्
|
||||
यत्र
|
||||
युगपत्
|
||||
वा
|
||||
शश्वत्
|
||||
सूपत्
|
||||
ह
|
||||
हन्त
|
||||
हि
|
||||
""".split()
|
||||
)
|
Some files were not shown because too many files have changed in this diff Show More
Loading…
Reference in New Issue
Block a user