mirror of
https://github.com/explosion/spaCy.git
synced 2025-01-12 10:16:27 +03:00
Add stopwords
This commit is contained in:
parent
28d06ab860
commit
101d265778
47
spacy/lang/ky/stop_words.py
Normal file
47
spacy/lang/ky/stop_words.py
Normal file
|
@ -0,0 +1,47 @@
|
|||
# encoding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
# Tatar stopwords are from https://github.com/aliiae/stopwords-tt
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
ага адам айтты айтымында айтып ал алар
|
||||
алардын алган алуу алып анда андан аны
|
||||
анын ар
|
||||
|
||||
бар басма баш башка башкы башчысы берген
|
||||
биз билдирген билдирди бир биринчи бирок
|
||||
бишкек болгон болот болсо болуп боюнча
|
||||
буга бул
|
||||
|
||||
гана
|
||||
|
||||
да дагы деген деди деп
|
||||
|
||||
жана жатат жаткан жаңы же жогорку жок жол
|
||||
жолу
|
||||
|
||||
кабыл калган кандай карата каршы катары
|
||||
келген керек кийин кол кылмыш кыргыз
|
||||
күнү көп
|
||||
|
||||
маалымат мамлекеттик мен менен миң
|
||||
мурдагы мыйзам мындай мүмкүн
|
||||
|
||||
ошол ошондой
|
||||
|
||||
сүрөт сөз
|
||||
|
||||
тарабынан турган тууралуу
|
||||
|
||||
укук учурда
|
||||
|
||||
чейин чек
|
||||
|
||||
экенин эки эл эле эмес эми эч
|
||||
|
||||
үч үчүн
|
||||
|
||||
өз
|
||||
""".split()
|
||||
)
|
Loading…
Reference in New Issue
Block a user