spaCy/spacy/lang/hi/stop_words.py

240 lines
2.9 KiB
Python
Raw Permalink Normal View History

# Source: https://github.com/taranjeet/hindi-tokenizer/blob/master/stopwords.txt, https://data.mendeley.com/datasets/bsr3frvvjc/1#file-a21d5092-99d7-45d8-b044-3ae9edd391c6
STOP_WORDS = set(
"""
दर
अत
अदि
अप
अपन
अपनि
अपन
अपन
अभि
अभ
दर
आदि
आप
अगर
ि
इतयि
इति
इन
इनक
इन
इन
इन
इस
इसक
इसकि
इसक
इसक
इसम
इसि
इस
इस
ि
उन
उनक
उनकि
उनक
उनक
उनक
उन
उन
उन
उस
उसक
उसि
उस
उस
एक
एव
एस
एस
ऐस
ओर
और
कइ
कई
कर
करत
करत
करन
करन
कर
कहत
कह
ि
ि
ि
ि
ितन
ि
ि
ि
ि
ि
िि
ि
ि
नस
नस
गय
घर
जब
जह
जह
ि
ि
ितन
िधर
ि
ि
ि
ि
ि
धर
तक
तब
तरह
ि
ि
ि
ि
ि
ि
ि
ि
दब
दव
ि
सर
सर
सर
नहि
नह
ि
ियत
पर
पहल
ि
बनि
बन
बहि
बह
बह
िलक
ि
ितर
तर
मगर
झक
यदि
यह
यह
यह
यहि
यह
ि
रख
रव
रह
रह
ि
ि
ि
वगरह
वग़रह
वरग
वर
वह
वह
वह
वहि
वह
वग़रह
सकत
सकत
सबस
सभि
सभ
ि
ि
""".split()
)