improved upon the list of included stop_words

This commit is contained in:
Abhinav Sharma 2017-11-13 17:13:49 +05:30 committed by GitHub
parent 7a7b01feb1
commit 59f5740ede
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

View File

@ -5,14 +5,23 @@ from __future__ import unicode_literals
# Source: https://github.com/taranjeet/hindi-tokenizer/blob/master/stopwords.txt # Source: https://github.com/taranjeet/hindi-tokenizer/blob/master/stopwords.txt
STOP_WORDS = set(""" STOP_WORDS = set("""
दर
अत अत
अदि
अप
अपन अपन
अपनि
अपन अपन
अपन अपन
अभि
अभ अभ
दर दर
आदि आदि
आप आप
ि
इतयि
इति इति
इन इन
इनक इनक
@ -21,13 +30,19 @@ STOP_WORDS = set("""
इन इन
इस इस
इसक इसक
इसकि
इसक इसक
इसक इसक
इसम इसम
इसि
इस इस
इस इस
ि
उन उन
उनक उनक
उनकि
उनक उनक
उनक उनक
उनक उनक
@ -36,13 +51,17 @@ STOP_WORDS = set("""
उन उन
उस उस
उसक उसक
उसि
उस उस
उस उस
एक एक
एव एव
एस एस
एस
ऐस ऐस
ओर
और और
कइ
कई कई
कर कर
करत करत
@ -53,14 +72,18 @@ STOP_WORDS = set("""
कहत कहत
कह कह
ि
ि ि
ि
ि
ितन ितन
ि ि
ि ि
ि ि
ि ि
ि ि
िि
ि ि
ि ि
@ -68,27 +91,38 @@ STOP_WORDS = set("""
नस
नस नस
गय गय
घर घर
जब जब
जह जह
जह
ि
ि
ितन ितन
िधर
ि ि
ि ि
ि ि
ि ि
ि ि
धर धर
तक तक
तब तब
तरह तरह
ि
ि
ि ि
ि ि
ि ि
@ -96,32 +130,41 @@ STOP_WORDS = set("""
ि ि
ि
दब दब
दव
ि ि
सर सर
सर
सर सर
ि
नह नह
ि
ियत ियत
पर पर
पहल पहल
ि ि
बनि
बन बन
बहि
बह बह
बह बह
िलक िलक
ि
ितर
तर तर
मगर मगर
@ -131,11 +174,14 @@ STOP_WORDS = set("""
यदि यदि
यह यह
यह यह
यह
यहि
यह यह
ि ि
रख रख
रव
रह रह
रह रह
@ -143,17 +189,24 @@ STOP_WORDS = set("""
ि ि
ि ि
वगरह
वग़रह वग़रह
वरग
वर वर
वह वह
वह वह
वह
वहि
वह वह
वग़रह
सकत सकत
सकत सकत
सबस सबस
सभि
सभ सभ
@ -162,16 +215,23 @@ STOP_WORDS = set("""
ि
ि
""".split()) """.split())