mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-14 13:47:13 +03:00
b2b7e1f37a
* This PR adds Gujarati Language class along with - stop words * Add test for gu tokenizer
92 lines
1.0 KiB
Python
92 lines
1.0 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
STOP_WORDS = set(
|
|
"""
|
|
એમ
|
|
આ
|
|
એ
|
|
રહી
|
|
છે
|
|
છો
|
|
હતા
|
|
હતું
|
|
હતી
|
|
હોય
|
|
હતો
|
|
શકે
|
|
તે
|
|
તેના
|
|
તેનું
|
|
તેને
|
|
તેની
|
|
તેઓ
|
|
તેમને
|
|
તેમના
|
|
તેમણે
|
|
તેમનું
|
|
તેમાં
|
|
અને
|
|
અહીં
|
|
થી
|
|
થઈ
|
|
થાય
|
|
જે
|
|
ને
|
|
કે
|
|
ના
|
|
ની
|
|
નો
|
|
ને
|
|
નું
|
|
શું
|
|
માં
|
|
પણ
|
|
પર
|
|
જેવા
|
|
જેવું
|
|
જાય
|
|
જેમ
|
|
જેથી
|
|
માત્ર
|
|
માટે
|
|
પરથી
|
|
આવ્યું
|
|
એવી
|
|
આવી
|
|
રીતે
|
|
સુધી
|
|
થાય
|
|
થઈ
|
|
સાથે
|
|
લાગે
|
|
હોવા
|
|
છતાં
|
|
રહેલા
|
|
કરી
|
|
કરે
|
|
કેટલા
|
|
કોઈ
|
|
કેમ
|
|
કર્યો
|
|
કર્યુ
|
|
કરે
|
|
સૌથી
|
|
ત્યારબાદ
|
|
તથા
|
|
દ્વારા
|
|
જુઓ
|
|
જાઓ
|
|
જ્યારે
|
|
ત્યારે
|
|
શકો
|
|
નથી
|
|
હવે
|
|
અથવા
|
|
થતો
|
|
દર
|
|
એટલો
|
|
પરંતુ
|
|
""".split()
|
|
)
|