spaCy/spacy/lang/ja/stop_words.py

49 lines
1.3 KiB
Python
Raw Permalink Normal View History

# This list was created by taking the top 2000 words from a Wikipedia dump and
# filtering out everything that wasn't hiragana. ー (one) was also added.
# Considered keeping some non-hiragana words but too many place names were
# present.
STOP_WORDS = set(
"""
あっ あまり あり ある あるいは あれ
いい いう いく いずれ いっ いつ いる いわ
うち
おい おけ および おら おり
かけ かつ かつて かなり から
きっかけ
くる くん
こう ここ こと この これ ごと
さらに さん
しか しかし しまう しまっ しよう
すぐ すべて する
せい せる
そう そこ そして その それ それぞれ
たい ただし たち ため たら たり だけ だっ
ちゃん
つい つけ つつ
でき できる です
とき ところ とっ とも どう
ない なお なかっ ながら なく なけれ なし なっ など なら なり なる
にて
のち のみ
はじめ
ひと
ぶり
べき
ほか ほとんど ほど ほぼ
ます また まで まま
もう もっ もと もの
やっ
よう よく よっ より よる よれ
らしい られ られる
れる
""".split()
)