spaCy/spacy/lang/ja/stop_words.py

50 lines
1.3 KiB
Python
Raw Normal View History

# coding: utf8
from __future__ import unicode_literals
# This list was created by taking the top 2000 words from a Wikipedia dump and
# filtering out everything that wasn't hiragana. ー (one) was also added.
# Considered keeping some non-hiragana words but too many place names were
# present.
STOP_WORDS = set("""
あっ あまり あり ある あるいは あれ
いい いう いく いずれ いっ いつ いる いわ
うち
おい おけ および おら おり
かけ かつ かつて かなり から
きっかけ
くる くん
こう ここ こと この これ ごと
さらに さん
しか しかし しまう しまっ しよう
すぐ すべて する
せい せる
そう そこ そして その それ それぞれ
たい ただし たち ため たら たり だけ だっ
ちゃん
つい つけ つつ
でき できる です
とき ところ とっ とも どう
ない なお なかっ ながら なく なけれ なし なっ など なら なり なる
にて
のち のみ
はじめ
ひと
ぶり
べき
ほか ほとんど ほど ほぼ
ます また まで まま
もう もっ もと もの
やっ
よう よく よっ より よる よれ
らしい られ られる
れる
""".split())