From 61ef0739b8cede7bf87076f41fa1a2395ff52da2 Mon Sep 17 00:00:00 2001 From: Paul O'Leary McCann Date: Tue, 17 Jul 2018 17:12:48 +0900 Subject: [PATCH] Add Japanese stop words. (#2549) MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit List created by taking the 2000 top words from a Wikipedia dump and removing everything that wasn't hiragana. Tried going through kanji words and deciding what to keep but there were too many obvious non-stopwords (東京 was in the top 500) and many other words where it wasn't clear if they should be included or not. --- spacy/lang/ja/stop_words.py | 49 +++++++++++++++++++++++++++++++++++++ 1 file changed, 49 insertions(+) create mode 100644 spacy/lang/ja/stop_words.py diff --git a/spacy/lang/ja/stop_words.py b/spacy/lang/ja/stop_words.py new file mode 100644 index 000000000..a3df4f6ac --- /dev/null +++ b/spacy/lang/ja/stop_words.py @@ -0,0 +1,49 @@ +# coding: utf8 +from __future__ import unicode_literals + +# This list was created by taking the top 2000 words from a Wikipedia dump and +# filtering out everything that wasn't hiragana. ー (one) was also added. +# Considered keeping some non-hiragana words but too many place names were +# present. +STOP_WORDS = set(""" +あ あっ あまり あり ある あるいは あれ +い いい いう いく いずれ いっ いつ いる いわ +うち +え +お おい おけ および おら おり +か かけ かつ かつて かなり から が +き きっかけ +くる くん +こ こう ここ こと この これ ご ごと +さ さらに さん +し しか しかし しまう しまっ しよう +す すぐ すべて する ず +せ せい せる +そう そこ そして その それ それぞれ +た たい ただし たち ため たら たり だ だけ だっ +ち ちゃん +つ つい つけ つつ +て で でき できる です +と とき ところ とっ とも どう +な ない なお なかっ ながら なく なけれ なし なっ など なら なり なる +に にて +ぬ +ね +の のち のみ +は はじめ ば +ひと +ぶり +へ べき +ほか ほとんど ほど ほぼ +ま ます また まで まま +み +も もう もっ もと もの +や やっ +よ よう よく よっ より よる よれ +ら らしい られ られる +る +れ れる +を +ん +一 +""".split())