Reorganise Japanese language data

2026-03-01 10:21:28 +03:00 · 2017-05-08 15:50:46 +02:00 · 2017-05-08 15:50:46 +02:00 · 5edbc725d8
commit 5edbc725d8
parent 51a389d3bb
3 changed files with 2 additions and 38 deletions
--- a/spacy/ja/init.py
+++ b/spacy/ja/init.py
@ -1,14 +1,10 @@
 # encoding: utf8
 from __future__ import unicode_literals, print_function

-from os import path
-
 from ..language import Language
 from ..attrs import LANG
 from ..tokens import Doc

-from .language_data import *
-

 class Japanese(Language):
    lang = 'ja'
@ -22,4 +18,5 @@ class Japanese(Language):
        words = [x.surface for x in Tokenizer().tokenize(text)]
        return Doc(self.vocab, words=words, spaces=[False]*len(words))

-EXPORT = Japanese
+
+__all__ = ['Japanese']
--- a/spacy/ja/stop_words.py
+++ b/spacy/ja/stop_words.py
@ -1,9 +0,0 @@
-# encoding: utf8
-from __future__ import unicode_literals
-
-
-# stop words as whitespace-separated list
-STOP_WORDS = set("""
-。
-、
-""".split())
--- a/spacy/ja/tag_map.py
+++ b/spacy/ja/tag_map.py
@ -1,24 +0,0 @@
-# encoding: utf8
-from __future__ import unicode_literals
-
-from ..symbols import *
-
-
-TAG_MAP = {
-    "ADV":      {POS: ADV},
-    "NOUN":     {POS: NOUN},
-    "ADP":      {POS: ADP},
-    "PRON":     {POS: PRON},
-    "SCONJ":    {POS: SCONJ},
-    "PROPN":    {POS: PROPN},
-    "DET":      {POS: DET},
-    "SYM":      {POS: SYM},
-    "INTJ":     {POS: INTJ},
-    "PUNCT":    {POS: PUNCT},
-    "NUM":      {POS: NUM},
-    "AUX":      {POS: AUX},
-    "X":        {POS: X},
-    "CONJ":     {POS: CONJ},
-    "ADJ":      {POS: ADJ},
-    "VERB":     {POS: VERB}
-}