Reorganise Japanese language data

2025-07-15 02:32:37 +03:00 · 2017-05-08 15:50:46 +02:00 · 2017-05-08 15:50:46 +02:00 · 5edbc725d8
commit 5edbc725d8
parent 51a389d3bb
3 changed files with 2 additions and 38 deletions
--- a/spacy/ja/init.py
+++ b/spacy/ja/init.py
@ -1,14 +1,10 @@
 # encoding: utf8
 from __future__ import unicode_literals, print_function
 from os import path
 from ..language import Language
 from ..attrs import LANG
 from ..tokens import Doc
 from .language_data import *
 class Japanese(Language):
    lang = 'ja'
@ -22,4 +18,5 @@ class Japanese(Language):
        words = [x.surface for x in Tokenizer().tokenize(text)]
        return Doc(self.vocab, words=words, spaces=[False]*len(words))
-EXPORT = Japanese
+
 __all__ = ['Japanese']
--- a/spacy/ja/stop_words.py
+++ b/spacy/ja/stop_words.py
@ -1,9 +0,0 @@
 # encoding: utf8
 from __future__ import unicode_literals
 # stop words as whitespace-separated list
 STOP_WORDS = set("""
 。
 、
 """.split())
--- a/spacy/ja/tag_map.py
+++ b/spacy/ja/tag_map.py
@ -1,24 +0,0 @@
 # encoding: utf8
 from __future__ import unicode_literals
 from ..symbols import *
 TAG_MAP = {
    "ADV":      {POS: ADV},
    "NOUN":     {POS: NOUN},
    "ADP":      {POS: ADP},
    "PRON":     {POS: PRON},
    "SCONJ":    {POS: SCONJ},
    "PROPN":    {POS: PROPN},
    "DET":      {POS: DET},
    "SYM":      {POS: SYM},
    "INTJ":     {POS: INTJ},
    "PUNCT":    {POS: PUNCT},
    "NUM":      {POS: NUM},
    "AUX":      {POS: AUX},
    "X":        {POS: X},
    "CONJ":     {POS: CONJ},
    "ADJ":      {POS: ADJ},
    "VERB":     {POS: VERB}
 }