* Add character tagger for Chinese

2025-09-05 20:04:55 +03:00 · 2016-04-25 22:20:01 +02:00 · 2016-04-25 22:20:01 +02:00 · e3de3f62cb
commit e3de3f62cb
parent b6ccd8d76a
1 changed files with 23 additions and 4 deletions
--- a/spacy/zh/init.py
+++ b/spacy/zh/init.py
@ -1,6 +1,27 @@
 import jieba
 from ..language import Language
 from .jieba import JiebaTokenizer
 from ..tokenizer import Tokenizer
 from ..tokens.doc import Doc
 class JiebaTokenizer(Tokenizer):
    def __call__(self, text):
        orths = []
        spaces = []
        for orth, start, end in jieba.tokenize(text):
            # TODO: This is wrong if multiple spaces in a row.
            if orth == u' ':
                spaces[-1] = True
            else:
                orths.append(orth)
                spaces.append(False)
        return Doc(self.vocab, orths_and_spaces=zip(orths, spaces))
 class CharacterTokenizer(Tokenizer):
    def __call__(self, text):
        return self.tokens_from_list(list(text))
 class Chinese(Language):
    lang = u'zh'
@ -8,6 +29,4 @@ class Chinese(Language):
    @classmethod
    def default_tokenizer(cls, package, vocab):
        '''Return Jieba-wrapper tokenizer.'''
-        return JiebaTokenizer.from_package(package, vocab)
+        return CharacterTokenizer.from_package(package, vocab)