spaCy/spacy/zh/__init__.py

import jieba
from ..language import Language

from ..tokenizer import Tokenizer
from ..tokens.doc import Doc


class JiebaTokenizer(Tokenizer):
    def __call__(self, text):
        orths = []
        spaces = []
        for orth, start, end in jieba.tokenize(text):
            # TODO: This is wrong if multiple spaces in a row.
            if orth == u' ':
                spaces[-1] = True
            else:
                orths.append(orth)
                spaces.append(False)
        return Doc(self.vocab, orths_and_spaces=zip(orths, spaces))


class CharacterTokenizer(Tokenizer):
    def __call__(self, text):
        return self.tokens_from_list(list(text))


class Chinese(Language):
    lang = u'zh'

    @classmethod
    def default_tokenizer(cls, package, vocab):
        '''Return Jieba-wrapper tokenizer.'''
        return JiebaTokenizer.from_package(package, vocab)
* Add character tagger for Chinese 2016-04-25 23:20:01 +03:00			`import jieba`
* Add initial stuff for Chinese parsing 2016-04-24 19:44:24 +03:00			`from ..language import Language`

* Add character tagger for Chinese 2016-04-25 23:20:01 +03:00			`from ..tokenizer import Tokenizer`
			`from ..tokens.doc import Doc`


			`class JiebaTokenizer(Tokenizer):`
			`def __call__(self, text):`
			`orths = []`
			`spaces = []`
			`for orth, start, end in jieba.tokenize(text):`
			`# TODO: This is wrong if multiple spaces in a row.`
			`if orth == u' ':`
			`spaces[-1] = True`
			`else:`
			`orths.append(orth)`
			`spaces.append(False)`
			`return Doc(self.vocab, orths_and_spaces=zip(orths, spaces))`


			`class CharacterTokenizer(Tokenizer):`
			`def __call__(self, text):`
			`return self.tokens_from_list(list(text))`
* Add initial stuff for Chinese parsing 2016-04-24 19:44:24 +03:00
* Use tokens from Jieba library 2016-04-28 15:32:27 +03:00
* Add initial stuff for Chinese parsing 2016-04-24 19:44:24 +03:00			`class Chinese(Language):`
			`lang = u'zh'`
* Use Jieba tokenizer in Chinese class 2016-04-24 20:11:38 +03:00
			`@classmethod`
			`def default_tokenizer(cls, package, vocab):`
			`'''Return Jieba-wrapper tokenizer.'''`
* Use tokens from Jieba library 2016-04-28 15:32:27 +03:00			`return JiebaTokenizer.from_package(package, vocab)`