* Use Jieba tokenizer in Chinese class

2026-03-04 20:01:28 +03:00 · 2016-04-24 19:11:38 +02:00 · 2016-04-24 19:11:38 +02:00 · b6ccd8d76a
commit b6ccd8d76a
parent 9bfe20cac9
1 changed files with 8 additions and 0 deletions
--- a/spacy/zh/init.py
+++ b/spacy/zh/init.py
@ -1,5 +1,13 @@
 from ..language import Language
+from .jieba import JiebaTokenizer


 class Chinese(Language):
    lang = u'zh'
+
+    @classmethod
+    def default_tokenizer(cls, package, vocab):
+        '''Return Jieba-wrapper tokenizer.'''
+        return JiebaTokenizer.from_package(package, vocab)
+
+