Disable sentence segmentation in ja tokenizer (#5566)

2025-11-22 02:36:03 +03:00 · 2020-06-09 12:00:59 +02:00 · 2020-06-09 12:00:59 +02:00 · b7e6e1b9a7
commit b7e6e1b9a7
parent 86112d2168
2 changed files with 1 additions and 1 deletions
--- a/spacy/lang/ja/init.py
+++ b/spacy/lang/ja/init.py
@ -209,7 +209,6 @@ class JapaneseTokenizer(DummyTokenizer):
            token.lemma_ = lemma
        doc.user_data["unidic_tags"] = unidic_tags

-        separate_sentences(doc)
        return doc

    def _get_config(self):
--- a/spacy/tests/lang/ja/test_tokenizer.py
+++ b/spacy/tests/lang/ja/test_tokenizer.py
@ -58,6 +58,7 @@ def test_ja_tokenizer_pos(ja_tokenizer, text, expected_pos):
    assert pos == expected_pos


+@pytest.mark.skip(reason="sentence segmentation in tokenizer is buggy")
@pytest.mark.parametrize("text,expected_sents", SENTENCE_TESTS)
 def test_ja_tokenizer_pos(ja_tokenizer, text, expected_sents):
    sents = [str(sent) for sent in ja_tokenizer(text).sents]