Update tagger & tokenizer tests

Tagger is now parametrized and has two sentences with more tag coverage.

The tokenizer tests are updated to reflect differences in tokenization
between IPAdic and Unidic. -POLM
This commit is contained in:
Paul O'Leary McCann 2017-08-22 00:03:11 +09:00
parent adfd987316
commit bcf2b9b4f5
2 changed files with 30 additions and 7 deletions

View File

@ -3,8 +3,31 @@ from __future__ import unicode_literals
import pytest import pytest
def test_japanese_tagger(japanese): TAGGER_TESTS = [
doc = japanese.make_doc("このファイルには小さなテストが入っているよ") ('あれならそこにあるよ',
# note these both have the same raw tag, '連体詞,*,*,*' (('代名詞,*,*,*', 'PRON'),
assert doc[0].pos_ == "DET" ('助動詞,*,*,*', 'AUX'),
assert doc[4].pos_ == "ADJ" ('代名詞,*,*,*', 'PRON'),
('助詞,格助詞,*,*', 'ADP'),
('動詞,非自立可能,*,*', 'VERB'),
('助詞,終助詞,*,*', 'PART'))),
('このファイルには小さなテストが入っているよ',
(('連体詞,*,*,*,DET', 'DET'),
('名詞,普通名詞,サ変可能,*', 'NOUN'),
('助詞,格助詞,*,*', 'ADP'),
('助詞,係助詞,*,*', 'ADP'),
('連体詞,*,*,*,ADJ', 'ADJ'),
('名詞,普通名詞,サ変可能,*', 'NOUN'),
('助詞,格助詞,*,*', 'ADP'),
('動詞,一般,*,*', 'VERB'),
('助詞,接続助詞,*,*', 'SCONJ'),
('動詞,非自立可能,*,*', 'VERB'),
('助詞,終助詞,*,*', 'PART')))
]
@pytest.mark.parametrize('text,expected_tags', TAGGER_TESTS)
def test_japanese_tagger(japanese, text, expected_tags):
tokens = japanese.make_doc(text)
assert len(tokens) == len(expected_tags)
for token, res in zip(tokens, expected_tags):
assert token.tag_ == res[0] and token.pos_ == res[1]

View File

@ -4,10 +4,10 @@ from __future__ import unicode_literals
import pytest import pytest
TOKENIZER_TESTS = [ TOKENIZER_TESTS = [
("日本語だよ", ['日本', '', '']), ("日本語だよ", ['日本', '', '', '']),
("東京タワーの近くに住んでいます。", ['東京', 'タワー', '', '近く', '', '住ん', '', '', 'ます', '']), ("東京タワーの近くに住んでいます。", ['東京', 'タワー', '', '近く', '', '住ん', '', '', 'ます', '']),
("吾輩は猫である。", ['吾輩', '', '', '', 'ある', '']), ("吾輩は猫である。", ['吾輩', '', '', '', 'ある', '']),
("月に代わって、お仕置きよ!", ['', '', '代わっ', '', '', '仕置き', '', '!']), ("月に代わって、お仕置きよ!", ['', '', '代わっ', '', '', '', '仕置き', '', '!']),
("すもももももももものうち", ['すもも', '', 'もも', '', 'もも', '', 'うち']) ("すもももももももものうち", ['すもも', '', 'もも', '', 'もも', '', 'うち'])
] ]