2017-01-05 20:11:25 +03:00
|
|
|
import pytest
|
|
|
|
|
|
|
|
|
2018-07-25 00:38:44 +03:00
|
|
|
def test_de_tokenizer_handles_long_text(de_tokenizer):
|
2017-01-05 20:11:25 +03:00
|
|
|
text = """Die Verwandlung
|
|
|
|
|
2017-01-05 20:13:30 +03:00
|
|
|
Als Gregor Samsa eines Morgens aus unruhigen Träumen erwachte, fand er sich in
|
|
|
|
seinem Bett zu einem ungeheueren Ungeziefer verwandelt.
|
2017-01-05 20:11:25 +03:00
|
|
|
|
2017-01-05 20:13:30 +03:00
|
|
|
Er lag auf seinem panzerartig harten Rücken und sah, wenn er den Kopf ein wenig
|
|
|
|
hob, seinen gewölbten, braunen, von bogenförmigen Versteifungen geteilten
|
|
|
|
Bauch, auf dessen Höhe sich die Bettdecke, zum gänzlichen Niedergleiten bereit,
|
|
|
|
kaum noch erhalten konnte. Seine vielen, im Vergleich zu seinem sonstigen
|
|
|
|
Umfang kläglich dünnen Beine flimmerten ihm hilflos vor den Augen.
|
2017-01-05 20:11:25 +03:00
|
|
|
|
|
|
|
»Was ist mit mir geschehen?«, dachte er."""
|
|
|
|
|
|
|
|
tokens = de_tokenizer(text)
|
2017-01-05 20:13:30 +03:00
|
|
|
assert len(tokens) == 109
|
2017-01-05 20:11:25 +03:00
|
|
|
|
|
|
|
|
2018-11-27 03:09:36 +03:00
|
|
|
@pytest.mark.parametrize(
|
|
|
|
"text",
|
|
|
|
[
|
|
|
|
"Donaudampfschifffahrtsgesellschaftskapitänsanwärterposten",
|
|
|
|
"Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz",
|
|
|
|
"Kraftfahrzeug-Haftpflichtversicherung",
|
|
|
|
"Vakuum-Mittelfrequenz-Induktionsofen",
|
|
|
|
],
|
|
|
|
)
|
2018-07-25 00:38:44 +03:00
|
|
|
def test_de_tokenizer_handles_long_words(de_tokenizer, text):
|
2017-01-05 20:11:25 +03:00
|
|
|
tokens = de_tokenizer(text)
|
2017-09-16 21:40:15 +03:00
|
|
|
assert len(tokens) == 1
|
2017-01-05 20:11:25 +03:00
|
|
|
|
|
|
|
|
2018-11-27 03:09:36 +03:00
|
|
|
@pytest.mark.parametrize(
|
|
|
|
"text,length",
|
|
|
|
[
|
|
|
|
("»Was ist mit mir geschehen?«, dachte er.", 12),
|
|
|
|
("“Dies frühzeitige Aufstehen”, dachte er, “macht einen ganz blödsinnig. ", 15),
|
|
|
|
],
|
|
|
|
)
|
2018-07-25 00:38:44 +03:00
|
|
|
def test_de_tokenizer_handles_examples(de_tokenizer, text, length):
|
2017-01-05 20:11:25 +03:00
|
|
|
tokens = de_tokenizer(text)
|
|
|
|
assert len(tokens) == length
|