mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-14 05:37:03 +03:00
428887b8f2
* new language: Luxembourgish (lb) * update * update * Update and rename .github/CONTRIBUTOR_AGREEMENT.md to .github/contributors/PeterGilles.md * Update and rename .github/contributors/PeterGilles.md to .github/CONTRIBUTOR_AGREEMENT.md * Update norm_exceptions.py * Delete README.md * moved test_lemma.py * deactivated 'lemma_lookup = LOOKUP' * update * Update conftest.py * update * tests updated * import unicode_literals * Update spacy/tests/lang/lb/test_text.py Co-Authored-By: Ines Montani <ines@ines.io> * Create PeterGilles.md
33 lines
1.3 KiB
Python
33 lines
1.3 KiB
Python
# coding: utf-8
|
||
from __future__ import unicode_literals
|
||
from __future__ import unicode_literals
|
||
|
||
import pytest
|
||
|
||
|
||
def test_lb_tokenizer_handles_long_text(lb_tokenizer):
|
||
text = """Den Nordwand an d'Sonn
|
||
|
||
An der Zäit hunn sech den Nordwand an d’Sonn gestridden, wie vun hinnen zwee wuel méi staark wier, wéi e Wanderer, deen an ee waarme Mantel agepak war, iwwert de Wee koum. Si goufen sech eens, dass deejéinege fir de Stäerkste gëlle sollt, deen de Wanderer forcéiere géif, säi Mantel auszedoen.",
|
||
|
||
Den Nordwand huet mat aller Force geblosen, awer wat e méi geblosen huet, wat de Wanderer sech méi a säi Mantel agewéckelt huet. Um Enn huet den Nordwand säi Kampf opginn.
|
||
|
||
Dunn huet d’Sonn d’Loft mat hire frëndleche Strale gewiermt, a schonn no kuerzer Zäit huet de Wanderer säi Mantel ausgedoen.
|
||
|
||
Do huet den Nordwand missen zouginn, dass d’Sonn vun hinnen zwee de Stäerkste wier."""
|
||
|
||
tokens = lb_tokenizer(text)
|
||
assert len(tokens) == 143
|
||
|
||
|
||
@pytest.mark.parametrize(
|
||
"text,length",
|
||
[
|
||
("»Wat ass mat mir geschitt?«, huet hie geduecht.", 13),
|
||
("“Dëst fréi Opstoen”, denkt hien, “mécht ee ganz duercherneen. ", 15),
|
||
],
|
||
)
|
||
def test_lb_tokenizer_handles_examples(lb_tokenizer, text, length):
|
||
tokens = lb_tokenizer(text)
|
||
assert len(tokens) == length
|