mirror of
https://github.com/explosion/spaCy.git
synced 2025-10-24 04:31:17 +03:00
* Added Slovak * Added Slovenian tests * Added Estonian tests * Added Croatian tests * Added Latvian tests * Added Icelandic tests * Added Afrikaans tests * Added language-independent tests * Added Kannada tests * Tidied up * Added Albanian tests * Formatted with black * Added failing tests for anomalies * Update spacy/tests/lang/af/test_text.py Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> * Added context to failing Estonian tokenizer test Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> * Added context to failing Croatian tokenizer test Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> * Added context to failing Icelandic tokenizer test Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> * Added context to failing Latvian tokenizer test Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> * Added context to failing Slovak tokenizer test Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> * Added context to failing Slovenian tokenizer test Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com>
49 lines
1.5 KiB
Python
49 lines
1.5 KiB
Python
import pytest
|
|
|
|
|
|
def test_long_text(sk_tokenizer):
|
|
# Excerpt: European Convention on Human Rights
|
|
text = """
|
|
majúc na zreteli, že cieľom tejto deklarácie je zabezpečiť všeobecné
|
|
a účinné uznávanie a dodržiavanie práv v nej vyhlásených;
|
|
majúc na zreteli, že cieľom Rady Európy je dosiahnutie väčšej
|
|
jednoty medzi jej členmi, a že jedným zo spôsobov, ktorým sa
|
|
má tento cieľ napĺňať, je ochrana a ďalší rozvoj ľudských práv
|
|
a základných slobôd;
|
|
znovu potvrdzujúc svoju hlbokú vieru v tie základné slobody, ktoré
|
|
sú základom spravodlivosti a mieru vo svete, a ktoré sú najlepšie
|
|
zachovávané na jednej strane účinnou politickou demokraciou
|
|
a na strane druhej spoločným poňatím a dodržiavaním ľudských
|
|
práv, od ktorých závisia;
|
|
"""
|
|
tokens = sk_tokenizer(text)
|
|
assert len(tokens) == 118
|
|
|
|
|
|
@pytest.mark.parametrize(
|
|
"text,match",
|
|
[
|
|
("10", True),
|
|
("1", True),
|
|
("10,000", True),
|
|
("10,00", True),
|
|
("štyri", True),
|
|
("devätnásť", True),
|
|
("milión", True),
|
|
("pes", False),
|
|
(",", False),
|
|
("1/2", True),
|
|
],
|
|
)
|
|
def test_lex_attrs_like_number(sk_tokenizer, text, match):
|
|
tokens = sk_tokenizer(text)
|
|
assert len(tokens) == 1
|
|
assert tokens[0].like_num == match
|
|
|
|
|
|
@pytest.mark.xfail
|
|
def test_ordinal_number(sk_tokenizer):
|
|
text = "10. decembra 1948"
|
|
tokens = sk_tokenizer(text)
|
|
assert len(tokens) == 3
|