mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-24 17:06:29 +03:00
New tests for a number of alpha languages (#9703)
* Added Slovak * Added Slovenian tests * Added Estonian tests * Added Croatian tests * Added Latvian tests * Added Icelandic tests * Added Afrikaans tests * Added language-independent tests * Added Kannada tests * Tidied up * Added Albanian tests * Formatted with black * Added failing tests for anomalies * Update spacy/tests/lang/af/test_text.py Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> * Added context to failing Estonian tokenizer test Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> * Added context to failing Croatian tokenizer test Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> * Added context to failing Icelandic tokenizer test Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> * Added context to failing Latvian tokenizer test Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> * Added context to failing Slovak tokenizer test Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> * Added context to failing Slovenian tokenizer test Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com>
This commit is contained in:
parent
5c44533263
commit
7b134b8fbd
|
@ -49,6 +49,11 @@ def tokenizer():
|
||||||
return get_lang_class("xx")().tokenizer
|
return get_lang_class("xx")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.fixture(scope="session")
|
||||||
|
def af_tokenizer():
|
||||||
|
return get_lang_class("af")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
@pytest.fixture(scope="session")
|
@pytest.fixture(scope="session")
|
||||||
def am_tokenizer():
|
def am_tokenizer():
|
||||||
return get_lang_class("am")().tokenizer
|
return get_lang_class("am")().tokenizer
|
||||||
|
@ -125,6 +130,11 @@ def es_vocab():
|
||||||
return get_lang_class("es")().vocab
|
return get_lang_class("es")().vocab
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.fixture(scope="session")
|
||||||
|
def et_tokenizer():
|
||||||
|
return get_lang_class("et")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
@pytest.fixture(scope="session")
|
@pytest.fixture(scope="session")
|
||||||
def eu_tokenizer():
|
def eu_tokenizer():
|
||||||
return get_lang_class("eu")().tokenizer
|
return get_lang_class("eu")().tokenizer
|
||||||
|
@ -185,6 +195,11 @@ def id_tokenizer():
|
||||||
return get_lang_class("id")().tokenizer
|
return get_lang_class("id")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.fixture(scope="session")
|
||||||
|
def is_tokenizer():
|
||||||
|
return get_lang_class("is")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
@pytest.fixture(scope="session")
|
@pytest.fixture(scope="session")
|
||||||
def it_tokenizer():
|
def it_tokenizer():
|
||||||
return get_lang_class("it")().tokenizer
|
return get_lang_class("it")().tokenizer
|
||||||
|
@ -212,6 +227,11 @@ def lt_tokenizer():
|
||||||
return get_lang_class("lt")().tokenizer
|
return get_lang_class("lt")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.fixture(scope="session")
|
||||||
|
def lv_tokenizer():
|
||||||
|
return get_lang_class("lv")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
@pytest.fixture(scope="session")
|
@pytest.fixture(scope="session")
|
||||||
def mk_tokenizer():
|
def mk_tokenizer():
|
||||||
return get_lang_class("mk")().tokenizer
|
return get_lang_class("mk")().tokenizer
|
||||||
|
@ -279,11 +299,26 @@ def sa_tokenizer():
|
||||||
return get_lang_class("sa")().tokenizer
|
return get_lang_class("sa")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.fixture(scope="session")
|
||||||
|
def sk_tokenizer():
|
||||||
|
return get_lang_class("sk")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.fixture(scope="session")
|
||||||
|
def sl_tokenizer():
|
||||||
|
return get_lang_class("sl")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
@pytest.fixture(scope="session")
|
@pytest.fixture(scope="session")
|
||||||
def sr_tokenizer():
|
def sr_tokenizer():
|
||||||
return get_lang_class("sr")().tokenizer
|
return get_lang_class("sr")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.fixture(scope="session")
|
||||||
|
def sq_tokenizer():
|
||||||
|
return get_lang_class("sq")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
@pytest.fixture(scope="session")
|
@pytest.fixture(scope="session")
|
||||||
def sv_tokenizer():
|
def sv_tokenizer():
|
||||||
return get_lang_class("sv")().tokenizer
|
return get_lang_class("sv")().tokenizer
|
||||||
|
@ -344,6 +379,11 @@ def vi_tokenizer():
|
||||||
return get_lang_class("vi")().tokenizer
|
return get_lang_class("vi")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.fixture(scope="session")
|
||||||
|
def xx_tokenizer():
|
||||||
|
return get_lang_class("xx")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
@pytest.fixture(scope="session")
|
@pytest.fixture(scope="session")
|
||||||
def yo_tokenizer():
|
def yo_tokenizer():
|
||||||
return get_lang_class("yo")().tokenizer
|
return get_lang_class("yo")().tokenizer
|
||||||
|
|
0
spacy/tests/lang/af/__init__.py
Normal file
0
spacy/tests/lang/af/__init__.py
Normal file
22
spacy/tests/lang/af/test_text.py
Normal file
22
spacy/tests/lang/af/test_text.py
Normal file
|
@ -0,0 +1,22 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
|
||||||
|
def test_long_text(af_tokenizer):
|
||||||
|
# Excerpt: Universal Declaration of Human Rights; “'n” changed to “die” in first sentence
|
||||||
|
text = """
|
||||||
|
Hierdie Universele Verklaring van Menseregte as die algemene standaard vir die verwesenliking deur alle mense en nasies,
|
||||||
|
om te verseker dat elke individu en elke deel van die gemeenskap hierdie Verklaring in ag sal neem en deur opvoeding,
|
||||||
|
respek vir hierdie regte en vryhede te bevorder, op nasionale en internasionale vlak, daarna sal strewe om die universele
|
||||||
|
en effektiewe erkenning en agting van hierdie regte te verseker, nie net vir die mense van die Lidstate nie, maar ook vir
|
||||||
|
die mense in die gebiede onder hul jurisdiksie.
|
||||||
|
|
||||||
|
"""
|
||||||
|
tokens = af_tokenizer(text)
|
||||||
|
assert len(tokens) == 100
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.xfail
|
||||||
|
def test_indefinite_article(af_tokenizer):
|
||||||
|
text = "as 'n algemene standaard"
|
||||||
|
tokens = af_tokenizer(text)
|
||||||
|
assert len(tokens) == 4
|
29
spacy/tests/lang/af/test_tokenizer.py
Normal file
29
spacy/tests/lang/af/test_tokenizer.py
Normal file
|
@ -0,0 +1,29 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
AF_BASIC_TOKENIZATION_TESTS = [
|
||||||
|
(
|
||||||
|
"Elkeen het die reg tot lewe, vryheid en sekuriteit van persoon.",
|
||||||
|
[
|
||||||
|
"Elkeen",
|
||||||
|
"het",
|
||||||
|
"die",
|
||||||
|
"reg",
|
||||||
|
"tot",
|
||||||
|
"lewe",
|
||||||
|
",",
|
||||||
|
"vryheid",
|
||||||
|
"en",
|
||||||
|
"sekuriteit",
|
||||||
|
"van",
|
||||||
|
"persoon",
|
||||||
|
".",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
]
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize("text,expected_tokens", AF_BASIC_TOKENIZATION_TESTS)
|
||||||
|
def test_af_tokenizer_basic(af_tokenizer, text, expected_tokens):
|
||||||
|
tokens = af_tokenizer(text)
|
||||||
|
token_list = [token.text for token in tokens if not token.is_space]
|
||||||
|
assert expected_tokens == token_list
|
0
spacy/tests/lang/et/__init__.py
Normal file
0
spacy/tests/lang/et/__init__.py
Normal file
26
spacy/tests/lang/et/test_text.py
Normal file
26
spacy/tests/lang/et/test_text.py
Normal file
|
@ -0,0 +1,26 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
|
||||||
|
def test_long_text(et_tokenizer):
|
||||||
|
# Excerpt: European Convention on Human Rights
|
||||||
|
text = """
|
||||||
|
arvestades, et nimetatud deklaratsiooni eesmärk on tagada selles
|
||||||
|
kuulutatud õiguste üldine ja tõhus tunnustamine ning järgimine;
|
||||||
|
arvestades, et Euroopa Nõukogu eesmärk on saavutada tema
|
||||||
|
liikmete suurem ühtsus ning et üheks selle eesmärgi saavutamise
|
||||||
|
vahendiks on inimõiguste ja põhivabaduste järgimine ning
|
||||||
|
elluviimine;
|
||||||
|
taaskinnitades oma sügavat usku neisse põhivabadustesse, mis
|
||||||
|
on õigluse ja rahu aluseks maailmas ning mida kõige paremini
|
||||||
|
tagab ühelt poolt tõhus poliitiline demokraatia ning teiselt poolt
|
||||||
|
inimõiguste, millest nad sõltuvad, üldine mõistmine ja järgimine;
|
||||||
|
"""
|
||||||
|
tokens = et_tokenizer(text)
|
||||||
|
assert len(tokens) == 94
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.xfail
|
||||||
|
def test_ordinal_number(et_tokenizer):
|
||||||
|
text = "10. detsembril 1948"
|
||||||
|
tokens = et_tokenizer(text)
|
||||||
|
assert len(tokens) == 3
|
29
spacy/tests/lang/et/test_tokenizer.py
Normal file
29
spacy/tests/lang/et/test_tokenizer.py
Normal file
|
@ -0,0 +1,29 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
ET_BASIC_TOKENIZATION_TESTS = [
|
||||||
|
(
|
||||||
|
"Kedagi ei või piinata ega ebainimlikult või alandavalt kohelda "
|
||||||
|
"ega karistada.",
|
||||||
|
[
|
||||||
|
"Kedagi",
|
||||||
|
"ei",
|
||||||
|
"või",
|
||||||
|
"piinata",
|
||||||
|
"ega",
|
||||||
|
"ebainimlikult",
|
||||||
|
"või",
|
||||||
|
"alandavalt",
|
||||||
|
"kohelda",
|
||||||
|
"ega",
|
||||||
|
"karistada",
|
||||||
|
".",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
]
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize("text,expected_tokens", ET_BASIC_TOKENIZATION_TESTS)
|
||||||
|
def test_et_tokenizer_basic(et_tokenizer, text, expected_tokens):
|
||||||
|
tokens = et_tokenizer(text)
|
||||||
|
token_list = [token.text for token in tokens if not token.is_space]
|
||||||
|
assert expected_tokens == token_list
|
0
spacy/tests/lang/hr/__init__.py
Normal file
0
spacy/tests/lang/hr/__init__.py
Normal file
26
spacy/tests/lang/hr/test_text.py
Normal file
26
spacy/tests/lang/hr/test_text.py
Normal file
|
@ -0,0 +1,26 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
|
||||||
|
def test_long_text(hr_tokenizer):
|
||||||
|
# Excerpt: European Convention on Human Rights
|
||||||
|
text = """
|
||||||
|
uzimajući u obzir da ta deklaracija nastoji osigurati opće i djelotvorno
|
||||||
|
priznanje i poštovanje u njoj proglašenih prava;
|
||||||
|
uzimajući u obzir da je cilj Vijeća Europe postizanje većeg jedinstva
|
||||||
|
njegovih članica, i da je jedan od načina postizanja toga cilja
|
||||||
|
očuvanje i daljnje ostvarivanje ljudskih prava i temeljnih sloboda;
|
||||||
|
potvrđujući svoju duboku privrženost tim temeljnim slobodama
|
||||||
|
koje su osnova pravde i mira u svijetu i koje su najbolje zaštićene
|
||||||
|
istinskom političkom demokracijom s jedne strane te zajedničkim
|
||||||
|
razumijevanjem i poštovanjem ljudskih prava o kojima te slobode
|
||||||
|
ovise s druge strane;
|
||||||
|
"""
|
||||||
|
tokens = hr_tokenizer(text)
|
||||||
|
assert len(tokens) == 105
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.xfail
|
||||||
|
def test_ordinal_number(hr_tokenizer):
|
||||||
|
text = "10. prosinca 1948"
|
||||||
|
tokens = hr_tokenizer(text)
|
||||||
|
assert len(tokens) == 3
|
31
spacy/tests/lang/hr/test_tokenizer.py
Normal file
31
spacy/tests/lang/hr/test_tokenizer.py
Normal file
|
@ -0,0 +1,31 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
HR_BASIC_TOKENIZATION_TESTS = [
|
||||||
|
(
|
||||||
|
"Nitko se ne smije podvrgnuti mučenju ni nečovječnom ili "
|
||||||
|
"ponižavajućem postupanju ili kazni.",
|
||||||
|
[
|
||||||
|
"Nitko",
|
||||||
|
"se",
|
||||||
|
"ne",
|
||||||
|
"smije",
|
||||||
|
"podvrgnuti",
|
||||||
|
"mučenju",
|
||||||
|
"ni",
|
||||||
|
"nečovječnom",
|
||||||
|
"ili",
|
||||||
|
"ponižavajućem",
|
||||||
|
"postupanju",
|
||||||
|
"ili",
|
||||||
|
"kazni",
|
||||||
|
".",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
]
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize("text,expected_tokens", HR_BASIC_TOKENIZATION_TESTS)
|
||||||
|
def test_hr_tokenizer_basic(hr_tokenizer, text, expected_tokens):
|
||||||
|
tokens = hr_tokenizer(text)
|
||||||
|
token_list = [token.text for token in tokens if not token.is_space]
|
||||||
|
assert expected_tokens == token_list
|
0
spacy/tests/lang/is/__init__.py
Normal file
0
spacy/tests/lang/is/__init__.py
Normal file
26
spacy/tests/lang/is/test_text.py
Normal file
26
spacy/tests/lang/is/test_text.py
Normal file
|
@ -0,0 +1,26 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
|
||||||
|
def test_long_text(is_tokenizer):
|
||||||
|
# Excerpt: European Convention on Human Rights
|
||||||
|
text = """
|
||||||
|
hafa í huga, að yfirlýsing þessi hefur það markmið að tryggja
|
||||||
|
almenna og raunhæfa viðurkenningu og vernd þeirra réttinda,
|
||||||
|
sem þar er lýst;
|
||||||
|
hafa í huga, að markmið Evrópuráðs er að koma á nánari einingu
|
||||||
|
aðildarríkjanna og að ein af leiðunum að því marki er sú, að
|
||||||
|
mannréttindi og mannfrelsi séu í heiðri höfð og efld;
|
||||||
|
lýsa á ný eindreginni trú sinni á það mannfrelsi, sem er undirstaða
|
||||||
|
réttlætis og friðar í heiminum og best er tryggt, annars vegar með
|
||||||
|
virku, lýðræðislegu stjórnarfari og, hins vegar, almennum skilningi
|
||||||
|
og varðveislu þeirra mannréttinda, sem eru grundvöllur frelsisins;
|
||||||
|
"""
|
||||||
|
tokens = is_tokenizer(text)
|
||||||
|
assert len(tokens) == 120
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.xfail
|
||||||
|
def test_ordinal_number(is_tokenizer):
|
||||||
|
text = "10. desember 1948"
|
||||||
|
tokens = is_tokenizer(text)
|
||||||
|
assert len(tokens) == 3
|
30
spacy/tests/lang/is/test_tokenizer.py
Normal file
30
spacy/tests/lang/is/test_tokenizer.py
Normal file
|
@ -0,0 +1,30 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
IS_BASIC_TOKENIZATION_TESTS = [
|
||||||
|
(
|
||||||
|
"Enginn maður skal sæta pyndingum eða ómannlegri eða "
|
||||||
|
"vanvirðandi meðferð eða refsingu. ",
|
||||||
|
[
|
||||||
|
"Enginn",
|
||||||
|
"maður",
|
||||||
|
"skal",
|
||||||
|
"sæta",
|
||||||
|
"pyndingum",
|
||||||
|
"eða",
|
||||||
|
"ómannlegri",
|
||||||
|
"eða",
|
||||||
|
"vanvirðandi",
|
||||||
|
"meðferð",
|
||||||
|
"eða",
|
||||||
|
"refsingu",
|
||||||
|
".",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
]
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize("text,expected_tokens", IS_BASIC_TOKENIZATION_TESTS)
|
||||||
|
def test_is_tokenizer_basic(is_tokenizer, text, expected_tokens):
|
||||||
|
tokens = is_tokenizer(text)
|
||||||
|
token_list = [token.text for token in tokens if not token.is_space]
|
||||||
|
assert expected_tokens == token_list
|
0
spacy/tests/lang/lv/__init__.py
Normal file
0
spacy/tests/lang/lv/__init__.py
Normal file
27
spacy/tests/lang/lv/test_text.py
Normal file
27
spacy/tests/lang/lv/test_text.py
Normal file
|
@ -0,0 +1,27 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
|
||||||
|
def test_long_text(lv_tokenizer):
|
||||||
|
# Excerpt: European Convention on Human Rights
|
||||||
|
text = """
|
||||||
|
Ievērodamas, ka šī deklarācija paredz nodrošināt vispārēju un
|
||||||
|
efektīvu tajā pasludināto tiesību atzīšanu un ievērošanu;
|
||||||
|
Ievērodamas, ka Eiropas Padomes mērķis ir panākt lielāku vienotību
|
||||||
|
tās dalībvalstu starpā un ka viens no līdzekļiem, kā šo mērķi
|
||||||
|
sasniegt, ir cilvēka tiesību un pamatbrīvību ievērošana un turpmāka
|
||||||
|
īstenošana;
|
||||||
|
No jauna apliecinādamas patiesu pārliecību, ka šīs pamatbrīvības
|
||||||
|
ir taisnīguma un miera pamats visā pasaulē un ka tās vislabāk var
|
||||||
|
nodrošināt patiess demokrātisks politisks režīms no vienas puses un
|
||||||
|
vispārējo cilvēktiesību, uz kurām tās pamatojas, kopīga izpratne un
|
||||||
|
ievērošana no otras puses;
|
||||||
|
"""
|
||||||
|
tokens = lv_tokenizer(text)
|
||||||
|
assert len(tokens) == 109
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.xfail
|
||||||
|
def test_ordinal_number(lv_tokenizer):
|
||||||
|
text = "10. decembrī"
|
||||||
|
tokens = lv_tokenizer(text)
|
||||||
|
assert len(tokens) == 2
|
30
spacy/tests/lang/lv/test_tokenizer.py
Normal file
30
spacy/tests/lang/lv/test_tokenizer.py
Normal file
|
@ -0,0 +1,30 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
LV_BASIC_TOKENIZATION_TESTS = [
|
||||||
|
(
|
||||||
|
"Nevienu nedrīkst spīdzināt vai cietsirdīgi vai pazemojoši ar viņu "
|
||||||
|
"apieties vai sodīt.",
|
||||||
|
[
|
||||||
|
"Nevienu",
|
||||||
|
"nedrīkst",
|
||||||
|
"spīdzināt",
|
||||||
|
"vai",
|
||||||
|
"cietsirdīgi",
|
||||||
|
"vai",
|
||||||
|
"pazemojoši",
|
||||||
|
"ar",
|
||||||
|
"viņu",
|
||||||
|
"apieties",
|
||||||
|
"vai",
|
||||||
|
"sodīt",
|
||||||
|
".",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
]
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize("text,expected_tokens", LV_BASIC_TOKENIZATION_TESTS)
|
||||||
|
def test_lv_tokenizer_basic(lv_tokenizer, text, expected_tokens):
|
||||||
|
tokens = lv_tokenizer(text)
|
||||||
|
token_list = [token.text for token in tokens if not token.is_space]
|
||||||
|
assert expected_tokens == token_list
|
0
spacy/tests/lang/sk/__init__.py
Normal file
0
spacy/tests/lang/sk/__init__.py
Normal file
48
spacy/tests/lang/sk/test_text.py
Normal file
48
spacy/tests/lang/sk/test_text.py
Normal file
|
@ -0,0 +1,48 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
|
||||||
|
def test_long_text(sk_tokenizer):
|
||||||
|
# Excerpt: European Convention on Human Rights
|
||||||
|
text = """
|
||||||
|
majúc na zreteli, že cieľom tejto deklarácie je zabezpečiť všeobecné
|
||||||
|
a účinné uznávanie a dodržiavanie práv v nej vyhlásených;
|
||||||
|
majúc na zreteli, že cieľom Rady Európy je dosiahnutie väčšej
|
||||||
|
jednoty medzi jej členmi, a že jedným zo spôsobov, ktorým sa
|
||||||
|
má tento cieľ napĺňať, je ochrana a ďalší rozvoj ľudských práv
|
||||||
|
a základných slobôd;
|
||||||
|
znovu potvrdzujúc svoju hlbokú vieru v tie základné slobody, ktoré
|
||||||
|
sú základom spravodlivosti a mieru vo svete, a ktoré sú najlepšie
|
||||||
|
zachovávané na jednej strane účinnou politickou demokraciou
|
||||||
|
a na strane druhej spoločným poňatím a dodržiavaním ľudských
|
||||||
|
práv, od ktorých závisia;
|
||||||
|
"""
|
||||||
|
tokens = sk_tokenizer(text)
|
||||||
|
assert len(tokens) == 118
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize(
|
||||||
|
"text,match",
|
||||||
|
[
|
||||||
|
("10", True),
|
||||||
|
("1", True),
|
||||||
|
("10,000", True),
|
||||||
|
("10,00", True),
|
||||||
|
("štyri", True),
|
||||||
|
("devätnásť", True),
|
||||||
|
("milión", True),
|
||||||
|
("pes", False),
|
||||||
|
(",", False),
|
||||||
|
("1/2", True),
|
||||||
|
],
|
||||||
|
)
|
||||||
|
def test_lex_attrs_like_number(sk_tokenizer, text, match):
|
||||||
|
tokens = sk_tokenizer(text)
|
||||||
|
assert len(tokens) == 1
|
||||||
|
assert tokens[0].like_num == match
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.xfail
|
||||||
|
def test_ordinal_number(sk_tokenizer):
|
||||||
|
text = "10. decembra 1948"
|
||||||
|
tokens = sk_tokenizer(text)
|
||||||
|
assert len(tokens) == 3
|
15
spacy/tests/lang/sk/test_tokenizer.py
Normal file
15
spacy/tests/lang/sk/test_tokenizer.py
Normal file
|
@ -0,0 +1,15 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
SK_BASIC_TOKENIZATION_TESTS = [
|
||||||
|
(
|
||||||
|
"Kedy sa narodil Andrej Kiska?",
|
||||||
|
["Kedy", "sa", "narodil", "Andrej", "Kiska", "?"],
|
||||||
|
),
|
||||||
|
]
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize("text,expected_tokens", SK_BASIC_TOKENIZATION_TESTS)
|
||||||
|
def test_sk_tokenizer_basic(sk_tokenizer, text, expected_tokens):
|
||||||
|
tokens = sk_tokenizer(text)
|
||||||
|
token_list = [token.text for token in tokens if not token.is_space]
|
||||||
|
assert expected_tokens == token_list
|
0
spacy/tests/lang/sl/__init__.py
Normal file
0
spacy/tests/lang/sl/__init__.py
Normal file
27
spacy/tests/lang/sl/test_text.py
Normal file
27
spacy/tests/lang/sl/test_text.py
Normal file
|
@ -0,0 +1,27 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
|
||||||
|
def test_long_text(sl_tokenizer):
|
||||||
|
# Excerpt: European Convention on Human Rights
|
||||||
|
text = """
|
||||||
|
upoštevajoč, da si ta deklaracija prizadeva zagotoviti splošno in
|
||||||
|
učinkovito priznavanje in spoštovanje v njej razglašenih pravic,
|
||||||
|
upoštevajoč, da je cilj Sveta Evrope doseči večjo enotnost med
|
||||||
|
njegovimi članicami, in da je eden izmed načinov za zagotavljanje
|
||||||
|
tega cilja varstvo in nadaljnji razvoj človekovih pravic in temeljnih
|
||||||
|
svoboščin,
|
||||||
|
ponovno potrjujoč svojo globoko vero v temeljne svoboščine, na
|
||||||
|
katerih temeljita pravičnost in mir v svetu, in ki jih je mogoče najbolje
|
||||||
|
zavarovati na eni strani z dejansko politično demokracijo in na drugi
|
||||||
|
strani s skupnim razumevanjem in spoštovanjem človekovih pravic,
|
||||||
|
od katerih so te svoboščine odvisne,
|
||||||
|
"""
|
||||||
|
tokens = sl_tokenizer(text)
|
||||||
|
assert len(tokens) == 116
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.xfail
|
||||||
|
def test_ordinal_number(sl_tokenizer):
|
||||||
|
text = "10. decembra 1948"
|
||||||
|
tokens = sl_tokenizer(text)
|
||||||
|
assert len(tokens) == 3
|
32
spacy/tests/lang/sl/test_tokenizer.py
Normal file
32
spacy/tests/lang/sl/test_tokenizer.py
Normal file
|
@ -0,0 +1,32 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
SL_BASIC_TOKENIZATION_TESTS = [
|
||||||
|
(
|
||||||
|
"Vsakdo ima pravico do spoštovanja njegovega zasebnega in "
|
||||||
|
"družinskega življenja, doma in dopisovanja.",
|
||||||
|
[
|
||||||
|
"Vsakdo",
|
||||||
|
"ima",
|
||||||
|
"pravico",
|
||||||
|
"do",
|
||||||
|
"spoštovanja",
|
||||||
|
"njegovega",
|
||||||
|
"zasebnega",
|
||||||
|
"in",
|
||||||
|
"družinskega",
|
||||||
|
"življenja",
|
||||||
|
",",
|
||||||
|
"doma",
|
||||||
|
"in",
|
||||||
|
"dopisovanja",
|
||||||
|
".",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
]
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize("text,expected_tokens", SL_BASIC_TOKENIZATION_TESTS)
|
||||||
|
def test_sl_tokenizer_basic(sl_tokenizer, text, expected_tokens):
|
||||||
|
tokens = sl_tokenizer(text)
|
||||||
|
token_list = [token.text for token in tokens if not token.is_space]
|
||||||
|
assert expected_tokens == token_list
|
0
spacy/tests/lang/sq/__init__.py
Normal file
0
spacy/tests/lang/sq/__init__.py
Normal file
25
spacy/tests/lang/sq/test_text.py
Normal file
25
spacy/tests/lang/sq/test_text.py
Normal file
|
@ -0,0 +1,25 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
|
||||||
|
def test_long_text(sq_tokenizer):
|
||||||
|
# Excerpt: European Convention on Human Rights
|
||||||
|
text = """
|
||||||
|
Qeveritë nënshkruese, anëtare të Këshillit të Evropës,
|
||||||
|
Duke pasur parasysh Deklaratën Universale të të Drejtave të
|
||||||
|
Njeriut, të shpallur nga Asambleja e Përgjithshme e Kombeve të
|
||||||
|
Bashkuara më 10 dhjetor 1948;
|
||||||
|
Duke pasur parasysh, se kjo Deklaratë ka për qëllim të sigurojë
|
||||||
|
njohjen dhe zbatimin universal dhe efektiv të të drejtave të
|
||||||
|
shpallura në të;
|
||||||
|
Duke pasur parasysh se qëllimi i Këshillit të Evropës është që të
|
||||||
|
realizojë një bashkim më të ngushtë midis anëtarëve të tij dhe
|
||||||
|
se një nga mjetet për të arritur këtë qëllim është mbrojtja dhe
|
||||||
|
zhvillimi i të drejtave të njeriut dhe i lirive themelore;
|
||||||
|
Duke ripohuar besimin e tyre të thellë në këto liri themelore që
|
||||||
|
përbëjnë themelet e drejtësisë dhe të paqes në botë, ruajtja e të
|
||||||
|
cilave mbështetet kryesisht mbi një regjim politik demokratik nga
|
||||||
|
njëra anë, dhe nga ana tjetër mbi një kuptim dhe respektim të
|
||||||
|
përbashkët të të drejtave të njeriut nga të cilat varen;
|
||||||
|
"""
|
||||||
|
tokens = sq_tokenizer(text)
|
||||||
|
assert len(tokens) == 182
|
31
spacy/tests/lang/sq/test_tokenizer.py
Normal file
31
spacy/tests/lang/sq/test_tokenizer.py
Normal file
|
@ -0,0 +1,31 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
SQ_BASIC_TOKENIZATION_TESTS = [
|
||||||
|
(
|
||||||
|
"Askush nuk mund t’i nënshtrohet torturës ose dënimeve ose "
|
||||||
|
"trajtimeve çnjerëzore ose poshtëruese.",
|
||||||
|
[
|
||||||
|
"Askush",
|
||||||
|
"nuk",
|
||||||
|
"mund",
|
||||||
|
"t’i",
|
||||||
|
"nënshtrohet",
|
||||||
|
"torturës",
|
||||||
|
"ose",
|
||||||
|
"dënimeve",
|
||||||
|
"ose",
|
||||||
|
"trajtimeve",
|
||||||
|
"çnjerëzore",
|
||||||
|
"ose",
|
||||||
|
"poshtëruese",
|
||||||
|
".",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
]
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize("text,expected_tokens", SQ_BASIC_TOKENIZATION_TESTS)
|
||||||
|
def test_sq_tokenizer_basic(sq_tokenizer, text, expected_tokens):
|
||||||
|
tokens = sq_tokenizer(text)
|
||||||
|
token_list = [token.text for token in tokens if not token.is_space]
|
||||||
|
assert expected_tokens == token_list
|
0
spacy/tests/lang/xx/__init__.py
Normal file
0
spacy/tests/lang/xx/__init__.py
Normal file
24
spacy/tests/lang/xx/test_text.py
Normal file
24
spacy/tests/lang/xx/test_text.py
Normal file
|
@ -0,0 +1,24 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
|
||||||
|
def test_long_text(xx_tokenizer):
|
||||||
|
# Excerpt: Text in Skolt Sami taken from https://www.samediggi.fi
|
||||||
|
text = """
|
||||||
|
Säʹmmla lie Euroopp unioon oʹdinakai alggmeer. Säʹmmlai alggmeerstatus lij raʹvvjum Lääʹddjânnam vuâđđlääʹjjest.
|
||||||
|
Alggmeer kriteeʹr vuâđđâʹvve meeraikõskksaž tuâjjorganisaatio, ILO, suåppmõʹšše nââmar 169.
|
||||||
|
Suåppmõõžž mieʹldd jiõččvälddsaž jânnmin jälsteei meeraid ââʹnet alggmeeran,
|
||||||
|
ko sij puõlvvâʹvve naroodâst, kååʹtt jânnam välddmõõžž leʹbe aazztummuž leʹbe ânnʼjõž riikkraaʹji šõddâm ääiʹj jälste
|
||||||
|
jânnmest leʹbe tõn mäddtiõđlaž vuuʹdest, koozz jânnam kooll. Alggmeer ij leäkku mieʹrreei sââʹjest jiiʹjjes jälstemvuuʹdest.
|
||||||
|
Alggmeer âlgg jiõčč ââʹnned jiiʹjjes alggmeeran leʹbe leeʹd tõn miõlâst, što sij lie alggmeer.
|
||||||
|
Alggmeer lij õlggâm seeilted vuõiggâdvuõđlaž sââʹjest huõlǩâni obbnes leʹbe vueʹzzi jiiʹjjes sosiaalʼlaž, täälʼlaž,
|
||||||
|
kulttuurlaž da poliittlaž instituutioid.
|
||||||
|
|
||||||
|
Säʹmmlai statuuzz ǩeeʹrjteš Lääʹddjânnam vuâđđläkka eeʹjj 1995. Säʹmmlain alggmeeran lij vuõiggâdvuõtt tuõʹllʼjed da
|
||||||
|
ooudâsviikkâd ǩiõlâz da kulttuurâz di tõõzz kuulli ääʹrbvuâlaž jieʹllemvueʹjjeez. Sääʹmǩiõl ââʹnnmest veʹrǧǧniiʹǩǩi
|
||||||
|
åʹrnn lij šiõttuum jiiʹjjes lääʹǩǩ. Säʹmmlain lij leämmaž eeʹjjest 1996 vueʹljeeʹl dommvuuʹdsteez ǩiõlâz da kulttuurâz kuõskki
|
||||||
|
vuâđđlääʹjj meâldlaž jiõččvaaldâšm. Säʹmmlai jiõččvaldšma kuulli tuâjaid håidd säʹmmlai vaalin vaʹlljääm parlameʹntt,
|
||||||
|
Sääʹmteʹǧǧ.
|
||||||
|
"""
|
||||||
|
|
||||||
|
tokens = xx_tokenizer(text)
|
||||||
|
assert len(tokens) == 179
|
25
spacy/tests/lang/xx/test_tokenizer.py
Normal file
25
spacy/tests/lang/xx/test_tokenizer.py
Normal file
|
@ -0,0 +1,25 @@
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
XX_BASIC_TOKENIZATION_TESTS = [
|
||||||
|
(
|
||||||
|
"Lääʹddjânnmest lie nuʹtt 10 000 säʹmmliʹžžed. Seeʹst pâʹjjel",
|
||||||
|
[
|
||||||
|
"Lääʹddjânnmest",
|
||||||
|
"lie",
|
||||||
|
"nuʹtt",
|
||||||
|
"10",
|
||||||
|
"000",
|
||||||
|
"säʹmmliʹžžed",
|
||||||
|
".",
|
||||||
|
"Seeʹst",
|
||||||
|
"pâʹjjel",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
]
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize("text,expected_tokens", XX_BASIC_TOKENIZATION_TESTS)
|
||||||
|
def test_xx_tokenizer_basic(xx_tokenizer, text, expected_tokens):
|
||||||
|
tokens = xx_tokenizer(text)
|
||||||
|
token_list = [token.text for token in tokens if not token.is_space]
|
||||||
|
assert expected_tokens == token_list
|
Loading…
Reference in New Issue
Block a user