spaCy/spacy/tests/lang/hy/test_tokenizer.py
Daniël de Kok e2b70df012
Configure isort to use the Black profile, recursively isort the spacy module (#12721)
* Use isort with Black profile

* isort all the things

* Fix import cycles as a result of import sorting

* Add DOCBIN_ALL_ATTRS type definition

* Add isort to requirements

* Remove isort from build dependencies check

* Typo
2023-06-14 17:48:41 +02:00

45 lines
1.3 KiB
Python

import pytest
# TODO add test cases with valid punctuation signs.
hy_tokenize_text_test = [
(
"Մետաղագիտությունը պայմանականորեն բաժանվում է տեսականի և կիրառականի (տեխնիկական)",
[
"Մետաղագիտությունը",
"պայմանականորեն",
"բաժանվում",
"է",
"տեսականի",
"և",
"կիրառականի",
"(",
"տեխնիկական",
")",
],
),
(
"Գետաբերանը գտնվում է Օմոլոնա գետի ձախ ափից 726 կմ հեռավորության վրա",
[
"Գետաբերանը",
"գտնվում",
"է",
"Օմոլոնա",
"գետի",
"ձախ",
"ափից",
"726",
"կմ",
"հեռավորության",
"վրա",
],
),
]
@pytest.mark.parametrize("text,expected_tokens", hy_tokenize_text_test)
def test_ga_tokenizer_handles_exception_cases(hy_tokenizer, text, expected_tokens):
tokens = hy_tokenizer(text)
token_list = [token.text for token in tokens if not token.is_space]
assert expected_tokens == token_list