mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-29 11:26:28 +03:00
e2b70df012
* Use isort with Black profile * isort all the things * Fix import cycles as a result of import sorting * Add DOCBIN_ALL_ATTRS type definition * Add isort to requirements * Remove isort from build dependencies check * Typo
45 lines
1.3 KiB
Python
45 lines
1.3 KiB
Python
import pytest
|
|
|
|
# TODO add test cases with valid punctuation signs.
|
|
|
|
hy_tokenize_text_test = [
|
|
(
|
|
"Մետաղագիտությունը պայմանականորեն բաժանվում է տեսականի և կիրառականի (տեխնիկական)",
|
|
[
|
|
"Մետաղագիտությունը",
|
|
"պայմանականորեն",
|
|
"բաժանվում",
|
|
"է",
|
|
"տեսականի",
|
|
"և",
|
|
"կիրառականի",
|
|
"(",
|
|
"տեխնիկական",
|
|
")",
|
|
],
|
|
),
|
|
(
|
|
"Գետաբերանը գտնվում է Օմոլոնա գետի ձախ ափից 726 կմ հեռավորության վրա",
|
|
[
|
|
"Գետաբերանը",
|
|
"գտնվում",
|
|
"է",
|
|
"Օմոլոնա",
|
|
"գետի",
|
|
"ձախ",
|
|
"ափից",
|
|
"726",
|
|
"կմ",
|
|
"հեռավորության",
|
|
"վրա",
|
|
],
|
|
),
|
|
]
|
|
|
|
|
|
@pytest.mark.parametrize("text,expected_tokens", hy_tokenize_text_test)
|
|
def test_ga_tokenizer_handles_exception_cases(hy_tokenizer, text, expected_tokens):
|
|
tokens = hy_tokenizer(text)
|
|
token_list = [token.text for token in tokens if not token.is_space]
|
|
assert expected_tokens == token_list
|