Tidy up Hebrew tests and test for punctuation (see #995)

2025-12-24 18:43:12 +03:00 · 2017-04-19 19:28:00 +02:00 · 2017-04-19 19:28:00 +02:00 · 2bd89e7ade
commit 2bd89e7ade
parent 275fc9f78a
1 changed files with 15 additions and 9 deletions
--- a/spacy/tests/he/test_tokenizer.py
+++ b/spacy/tests/he/test_tokenizer.py
@ -3,15 +3,21 @@ from __future__ import unicode_literals

 import pytest

-ABBREVIATION_TESTS = [
-    ('פייתון היא שפת תכנות דינמית', ['פייתון', 'היא', 'שפת', 'תכנות', 'דינמית'])
-]

-TESTCASES = ABBREVIATION_TESTS
-
-
-@pytest.mark.parametrize('text,expected_tokens', TESTCASES)
-def test_tokenizer_handles_testcases(he_tokenizer, text, expected_tokens):
+@pytest.mark.parametrize('text,expected_tokens',
+    [('פייתון היא שפת תכנות דינמית', ['פייתון', 'היא', 'שפת', 'תכנות', 'דינמית'])])
+def test_tokenizer_handles_abbreviation(he_tokenizer, text, expected_tokens):
    tokens = he_tokenizer(text)
    token_list = [token.text for token in tokens if not token.is_space]
-    assert expected_tokens == token_list
+    assert expected_tokens == token_list
+
+
+@pytest.mark.parametrize('text,expected_tokens', [
+    pytest.mark.xfail(('עקבת אחריו בכל רחבי המדינה.', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '.'])),
+    ('עקבת אחריו בכל רחבי המדינה?', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '?']),
+    ('עקבת אחריו בכל רחבי המדינה!', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '!']),
+    ('עקבת אחריו בכל רחבי המדינה..', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '..']),
+    ('עקבת אחריו בכל רחבי המדינה...', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '...'])])
+def test_tokenizer_handles_punct(he_tokenizer, text, expected_tokens):
+    tokens = he_tokenizer(text)
+    assert expected_tokens == [token.text for token in tokens]