Adding unitest for tokenization in french (with title)

2025-11-07 19:37:38 +03:00 · 2017-04-27 10:59:38 +02:00 · 2017-04-27 10:59:38 +02:00 · 44cb486849
commit 44cb486849
parent ad8129cb45
1 changed files with 24 additions and 1 deletions
--- a/spacy/tests/fr/test_exceptions.py
+++ b/spacy/tests/fr/test_exceptions.py
@ -38,3 +38,26 @@ def test_tokenizer_handles_exc_in_text_2(fr_tokenizer):
    assert len(tokens) == 11
    assert tokens[1].text == "après-midi"
    assert tokens[9].text == "italo-mexicain"
+
+def test_tokenizer_handles_title(fr_tokenizer):
+    text = "N'est-ce pas génial?"
+    tokens = fr_tokenizer(text)
+    assert len(tokens) == 6
+    assert tokens[0].text == "N'"
+    assert tokens[0].lemma_ == "ne"
+    assert tokens[2].text == "-ce"
+    assert tokens[2].lemma_ == "ce"
+
+def test_tokenizer_handles_title_2(fr_tokenizer):
+    text = "Est-ce pas génial?"
+    tokens = fr_tokenizer(text)
+    assert len(tokens) == 6
+    assert tokens[0].text == "Est"
+    assert tokens[0].lemma_ == "être"
+
+def test_tokenizer_handles_title_2(fr_tokenizer):
+    text = "Qu'est-ce que tu fais?"
+    tokens = fr_tokenizer(text)
+    assert len(tokens) == 7
+    assert tokens[0].text == "Qu'"
+    assert tokens[0].lemma_ == "que"