Improve Italian & Urdu tokenization accuracy (#3228)

## Description 1. Added the same infix rule as in French (`d'une`, `j'ai`) for Italian (`c'è`, `l'ha`), bringing F-score on `it_isdt-ud-train.txt` from 96% to 99%. Added unit test to check this behaviour. 2. Added specific Urdu punctuation character as suffix, improving F-score on `ur_udtb-ud-train.txt` from 94% to 100%. Added unit test to check this behaviour. ### Types of change Enhancement of Italian & Urdu tokenization ## Checklist - [x] I have submitted the spaCy Contributor Agreement. - [x] I ran the tests, and all new and existing tests passed. - [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2025-10-18 09:44:16 +03:00 · 2019-02-04 22:39:25 +01:00 · 2019-02-04 22:39:25 +01:00 · 9745b0d523
commit 9745b0d523
parent a3efa3e8d9
10 changed files with 65 additions and 1 deletions
--- a/spacy/lang/it/init.py
+++ b/spacy/lang/it/init.py
@ -11,6 +11,8 @@ from ...language import Language
 from ...attrs import LANG, NORM
 from ...util import update_exc, add_lookups

+from .punctuation import TOKENIZER_INFIXES
+

 class ItalianDefaults(Language.Defaults):
    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
@ -22,6 +24,7 @@ class ItalianDefaults(Language.Defaults):
    stop_words = STOP_WORDS
    lemma_lookup = LOOKUP
    tag_map = TAG_MAP
+    infixes = TOKENIZER_INFIXES


 class Italian(Language):
--- a/spacy/lang/it/punctuation.py
+++ b/spacy/lang/it/punctuation.py
@ -0,0 +1,15 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from ..punctuation import TOKENIZER_INFIXES
+from ..char_classes import ALPHA
+
+
+ELISION = " ' ’ ".strip().replace(" ", "").replace("\n", "")
+
+
+_infixes = TOKENIZER_INFIXES + [
+    r"(?<=[{a}][{el}])(?=[{a}])".format(a=ALPHA, el=ELISION)
+]
+
+TOKENIZER_INFIXES = _infixes
--- a/spacy/lang/ur/init.py
+++ b/spacy/lang/ur/init.py
@ -9,6 +9,8 @@ from ..tokenizer_exceptions import BASE_EXCEPTIONS
 from ...language import Language
 from ...attrs import LANG

+from .punctuation import TOKENIZER_SUFFIXES
+

 class UrduDefaults(Language.Defaults):
    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
@ -18,6 +20,7 @@ class UrduDefaults(Language.Defaults):
    tokenizer_exceptions = BASE_EXCEPTIONS
    tag_map = TAG_MAP
    stop_words = STOP_WORDS
+    suffixes = TOKENIZER_SUFFIXES


 class Urdu(Language):
--- a/spacy/lang/ur/punctuation.py
+++ b/spacy/lang/ur/punctuation.py
@ -0,0 +1,10 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from ..punctuation import TOKENIZER_SUFFIXES
+
+
+_suffixes = TOKENIZER_SUFFIXES + ["۔"]
+
+
+TOKENIZER_SUFFIXES = _suffixes
--- a/spacy/tests/conftest.py
+++ b/spacy/tests/conftest.py
@ -65,6 +65,11 @@ def id_tokenizer():
    return get_lang_class("id").Defaults.create_tokenizer()


+@pytest.fixture(scope="session")
+def it_tokenizer():
+    return get_lang_class("it").Defaults.create_tokenizer()
+
+
@pytest.fixture(scope="session")
 def sv_tokenizer():
    return get_lang_class("sv").Defaults.create_tokenizer()
--- a/spacy/tests/lang/ca/test_prefix_suffix_infix.py
+++ b/spacy/tests/lang/ca/test_prefix_suffix_infix.py
@ -11,3 +11,4 @@ def test_contractions(ca_tokenizer, text, expected_tokens):
    """ Test that the contractions are split into two tokens"""
    tokens = ca_tokenizer(text)
    assert len(tokens) == 2
+    assert [t.text for t in tokens] == expected_tokens
--- a/spacy/tests/lang/it/init.py
+++ b/spacy/tests/lang/it/init.py
--- a/spacy/tests/lang/it/test_prefix_suffix_infix.py
+++ b/spacy/tests/lang/it/test_prefix_suffix_infix.py
@ -0,0 +1,14 @@
+# coding: utf-8
+from __future__ import unicode_literals
+
+import pytest
+
+
+@pytest.mark.parametrize(
+    "text,expected_tokens", [("c'è", ["c'", "è"]), ("l'ha", ["l'", "ha"])]
+)
+def test_contractions(it_tokenizer, text, expected_tokens):
+    """ Test that the contractions are split into two tokens"""
+    tokens = it_tokenizer(text)
+    assert len(tokens) == 2
+    assert [t.text for t in tokens] == expected_tokens
--- a/spacy/tests/lang/ur/test_prefix_suffix_infix.py
+++ b/spacy/tests/lang/ur/test_prefix_suffix_infix.py
@ -0,0 +1,13 @@
+# coding: utf-8
+from __future__ import unicode_literals
+
+import pytest
+
+
+@pytest.mark.parametrize(
+    "text", ['ہےں۔', 'کیا۔']
+)
+def test_contractions(ur_tokenizer, text):
+    """Test specific Urdu punctuation character"""
+    tokens = ur_tokenizer(text)
+    assert len(tokens) == 2
--- a/spacy/tests/lang/ur/test_text.py
+++ b/spacy/tests/lang/ur/test_text.py
@ -10,7 +10,7 @@ def test_ur_tokenizer_handles_long_text(ur_tokenizer):
     کہ ایک عدد ٹیلی ویژن ہی کیوں نہ خرید لیں ، سوچا ورلڈ کپ ہی دیکھیں گے۔اپنے پاکستان کے کھلاڑیوں کو دیکھ کر
    ورلڈ کپ دیکھنے کا حوصلہ ہی نہ رہا تو اب یوں ہی ادھر اُدھر کے چینل گھمانے لگ پڑتے ہیں۔"""
    tokens = ur_tokenizer(text)
-    assert len(tokens) == 77
+    assert len(tokens) == 78


@pytest.mark.parametrize("text,length", [("تحریر باسط حبیب", 3), ("میرا پاکستان", 2)])