Basic tests for the Tamil language (#10629)

* Add basic tests for Tamil (ta) * Add comment Remove superfluous condition * Remove superfluous call to `pipe` Instantiate new tokenizer for special case
2025-08-09 22:54:53 +03:00 · 2022-04-07 14:47:37 +02:00 · 2022-04-07 14:47:37 +02:00 · 9ba3e1cb2f
commit 9ba3e1cb2f
parent 02dafa3a84
4 changed files with 218 additions and 0 deletions
--- a/spacy/tests/conftest.py
+++ b/spacy/tests/conftest.py
@ -357,6 +357,11 @@ def sv_tokenizer():
    return get_lang_class("sv")().tokenizer


+@pytest.fixture(scope="session")
+def ta_tokenizer():
+    return get_lang_class("ta")().tokenizer
+
+
@pytest.fixture(scope="session")
 def th_tokenizer():
    pytest.importorskip("pythainlp")
--- a/spacy/tests/lang/ta/init.py
+++ b/spacy/tests/lang/ta/init.py
--- a/spacy/tests/lang/ta/test_text.py
+++ b/spacy/tests/lang/ta/test_text.py
@ -0,0 +1,25 @@
+import pytest
+from spacy.lang.ta import Tamil
+
+# Wikipedia excerpt: https://en.wikipedia.org/wiki/Chennai (Tamil Language)
+TAMIL_BASIC_TOKENIZER_SENTENCIZER_TEST_TEXT = """சென்னை (Chennai) தமிழ்நாட்டின் தலைநகரமும், இந்தியாவின் நான்காவது பெரிய நகரமும் ஆகும். 1996 ஆம் ஆண்டுக்கு முன்னர் இந்நகரம், மதராசு பட்டினம், மெட்ராஸ் (Madras) மற்றும் சென்னப்பட்டினம் என்றும் அழைக்கப்பட்டு வந்தது. சென்னை, வங்காள விரிகுடாவின் கரையில் அமைந்த துறைமுக நகரங்களுள் ஒன்று. சுமார் 10 மில்லியன் (ஒரு கோடி) மக்கள் வாழும் இந்நகரம், உலகின் 35 பெரிய மாநகரங்களுள் ஒன்று. 17ஆம் நூற்றாண்டில் ஆங்கிலேயர் சென்னையில் கால் பதித்தது முதல், சென்னை நகரம் ஒரு முக்கிய நகரமாக வளர்ந்து வந்திருக்கிறது. சென்னை தென்னிந்தியாவின் வாசலாகக் கருதப்படுகிறது. சென்னை நகரில் உள்ள மெரினா கடற்கரை உலகின் நீளமான கடற்கரைகளுள் ஒன்று. சென்னை கோலிவுட் (Kollywood) என அறியப்படும் தமிழ்த் திரைப்படத் துறையின் தாயகம் ஆகும். பல விளையாட்டு அரங்கங்கள் உள்ள சென்னையில் பல விளையாட்டுப் போட்டிகளும் நடைபெறுகின்றன."""
+
+
+@pytest.mark.parametrize(
+    "text, num_tokens",
+    [(TAMIL_BASIC_TOKENIZER_SENTENCIZER_TEST_TEXT, 23 + 90)],  # Punctuation + rest
+)
+def test_long_text(ta_tokenizer, text, num_tokens):
+    tokens = ta_tokenizer(text)
+    assert len(tokens) == num_tokens
+
+
+@pytest.mark.parametrize(
+    "text, num_sents", [(TAMIL_BASIC_TOKENIZER_SENTENCIZER_TEST_TEXT, 9)]
+)
+def test_ta_sentencizer(text, num_sents):
+    nlp = Tamil()
+    nlp.add_pipe("sentencizer")
+
+    doc = nlp(text)
+    assert len(list(doc.sents)) == num_sents
--- a/spacy/tests/lang/ta/test_tokenizer.py
+++ b/spacy/tests/lang/ta/test_tokenizer.py
@ -0,0 +1,188 @@
+import pytest
+from spacy.symbols import ORTH
+from spacy.lang.ta import Tamil
+
+TA_BASIC_TOKENIZATION_TESTS = [
+    (
+        "கிறிஸ்துமஸ் மற்றும் இனிய புத்தாண்டு வாழ்த்துக்கள்",
+        ["கிறிஸ்துமஸ்", "மற்றும்", "இனிய", "புத்தாண்டு", "வாழ்த்துக்கள்"],
+    ),
+    (
+        "எனக்கு என் குழந்தைப் பருவம் நினைவிருக்கிறது",
+        ["எனக்கு", "என்", "குழந்தைப்", "பருவம்", "நினைவிருக்கிறது"],
+    ),
+    ("உங்கள் பெயர் என்ன?", ["உங்கள்", "பெயர்", "என்ன", "?"]),
+    (
+        "ஏறத்தாழ இலங்கைத் தமிழரில் மூன்றிலொரு பங்கினர் இலங்கையை விட்டு வெளியேறிப் பிற நாடுகளில் வாழ்கின்றனர்",
+        [
+            "ஏறத்தாழ",
+            "இலங்கைத்",
+            "தமிழரில்",
+            "மூன்றிலொரு",
+            "பங்கினர்",
+            "இலங்கையை",
+            "விட்டு",
+            "வெளியேறிப்",
+            "பிற",
+            "நாடுகளில்",
+            "வாழ்கின்றனர்",
+        ],
+    ),
+    (
+        "இந்த ஃபோனுடன் சுமார் ரூ.2,990 மதிப்புள்ள போட் ராக்கர்ஸ் நிறுவனத்தின் ஸ்போர்ட் புளூடூத் ஹெட்போன்ஸ் இலவசமாக வழங்கப்படவுள்ளது.",
+        [
+            "இந்த",
+            "ஃபோனுடன்",
+            "சுமார்",
+            "ரூ.2,990",
+            "மதிப்புள்ள",
+            "போட்",
+            "ராக்கர்ஸ்",
+            "நிறுவனத்தின்",
+            "ஸ்போர்ட்",
+            "புளூடூத்",
+            "ஹெட்போன்ஸ்",
+            "இலவசமாக",
+            "வழங்கப்படவுள்ளது",
+            ".",
+        ],
+    ),
+    (
+        "மட்டக்களப்பில் பல இடங்களில் வீட்டுத் திட்டங்களுக்கு இன்று அடிக்கல் நாட்டல்",
+        [
+            "மட்டக்களப்பில்",
+            "பல",
+            "இடங்களில்",
+            "வீட்டுத்",
+            "திட்டங்களுக்கு",
+            "இன்று",
+            "அடிக்கல்",
+            "நாட்டல்",
+        ],
+    ),
+    (
+        "ஐ போன்க்கு முகத்தை வைத்து அன்லாக் செய்யும் முறை மற்றும் விரலால் தொட்டு அன்லாக் செய்யும் முறையை வாட்ஸ் ஆப் நிறுவனம் இதற்கு முன் கண்டுபிடித்தது",
+        [
+            "ஐ",
+            "போன்க்கு",
+            "முகத்தை",
+            "வைத்து",
+            "அன்லாக்",
+            "செய்யும்",
+            "முறை",
+            "மற்றும்",
+            "விரலால்",
+            "தொட்டு",
+            "அன்லாக்",
+            "செய்யும்",
+            "முறையை",
+            "வாட்ஸ்",
+            "ஆப்",
+            "நிறுவனம்",
+            "இதற்கு",
+            "முன்",
+            "கண்டுபிடித்தது",
+        ],
+    ),
+    (
+        "இது ஒரு வாக்கியம்.",
+        [
+            "இது",
+            "ஒரு",
+            "வாக்கியம்",
+            ".",
+        ],
+    ),
+    (
+        "தன்னாட்சி கார்கள் காப்பீட்டு பொறுப்பை உற்பத்தியாளரிடம் மாற்றுகின்றன",
+        [
+            "தன்னாட்சி",
+            "கார்கள்",
+            "காப்பீட்டு",
+            "பொறுப்பை",
+            "உற்பத்தியாளரிடம்",
+            "மாற்றுகின்றன",
+        ],
+    ),
+    (
+        "நடைபாதை விநியோக ரோபோக்களை தடை செய்வதை சான் பிரான்சிஸ்கோ கருதுகிறது",
+        [
+            "நடைபாதை",
+            "விநியோக",
+            "ரோபோக்களை",
+            "தடை",
+            "செய்வதை",
+            "சான்",
+            "பிரான்சிஸ்கோ",
+            "கருதுகிறது",
+        ],
+    ),
+    (
+        "லண்டன் ஐக்கிய இராச்சியத்தில் ஒரு பெரிய நகரம்.",
+        [
+            "லண்டன்",
+            "ஐக்கிய",
+            "இராச்சியத்தில்",
+            "ஒரு",
+            "பெரிய",
+            "நகரம்",
+            ".",
+        ],
+    ),
+    (
+        "என்ன வேலை செய்கிறீர்கள்?",
+        [
+            "என்ன",
+            "வேலை",
+            "செய்கிறீர்கள்",
+            "?",
+        ],
+    ),
+    (
+        "எந்த கல்லூரியில் படிக்கிறாய்?",
+        [
+            "எந்த",
+            "கல்லூரியில்",
+            "படிக்கிறாய்",
+            "?",
+        ],
+    ),
+]
+
+
+@pytest.mark.parametrize("text,expected_tokens", TA_BASIC_TOKENIZATION_TESTS)
+def test_ta_tokenizer_basic(ta_tokenizer, text, expected_tokens):
+    tokens = ta_tokenizer(text)
+    token_list = [token.text for token in tokens]
+    assert expected_tokens == token_list
+
+
+@pytest.mark.parametrize(
+    "text,expected_tokens",
+    [
+        (
+            "ஆப்பிள் நிறுவனம் யு.கே. தொடக்க நிறுவனத்தை ஒரு லட்சம் கோடிக்கு வாங்கப் பார்க்கிறது",
+            [
+                "ஆப்பிள்",
+                "நிறுவனம்",
+                "யு.கே.",
+                "தொடக்க",
+                "நிறுவனத்தை",
+                "ஒரு",
+                "லட்சம்",
+                "கோடிக்கு",
+                "வாங்கப்",
+                "பார்க்கிறது",
+            ],
+        )
+    ],
+)
+def test_ta_tokenizer_special_case(text, expected_tokens):
+    # Add a special rule to tokenize the initialism "யு.கே." (U.K., as
+    # in the country) as a single token.
+    nlp = Tamil()
+    nlp.tokenizer.add_special_case("யு.கே.", [{ORTH: "யு.கே."}])
+    tokens = nlp(text)
+
+    token_list = [token.text for token in tokens]
+    assert expected_tokens == token_list