mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-10 19:57:17 +03:00
Basic tests for the Tamil language (#10629)
* Add basic tests for Tamil (ta) * Add comment Remove superfluous condition * Remove superfluous call to `pipe` Instantiate new tokenizer for special case
This commit is contained in:
parent
02dafa3a84
commit
9ba3e1cb2f
|
@ -357,6 +357,11 @@ def sv_tokenizer():
|
||||||
return get_lang_class("sv")().tokenizer
|
return get_lang_class("sv")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.fixture(scope="session")
|
||||||
|
def ta_tokenizer():
|
||||||
|
return get_lang_class("ta")().tokenizer
|
||||||
|
|
||||||
|
|
||||||
@pytest.fixture(scope="session")
|
@pytest.fixture(scope="session")
|
||||||
def th_tokenizer():
|
def th_tokenizer():
|
||||||
pytest.importorskip("pythainlp")
|
pytest.importorskip("pythainlp")
|
||||||
|
|
0
spacy/tests/lang/ta/__init__.py
Normal file
0
spacy/tests/lang/ta/__init__.py
Normal file
25
spacy/tests/lang/ta/test_text.py
Normal file
25
spacy/tests/lang/ta/test_text.py
Normal file
|
@ -0,0 +1,25 @@
|
||||||
|
import pytest
|
||||||
|
from spacy.lang.ta import Tamil
|
||||||
|
|
||||||
|
# Wikipedia excerpt: https://en.wikipedia.org/wiki/Chennai (Tamil Language)
|
||||||
|
TAMIL_BASIC_TOKENIZER_SENTENCIZER_TEST_TEXT = """சென்னை (Chennai) தமிழ்நாட்டின் தலைநகரமும், இந்தியாவின் நான்காவது பெரிய நகரமும் ஆகும். 1996 ஆம் ஆண்டுக்கு முன்னர் இந்நகரம், மதராசு பட்டினம், மெட்ராஸ் (Madras) மற்றும் சென்னப்பட்டினம் என்றும் அழைக்கப்பட்டு வந்தது. சென்னை, வங்காள விரிகுடாவின் கரையில் அமைந்த துறைமுக நகரங்களுள் ஒன்று. சுமார் 10 மில்லியன் (ஒரு கோடி) மக்கள் வாழும் இந்நகரம், உலகின் 35 பெரிய மாநகரங்களுள் ஒன்று. 17ஆம் நூற்றாண்டில் ஆங்கிலேயர் சென்னையில் கால் பதித்தது முதல், சென்னை நகரம் ஒரு முக்கிய நகரமாக வளர்ந்து வந்திருக்கிறது. சென்னை தென்னிந்தியாவின் வாசலாகக் கருதப்படுகிறது. சென்னை நகரில் உள்ள மெரினா கடற்கரை உலகின் நீளமான கடற்கரைகளுள் ஒன்று. சென்னை கோலிவுட் (Kollywood) என அறியப்படும் தமிழ்த் திரைப்படத் துறையின் தாயகம் ஆகும். பல விளையாட்டு அரங்கங்கள் உள்ள சென்னையில் பல விளையாட்டுப் போட்டிகளும் நடைபெறுகின்றன."""
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize(
|
||||||
|
"text, num_tokens",
|
||||||
|
[(TAMIL_BASIC_TOKENIZER_SENTENCIZER_TEST_TEXT, 23 + 90)], # Punctuation + rest
|
||||||
|
)
|
||||||
|
def test_long_text(ta_tokenizer, text, num_tokens):
|
||||||
|
tokens = ta_tokenizer(text)
|
||||||
|
assert len(tokens) == num_tokens
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize(
|
||||||
|
"text, num_sents", [(TAMIL_BASIC_TOKENIZER_SENTENCIZER_TEST_TEXT, 9)]
|
||||||
|
)
|
||||||
|
def test_ta_sentencizer(text, num_sents):
|
||||||
|
nlp = Tamil()
|
||||||
|
nlp.add_pipe("sentencizer")
|
||||||
|
|
||||||
|
doc = nlp(text)
|
||||||
|
assert len(list(doc.sents)) == num_sents
|
188
spacy/tests/lang/ta/test_tokenizer.py
Normal file
188
spacy/tests/lang/ta/test_tokenizer.py
Normal file
|
@ -0,0 +1,188 @@
|
||||||
|
import pytest
|
||||||
|
from spacy.symbols import ORTH
|
||||||
|
from spacy.lang.ta import Tamil
|
||||||
|
|
||||||
|
TA_BASIC_TOKENIZATION_TESTS = [
|
||||||
|
(
|
||||||
|
"கிறிஸ்துமஸ் மற்றும் இனிய புத்தாண்டு வாழ்த்துக்கள்",
|
||||||
|
["கிறிஸ்துமஸ்", "மற்றும்", "இனிய", "புத்தாண்டு", "வாழ்த்துக்கள்"],
|
||||||
|
),
|
||||||
|
(
|
||||||
|
"எனக்கு என் குழந்தைப் பருவம் நினைவிருக்கிறது",
|
||||||
|
["எனக்கு", "என்", "குழந்தைப்", "பருவம்", "நினைவிருக்கிறது"],
|
||||||
|
),
|
||||||
|
("உங்கள் பெயர் என்ன?", ["உங்கள்", "பெயர்", "என்ன", "?"]),
|
||||||
|
(
|
||||||
|
"ஏறத்தாழ இலங்கைத் தமிழரில் மூன்றிலொரு பங்கினர் இலங்கையை விட்டு வெளியேறிப் பிற நாடுகளில் வாழ்கின்றனர்",
|
||||||
|
[
|
||||||
|
"ஏறத்தாழ",
|
||||||
|
"இலங்கைத்",
|
||||||
|
"தமிழரில்",
|
||||||
|
"மூன்றிலொரு",
|
||||||
|
"பங்கினர்",
|
||||||
|
"இலங்கையை",
|
||||||
|
"விட்டு",
|
||||||
|
"வெளியேறிப்",
|
||||||
|
"பிற",
|
||||||
|
"நாடுகளில்",
|
||||||
|
"வாழ்கின்றனர்",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
(
|
||||||
|
"இந்த ஃபோனுடன் சுமார் ரூ.2,990 மதிப்புள்ள போட் ராக்கர்ஸ் நிறுவனத்தின் ஸ்போர்ட் புளூடூத் ஹெட்போன்ஸ் இலவசமாக வழங்கப்படவுள்ளது.",
|
||||||
|
[
|
||||||
|
"இந்த",
|
||||||
|
"ஃபோனுடன்",
|
||||||
|
"சுமார்",
|
||||||
|
"ரூ.2,990",
|
||||||
|
"மதிப்புள்ள",
|
||||||
|
"போட்",
|
||||||
|
"ராக்கர்ஸ்",
|
||||||
|
"நிறுவனத்தின்",
|
||||||
|
"ஸ்போர்ட்",
|
||||||
|
"புளூடூத்",
|
||||||
|
"ஹெட்போன்ஸ்",
|
||||||
|
"இலவசமாக",
|
||||||
|
"வழங்கப்படவுள்ளது",
|
||||||
|
".",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
(
|
||||||
|
"மட்டக்களப்பில் பல இடங்களில் வீட்டுத் திட்டங்களுக்கு இன்று அடிக்கல் நாட்டல்",
|
||||||
|
[
|
||||||
|
"மட்டக்களப்பில்",
|
||||||
|
"பல",
|
||||||
|
"இடங்களில்",
|
||||||
|
"வீட்டுத்",
|
||||||
|
"திட்டங்களுக்கு",
|
||||||
|
"இன்று",
|
||||||
|
"அடிக்கல்",
|
||||||
|
"நாட்டல்",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
(
|
||||||
|
"ஐ போன்க்கு முகத்தை வைத்து அன்லாக் செய்யும் முறை மற்றும் விரலால் தொட்டு அன்லாக் செய்யும் முறையை வாட்ஸ் ஆப் நிறுவனம் இதற்கு முன் கண்டுபிடித்தது",
|
||||||
|
[
|
||||||
|
"ஐ",
|
||||||
|
"போன்க்கு",
|
||||||
|
"முகத்தை",
|
||||||
|
"வைத்து",
|
||||||
|
"அன்லாக்",
|
||||||
|
"செய்யும்",
|
||||||
|
"முறை",
|
||||||
|
"மற்றும்",
|
||||||
|
"விரலால்",
|
||||||
|
"தொட்டு",
|
||||||
|
"அன்லாக்",
|
||||||
|
"செய்யும்",
|
||||||
|
"முறையை",
|
||||||
|
"வாட்ஸ்",
|
||||||
|
"ஆப்",
|
||||||
|
"நிறுவனம்",
|
||||||
|
"இதற்கு",
|
||||||
|
"முன்",
|
||||||
|
"கண்டுபிடித்தது",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
(
|
||||||
|
"இது ஒரு வாக்கியம்.",
|
||||||
|
[
|
||||||
|
"இது",
|
||||||
|
"ஒரு",
|
||||||
|
"வாக்கியம்",
|
||||||
|
".",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
(
|
||||||
|
"தன்னாட்சி கார்கள் காப்பீட்டு பொறுப்பை உற்பத்தியாளரிடம் மாற்றுகின்றன",
|
||||||
|
[
|
||||||
|
"தன்னாட்சி",
|
||||||
|
"கார்கள்",
|
||||||
|
"காப்பீட்டு",
|
||||||
|
"பொறுப்பை",
|
||||||
|
"உற்பத்தியாளரிடம்",
|
||||||
|
"மாற்றுகின்றன",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
(
|
||||||
|
"நடைபாதை விநியோக ரோபோக்களை தடை செய்வதை சான் பிரான்சிஸ்கோ கருதுகிறது",
|
||||||
|
[
|
||||||
|
"நடைபாதை",
|
||||||
|
"விநியோக",
|
||||||
|
"ரோபோக்களை",
|
||||||
|
"தடை",
|
||||||
|
"செய்வதை",
|
||||||
|
"சான்",
|
||||||
|
"பிரான்சிஸ்கோ",
|
||||||
|
"கருதுகிறது",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
(
|
||||||
|
"லண்டன் ஐக்கிய இராச்சியத்தில் ஒரு பெரிய நகரம்.",
|
||||||
|
[
|
||||||
|
"லண்டன்",
|
||||||
|
"ஐக்கிய",
|
||||||
|
"இராச்சியத்தில்",
|
||||||
|
"ஒரு",
|
||||||
|
"பெரிய",
|
||||||
|
"நகரம்",
|
||||||
|
".",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
(
|
||||||
|
"என்ன வேலை செய்கிறீர்கள்?",
|
||||||
|
[
|
||||||
|
"என்ன",
|
||||||
|
"வேலை",
|
||||||
|
"செய்கிறீர்கள்",
|
||||||
|
"?",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
(
|
||||||
|
"எந்த கல்லூரியில் படிக்கிறாய்?",
|
||||||
|
[
|
||||||
|
"எந்த",
|
||||||
|
"கல்லூரியில்",
|
||||||
|
"படிக்கிறாய்",
|
||||||
|
"?",
|
||||||
|
],
|
||||||
|
),
|
||||||
|
]
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize("text,expected_tokens", TA_BASIC_TOKENIZATION_TESTS)
|
||||||
|
def test_ta_tokenizer_basic(ta_tokenizer, text, expected_tokens):
|
||||||
|
tokens = ta_tokenizer(text)
|
||||||
|
token_list = [token.text for token in tokens]
|
||||||
|
assert expected_tokens == token_list
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize(
|
||||||
|
"text,expected_tokens",
|
||||||
|
[
|
||||||
|
(
|
||||||
|
"ஆப்பிள் நிறுவனம் யு.கே. தொடக்க நிறுவனத்தை ஒரு லட்சம் கோடிக்கு வாங்கப் பார்க்கிறது",
|
||||||
|
[
|
||||||
|
"ஆப்பிள்",
|
||||||
|
"நிறுவனம்",
|
||||||
|
"யு.கே.",
|
||||||
|
"தொடக்க",
|
||||||
|
"நிறுவனத்தை",
|
||||||
|
"ஒரு",
|
||||||
|
"லட்சம்",
|
||||||
|
"கோடிக்கு",
|
||||||
|
"வாங்கப்",
|
||||||
|
"பார்க்கிறது",
|
||||||
|
],
|
||||||
|
)
|
||||||
|
],
|
||||||
|
)
|
||||||
|
def test_ta_tokenizer_special_case(text, expected_tokens):
|
||||||
|
# Add a special rule to tokenize the initialism "யு.கே." (U.K., as
|
||||||
|
# in the country) as a single token.
|
||||||
|
nlp = Tamil()
|
||||||
|
nlp.tokenizer.add_special_case("யு.கே.", [{ORTH: "யு.கே."}])
|
||||||
|
tokens = nlp(text)
|
||||||
|
|
||||||
|
token_list = [token.text for token in tokens]
|
||||||
|
assert expected_tokens == token_list
|
Loading…
Reference in New Issue
Block a user