spaCy/tests/lang/sr/test_lemmatizer.py

# coding: utf-8
from __future__ import unicode_literals

import pytest


@pytest.mark.parametrize(
    "string,lemma",
    [
        ("најадекватнији", "адекватан"),
        ("матурирао", "матурирати"),
        ("планираћемо", "планирати"),
        ("певају", "певати"),
        ("нама", "ми"),
        ("се", "себе"),
    ],
)
def test_sr_lemmatizer_lookup_assigns(sr_tokenizer, string, lemma):
    tokens = sr_tokenizer(string)
    assert tokens[0].lemma_ == lemma
-												Lemmatizer lookup dictionary for Serbian and basic tag set adde… (#4251)

* Serbian stopwords added. (cyrillic alphabet)

* spaCy Contribution agreement included.

* Test initialize updated

* Serbian language code update. --bugfix

* Tokenizer exceptions added. Init file updated.

* Norm exceptions and lexical attributes added.

* Examples added.

* Tests added.

* sr_lang examples update.

* Tokenizer exceptions updated. (Serbian)

* Lemmatizer created. Licence included.

* Test updated.

* Tag map basic added.

* tag_map.py file removed since it uses default spacy tags.

											
										
										
											2019-09-08 15:19:15 +03:00
+								# coding: utf-8
 								from __future__ import unicode_literals
 								import pytest
 								@pytest.mark.parametrize(
 								    "string,lemma",
 								    [
 								        ("најадекватнији", "адекватан"),
 								        ("матурирао", "матурирати"),
 								        ("планираћемо", "планирати"),
 								        ("певају", "певати"),
 								        ("нама", "ми"),
 								        ("се", "себе"),
 								    ],
 								)
 								def test_sr_lemmatizer_lookup_assigns(sr_tokenizer, string, lemma):
 								    tokens = sr_tokenizer(string)
 								    assert tokens[0].lemma_ == lemma