spaCy/spacy/tests/lang/tr/test_text.py

import pytest
from spacy.lang.tr.lex_attrs import like_num


def test_tr_tokenizer_handles_long_text(tr_tokenizer):
    text = """Pamuk nasıl ipliğe dönüştürülür?

Sıkıştırılmış balyalar halindeki pamuk, iplik fabrikasına getirildiğinde hem
lifleri birbirine dolaşmıştır, hem de tarladan toplanırken araya bitkinin
parçaları karışmıştır. Üstelik balyalardaki pamuğun cinsi aynı olsa bile kalitesi
değişeceğinden, önce bütün balyaların birbirine karıştırılarak harmanlanması gerekir.

Daha sonra pamuk yığınları, liflerin açılıp temizlenmesi için tek bir birim halinde
birleştirilmiş çeşitli makinelerden geçirilir.Bunlardan biri, dönen tokmaklarıyla
pamuğu dövüp kabartarak dağınık yumaklar haline getiren ve liflerin arasındaki yabancı
maddeleri temizleyen hallaç makinesidir. Daha sonra tarak makinesine giren pamuk demetleri,
herbirinin yüzeyinde yüzbinlerce incecik iğne bulunan döner silindirlerin arasından geçerek lif lif ayrılır
ve tül inceliğinde gevşek bir örtüye dönüşür. Ama bir sonraki makine bu lifleri dağınık
ve gevşek bir biçimde birbirine yaklaştırarak 2 cm eninde bir pamuk şeridi haline getirir."""
    tokens = tr_tokenizer(text)
    assert len(tokens) == 146


@pytest.mark.parametrize(
    "word",
    [
        "bir",
        "iki",
        "dört",
        "altı",
        "milyon",
        "100",
        "birinci",
        "üçüncü",
        "beşinci",
        "100üncü",
        "8inci",
    ],
)
def test_tr_lex_attrs_like_number_cardinal_ordinal(word):
    assert like_num(word)


@pytest.mark.parametrize("word", ["beş", "yedi", "yedinci", "birinci"])
def test_tr_lex_attrs_capitals(word):
    assert like_num(word)
    assert like_num(word.upper())
-												Ordinal numbers for Turkish (#6142)

* minor ordinal number addition

* fixed typo

* added corresponding lexical test

											
										
										
											2020-10-07 11:25:37 +03:00
+								import pytest
 								from spacy.lang.tr.lex_attrs import like_num
-												Turkish tokenization improvements (#6268)

* added single and paired orth variants

* added token match

* added long text tokenization test

* inverted init

* normalized lemmas to lowercase

* more abbrevs

* tests for ordinals and abbrevs

* separated period abbvrevs to another list

* fiex typo

* added ordinal and abbrev tests

* added number tests for dates

* minor refinement

* added inflected abbrevs regex

* added percentage and inflection

* cosmetics

* added token match

* added url inflection tests

* excluded url tokens from custom pattern

* removed url match import
											
										
										
											2020-10-29 11:43:17 +03:00
+								def test_tr_tokenizer_handles_long_text(tr_tokenizer):
 								    text = """Pamuk nasıl ipliğe dönüştürülür?
-												Tidy up and auto-format

											
										
										
											2021-01-05 05:41:53 +03:00
+								Sıkıştırılmış balyalar halindeki pamuk, iplik fabrikasına getirildiğinde hem
 								lifleri birbirine dolaşmıştır, hem de tarladan toplanırken araya bitkinin
 								parçaları karışmıştır. Üstelik balyalardaki pamuğun cinsi aynı olsa bile kalitesi
-												Turkish tokenization improvements (#6268)

* added single and paired orth variants

* added token match

* added long text tokenization test

* inverted init

* normalized lemmas to lowercase

* more abbrevs

* tests for ordinals and abbrevs

* separated period abbvrevs to another list

* fiex typo

* added ordinal and abbrev tests

* added number tests for dates

* minor refinement

* added inflected abbrevs regex

* added percentage and inflection

* cosmetics

* added token match

* added url inflection tests

* excluded url tokens from custom pattern

* removed url match import
											
										
										
											2020-10-29 11:43:17 +03:00
+								değişeceğinden, önce bütün balyaların birbirine karıştırılarak harmanlanması gerekir.
-												Tidy up and auto-format

											
										
										
											2021-01-05 05:41:53 +03:00
+								Daha sonra pamuk yığınları, liflerin açılıp temizlenmesi için tek bir birim halinde
-												Turkish tokenization improvements (#6268)

* added single and paired orth variants

* added token match

* added long text tokenization test

* inverted init

* normalized lemmas to lowercase

* more abbrevs

* tests for ordinals and abbrevs

* separated period abbvrevs to another list

* fiex typo

* added ordinal and abbrev tests

* added number tests for dates

* minor refinement

* added inflected abbrevs regex

* added percentage and inflection

* cosmetics

* added token match

* added url inflection tests

* excluded url tokens from custom pattern

* removed url match import
											
										
										
											2020-10-29 11:43:17 +03:00
+								birleştirilmiş çeşitli makinelerden geçirilir.Bunlardan biri, dönen tokmaklarıyla
 								pamuğu dövüp kabartarak dağınık yumaklar haline getiren ve liflerin arasındaki yabancı
 								maddeleri temizleyen hallaç makinesidir. Daha sonra tarak makinesine giren pamuk demetleri,
 								herbirinin yüzeyinde yüzbinlerce incecik iğne bulunan döner silindirlerin arasından geçerek lif lif ayrılır
-												Tidy up and auto-format

											
										
										
											2021-01-05 05:41:53 +03:00
+								ve tül inceliğinde gevşek bir örtüye dönüşür. Ama bir sonraki makine bu lifleri dağınık
-												Turkish tokenization improvements (#6268)

* added single and paired orth variants

* added token match

* added long text tokenization test

* inverted init

* normalized lemmas to lowercase

* more abbrevs

* tests for ordinals and abbrevs

* separated period abbvrevs to another list

* fiex typo

* added ordinal and abbrev tests

* added number tests for dates

* minor refinement

* added inflected abbrevs regex

* added percentage and inflection

* cosmetics

* added token match

* added url inflection tests

* excluded url tokens from custom pattern

* removed url match import
											
										
										
											2020-10-29 11:43:17 +03:00
+								ve gevşek bir biçimde birbirine yaklaştırarak 2 cm eninde bir pamuk şeridi haline getirir."""
 								    tokens = tr_tokenizer(text)
 								    assert len(tokens) == 146
-												Ordinal numbers for Turkish (#6142)

* minor ordinal number addition

* fixed typo

* added corresponding lexical test

											
										
										
											2020-10-07 11:25:37 +03:00
+								@pytest.mark.parametrize(
 								    "word",
 								    [
 								        "bir",
 								        "iki",
 								        "dört",
 								        "altı",
 								        "milyon",
 								        "100",
 								        "birinci",
 								        "üçüncü",
 								        "beşinci",
 								        "100üncü",
-												Tidy up and auto-format

											
										
										
											2020-10-10 20:14:48 +03:00
+								        "8inci",
 								    ],
-												Ordinal numbers for Turkish (#6142)

* minor ordinal number addition

* fixed typo

* added corresponding lexical test

											
										
										
											2020-10-07 11:25:37 +03:00
+								)
 								def test_tr_lex_attrs_like_number_cardinal_ordinal(word):
 								    assert like_num(word)
 								@pytest.mark.parametrize("word", ["beş", "yedi", "yedinci", "birinci"])
 								def test_tr_lex_attrs_capitals(word):
 								    assert like_num(word)
 								    assert like_num(word.upper())