2019-12-21 16:11:50 +03:00
import pytest
2023-06-14 18:48:41 +03:00
2019-12-21 16:11:50 +03:00
from spacy . lang . yo . lex_attrs import like_num
def test_yo_tokenizer_handles_long_text ( yo_tokenizer ) :
text = """ Àwọn ọmọ ìlú tí wọ́n ń ṣàmúlò ayélujára ti bẹ̀rẹ̀ ìkọkúkọ sórí àwòrán ààrẹ Nkurunziza nínú ìfẹ̀hónúhàn pẹ̀lú àmì ìdámọ̀: Nkurunziza àti Burundi:
Ọmọ ilé ẹ ̀ kọ ́ gíga ní ẹ ̀ wọ ̀ n fún kíkọ ìkọkúkọ sí orí àwòrán Ààrẹ .
Bí mo bá ṣe èyí ní Burundi , ó ṣe é ṣe kí a fi mí sí àtìmó ̣ lé
Ìjọba Burundi fi akẹ ́ kọ ̀ ọ ́ bìnrin sí àtìmó ̣ lé látàrí ẹ ̀ sùn ìkọkúkọ sí orí àwòrán ààrẹ . A túwíìtì àwòrán ìkọkúkọ wa ní ìbánikẹ ́ dùn ìṣẹ ̀ lẹ ̀ náà .
Wọ ́ n ní kí a dán an wò , kí a kọ nn ̀ kan sí orí àwòrán ààrẹ mo sì ṣe bẹ ́ ẹ ̀ . Mo ní ìgbóyà wípé ẹnikẹ ́ ni kò ní mú mi níbí .
Ìfòfinlíle mú àtakò """
tokens = yo_tokenizer ( text )
assert len ( tokens ) == 121
@pytest.mark.parametrize (
" text,match " ,
[ ( " ení " , True ) , ( " ogun " , True ) , ( " mewadinlogun " , True ) , ( " ten " , False ) ] ,
)
def test_lex_attrs_like_number ( yo_tokenizer , text , match ) :
tokens = yo_tokenizer ( text )
assert len ( tokens ) == 1
assert tokens [ 0 ] . like_num == match
@pytest.mark.parametrize ( " word " , [ " eji " , " ejila " , " ogun " , " aárùn " ] )
def test_yo_lex_attrs_capitals ( word ) :
assert like_num ( word )
assert like_num ( word . upper ( ) )