2020-04-27 12:07:37 +03:00
|
|
|
# coding: utf-8
|
|
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
|
|
import pytest
|
|
|
|
|
2020-05-21 15:14:01 +03:00
|
|
|
|
2020-04-27 12:07:37 +03:00
|
|
|
def test_gu_tokenizer_handlers_long_text(gu_tokenizer):
|
|
|
|
text = """પશ્ચિમ ભારતમાં આવેલું ગુજરાત રાજ્ય જે વ્યક્તિઓની માતૃભૂમિ છે"""
|
|
|
|
tokens = gu_tokenizer(text)
|
|
|
|
assert len(tokens) == 9
|
|
|
|
|
2020-05-21 15:14:01 +03:00
|
|
|
|
2020-04-27 12:07:37 +03:00
|
|
|
@pytest.mark.parametrize(
|
|
|
|
"text,length",
|
2020-05-21 15:14:01 +03:00
|
|
|
[("ગુજરાતીઓ ખાવાના શોખીન માનવામાં આવે છે", 6), ("ખેતરની ખેડ કરવામાં આવે છે.", 5)],
|
2020-04-27 12:07:37 +03:00
|
|
|
)
|
|
|
|
def test_gu_tokenizer_handles_cnts(gu_tokenizer, text, length):
|
|
|
|
tokens = gu_tokenizer(text)
|
|
|
|
assert len(tokens) == length
|