spaCy/spacy/tests/lang/el/test_text.py
2019-09-29 17:32:12 +02:00

35 lines
1.8 KiB
Python
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# coding: utf8
from __future__ import unicode_literals
import pytest
def test_el_tokenizer_handles_long_text(el_tokenizer):
text = """Η Ελλάδα (παλαιότερα Ελλάς), επίσημα γνωστή ως Ελληνική Δημοκρατία,\
είναι χώρα της νοτιοανατολικής Ευρώπης στο νοτιότερο άκρο της Βαλκανικής χερσονήσου.\
Συνορεύει στα βορειοδυτικά με την Αλβανία, στα βόρεια με την πρώην\
Γιουγκοσλαβική Δημοκρατία της Μακεδονίας και τη Βουλγαρία και στα βορειοανατολικά με την Τουρκία."""
tokens = el_tokenizer(text)
assert len(tokens) == 54
@pytest.mark.parametrize(
"text,length",
[
("Διοικητικά η Ελλάδα διαιρείται σε 13 Περιφέρειες.", 8),
("Η εκπαίδευση στην Ελλάδα χωρίζεται κυρίως σε τρία επίπεδα.", 10),
(
"Η Ελλάδα είναι μία από τις χώρες της Ευρωπαϊκής Ένωσης (ΕΕ) που διαθέτει σηµαντικό ορυκτό πλούτο.",
19,
),
(
"Η ναυτιλία αποτέλεσε ένα σημαντικό στοιχείο της Ελληνικής οικονομικής δραστηριότητας από τα αρχαία χρόνια.",
15,
),
("Η Ελλάδα είναι μέλος σε αρκετούς διεθνείς οργανισμούς.", 9),
],
)
def test_el_tokenizer_handles_cnts(el_tokenizer, text, length):
tokens = el_tokenizer(text)
assert len(tokens) == length