mirror of
https://github.com/explosion/spaCy.git
synced 2025-01-13 18:56:36 +03:00
Add fr tokenization unit tests
This commit is contained in:
parent
1faaf698ca
commit
1be9c0e724
|
@ -52,6 +52,11 @@ def de_tokenizer():
|
||||||
return German.Defaults.create_tokenizer()
|
return German.Defaults.create_tokenizer()
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.fixture
|
||||||
|
def fr_tokenizer():
|
||||||
|
return French.Defaults.create_tokenizer()
|
||||||
|
|
||||||
|
|
||||||
@pytest.fixture
|
@pytest.fixture
|
||||||
def hu_tokenizer():
|
def hu_tokenizer():
|
||||||
return Hungarian.Defaults.create_tokenizer()
|
return Hungarian.Defaults.create_tokenizer()
|
||||||
|
|
1
spacy/tests/fr/__init__.py
Normal file
1
spacy/tests/fr/__init__.py
Normal file
|
@ -0,0 +1 @@
|
||||||
|
# coding: utf-8
|
30
spacy/tests/fr/test_exceptions.py
Normal file
30
spacy/tests/fr/test_exceptions.py
Normal file
|
@ -0,0 +1,30 @@
|
||||||
|
# coding: utf-8
|
||||||
|
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
import pytest
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize('text', ["aujourd'hui", "Aujourd'hui", "prud'hommes",
|
||||||
|
"prud’hommal"])
|
||||||
|
def test_tokenizer_infix_exceptions(fr_tokenizer, text):
|
||||||
|
tokens = fr_tokenizer(text)
|
||||||
|
assert len(tokens) == 1
|
||||||
|
|
||||||
|
|
||||||
|
@pytest.mark.parametrize('text,lemma', [("janv.", "janvier"),
|
||||||
|
("juill.", "juillet"),
|
||||||
|
("sept.", "septembre")])
|
||||||
|
def test_tokenizer_handles_abbr(fr_tokenizer, text, lemma):
|
||||||
|
tokens = fr_tokenizer(text)
|
||||||
|
assert len(tokens) == 1
|
||||||
|
assert tokens[0].lemma_ == lemma
|
||||||
|
|
||||||
|
|
||||||
|
def test_tokenizer_handles_exc_in_text(fr_tokenizer):
|
||||||
|
text = "Je suis allé au mois de janv. aux prud’hommes."
|
||||||
|
tokens = fr_tokenizer(text)
|
||||||
|
assert len(tokens) == 10
|
||||||
|
assert tokens[6].text == "janv."
|
||||||
|
assert tokens[6].lemma_ == "janvier"
|
||||||
|
assert tokens[8].text == "prud’hommes"
|
19
spacy/tests/fr/test_text.py
Normal file
19
spacy/tests/fr/test_text.py
Normal file
|
@ -0,0 +1,19 @@
|
||||||
|
# encoding: utf8
|
||||||
|
|
||||||
|
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
|
||||||
|
def test_tokenizer_handles_long_text(fr_tokenizer):
|
||||||
|
text = """L'histoire du TAL commence dans les années 1950, bien que l'on puisse \
|
||||||
|
trouver des travaux antérieurs. En 1950, Alan Turing éditait un article \
|
||||||
|
célèbre sous le titre « Computing machinery and intelligence » qui propose ce \
|
||||||
|
qu'on appelle à présent le test de Turing comme critère d'intelligence. \
|
||||||
|
Ce critère dépend de la capacité d'un programme informatique de personnifier \
|
||||||
|
un humain dans une conversation écrite en temps réel, de façon suffisamment \
|
||||||
|
convaincante que l'interlocuteur humain ne peut distinguer sûrement — sur la \
|
||||||
|
base du seul contenu de la conversation — s'il interagit avec un programme \
|
||||||
|
ou avec un autre vrai humain."""
|
||||||
|
|
||||||
|
tokens = fr_tokenizer(text)
|
||||||
|
assert len(tokens) == 113
|
Loading…
Reference in New Issue
Block a user