mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-25 17:36:30 +03:00
Add fr tokenization unit tests
This commit is contained in:
parent
1faaf698ca
commit
1be9c0e724
|
@ -52,6 +52,11 @@ def de_tokenizer():
|
|||
return German.Defaults.create_tokenizer()
|
||||
|
||||
|
||||
@pytest.fixture
|
||||
def fr_tokenizer():
|
||||
return French.Defaults.create_tokenizer()
|
||||
|
||||
|
||||
@pytest.fixture
|
||||
def hu_tokenizer():
|
||||
return Hungarian.Defaults.create_tokenizer()
|
||||
|
|
1
spacy/tests/fr/__init__.py
Normal file
1
spacy/tests/fr/__init__.py
Normal file
|
@ -0,0 +1 @@
|
|||
# coding: utf-8
|
30
spacy/tests/fr/test_exceptions.py
Normal file
30
spacy/tests/fr/test_exceptions.py
Normal file
|
@ -0,0 +1,30 @@
|
|||
# coding: utf-8
|
||||
|
||||
from __future__ import unicode_literals
|
||||
|
||||
import pytest
|
||||
|
||||
|
||||
@pytest.mark.parametrize('text', ["aujourd'hui", "Aujourd'hui", "prud'hommes",
|
||||
"prud’hommal"])
|
||||
def test_tokenizer_infix_exceptions(fr_tokenizer, text):
|
||||
tokens = fr_tokenizer(text)
|
||||
assert len(tokens) == 1
|
||||
|
||||
|
||||
@pytest.mark.parametrize('text,lemma', [("janv.", "janvier"),
|
||||
("juill.", "juillet"),
|
||||
("sept.", "septembre")])
|
||||
def test_tokenizer_handles_abbr(fr_tokenizer, text, lemma):
|
||||
tokens = fr_tokenizer(text)
|
||||
assert len(tokens) == 1
|
||||
assert tokens[0].lemma_ == lemma
|
||||
|
||||
|
||||
def test_tokenizer_handles_exc_in_text(fr_tokenizer):
|
||||
text = "Je suis allé au mois de janv. aux prud’hommes."
|
||||
tokens = fr_tokenizer(text)
|
||||
assert len(tokens) == 10
|
||||
assert tokens[6].text == "janv."
|
||||
assert tokens[6].lemma_ == "janvier"
|
||||
assert tokens[8].text == "prud’hommes"
|
19
spacy/tests/fr/test_text.py
Normal file
19
spacy/tests/fr/test_text.py
Normal file
|
@ -0,0 +1,19 @@
|
|||
# encoding: utf8
|
||||
|
||||
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
def test_tokenizer_handles_long_text(fr_tokenizer):
|
||||
text = """L'histoire du TAL commence dans les années 1950, bien que l'on puisse \
|
||||
trouver des travaux antérieurs. En 1950, Alan Turing éditait un article \
|
||||
célèbre sous le titre « Computing machinery and intelligence » qui propose ce \
|
||||
qu'on appelle à présent le test de Turing comme critère d'intelligence. \
|
||||
Ce critère dépend de la capacité d'un programme informatique de personnifier \
|
||||
un humain dans une conversation écrite en temps réel, de façon suffisamment \
|
||||
convaincante que l'interlocuteur humain ne peut distinguer sûrement — sur la \
|
||||
base du seul contenu de la conversation — s'il interagit avec un programme \
|
||||
ou avec un autre vrai humain."""
|
||||
|
||||
tokens = fr_tokenizer(text)
|
||||
assert len(tokens) == 113
|
Loading…
Reference in New Issue
Block a user