Spanish like num improvement (#5381)

* Add tests for Spanish like_num. * Add missing numbers in Spanish lexical attributes for like_num. * Modify Spanish test function name. * Add contributor agreement.
2025-09-18 18:12:45 +03:00 · 2020-04-30 11:13:23 +02:00 · 2020-04-30 11:13:23 +02:00 · 148b036e0c
commit 148b036e0c
parent 8602daba85
2 changed files with 39 additions and 0 deletions
--- a/spacy/lang/es/lex_attrs.py
+++ b/spacy/lang/es/lex_attrs.py
@ -26,6 +26,15 @@ _num_words = [
    "dieciocho",
    "diecinueve",
    "veinte",
    "veintiuno",
    "veintidós",
    "veintitrés",
    "veinticuatro",
    "veinticinco",
    "veintiséis",
    "veintisiete",
    "veintiocho",
    "veintinueve",
    "treinta",
    "cuarenta",
    "cincuenta",
--- a/spacy/tests/lang/es/test_text.py
+++ b/spacy/tests/lang/es/test_text.py
@ -2,6 +2,7 @@
 from __future__ import unicode_literals
 import pytest
 from spacy.lang.es.lex_attrs import like_num
 def test_es_tokenizer_handles_long_text(es_tokenizer):
@ -33,3 +34,32 @@ en Montevideo y que pregona las bondades de la vida austera."""
 def test_es_tokenizer_handles_cnts(es_tokenizer, text, length):
    tokens = es_tokenizer(text)
    assert len(tokens) == length
@pytest.mark.parametrize(
    "text,match",
    [
        ("10", True),
        ("1", True),
        ("10.000", True),
        ("1000", True),
        ("999,0", True),
        ("uno", True),
        ("dos", True),
        ("billón", True),
        ("veintiséis", True),
        ("perro", False),
        (",", False),
        ("1/2", True),
    ],
 )
 def test_lex_attrs_like_number(es_tokenizer, text, match):
    tokens = es_tokenizer(text)
    assert len(tokens) == 1
    assert tokens[0].like_num == match
@pytest.mark.parametrize("word", ["once"])
 def test_es_lex_attrs_capitals(word):
    assert like_num(word)
    assert like_num(word.upper())