spaCy/spacy/lang/es/lex_attrs.py

from ...attrs import LIKE_NUM

_num_words = [
    "cero",
    "uno",
    "dos",
    "tres",
    "cuatro",
    "cinco",
    "seis",
    "siete",
    "ocho",
    "nueve",
    "diez",
    "once",
    "doce",
    "trece",
    "catorce",
    "quince",
    "dieciséis",
    "diecisiete",
    "dieciocho",
    "diecinueve",
    "veinte",
    "veintiuno",
    "veintidós",
    "veintitrés",
    "veinticuatro",
    "veinticinco",
    "veintiséis",
    "veintisiete",
    "veintiocho",
    "veintinueve",
    "treinta",
    "cuarenta",
    "cincuenta",
    "sesenta",
    "setenta",
    "ochenta",
    "noventa",
    "cien",
    "mil",
    "millón",
    "billón",
    "trillón",
]


_ordinal_words = [
    "primero",
    "segundo",
    "tercero",
    "cuarto",
    "quinto",
    "sexto",
    "séptimo",
    "octavo",
    "noveno",
    "décimo",
    "undécimo",
    "duodécimo",
    "decimotercero",
    "decimocuarto",
    "decimoquinto",
    "decimosexto",
    "decimoséptimo",
    "decimoctavo",
    "decimonoveno",
    "vigésimo",
    "trigésimo",
    "cuadragésimo",
    "quincuagésimo",
    "sexagésimo",
    "septuagésimo",
    "octogésima",
    "nonagésima",
    "centésima",
    "milésima",
    "millonésima",
    "billonésima",
]


def like_num(text):
    if text.startswith(("+", "-", "±", "~")):
        text = text[1:]
    text = text.replace(",", "").replace(".", "")
    if text.isdigit():
        return True
    if text.count("/") == 1:
        num, denom = text.split("/")
        if num.isdigit() and denom.isdigit():
            return True
    text_lower = text.lower()
    if text_lower in _num_words:
        return True
    # Check ordinal number
    if text_lower in _ordinal_words:
        return True
    return False


LEX_ATTRS = {LIKE_NUM: like_num}
Overwrites default getter for like_num in Spanish by adding _num_words and like_num to lex_attrs.py (#3810) (closes #3803)) * (#3803) Spanish like_num returning false for number-like token * (#3803) Spanish like_num now returning True for number-like token 2019-06-02 13:22:57 +03:00			`from ...attrs import LIKE_NUM`

			`_num_words = [`
			`"cero",`
			`"uno",`
			`"dos",`
			`"tres",`
			`"cuatro",`
			`"cinco",`
			`"seis",`
			`"siete",`
			`"ocho",`
			`"nueve",`
			`"diez",`
			`"once",`
			`"doce",`
			`"trece",`
			`"catorce",`
			`"quince",`
			`"dieciséis",`
			`"diecisiete",`
			`"dieciocho",`
			`"diecinueve",`
			`"veinte",`
Spanish like num improvement (#5381) * Add tests for Spanish like_num. * Add missing numbers in Spanish lexical attributes for like_num. * Modify Spanish test function name. * Add contributor agreement. 2020-04-30 12:13:23 +03:00			`"veintiuno",`
			`"veintidós",`
			`"veintitrés",`
			`"veinticuatro",`
			`"veinticinco",`
			`"veintiséis",`
			`"veintisiete",`
			`"veintiocho",`
			`"veintinueve",`
Overwrites default getter for like_num in Spanish by adding _num_words and like_num to lex_attrs.py (#3810) (closes #3803)) * (#3803) Spanish like_num returning false for number-like token * (#3803) Spanish like_num now returning True for number-like token 2019-06-02 13:22:57 +03:00			`"treinta",`
			`"cuarenta",`
			`"cincuenta",`
			`"sesenta",`
			`"setenta",`
			`"ochenta",`
			`"noventa",`
			`"cien",`
			`"mil",`
			`"millón",`
			`"billón",`
			`"trillón",`
			`]`


Update lex_attrs.py for Spanish with ordinals (#10038) * Update lex_attrs.py Add ordinal words * black formatting Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> 2022-01-20 17:44:13 +03:00			`_ordinal_words = [`
			`"primero",`
			`"segundo",`
			`"tercero",`
			`"cuarto",`
			`"quinto",`
			`"sexto",`
			`"séptimo",`
			`"octavo",`
			`"noveno",`
			`"décimo",`
			`"undécimo",`
			`"duodécimo",`
			`"decimotercero",`
			`"decimocuarto",`
			`"decimoquinto",`
			`"decimosexto",`
			`"decimoséptimo",`
			`"decimoctavo",`
			`"decimonoveno",`
			`"vigésimo",`
			`"trigésimo",`
			`"cuadragésimo",`
			`"quincuagésimo",`
			`"sexagésimo",`
			`"septuagésimo",`
			`"octogésima",`
			`"nonagésima",`
			`"centésima",`
			`"milésima",`
			`"millonésima",`
			`"billonésima",`
			`]`


Overwrites default getter for like_num in Spanish by adding _num_words and like_num to lex_attrs.py (#3810) (closes #3803)) * (#3803) Spanish like_num returning false for number-like token * (#3803) Spanish like_num now returning True for number-like token 2019-06-02 13:22:57 +03:00			`def like_num(text):`
			`if text.startswith(("+", "-", "±", "~")):`
			`text = text[1:]`
			`text = text.replace(",", "").replace(".", "")`
			`if text.isdigit():`
			`return True`
			`if text.count("/") == 1:`
			`num, denom = text.split("/")`
			`if num.isdigit() and denom.isdigit():`
			`return True`
Update lex_attrs.py for Spanish with ordinals (#10038) * Update lex_attrs.py Add ordinal words * black formatting Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com> 2022-01-20 17:44:13 +03:00			`text_lower = text.lower()`
			`if text_lower in _num_words:`
			`return True`
			`# Check ordinal number`
			`if text_lower in _ordinal_words:`
Overwrites default getter for like_num in Spanish by adding _num_words and like_num to lex_attrs.py (#3810) (closes #3803)) * (#3803) Spanish like_num returning false for number-like token * (#3803) Spanish like_num now returning True for number-like token 2019-06-02 13:22:57 +03:00			`return True`
			`return False`


			`LEX_ATTRS = {LIKE_NUM: like_num}`