Update Portuguese lexical attributes

This commit is contained in:
ines 2017-05-12 15:37:39 +02:00
parent 2f870123bf
commit bca2ea9c72

View File

@ -1,21 +1,38 @@
# coding: utf8 # coding: utf8
from __future__ import unicode_literals from __future__ import unicode_literals
from ...attrs import LIKE_NUM
# Number words
NUM_WORDS = set(""" _num_words = ['zero', 'um', 'dois', 'três', 'quatro', 'cinco', 'seis', 'sete',
zero um dois três quatro cinco seis sete oito nove dez onze doze treze catorze 'oito', 'nove', 'dez', 'onze', 'doze', 'treze', 'catorze',
quinze dezasseis dezassete dezoito dezanove vinte trinta quarenta cinquenta 'quinze', 'dezasseis', 'dezassete', 'dezoito', 'dezanove', 'vinte',
sessenta setenta oitenta noventa cem mil milhão bilião trilião quadrilião 'trinta', 'quarenta', 'cinquenta', 'sessenta', 'setenta',
""".split()) 'oitenta', 'noventa', 'cem', 'mil', 'milhão', 'bilião', 'trilião',
'quadrilião']
# Ordinal words _ord_words = ['primeiro', 'segundo', 'terceiro', 'quarto', 'quinto', 'sexto',
'sétimo', 'oitavo', 'nono', 'décimo', 'vigésimo', 'trigésimo',
'quadragésimo', 'quinquagésimo', 'sexagésimo', 'septuagésimo',
'octogésimo', 'nonagésimo', 'centésimo', 'ducentésimo',
'trecentésimo', 'quadringentésimo', 'quingentésimo', 'sexcentésimo',
'septingentésimo', 'octingentésimo', 'nongentésimo', 'milésimo',
'milionésimo', 'bilionésimo']
ORDINAL_WORDS = set("""
primeiro segundo terceiro quarto quinto sexto sétimo oitavo nono décimo def like_num(text):
vigésimo trigésimo quadragésimo quinquagésimo sexagésimo septuagésimo text = text.replace(',', '').replace('.', '')
octogésimo nonagésimo centésimo ducentésimo trecentésimo quadringentésimo if text.isdigit():
quingentésimo sexcentésimo septingentésimo octingentésimo nongentésimo return True
milésimo milionésimo bilionésimo if text.count('/') == 1:
""".split()) num, denom = text.split('/')
if num.isdigit() and denom.isdigit():
return True
if text in _num_words:
return True
return False
LEX_ATTRS = {
LIKE_NUM: like_num
}