Merge pull request #943 from mamoit/master

Portuguese improvements
2025-11-05 18:37:27 +03:00 · 2017-04-01 10:32:00 +02:00 · 2017-04-01 10:32:00 +02:00 · f8b2d9c3b7
commit f8b2d9c3b7
parent 3b667a24d4 4fde64c4ea
2 changed files with 149 additions and 18 deletions
--- a/spacy/pt/stop_words.py
+++ b/spacy/pt/stop_words.py
@ -3,18 +3,19 @@ from __future__ import unicode_literals
 STOP_WORDS = set("""
-à às acerca adeus agora ainda algo algumas alguns ali além ambos ano
+à às acerca adeus agora ainda algo algumas alguns ali além ambas ambos ano
-anos antes ao aos apenas apoio apontar após aquela aquelas aquele aqueles aqui
+anos antes ao aos apenas apoio apoia apontar após aquela aquelas aquele aqueles
-aquilo area área as assim através atrás até aí
+aqui aquilo área as assim através atrás até aí
-baixo bastante bem bom breve
+baixo bastante bem boa bom breve
 cada caminho catorze cedo cento certamente certeza cima cinco coisa com como
-comprido conhecido conselho contra corrente custa cá
+comprido comprida conhecida conhecido conselho contra corrente custa cá
-da daquela daquele dar das de debaixo demais dentro depois desde desligado
+da daquela daquele dar das de debaixo demais dentro depois desde desligada
-dessa desse desta deste deve devem deverá dez dezanove dezasseis dezassete
+desligado dessa desse desta deste deve devem deverá dez dezanove dezasseis
-dezoito dia diante direita diz dizem dizer do dois dos doze duas dá dão dúvida
+dezassete dezoito dia diante direita diz dizem dizer do dois dos doze duas dá
 dão dúvida
 é ela elas ele eles em embora enquanto entre então era és essa essas esse esses
 esta estado estar estará estas estava este estes esteve estive estivemos
@ -27,7 +28,7 @@ geral grande grandes grupo
 hoje horas há
-iniciar inicio ir irá isso ista isto já
+iniciar inicio ir irá isso isto já
 lado ligado local logo longe lugar lá
@ -35,34 +36,53 @@ maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus
 mil minha minhas momento muito muitos máximo mês
 na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no noite nome
-nos nossa nossas nosso nossos nova nove novo novos num numa nunca não nível nós
+nos nossa nossas nosso nossos nova novas nove novo novos num numa nunca nuns
-número
+não nível nós número números
 obra obrigada obrigado oitava oitavo oito onde ontem onze os ou outra outras
 outro outros
 para parece parte partir pegar pela pelas pelo pelos perto pessoas pode podem
 poder poderá podia ponto pontos por porque porquê posição possivelmente posso
-possível pouca pouco povo primeira primeiro promeiro próprio próximo puderam
+possível pouca pouco povo primeira primeiro próprio próxima próximo puderam pôde
-pôde põe põem
+põe põem
-qual qualquer quando quanto quarta quarto quatro que quem quer quero questão
+qual qualquer quando quanto quarta quarto quatro que quem quer querem quero
-quieto quinta quinto quinze quê
+questão quieta quieto quinta quinto quinze quê
 relação
 sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta
 sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo
-tal talvez também tanto tarde te tem temos tempo tendes tenho tens tentar
+tal talvez também tanta tanto tarde te tem temos tempo tendes tenho tens tentar
 tentaram tente tentei ter terceira terceiro teu teus teve tipo tive tivemos
 tiveram tiveste tivestes toda todas todo todos trabalhar trabalho treze três tu
 tua tuas tudo tão têm
 último um uma umas uns usa usar
-vai vais valor veja vem vens ver verdade verdadeiro vez vezes viagem vindo
+vai vais valor veja vem vens ver verdade verdadeira verdadeiro vez vezes viagem
-vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós
+vinda vindo vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós
 zero
 """.split())
 # Number words
 NUM_WORDS = set("""
 zero um dois três quatro cinco seis sete oito nove dez onze doze treze catorze
 quinze dezasseis dezassete dezoito dezanove vinte trinta quarenta cinquenta
 sessenta setenta oitenta noventa cem mil milhão bilião trilião quadrilião
 """.split())
 # Ordinal words
 ORDINAL_WORDS = set("""
 primeiro segundo terceiro quarto quinto sexto sétimo oitavo nono décimo
 vigésimo trigésimo quadragésimo quinquagésimo sexagésimo septuagésimo
 octogésimo nonagésimo centésimo ducentésimo trecentésimo quadringentésimo
 quingentésimo sexcentésimo septingentésimo octingentésimo nongentésimo
 milésimo milionésimo bilionésimo
 """.split())
--- a/spacy/pt/tokenizer_exceptions.py
+++ b/spacy/pt/tokenizer_exceptions.py
@ -0,0 +1,111 @@
 # coding: utf8
 from __future__ import unicode_literals
 from ..symbols import *
 from ..language_data import PRON_LEMMA
 TOKENIZER_EXCEPTIONS = {}
 # Contractions
 CONTRACTIONS = {}
 personal_pronoun = (
    "ele", "ela", "eles", "elas"
 )
 demonstrative_pronouns = (
    "este", "esta", "estes", "estas", "isto", "esse", "essa", "esses", "essas",
    "isso", "aquele", "aquela", "aqueles", "aquelas", "aquilo"
 )
 undefined_pronouns = (
    "outro", "outra", "outros", "outras"
 )
 adverbs = (
    "aqui", "aí", "ali", "além"
 )
 for word in personal_pronoun + demonstrative_pronouns + \
            undefined_pronouns + adverbs:
    CONTRACTIONS["d" + word] = [
        {ORTH: "d", NORM: "de"},
        {ORTH: word}
    ]
 for word in personal_pronoun + demonstrative_pronouns + \
            undefined_pronouns:
    CONTRACTIONS["n" + word] = [
        {ORTH: "n", NORM: "em"},
        {ORTH: word}
    ]
 # Not so linear contractions "a"+something
 CONTRACTIONS.update({
    # This one cannot be split into 2
    # "à": [
    #     {ORTH: "à", NORM: "a"},
    #     {ORTH: "", NORM: "a"}
    # ],
    "às": [
        {ORTH: "à", NORM: "a"},
        {ORTH: "s", NORM: "as"}
    ],
    "ao": [
        {ORTH: "a"},
        {ORTH: "o"}
    ],
    "aos": [
        {ORTH: "a"},
        {ORTH: "os"}
    ],
    "àquele": [
        {ORTH: "à", NORM: "a"},
        {ORTH: "quele", NORM: "aquele"}
    ],
    "àquela": [
        {ORTH: "à", NORM: "a"},
        {ORTH: "quela", NORM: "aquela"}
    ],
    "àqueles": [
        {ORTH: "à", NORM: "a"},
        {ORTH: "queles", NORM: "aqueles"}
    ],
    "àquelas": [
        {ORTH: "à", NORM: "a"},
        {ORTH: "quelas", NORM: "aquelas"}
    ],
    "àquilo": [
        {ORTH: "à", NORM: "a"},
        {ORTH: "quilo", NORM: "aquilo"}
    ],
    "aonde": [
        {ORTH: "a"},
        {ORTH: "onde"}
    ],
 })
 TOKENIZER_EXCEPTIONS.update(CONTRACTIONS)
 # Abbreviations with only one ORTH token
 ORTH_ONLY = [
    "Adm.",
    "Dr.",
    "e.g.",
    "E.g.",
    "E.G.",
    "Gen.",
    "Gov.",
    "i.e.",
    "I.e.",
    "I.E.",
    "Jr.",
    "Ltd.",
    "p.m.",
    "Ph.D.",
    "Rep.",
    "Rev.",
    "Sen.",
    "Sr.",
    "Sra.",
    "vs.",
 ]