mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-26 01:46:28 +03:00
commit
f8b2d9c3b7
|
@ -3,18 +3,19 @@ from __future__ import unicode_literals
|
|||
|
||||
|
||||
STOP_WORDS = set("""
|
||||
à às acerca adeus agora ainda algo algumas alguns ali além ambos ano
|
||||
anos antes ao aos apenas apoio apontar após aquela aquelas aquele aqueles aqui
|
||||
aquilo area área as assim através atrás até aí
|
||||
à às acerca adeus agora ainda algo algumas alguns ali além ambas ambos ano
|
||||
anos antes ao aos apenas apoio apoia apontar após aquela aquelas aquele aqueles
|
||||
aqui aquilo área as assim através atrás até aí
|
||||
|
||||
baixo bastante bem bom breve
|
||||
baixo bastante bem boa bom breve
|
||||
|
||||
cada caminho catorze cedo cento certamente certeza cima cinco coisa com como
|
||||
comprido conhecido conselho contra corrente custa cá
|
||||
comprido comprida conhecida conhecido conselho contra corrente custa cá
|
||||
|
||||
da daquela daquele dar das de debaixo demais dentro depois desde desligado
|
||||
dessa desse desta deste deve devem deverá dez dezanove dezasseis dezassete
|
||||
dezoito dia diante direita diz dizem dizer do dois dos doze duas dá dão dúvida
|
||||
da daquela daquele dar das de debaixo demais dentro depois desde desligada
|
||||
desligado dessa desse desta deste deve devem deverá dez dezanove dezasseis
|
||||
dezassete dezoito dia diante direita diz dizem dizer do dois dos doze duas dá
|
||||
dão dúvida
|
||||
|
||||
é ela elas ele eles em embora enquanto entre então era és essa essas esse esses
|
||||
esta estado estar estará estas estava este estes esteve estive estivemos
|
||||
|
@ -27,7 +28,7 @@ geral grande grandes grupo
|
|||
|
||||
hoje horas há
|
||||
|
||||
iniciar inicio ir irá isso ista isto já
|
||||
iniciar inicio ir irá isso isto já
|
||||
|
||||
lado ligado local logo longe lugar lá
|
||||
|
||||
|
@ -35,34 +36,53 @@ maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus
|
|||
mil minha minhas momento muito muitos máximo mês
|
||||
|
||||
na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no noite nome
|
||||
nos nossa nossas nosso nossos nova nove novo novos num numa nunca não nível nós
|
||||
número
|
||||
nos nossa nossas nosso nossos nova novas nove novo novos num numa nunca nuns
|
||||
não nível nós número números
|
||||
|
||||
obra obrigada obrigado oitava oitavo oito onde ontem onze os ou outra outras
|
||||
outro outros
|
||||
|
||||
para parece parte partir pegar pela pelas pelo pelos perto pessoas pode podem
|
||||
poder poderá podia ponto pontos por porque porquê posição possivelmente posso
|
||||
possível pouca pouco povo primeira primeiro promeiro próprio próximo puderam
|
||||
pôde põe põem
|
||||
possível pouca pouco povo primeira primeiro próprio próxima próximo puderam pôde
|
||||
põe põem
|
||||
|
||||
qual qualquer quando quanto quarta quarto quatro que quem quer quero questão
|
||||
quieto quinta quinto quinze quê
|
||||
qual qualquer quando quanto quarta quarto quatro que quem quer querem quero
|
||||
questão quieta quieto quinta quinto quinze quê
|
||||
|
||||
relação
|
||||
|
||||
sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta
|
||||
sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo
|
||||
|
||||
tal talvez também tanto tarde te tem temos tempo tendes tenho tens tentar
|
||||
tal talvez também tanta tanto tarde te tem temos tempo tendes tenho tens tentar
|
||||
tentaram tente tentei ter terceira terceiro teu teus teve tipo tive tivemos
|
||||
tiveram tiveste tivestes toda todas todo todos trabalhar trabalho treze três tu
|
||||
tua tuas tudo tão têm
|
||||
|
||||
último um uma umas uns usa usar
|
||||
|
||||
vai vais valor veja vem vens ver verdade verdadeiro vez vezes viagem vindo
|
||||
vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós
|
||||
vai vais valor veja vem vens ver verdade verdadeira verdadeiro vez vezes viagem
|
||||
vinda vindo vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós
|
||||
|
||||
zero
|
||||
""".split())
|
||||
|
||||
|
||||
# Number words
|
||||
|
||||
NUM_WORDS = set("""
|
||||
zero um dois três quatro cinco seis sete oito nove dez onze doze treze catorze
|
||||
quinze dezasseis dezassete dezoito dezanove vinte trinta quarenta cinquenta
|
||||
sessenta setenta oitenta noventa cem mil milhão bilião trilião quadrilião
|
||||
""".split())
|
||||
|
||||
# Ordinal words
|
||||
|
||||
ORDINAL_WORDS = set("""
|
||||
primeiro segundo terceiro quarto quinto sexto sétimo oitavo nono décimo
|
||||
vigésimo trigésimo quadragésimo quinquagésimo sexagésimo septuagésimo
|
||||
octogésimo nonagésimo centésimo ducentésimo trecentésimo quadringentésimo
|
||||
quingentésimo sexcentésimo septingentésimo octingentésimo nongentésimo
|
||||
milésimo milionésimo bilionésimo
|
||||
""".split())
|
||||
|
|
111
spacy/pt/tokenizer_exceptions.py
Normal file
111
spacy/pt/tokenizer_exceptions.py
Normal file
|
@ -0,0 +1,111 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from ..symbols import *
|
||||
from ..language_data import PRON_LEMMA
|
||||
|
||||
TOKENIZER_EXCEPTIONS = {}
|
||||
|
||||
# Contractions
|
||||
CONTRACTIONS = {}
|
||||
|
||||
personal_pronoun = (
|
||||
"ele", "ela", "eles", "elas"
|
||||
)
|
||||
demonstrative_pronouns = (
|
||||
"este", "esta", "estes", "estas", "isto", "esse", "essa", "esses", "essas",
|
||||
"isso", "aquele", "aquela", "aqueles", "aquelas", "aquilo"
|
||||
)
|
||||
undefined_pronouns = (
|
||||
"outro", "outra", "outros", "outras"
|
||||
)
|
||||
adverbs = (
|
||||
"aqui", "aí", "ali", "além"
|
||||
)
|
||||
|
||||
for word in personal_pronoun + demonstrative_pronouns + \
|
||||
undefined_pronouns + adverbs:
|
||||
CONTRACTIONS["d" + word] = [
|
||||
{ORTH: "d", NORM: "de"},
|
||||
{ORTH: word}
|
||||
]
|
||||
|
||||
for word in personal_pronoun + demonstrative_pronouns + \
|
||||
undefined_pronouns:
|
||||
CONTRACTIONS["n" + word] = [
|
||||
{ORTH: "n", NORM: "em"},
|
||||
{ORTH: word}
|
||||
]
|
||||
|
||||
# Not so linear contractions "a"+something
|
||||
|
||||
CONTRACTIONS.update({
|
||||
# This one cannot be split into 2
|
||||
# "à": [
|
||||
# {ORTH: "à", NORM: "a"},
|
||||
# {ORTH: "", NORM: "a"}
|
||||
# ],
|
||||
"às": [
|
||||
{ORTH: "à", NORM: "a"},
|
||||
{ORTH: "s", NORM: "as"}
|
||||
],
|
||||
"ao": [
|
||||
{ORTH: "a"},
|
||||
{ORTH: "o"}
|
||||
],
|
||||
"aos": [
|
||||
{ORTH: "a"},
|
||||
{ORTH: "os"}
|
||||
],
|
||||
"àquele": [
|
||||
{ORTH: "à", NORM: "a"},
|
||||
{ORTH: "quele", NORM: "aquele"}
|
||||
],
|
||||
"àquela": [
|
||||
{ORTH: "à", NORM: "a"},
|
||||
{ORTH: "quela", NORM: "aquela"}
|
||||
],
|
||||
"àqueles": [
|
||||
{ORTH: "à", NORM: "a"},
|
||||
{ORTH: "queles", NORM: "aqueles"}
|
||||
],
|
||||
"àquelas": [
|
||||
{ORTH: "à", NORM: "a"},
|
||||
{ORTH: "quelas", NORM: "aquelas"}
|
||||
],
|
||||
"àquilo": [
|
||||
{ORTH: "à", NORM: "a"},
|
||||
{ORTH: "quilo", NORM: "aquilo"}
|
||||
],
|
||||
"aonde": [
|
||||
{ORTH: "a"},
|
||||
{ORTH: "onde"}
|
||||
],
|
||||
})
|
||||
|
||||
TOKENIZER_EXCEPTIONS.update(CONTRACTIONS)
|
||||
|
||||
# Abbreviations with only one ORTH token
|
||||
|
||||
ORTH_ONLY = [
|
||||
"Adm.",
|
||||
"Dr.",
|
||||
"e.g.",
|
||||
"E.g.",
|
||||
"E.G.",
|
||||
"Gen.",
|
||||
"Gov.",
|
||||
"i.e.",
|
||||
"I.e.",
|
||||
"I.E.",
|
||||
"Jr.",
|
||||
"Ltd.",
|
||||
"p.m.",
|
||||
"Ph.D.",
|
||||
"Rep.",
|
||||
"Rev.",
|
||||
"Sen.",
|
||||
"Sr.",
|
||||
"Sra.",
|
||||
"vs.",
|
||||
]
|
Loading…
Reference in New Issue
Block a user