mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-11 04:08:09 +03:00
88 lines
2.8 KiB
Python
88 lines
2.8 KiB
Python
# encoding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
from ..symbols import *
|
|
from ..language_data import PRON_LEMMA
|
|
from ..language_data import TOKENIZER_PREFIXES
|
|
from ..language_data import TOKENIZER_SUFFIXES
|
|
from ..language_data import TOKENIZER_INFIXES
|
|
|
|
|
|
TAG_MAP = {
|
|
|
|
}
|
|
|
|
|
|
STOP_WORDS = set("""
|
|
à às acerca adeus agora ainda algmas algo algumas alguns ali além ambos ano
|
|
anos antes ao aos apenas apoio apontar após aquela aquelas aquele aqueles aqui
|
|
aquilo area área as assim através atrás até aí
|
|
|
|
baixo bastante bem bom breve
|
|
|
|
cada caminho catorze cedo cento certamente certeza cima cinco coisa com como
|
|
comprido conhecido conselho contra corrente custa cá
|
|
|
|
da daquela daquele dar das de debaixo demais dentro depois desde desligado
|
|
dessa desse desta deste deve devem deverá dez dezanove dezasseis dezassete
|
|
dezoito dia diante direita diz dizem dizer do dois dos doze duas dá dão dúvida
|
|
|
|
é ela elas ele eles em embora enquanto entre então era és essa essas esse esses
|
|
esta estado estar estará estas estava este estes esteve estive estivemos
|
|
estiveram estiveste estivestes estou está estás estão eu exemplo
|
|
|
|
falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final
|
|
foi fomos for fora foram forma foste fostes fui
|
|
|
|
geral grande grandes grupo
|
|
|
|
hoje horas há
|
|
|
|
iniciar inicio ir irá isso ista iste isto já
|
|
|
|
lado ligado local logo longe lugar lá
|
|
|
|
maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus
|
|
mil minha minhas momento muito muitos máximo mês
|
|
|
|
na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no noite nome
|
|
nos nossa nossas nosso nossos nova nove novo novos num numa nunca não nível nós
|
|
número
|
|
|
|
obra obrigada obrigado oitava oitavo oito onde ontem onze os ou outra outras
|
|
outro outros
|
|
|
|
para parece parte partir pegar pela pelas pelo pelos perto pessoas pode podem
|
|
poder poderá podia ponto pontos por porque porquê posição possivelmente posso
|
|
possível pouca pouco povo primeira primeiro promeiro próprio próximo puderam
|
|
pôde põe põem
|
|
|
|
qual qualquer quando quanto quarta quarto quatro que quem quer quero questão
|
|
quieto quinta quinto quinze quê relação
|
|
|
|
sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta
|
|
sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo
|
|
|
|
tal talvez também tanto tarde te tem temos tempo tendes tenho tens tentar
|
|
tentaram tente tentei ter terceira terceiro teu teus teve tipo tive tivemos
|
|
tiveram tiveste tivestes toda todas todo todos trabalhar trabalho treze três tu
|
|
tua tuas tudo tão têm
|
|
|
|
último um uma umas uns usa usar
|
|
|
|
vai vais valor veja vem vens ver verdade verdadeiro vez vezes viagem vindo
|
|
vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós
|
|
|
|
zero
|
|
""".split())
|
|
|
|
|
|
TOKENIZER_EXCEPTIONS = {
|
|
|
|
}
|
|
|
|
|
|
ORTH_ONLY = {
|
|
|
|
}
|