mirror of
https://github.com/explosion/spaCy.git
synced 2025-01-13 02:36:32 +03:00
Reorganise language data
This commit is contained in:
parent
32b36c3882
commit
2b2ea8ca11
|
@ -5,25 +5,8 @@ from os import path
|
||||||
|
|
||||||
from ..language import Language
|
from ..language import Language
|
||||||
from ..attrs import LANG
|
from ..attrs import LANG
|
||||||
from . import language_data
|
|
||||||
|
|
||||||
from ..language_data import update_exc
|
from .language_data import *
|
||||||
from ..language_data import strings_to_exc
|
|
||||||
from ..language_data import EMOTICONS
|
|
||||||
|
|
||||||
from .language_data import ORTH_ONLY
|
|
||||||
|
|
||||||
|
|
||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
|
|
||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
|
|
||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
|
|
||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
|
|
||||||
TAG_MAP = dict(language_data.TAG_MAP)
|
|
||||||
STOP_WORDS = set(language_data.STOP_WORDS)
|
|
||||||
|
|
||||||
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
|
|
||||||
|
|
||||||
|
|
||||||
class German(Language):
|
class German(Language):
|
||||||
|
@ -35,8 +18,5 @@ class German(Language):
|
||||||
lex_attr_getters[LANG] = lambda text: 'de'
|
lex_attr_getters[LANG] = lambda text: 'de'
|
||||||
|
|
||||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||||
prefixes = TOKENIZER_PREFIXES
|
|
||||||
suffixes = TOKENIZER_SUFFIXES
|
|
||||||
infixes = TOKENIZER_INFIXES
|
|
||||||
tag_map = TAG_MAP
|
tag_map = TAG_MAP
|
||||||
stop_words = STOP_WORDS
|
stop_words = STOP_WORDS
|
||||||
|
|
|
@ -1,12 +1,21 @@
|
||||||
# encoding: utf8
|
# encoding: utf8
|
||||||
from __future__ import unicode_literals
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
from ..symbols import *
|
from .. import language_data as base
|
||||||
from ..language_data import PRON_LEMMA
|
from ..language_data import update_exc, strings_to_exc
|
||||||
from ..language_data import TOKENIZER_PREFIXES
|
|
||||||
from ..language_data import TOKENIZER_SUFFIXES
|
|
||||||
from ..language_data import TOKENIZER_INFIXES
|
|
||||||
|
|
||||||
from .tag_map import TAG_MAP
|
from .tag_map import TAG_MAP
|
||||||
from .stop_words import STOP_WORDS
|
from .stop_words import STOP_WORDS
|
||||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
|
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
|
||||||
|
|
||||||
|
|
||||||
|
TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
|
||||||
|
TAG_MAP = dict(TAG_MAP)
|
||||||
|
STOP_WORDS = set(STOP_WORDS)
|
||||||
|
|
||||||
|
|
||||||
|
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
|
||||||
|
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
|
||||||
|
|
||||||
|
|
||||||
|
__all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS"]
|
||||||
|
|
|
@ -4,35 +4,12 @@ from __future__ import unicode_literals, print_function
|
||||||
from os import path
|
from os import path
|
||||||
|
|
||||||
from ..language import Language
|
from ..language import Language
|
||||||
from . import language_data
|
|
||||||
from .. import util
|
|
||||||
from ..lemmatizer import Lemmatizer
|
from ..lemmatizer import Lemmatizer
|
||||||
from ..vocab import Vocab
|
from ..vocab import Vocab
|
||||||
from ..tokenizer import Tokenizer
|
from ..tokenizer import Tokenizer
|
||||||
from ..attrs import LANG
|
from ..attrs import LANG
|
||||||
|
|
||||||
from ..language_data import update_exc
|
from .language_data import *
|
||||||
from ..language_data import strings_to_exc
|
|
||||||
from ..language_data import expand_exc
|
|
||||||
from ..language_data import EMOTICONS
|
|
||||||
|
|
||||||
from .language_data import ORTH_ONLY
|
|
||||||
from .language_data import get_time_exc
|
|
||||||
|
|
||||||
|
|
||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
|
|
||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
|
|
||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
|
|
||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
|
|
||||||
TAG_MAP = dict(language_data.TAG_MAP)
|
|
||||||
STOP_WORDS = set(language_data.STOP_WORDS)
|
|
||||||
|
|
||||||
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1)))
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’"))
|
|
||||||
|
|
||||||
|
|
||||||
class English(Language):
|
class English(Language):
|
||||||
lang = 'en'
|
lang = 'en'
|
||||||
|
@ -42,8 +19,5 @@ class English(Language):
|
||||||
lex_attr_getters[LANG] = lambda text: 'en'
|
lex_attr_getters[LANG] = lambda text: 'en'
|
||||||
|
|
||||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||||
prefixes = TOKENIZER_PREFIXES
|
|
||||||
suffixes = TOKENIZER_SUFFIXES
|
|
||||||
infixes = TOKENIZER_INFIXES
|
|
||||||
tag_map = TAG_MAP
|
tag_map = TAG_MAP
|
||||||
stop_words = STOP_WORDS
|
stop_words = STOP_WORDS
|
||||||
|
|
|
@ -1,13 +1,9 @@
|
||||||
# encoding: utf8
|
# encoding: utf8
|
||||||
from __future__ import unicode_literals
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
from ..symbols import *
|
from .. import language_data as base
|
||||||
from ..language_data import PRON_LEMMA
|
from ..language_data import update_exc, strings_to_exc, expand_exc
|
||||||
from ..language_data import ENT_ID
|
from ..symbols import ORTH, LEMMA
|
||||||
from ..language_data import TOKENIZER_PREFIXES
|
|
||||||
from ..language_data import TOKENIZER_SUFFIXES
|
|
||||||
from ..language_data import TOKENIZER_INFIXES
|
|
||||||
from ..language_data import ENTITY_RULES, FALSE_POSITIVES
|
|
||||||
|
|
||||||
from .tag_map import TAG_MAP
|
from .tag_map import TAG_MAP
|
||||||
from .stop_words import STOP_WORDS
|
from .stop_words import STOP_WORDS
|
||||||
|
@ -39,3 +35,17 @@ def get_time_exc(hours):
|
||||||
{ORTH: "pm", LEMMA: "p.m."}
|
{ORTH: "pm", LEMMA: "p.m."}
|
||||||
]
|
]
|
||||||
return exc
|
return exc
|
||||||
|
|
||||||
|
|
||||||
|
TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
|
||||||
|
TAG_MAP = dict(TAG_MAP)
|
||||||
|
STOP_WORDS = set(STOP_WORDS)
|
||||||
|
|
||||||
|
|
||||||
|
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
|
||||||
|
update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1)))
|
||||||
|
update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’"))
|
||||||
|
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
|
||||||
|
|
||||||
|
|
||||||
|
__all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS", "LEMMA_RULES", "MORPH_RULES"]
|
||||||
|
|
|
@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
|
||||||
from os import path
|
from os import path
|
||||||
|
|
||||||
from ..language import Language
|
from ..language import Language
|
||||||
from . import language_data
|
|
||||||
from ..attrs import LANG
|
from ..attrs import LANG
|
||||||
|
|
||||||
from ..language_data import update_exc
|
from .language_data import *
|
||||||
from ..language_data import strings_to_exc
|
|
||||||
from ..language_data import EMOTICONS
|
|
||||||
|
|
||||||
from .language_data import ORTH_ONLY
|
|
||||||
|
|
||||||
|
|
||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
|
|
||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
|
|
||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
|
|
||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
|
|
||||||
TAG_MAP = dict(language_data.TAG_MAP)
|
|
||||||
STOP_WORDS = set(language_data.STOP_WORDS)
|
|
||||||
|
|
||||||
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
|
|
||||||
|
|
||||||
|
|
||||||
class Spanish(Language):
|
class Spanish(Language):
|
||||||
|
@ -34,8 +17,4 @@ class Spanish(Language):
|
||||||
lex_attr_getters[LANG] = lambda text: 'es'
|
lex_attr_getters[LANG] = lambda text: 'es'
|
||||||
|
|
||||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||||
prefixes = TOKENIZER_PREFIXES
|
|
||||||
suffixes = TOKENIZER_SUFFIXES
|
|
||||||
infixes = TOKENIZER_INFIXES
|
|
||||||
tag_map = TAG_MAP
|
|
||||||
stop_words = STOP_WORDS
|
stop_words = STOP_WORDS
|
||||||
|
|
|
@ -1,408 +1,19 @@
|
||||||
# encoding: utf8
|
# encoding: utf8
|
||||||
from __future__ import unicode_literals
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
from ..symbols import *
|
from .. import language_data as base
|
||||||
from ..language_data import PRON_LEMMA
|
from ..language_data import update_exc, strings_to_exc
|
||||||
from ..language_data import TOKENIZER_PREFIXES
|
|
||||||
from ..language_data import TOKENIZER_SUFFIXES
|
|
||||||
from ..language_data import TOKENIZER_INFIXES
|
|
||||||
|
|
||||||
|
from .stop_words import STOP_WORDS
|
||||||
|
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
|
||||||
|
|
||||||
TAG_MAP = {
|
|
||||||
|
|
||||||
}
|
TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
|
||||||
|
STOP_WORDS = set(STOP_WORDS)
|
||||||
|
|
||||||
|
|
||||||
STOP_WORDS = set("""
|
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
|
||||||
actualmente acuerdo adelante ademas además adrede afirmó agregó ahi ahora ahí
|
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
|
||||||
al algo alguna algunas alguno algunos algún alli allí alrededor ambos ampleamos
|
|
||||||
antano antaño ante anterior antes apenas aproximadamente aquel aquella aquellas
|
|
||||||
aquello aquellos aqui aquél aquélla aquéllas aquéllos aquí arriba arribaabajo
|
|
||||||
aseguró asi así atras aun aunque ayer añadió aún
|
|
||||||
|
|
||||||
bajo bastante bien breve buen buena buenas bueno buenos
|
|
||||||
|
|
||||||
cada casi cerca cierta ciertas cierto ciertos cinco claro comentó como con
|
__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
|
||||||
conmigo conocer conseguimos conseguir considera consideró consigo consigue
|
|
||||||
consiguen consigues contigo contra cosas creo cual cuales cualquier cuando
|
|
||||||
cuanta cuantas cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas
|
|
||||||
cuánto cuántos cómo
|
|
||||||
|
|
||||||
da dado dan dar de debajo debe deben debido decir dejó del delante demasiado
|
|
||||||
demás dentro deprisa desde despacio despues después detras detrás dia dias dice
|
|
||||||
dicen dicho dieron diferente diferentes dijeron dijo dio donde dos durante día
|
|
||||||
días dónde
|
|
||||||
|
|
||||||
ejemplo el ella ellas ello ellos embargo empleais emplean emplear empleas
|
|
||||||
empleo en encima encuentra enfrente enseguida entonces entre era eramos eran
|
|
||||||
eras eres es esa esas ese eso esos esta estaba estaban estado estados estais
|
|
||||||
estamos estan estar estará estas este esto estos estoy estuvo está están ex
|
|
||||||
excepto existe existen explicó expresó él ésa ésas ése ésos ésta éstas éste
|
|
||||||
éstos
|
|
||||||
|
|
||||||
fin final fue fuera fueron fui fuimos
|
|
||||||
|
|
||||||
general gran grandes gueno
|
|
||||||
|
|
||||||
ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer
|
|
||||||
hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron
|
|
||||||
hizo horas hoy hubo
|
|
||||||
|
|
||||||
igual incluso indicó informo informó intenta intentais intentamos intentan
|
|
||||||
intentar intentas intento ir
|
|
||||||
|
|
||||||
junto
|
|
||||||
|
|
||||||
la lado largo las le lejos les llegó lleva llevar lo los luego lugar
|
|
||||||
|
|
||||||
mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi
|
|
||||||
mia mias mientras mio mios mis misma mismas mismo mismos modo momento mucha
|
|
||||||
muchas mucho muchos muy más mí mía mías mío míos
|
|
||||||
|
|
||||||
nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros
|
|
||||||
nuestra nuestras nuestro nuestros nueva nuevas nuevo nuevos nunca
|
|
||||||
|
|
||||||
ocho os otra otras otro otros
|
|
||||||
|
|
||||||
pais para parece parte partir pasada pasado paìs peor pero pesar poca pocas
|
|
||||||
poco pocos podeis podemos poder podria podriais podriamos podrian podrias podrá
|
|
||||||
podrán podría podrían poner por porque posible primer primera primero primeros
|
|
||||||
principalmente pronto propia propias propio propios proximo próximo próximos
|
|
||||||
pudo pueda puede pueden puedo pues
|
|
||||||
|
|
||||||
qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién quiénes qué
|
|
||||||
|
|
||||||
raras realizado realizar realizó repente respecto
|
|
||||||
|
|
||||||
sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo
|
|
||||||
según seis ser sera será serán sería señaló si sido siempre siendo siete sigue
|
|
||||||
siguiente sin sino sobre sois sola solamente solas solo solos somos son soy
|
|
||||||
soyos su supuesto sus suya suyas suyo sé sí sólo
|
|
||||||
|
|
||||||
tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis
|
|
||||||
tenemos tener tenga tengo tenido tenía tercera ti tiempo tiene tienen toda
|
|
||||||
todas todavia todavía todo todos total trabaja trabajais trabajamos trabajan
|
|
||||||
trabajar trabajas trabajo tras trata través tres tu tus tuvo tuya tuyas tuyo
|
|
||||||
tuyos tú
|
|
||||||
|
|
||||||
ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes
|
|
||||||
última últimas último últimos
|
|
||||||
|
|
||||||
va vais valor vamos van varias varios vaya veces ver verdad verdadera verdadero
|
|
||||||
vez vosotras vosotros voy vuestra vuestras vuestro vuestros
|
|
||||||
|
|
||||||
ya yo
|
|
||||||
""".split())
|
|
||||||
|
|
||||||
|
|
||||||
TOKENIZER_EXCEPTIONS = {
|
|
||||||
"accidentarse": [
|
|
||||||
{ORTH: "accidentar", LEMMA: "accidentar", POS: AUX},
|
|
||||||
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"aceptarlo": [
|
|
||||||
{ORTH: "aceptar", LEMMA: "aceptar", POS: AUX},
|
|
||||||
{ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"acompañarla": [
|
|
||||||
{ORTH: "acompañar", LEMMA: "acompañar", POS: AUX},
|
|
||||||
{ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"advertirle": [
|
|
||||||
{ORTH: "advertir", LEMMA: "advertir", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"al": [
|
|
||||||
{ORTH: "a", LEMMA: "a", POS: ADP},
|
|
||||||
{ORTH: "el", LEMMA: "el", POS: DET}
|
|
||||||
],
|
|
||||||
|
|
||||||
"anunciarnos": [
|
|
||||||
{ORTH: "anunciar", LEMMA: "anunciar", POS: AUX},
|
|
||||||
{ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"asegurándole": [
|
|
||||||
{ORTH: "asegurando", LEMMA: "asegurar", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"considerarle": [
|
|
||||||
{ORTH: "considerar", LEMMA: "considerar", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"decirle": [
|
|
||||||
{ORTH: "decir", LEMMA: "decir", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"decirles": [
|
|
||||||
{ORTH: "decir", LEMMA: "decir", POS: AUX},
|
|
||||||
{ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"decirte": [
|
|
||||||
{ORTH: "Decir", LEMMA: "decir", POS: AUX},
|
|
||||||
{ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"dejarla": [
|
|
||||||
{ORTH: "dejar", LEMMA: "dejar", POS: AUX},
|
|
||||||
{ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"dejarnos": [
|
|
||||||
{ORTH: "dejar", LEMMA: "dejar", POS: AUX},
|
|
||||||
{ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"dejándole": [
|
|
||||||
{ORTH: "dejando", LEMMA: "dejar", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"del": [
|
|
||||||
{ORTH: "de", LEMMA: "de", POS: ADP},
|
|
||||||
{ORTH: "el", LEMMA: "el", POS: DET}
|
|
||||||
],
|
|
||||||
|
|
||||||
"demostrarles": [
|
|
||||||
{ORTH: "demostrar", LEMMA: "demostrar", POS: AUX},
|
|
||||||
{ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"diciéndole": [
|
|
||||||
{ORTH: "diciendo", LEMMA: "decir", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"diciéndoles": [
|
|
||||||
{ORTH: "diciendo", LEMMA: "decir", POS: AUX},
|
|
||||||
{ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"diferenciarse": [
|
|
||||||
{ORTH: "diferenciar", LEMMA: "diferenciar", POS: AUX},
|
|
||||||
{ORTH: "se", LEMMA: "él", POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"divirtiéndome": [
|
|
||||||
{ORTH: "divirtiendo", LEMMA: "divertir", POS: AUX},
|
|
||||||
{ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"ensanchándose": [
|
|
||||||
{ORTH: "ensanchando", LEMMA: "ensanchar", POS: AUX},
|
|
||||||
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"explicarles": [
|
|
||||||
{ORTH: "explicar", LEMMA: "explicar", POS: AUX},
|
|
||||||
{ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"haberla": [
|
|
||||||
{ORTH: "haber", LEMMA: "haber", POS: AUX},
|
|
||||||
{ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"haberlas": [
|
|
||||||
{ORTH: "haber", LEMMA: "haber", POS: AUX},
|
|
||||||
{ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"haberlo": [
|
|
||||||
{ORTH: "haber", LEMMA: "haber", POS: AUX},
|
|
||||||
{ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"haberlos": [
|
|
||||||
{ORTH: "haber", LEMMA: "haber", POS: AUX},
|
|
||||||
{ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"haberme": [
|
|
||||||
{ORTH: "haber", LEMMA: "haber", POS: AUX},
|
|
||||||
{ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"haberse": [
|
|
||||||
{ORTH: "haber", LEMMA: "haber", POS: AUX},
|
|
||||||
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"hacerle": [
|
|
||||||
{ORTH: "hacer", LEMMA: "hacer", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"hacerles": [
|
|
||||||
{ORTH: "hacer", LEMMA: "hacer", POS: AUX},
|
|
||||||
{ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"hallarse": [
|
|
||||||
{ORTH: "hallar", LEMMA: "hallar", POS: AUX},
|
|
||||||
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"imaginaros": [
|
|
||||||
{ORTH: "imaginar", LEMMA: "imaginar", POS: AUX},
|
|
||||||
{ORTH: "os", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"insinuarle": [
|
|
||||||
{ORTH: "insinuar", LEMMA: "insinuar", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"justificarla": [
|
|
||||||
{ORTH: "justificar", LEMMA: "justificar", POS: AUX},
|
|
||||||
{ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"mantenerlas": [
|
|
||||||
{ORTH: "mantener", LEMMA: "mantener", POS: AUX},
|
|
||||||
{ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"mantenerlos": [
|
|
||||||
{ORTH: "mantener", LEMMA: "mantener", POS: AUX},
|
|
||||||
{ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"mantenerme": [
|
|
||||||
{ORTH: "mantener", LEMMA: "mantener", POS: AUX},
|
|
||||||
{ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"pasarte": [
|
|
||||||
{ORTH: "pasar", LEMMA: "pasar", POS: AUX},
|
|
||||||
{ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"pedirle": [
|
|
||||||
{ORTH: "pedir", LEMMA: "pedir", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: "él", POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"pel": [
|
|
||||||
{ORTH: "per", LEMMA: "per", POS: ADP},
|
|
||||||
{ORTH: "el", LEMMA: "el", POS: DET}
|
|
||||||
],
|
|
||||||
|
|
||||||
"pidiéndonos": [
|
|
||||||
{ORTH: "pidiendo", LEMMA: "pedir", POS: AUX},
|
|
||||||
{ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"poderle": [
|
|
||||||
{ORTH: "poder", LEMMA: "poder", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"preguntarse": [
|
|
||||||
{ORTH: "preguntar", LEMMA: "preguntar", POS: AUX},
|
|
||||||
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"preguntándose": [
|
|
||||||
{ORTH: "preguntando", LEMMA: "preguntar", POS: AUX},
|
|
||||||
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"presentarla": [
|
|
||||||
{ORTH: "presentar", LEMMA: "presentar", POS: AUX},
|
|
||||||
{ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"pudiéndolo": [
|
|
||||||
{ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
|
|
||||||
{ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"pudiéndose": [
|
|
||||||
{ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
|
|
||||||
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"quererle": [
|
|
||||||
{ORTH: "querer", LEMMA: "querer", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"rasgarse": [
|
|
||||||
{ORTH: "Rasgar", LEMMA: "rasgar", POS: AUX},
|
|
||||||
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"repetirlo": [
|
|
||||||
{ORTH: "repetir", LEMMA: "repetir", POS: AUX},
|
|
||||||
{ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"robarle": [
|
|
||||||
{ORTH: "robar", LEMMA: "robar", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"seguirlos": [
|
|
||||||
{ORTH: "seguir", LEMMA: "seguir", POS: AUX},
|
|
||||||
{ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"serle": [
|
|
||||||
{ORTH: "ser", LEMMA: "ser", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"serlo": [
|
|
||||||
{ORTH: "ser", LEMMA: "ser", POS: AUX},
|
|
||||||
{ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"señalándole": [
|
|
||||||
{ORTH: "señalando", LEMMA: "señalar", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"suplicarle": [
|
|
||||||
{ORTH: "suplicar", LEMMA: "suplicar", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"tenerlos": [
|
|
||||||
{ORTH: "tener", LEMMA: "tener", POS: AUX},
|
|
||||||
{ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"vengarse": [
|
|
||||||
{ORTH: "vengar", LEMMA: "vengar", POS: AUX},
|
|
||||||
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"verla": [
|
|
||||||
{ORTH: "ver", LEMMA: "ver", POS: AUX},
|
|
||||||
{ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"verle": [
|
|
||||||
{ORTH: "ver", LEMMA: "ver", POS: AUX},
|
|
||||||
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
],
|
|
||||||
|
|
||||||
"volverlo": [
|
|
||||||
{ORTH: "volver", LEMMA: "volver", POS: AUX},
|
|
||||||
{ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
|
|
||||||
]
|
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
ORTH_ONLY = [
|
|
||||||
|
|
||||||
]
|
|
||||||
|
|
84
spacy/es/stop_words.py
Normal file
84
spacy/es/stop_words.py
Normal file
|
@ -0,0 +1,84 @@
|
||||||
|
# encoding: utf8
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
|
||||||
|
STOP_WORDS = set("""
|
||||||
|
actualmente acuerdo adelante ademas además adrede afirmó agregó ahi ahora ahí
|
||||||
|
al algo alguna algunas alguno algunos algún alli allí alrededor ambos ampleamos
|
||||||
|
antano antaño ante anterior antes apenas aproximadamente aquel aquella aquellas
|
||||||
|
aquello aquellos aqui aquél aquélla aquéllas aquéllos aquí arriba arribaabajo
|
||||||
|
aseguró asi así atras aun aunque ayer añadió aún
|
||||||
|
|
||||||
|
bajo bastante bien breve buen buena buenas bueno buenos
|
||||||
|
|
||||||
|
cada casi cerca cierta ciertas cierto ciertos cinco claro comentó como con
|
||||||
|
conmigo conocer conseguimos conseguir considera consideró consigo consigue
|
||||||
|
consiguen consigues contigo contra cosas creo cual cuales cualquier cuando
|
||||||
|
cuanta cuantas cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas
|
||||||
|
cuánto cuántos cómo
|
||||||
|
|
||||||
|
da dado dan dar de debajo debe deben debido decir dejó del delante demasiado
|
||||||
|
demás dentro deprisa desde despacio despues después detras detrás dia dias dice
|
||||||
|
dicen dicho dieron diferente diferentes dijeron dijo dio donde dos durante día
|
||||||
|
días dónde
|
||||||
|
|
||||||
|
ejemplo el ella ellas ello ellos embargo empleais emplean emplear empleas
|
||||||
|
empleo en encima encuentra enfrente enseguida entonces entre era eramos eran
|
||||||
|
eras eres es esa esas ese eso esos esta estaba estaban estado estados estais
|
||||||
|
estamos estan estar estará estas este esto estos estoy estuvo está están ex
|
||||||
|
excepto existe existen explicó expresó él ésa ésas ése ésos ésta éstas éste
|
||||||
|
éstos
|
||||||
|
|
||||||
|
fin final fue fuera fueron fui fuimos
|
||||||
|
|
||||||
|
general gran grandes gueno
|
||||||
|
|
||||||
|
ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer
|
||||||
|
hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron
|
||||||
|
hizo horas hoy hubo
|
||||||
|
|
||||||
|
igual incluso indicó informo informó intenta intentais intentamos intentan
|
||||||
|
intentar intentas intento ir
|
||||||
|
|
||||||
|
junto
|
||||||
|
|
||||||
|
la lado largo las le lejos les llegó lleva llevar lo los luego lugar
|
||||||
|
|
||||||
|
mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi
|
||||||
|
mia mias mientras mio mios mis misma mismas mismo mismos modo momento mucha
|
||||||
|
muchas mucho muchos muy más mí mía mías mío míos
|
||||||
|
|
||||||
|
nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros
|
||||||
|
nuestra nuestras nuestro nuestros nueva nuevas nuevo nuevos nunca
|
||||||
|
|
||||||
|
ocho os otra otras otro otros
|
||||||
|
|
||||||
|
pais para parece parte partir pasada pasado paìs peor pero pesar poca pocas
|
||||||
|
poco pocos podeis podemos poder podria podriais podriamos podrian podrias podrá
|
||||||
|
podrán podría podrían poner por porque posible primer primera primero primeros
|
||||||
|
principalmente pronto propia propias propio propios proximo próximo próximos
|
||||||
|
pudo pueda puede pueden puedo pues
|
||||||
|
|
||||||
|
qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién quiénes qué
|
||||||
|
|
||||||
|
raras realizado realizar realizó repente respecto
|
||||||
|
|
||||||
|
sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo
|
||||||
|
según seis ser sera será serán sería señaló si sido siempre siendo siete sigue
|
||||||
|
siguiente sin sino sobre sois sola solamente solas solo solos somos son soy
|
||||||
|
soyos su supuesto sus suya suyas suyo sé sí sólo
|
||||||
|
|
||||||
|
tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis
|
||||||
|
tenemos tener tenga tengo tenido tenía tercera ti tiempo tiene tienen toda
|
||||||
|
todas todavia todavía todo todos total trabaja trabajais trabajamos trabajan
|
||||||
|
trabajar trabajas trabajo tras trata través tres tu tus tuvo tuya tuyas tuyo
|
||||||
|
tuyos tú
|
||||||
|
|
||||||
|
ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes
|
||||||
|
última últimas último últimos
|
||||||
|
|
||||||
|
va vais valor vamos van varias varios vaya veces ver verdad verdadera verdadero
|
||||||
|
vez vosotras vosotros voy vuestra vuestras vuestro vuestros
|
||||||
|
|
||||||
|
ya yo
|
||||||
|
""".split())
|
318
spacy/es/tokenizer_exceptions.py
Normal file
318
spacy/es/tokenizer_exceptions.py
Normal file
|
@ -0,0 +1,318 @@
|
||||||
|
# encoding: utf8
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
from ..symbols import *
|
||||||
|
from ..language_data import PRON_LEMMA
|
||||||
|
|
||||||
|
|
||||||
|
TOKENIZER_EXCEPTIONS = {
|
||||||
|
"accidentarse": [
|
||||||
|
{ORTH: "accidentar", LEMMA: "accidentar", POS: AUX},
|
||||||
|
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"aceptarlo": [
|
||||||
|
{ORTH: "aceptar", LEMMA: "aceptar", POS: AUX},
|
||||||
|
{ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"acompañarla": [
|
||||||
|
{ORTH: "acompañar", LEMMA: "acompañar", POS: AUX},
|
||||||
|
{ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"advertirle": [
|
||||||
|
{ORTH: "advertir", LEMMA: "advertir", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"al": [
|
||||||
|
{ORTH: "a", LEMMA: "a", POS: ADP},
|
||||||
|
{ORTH: "el", LEMMA: "el", POS: DET}
|
||||||
|
],
|
||||||
|
|
||||||
|
"anunciarnos": [
|
||||||
|
{ORTH: "anunciar", LEMMA: "anunciar", POS: AUX},
|
||||||
|
{ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"asegurándole": [
|
||||||
|
{ORTH: "asegurando", LEMMA: "asegurar", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"considerarle": [
|
||||||
|
{ORTH: "considerar", LEMMA: "considerar", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"decirle": [
|
||||||
|
{ORTH: "decir", LEMMA: "decir", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"decirles": [
|
||||||
|
{ORTH: "decir", LEMMA: "decir", POS: AUX},
|
||||||
|
{ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"decirte": [
|
||||||
|
{ORTH: "Decir", LEMMA: "decir", POS: AUX},
|
||||||
|
{ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"dejarla": [
|
||||||
|
{ORTH: "dejar", LEMMA: "dejar", POS: AUX},
|
||||||
|
{ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"dejarnos": [
|
||||||
|
{ORTH: "dejar", LEMMA: "dejar", POS: AUX},
|
||||||
|
{ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"dejándole": [
|
||||||
|
{ORTH: "dejando", LEMMA: "dejar", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"del": [
|
||||||
|
{ORTH: "de", LEMMA: "de", POS: ADP},
|
||||||
|
{ORTH: "el", LEMMA: "el", POS: DET}
|
||||||
|
],
|
||||||
|
|
||||||
|
"demostrarles": [
|
||||||
|
{ORTH: "demostrar", LEMMA: "demostrar", POS: AUX},
|
||||||
|
{ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"diciéndole": [
|
||||||
|
{ORTH: "diciendo", LEMMA: "decir", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"diciéndoles": [
|
||||||
|
{ORTH: "diciendo", LEMMA: "decir", POS: AUX},
|
||||||
|
{ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"diferenciarse": [
|
||||||
|
{ORTH: "diferenciar", LEMMA: "diferenciar", POS: AUX},
|
||||||
|
{ORTH: "se", LEMMA: "él", POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"divirtiéndome": [
|
||||||
|
{ORTH: "divirtiendo", LEMMA: "divertir", POS: AUX},
|
||||||
|
{ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"ensanchándose": [
|
||||||
|
{ORTH: "ensanchando", LEMMA: "ensanchar", POS: AUX},
|
||||||
|
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"explicarles": [
|
||||||
|
{ORTH: "explicar", LEMMA: "explicar", POS: AUX},
|
||||||
|
{ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"haberla": [
|
||||||
|
{ORTH: "haber", LEMMA: "haber", POS: AUX},
|
||||||
|
{ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"haberlas": [
|
||||||
|
{ORTH: "haber", LEMMA: "haber", POS: AUX},
|
||||||
|
{ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"haberlo": [
|
||||||
|
{ORTH: "haber", LEMMA: "haber", POS: AUX},
|
||||||
|
{ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"haberlos": [
|
||||||
|
{ORTH: "haber", LEMMA: "haber", POS: AUX},
|
||||||
|
{ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"haberme": [
|
||||||
|
{ORTH: "haber", LEMMA: "haber", POS: AUX},
|
||||||
|
{ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"haberse": [
|
||||||
|
{ORTH: "haber", LEMMA: "haber", POS: AUX},
|
||||||
|
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"hacerle": [
|
||||||
|
{ORTH: "hacer", LEMMA: "hacer", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"hacerles": [
|
||||||
|
{ORTH: "hacer", LEMMA: "hacer", POS: AUX},
|
||||||
|
{ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"hallarse": [
|
||||||
|
{ORTH: "hallar", LEMMA: "hallar", POS: AUX},
|
||||||
|
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"imaginaros": [
|
||||||
|
{ORTH: "imaginar", LEMMA: "imaginar", POS: AUX},
|
||||||
|
{ORTH: "os", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"insinuarle": [
|
||||||
|
{ORTH: "insinuar", LEMMA: "insinuar", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"justificarla": [
|
||||||
|
{ORTH: "justificar", LEMMA: "justificar", POS: AUX},
|
||||||
|
{ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"mantenerlas": [
|
||||||
|
{ORTH: "mantener", LEMMA: "mantener", POS: AUX},
|
||||||
|
{ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"mantenerlos": [
|
||||||
|
{ORTH: "mantener", LEMMA: "mantener", POS: AUX},
|
||||||
|
{ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"mantenerme": [
|
||||||
|
{ORTH: "mantener", LEMMA: "mantener", POS: AUX},
|
||||||
|
{ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"pasarte": [
|
||||||
|
{ORTH: "pasar", LEMMA: "pasar", POS: AUX},
|
||||||
|
{ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"pedirle": [
|
||||||
|
{ORTH: "pedir", LEMMA: "pedir", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: "él", POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"pel": [
|
||||||
|
{ORTH: "per", LEMMA: "per", POS: ADP},
|
||||||
|
{ORTH: "el", LEMMA: "el", POS: DET}
|
||||||
|
],
|
||||||
|
|
||||||
|
"pidiéndonos": [
|
||||||
|
{ORTH: "pidiendo", LEMMA: "pedir", POS: AUX},
|
||||||
|
{ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"poderle": [
|
||||||
|
{ORTH: "poder", LEMMA: "poder", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"preguntarse": [
|
||||||
|
{ORTH: "preguntar", LEMMA: "preguntar", POS: AUX},
|
||||||
|
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"preguntándose": [
|
||||||
|
{ORTH: "preguntando", LEMMA: "preguntar", POS: AUX},
|
||||||
|
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"presentarla": [
|
||||||
|
{ORTH: "presentar", LEMMA: "presentar", POS: AUX},
|
||||||
|
{ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"pudiéndolo": [
|
||||||
|
{ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
|
||||||
|
{ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"pudiéndose": [
|
||||||
|
{ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
|
||||||
|
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"quererle": [
|
||||||
|
{ORTH: "querer", LEMMA: "querer", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"rasgarse": [
|
||||||
|
{ORTH: "Rasgar", LEMMA: "rasgar", POS: AUX},
|
||||||
|
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"repetirlo": [
|
||||||
|
{ORTH: "repetir", LEMMA: "repetir", POS: AUX},
|
||||||
|
{ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"robarle": [
|
||||||
|
{ORTH: "robar", LEMMA: "robar", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"seguirlos": [
|
||||||
|
{ORTH: "seguir", LEMMA: "seguir", POS: AUX},
|
||||||
|
{ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"serle": [
|
||||||
|
{ORTH: "ser", LEMMA: "ser", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"serlo": [
|
||||||
|
{ORTH: "ser", LEMMA: "ser", POS: AUX},
|
||||||
|
{ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"señalándole": [
|
||||||
|
{ORTH: "señalando", LEMMA: "señalar", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"suplicarle": [
|
||||||
|
{ORTH: "suplicar", LEMMA: "suplicar", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"tenerlos": [
|
||||||
|
{ORTH: "tener", LEMMA: "tener", POS: AUX},
|
||||||
|
{ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"vengarse": [
|
||||||
|
{ORTH: "vengar", LEMMA: "vengar", POS: AUX},
|
||||||
|
{ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"verla": [
|
||||||
|
{ORTH: "ver", LEMMA: "ver", POS: AUX},
|
||||||
|
{ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"verle": [
|
||||||
|
{ORTH: "ver", LEMMA: "ver", POS: AUX},
|
||||||
|
{ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
],
|
||||||
|
|
||||||
|
"volverlo": [
|
||||||
|
{ORTH: "volver", LEMMA: "volver", POS: AUX},
|
||||||
|
{ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
|
||||||
|
]
|
||||||
|
}
|
||||||
|
|
||||||
|
|
||||||
|
ORTH_ONLY = [
|
||||||
|
|
||||||
|
]
|
|
@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
|
||||||
from os import path
|
from os import path
|
||||||
|
|
||||||
from ..language import Language
|
from ..language import Language
|
||||||
from . import language_data
|
|
||||||
from ..attrs import LANG
|
from ..attrs import LANG
|
||||||
|
|
||||||
from ..language_data import update_exc
|
from .language_data import *
|
||||||
from ..language_data import strings_to_exc
|
|
||||||
from ..language_data import EMOTICONS
|
|
||||||
|
|
||||||
from .language_data import ORTH_ONLY
|
|
||||||
|
|
||||||
|
|
||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
|
|
||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
|
|
||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
|
|
||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
|
|
||||||
TAG_MAP = dict(language_data.TAG_MAP)
|
|
||||||
STOP_WORDS = set(language_data.STOP_WORDS)
|
|
||||||
|
|
||||||
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
|
|
||||||
|
|
||||||
|
|
||||||
class French(Language):
|
class French(Language):
|
||||||
|
@ -34,8 +17,4 @@ class French(Language):
|
||||||
lex_attr_getters[LANG] = lambda text: 'fr'
|
lex_attr_getters[LANG] = lambda text: 'fr'
|
||||||
|
|
||||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||||
prefixes = TOKENIZER_PREFIXES
|
|
||||||
suffixes = TOKENIZER_SUFFIXES
|
|
||||||
infixes = TOKENIZER_INFIXES
|
|
||||||
tag_map = TAG_MAP
|
|
||||||
stop_words = STOP_WORDS
|
stop_words = STOP_WORDS
|
||||||
|
|
|
@ -1,109 +1,14 @@
|
||||||
# encoding: utf8
|
# encoding: utf8
|
||||||
from __future__ import unicode_literals
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
from ..symbols import *
|
from .. import language_data as base
|
||||||
from ..language_data import PRON_LEMMA
|
from ..language_data import strings_to_exc
|
||||||
from ..language_data import TOKENIZER_PREFIXES
|
|
||||||
from ..language_data import TOKENIZER_SUFFIXES
|
from .stop_words import STOP_WORDS
|
||||||
from ..language_data import TOKENIZER_INFIXES
|
|
||||||
|
|
||||||
|
|
||||||
TAG_MAP = {
|
TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
|
||||||
|
STOP_WORDS = set(STOP_WORDS)
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
STOP_WORDS = set("""
|
__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
|
||||||
a à â abord absolument afin ah ai aie ailleurs ainsi ait allaient allo allons
|
|
||||||
allô alors anterieur anterieure anterieures apres après as assez attendu au
|
|
||||||
aucun aucune aujourd aujourd'hui aupres auquel aura auraient aurait auront
|
|
||||||
aussi autre autrefois autrement autres autrui aux auxquelles auxquels avaient
|
|
||||||
avais avait avant avec avoir avons ayant
|
|
||||||
|
|
||||||
bah bas basee bat beau beaucoup bien bigre boum bravo brrr
|
|
||||||
|
|
||||||
ça car ce ceci cela celle celle-ci celle-là celles celles-ci celles-là celui
|
|
||||||
celui-ci celui-là cent cependant certain certaine certaines certains certes ces
|
|
||||||
cet cette ceux ceux-ci ceux-là chacun chacune chaque cher chers chez chiche
|
|
||||||
chut chère chères ci cinq cinquantaine cinquante cinquantième cinquième clac
|
|
||||||
clic combien comme comment comparable comparables compris concernant contre
|
|
||||||
couic crac
|
|
||||||
|
|
||||||
da dans de debout dedans dehors deja delà depuis dernier derniere derriere
|
|
||||||
derrière des desormais desquelles desquels dessous dessus deux deuxième
|
|
||||||
deuxièmement devant devers devra different differentes differents différent
|
|
||||||
différente différentes différents dire directe directement dit dite dits divers
|
|
||||||
diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont
|
|
||||||
douze douzième dring du duquel durant dès désormais
|
|
||||||
|
|
||||||
effet egale egalement egales eh elle elle-même elles elles-mêmes en encore
|
|
||||||
enfin entre envers environ es ès est et etaient étaient etais étais etait était
|
|
||||||
etant étant etc été etre être eu euh eux eux-mêmes exactement excepté extenso
|
|
||||||
exterieur
|
|
||||||
|
|
||||||
fais faisaient faisant fait façon feront fi flac floc font
|
|
||||||
|
|
||||||
gens
|
|
||||||
|
|
||||||
ha hein hem hep hi ho holà hop hormis hors hou houp hue hui huit huitième hum
|
|
||||||
hurrah hé hélas i il ils importe
|
|
||||||
|
|
||||||
je jusqu jusque juste
|
|
||||||
|
|
||||||
la laisser laquelle las le lequel les lesquelles lesquels leur leurs longtemps
|
|
||||||
lors lorsque lui lui-meme lui-même là lès
|
|
||||||
|
|
||||||
ma maint maintenant mais malgre malgré maximale me meme memes merci mes mien
|
|
||||||
mienne miennes miens mille mince minimale moi moi-meme moi-même moindres moins
|
|
||||||
mon moyennant multiple multiples même mêmes
|
|
||||||
|
|
||||||
na naturel naturelle naturelles ne neanmoins necessaire necessairement neuf
|
|
||||||
neuvième ni nombreuses nombreux non nos notamment notre nous nous-mêmes nouveau
|
|
||||||
nul néanmoins nôtre nôtres
|
|
||||||
|
|
||||||
o ô oh ohé ollé olé on ont onze onzième ore ou ouf ouias oust ouste outre
|
|
||||||
ouvert ouverte ouverts où
|
|
||||||
|
|
||||||
paf pan par parce parfois parle parlent parler parmi parseme partant
|
|
||||||
particulier particulière particulièrement pas passé pendant pense permet
|
|
||||||
personne peu peut peuvent peux pff pfft pfut pif pire plein plouf plus
|
|
||||||
plusieurs plutôt possessif possessifs possible possibles pouah pour pourquoi
|
|
||||||
pourrais pourrait pouvait prealable precisement premier première premièrement
|
|
||||||
pres probable probante procedant proche près psitt pu puis puisque pur pure
|
|
||||||
|
|
||||||
qu quand quant quant-à-soi quanta quarante quatorze quatre quatre-vingt
|
|
||||||
quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque
|
|
||||||
quelques quels qui quiconque quinze quoi quoique
|
|
||||||
|
|
||||||
rare rarement rares relative relativement remarquable rend rendre restant reste
|
|
||||||
restent restrictif retour revoici revoilà rien
|
|
||||||
|
|
||||||
sa sacrebleu sait sans sapristi sauf se sein seize selon semblable semblaient
|
|
||||||
semble semblent sent sept septième sera seraient serait seront ses seul seule
|
|
||||||
seulement si sien sienne siennes siens sinon six sixième soi soi-même soit
|
|
||||||
soixante son sont sous souvent specifique specifiques speculatif stop
|
|
||||||
strictement subtiles suffisant suffisante suffit suis suit suivant suivante
|
|
||||||
suivantes suivants suivre superpose sur surtout
|
|
||||||
|
|
||||||
ta tac tant tardive te tel telle tellement telles tels tenant tend tenir tente
|
|
||||||
tes tic tien tienne tiennes tiens toc toi toi-même ton touchant toujours tous
|
|
||||||
tout toute toutefois toutes treize trente tres trois troisième troisièmement
|
|
||||||
trop très tsoin tsouin tu té
|
|
||||||
|
|
||||||
un une unes uniformement unique uniques uns
|
|
||||||
|
|
||||||
va vais vas vers via vif vifs vingt vivat vive vives vlan voici voilà vont vos
|
|
||||||
votre vous vous-mêmes vu vé vôtre vôtres
|
|
||||||
|
|
||||||
zut
|
|
||||||
""".split())
|
|
||||||
|
|
||||||
|
|
||||||
TOKENIZER_EXCEPTIONS = {
|
|
||||||
|
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
ORTH_ONLY = {
|
|
||||||
|
|
||||||
}
|
|
||||||
|
|
88
spacy/fr/stop_words.py
Normal file
88
spacy/fr/stop_words.py
Normal file
|
@ -0,0 +1,88 @@
|
||||||
|
# encoding: utf8
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
|
||||||
|
STOP_WORDS = set("""
|
||||||
|
a à â abord absolument afin ah ai aie ailleurs ainsi ait allaient allo allons
|
||||||
|
allô alors anterieur anterieure anterieures apres après as assez attendu au
|
||||||
|
aucun aucune aujourd aujourd'hui aupres auquel aura auraient aurait auront
|
||||||
|
aussi autre autrefois autrement autres autrui aux auxquelles auxquels avaient
|
||||||
|
avais avait avant avec avoir avons ayant
|
||||||
|
|
||||||
|
bah bas basee bat beau beaucoup bien bigre boum bravo brrr
|
||||||
|
|
||||||
|
ça car ce ceci cela celle celle-ci celle-là celles celles-ci celles-là celui
|
||||||
|
celui-ci celui-là cent cependant certain certaine certaines certains certes ces
|
||||||
|
cet cette ceux ceux-ci ceux-là chacun chacune chaque cher chers chez chiche
|
||||||
|
chut chère chères ci cinq cinquantaine cinquante cinquantième cinquième clac
|
||||||
|
clic combien comme comment comparable comparables compris concernant contre
|
||||||
|
couic crac
|
||||||
|
|
||||||
|
da dans de debout dedans dehors deja delà depuis dernier derniere derriere
|
||||||
|
derrière des desormais desquelles desquels dessous dessus deux deuxième
|
||||||
|
deuxièmement devant devers devra different differentes differents différent
|
||||||
|
différente différentes différents dire directe directement dit dite dits divers
|
||||||
|
diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont
|
||||||
|
douze douzième dring du duquel durant dès désormais
|
||||||
|
|
||||||
|
effet egale egalement egales eh elle elle-même elles elles-mêmes en encore
|
||||||
|
enfin entre envers environ es ès est et etaient étaient etais étais etait était
|
||||||
|
etant étant etc été etre être eu euh eux eux-mêmes exactement excepté extenso
|
||||||
|
exterieur
|
||||||
|
|
||||||
|
fais faisaient faisant fait façon feront fi flac floc font
|
||||||
|
|
||||||
|
gens
|
||||||
|
|
||||||
|
ha hein hem hep hi ho holà hop hormis hors hou houp hue hui huit huitième hum
|
||||||
|
hurrah hé hélas i il ils importe
|
||||||
|
|
||||||
|
je jusqu jusque juste
|
||||||
|
|
||||||
|
la laisser laquelle las le lequel les lesquelles lesquels leur leurs longtemps
|
||||||
|
lors lorsque lui lui-meme lui-même là lès
|
||||||
|
|
||||||
|
ma maint maintenant mais malgre malgré maximale me meme memes merci mes mien
|
||||||
|
mienne miennes miens mille mince minimale moi moi-meme moi-même moindres moins
|
||||||
|
mon moyennant multiple multiples même mêmes
|
||||||
|
|
||||||
|
na naturel naturelle naturelles ne neanmoins necessaire necessairement neuf
|
||||||
|
neuvième ni nombreuses nombreux non nos notamment notre nous nous-mêmes nouveau
|
||||||
|
nul néanmoins nôtre nôtres
|
||||||
|
|
||||||
|
o ô oh ohé ollé olé on ont onze onzième ore ou ouf ouias oust ouste outre
|
||||||
|
ouvert ouverte ouverts où
|
||||||
|
|
||||||
|
paf pan par parce parfois parle parlent parler parmi parseme partant
|
||||||
|
particulier particulière particulièrement pas passé pendant pense permet
|
||||||
|
personne peu peut peuvent peux pff pfft pfut pif pire plein plouf plus
|
||||||
|
plusieurs plutôt possessif possessifs possible possibles pouah pour pourquoi
|
||||||
|
pourrais pourrait pouvait prealable precisement premier première premièrement
|
||||||
|
pres probable probante procedant proche près psitt pu puis puisque pur pure
|
||||||
|
|
||||||
|
qu quand quant quant-à-soi quanta quarante quatorze quatre quatre-vingt
|
||||||
|
quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque
|
||||||
|
quelques quels qui quiconque quinze quoi quoique
|
||||||
|
|
||||||
|
rare rarement rares relative relativement remarquable rend rendre restant reste
|
||||||
|
restent restrictif retour revoici revoilà rien
|
||||||
|
|
||||||
|
sa sacrebleu sait sans sapristi sauf se sein seize selon semblable semblaient
|
||||||
|
semble semblent sent sept septième sera seraient serait seront ses seul seule
|
||||||
|
seulement si sien sienne siennes siens sinon six sixième soi soi-même soit
|
||||||
|
soixante son sont sous souvent specifique specifiques speculatif stop
|
||||||
|
strictement subtiles suffisant suffisante suffit suis suit suivant suivante
|
||||||
|
suivantes suivants suivre superpose sur surtout
|
||||||
|
|
||||||
|
ta tac tant tardive te tel telle tellement telles tels tenant tend tenir tente
|
||||||
|
tes tic tien tienne tiennes tiens toc toi toi-même ton touchant toujours tous
|
||||||
|
tout toute toutefois toutes treize trente tres trois troisième troisièmement
|
||||||
|
trop très tsoin tsouin tu té
|
||||||
|
|
||||||
|
un une unes uniformement unique uniques uns
|
||||||
|
|
||||||
|
va vais vas vers via vif vifs vingt vivat vive vives vlan voici voilà vont vos
|
||||||
|
votre vous vous-mêmes vu vé vôtre vôtres
|
||||||
|
|
||||||
|
zut
|
||||||
|
""".split())
|
|
@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
|
||||||
from os import path
|
from os import path
|
||||||
|
|
||||||
from ..language import Language
|
from ..language import Language
|
||||||
from . import language_data
|
|
||||||
from ..attrs import LANG
|
from ..attrs import LANG
|
||||||
|
|
||||||
from ..language_data import update_exc
|
from .language_data import *
|
||||||
from ..language_data import strings_to_exc
|
|
||||||
from ..language_data import EMOTICONS
|
|
||||||
|
|
||||||
from .language_data import ORTH_ONLY
|
|
||||||
|
|
||||||
|
|
||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
|
|
||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
|
|
||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
|
|
||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
|
|
||||||
TAG_MAP = dict(language_data.TAG_MAP)
|
|
||||||
STOP_WORDS = set(language_data.STOP_WORDS)
|
|
||||||
|
|
||||||
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
|
|
||||||
|
|
||||||
|
|
||||||
class Italian(Language):
|
class Italian(Language):
|
||||||
|
@ -34,8 +17,4 @@ class Italian(Language):
|
||||||
lex_attr_getters[LANG] = lambda text: 'it'
|
lex_attr_getters[LANG] = lambda text: 'it'
|
||||||
|
|
||||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||||
prefixes = TOKENIZER_PREFIXES
|
|
||||||
suffixes = TOKENIZER_SUFFIXES
|
|
||||||
infixes = TOKENIZER_INFIXES
|
|
||||||
tag_map = TAG_MAP
|
|
||||||
stop_words = STOP_WORDS
|
stop_words = STOP_WORDS
|
||||||
|
|
|
@ -1,106 +1,14 @@
|
||||||
# encoding: utf8
|
# encoding: utf8
|
||||||
from __future__ import unicode_literals
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
from ..symbols import *
|
from .. import language_data as base
|
||||||
from ..language_data import PRON_LEMMA
|
from ..language_data import update_exc, strings_to_exc
|
||||||
from ..language_data import TOKENIZER_PREFIXES
|
|
||||||
from ..language_data import TOKENIZER_SUFFIXES
|
from .stop_words import STOP_WORDS
|
||||||
from ..language_data import TOKENIZER_INFIXES
|
|
||||||
|
|
||||||
|
|
||||||
TAG_MAP = {
|
TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
|
||||||
|
STOP_WORDS = set(STOP_WORDS)
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
STOP_WORDS = set("""
|
__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
|
||||||
a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl
|
|
||||||
agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri
|
|
||||||
altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai
|
|
||||||
attesa attraverso avanti avemmo avendo avente aver avere averlo avesse
|
|
||||||
avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate
|
|
||||||
avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste
|
|
||||||
avresti avrete avrà avrò avuta avute avuti avuto
|
|
||||||
|
|
||||||
basta bene benissimo brava bravo
|
|
||||||
|
|
||||||
casa caso cento certa certe certi certo che chi chicchessia chiunque ci
|
|
||||||
ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto
|
|
||||||
cogli coi col colei coll coloro colui come cominci comunque con concernente
|
|
||||||
conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui
|
|
||||||
|
|
||||||
da dagl dagli dai dal dall dalla dalle dallo dappertutto davanti degl degli
|
|
||||||
dei del dell della delle dello dentro detto deve di dice dietro dire
|
|
||||||
dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due
|
|
||||||
dunque durante
|
|
||||||
|
|
||||||
ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era
|
|
||||||
erano eravamo eravate eri ero esempio esse essendo esser essere essi ex
|
|
||||||
|
|
||||||
fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero
|
|
||||||
facessi facessimo faceste facesti faceva facevamo facevano facevate facevi
|
|
||||||
facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo
|
|
||||||
fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente
|
|
||||||
finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra
|
|
||||||
frattempo fu fui fummo fuori furono futuro generale
|
|
||||||
|
|
||||||
gia già giacche giorni giorno gli gliela gliele glieli glielo gliene governo
|
|
||||||
grande grazie gruppo
|
|
||||||
|
|
||||||
ha haha hai hanno ho
|
|
||||||
|
|
||||||
ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io
|
|
||||||
|
|
||||||
la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo
|
|
||||||
|
|
||||||
ma macche magari maggior mai male malgrado malissimo mancanza marche me
|
|
||||||
medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi
|
|
||||||
milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto
|
|
||||||
|
|
||||||
nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun
|
|
||||||
nessuna nessuno niente no noi non nondimeno nonostante nonsia nostra nostre
|
|
||||||
nostri nostro novanta nove nulla nuovo
|
|
||||||
|
|
||||||
od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto
|
|
||||||
|
|
||||||
paese parecchi parecchie parecchio parte partendo peccato peggio per perche
|
|
||||||
perché percio perciò perfino pero persino persone però piedi pieno piglia piu
|
|
||||||
piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto
|
|
||||||
potrebbe preferibilmente presa press prima primo principalmente probabilmente
|
|
||||||
proprio puo può pure purtroppo
|
|
||||||
|
|
||||||
qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante
|
|
||||||
quanti quanto quantunque quasi quattro quel quella quelle quelli quello quest
|
|
||||||
questa queste questi questo qui quindi
|
|
||||||
|
|
||||||
realmente recente recentemente registrazione relativo riecco salvo
|
|
||||||
|
|
||||||
sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste
|
|
||||||
saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei
|
|
||||||
sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate
|
|
||||||
siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando
|
|
||||||
stanno starai staranno starebbe starebbero starei staremmo staremo stareste
|
|
||||||
staresti starete starà starò stata state stati stato stava stavamo stavano
|
|
||||||
stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso
|
|
||||||
steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua
|
|
||||||
subito successivamente successivo sue sugl sugli sui sul sull sulla sulle
|
|
||||||
sullo suo suoi
|
|
||||||
|
|
||||||
tale tali talvolta tanto te tempo ti titolo torino tra tranne tre trenta
|
|
||||||
troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto
|
|
||||||
|
|
||||||
uguali ulteriore ultimo un una uno uomo
|
|
||||||
|
|
||||||
va vale vari varia varie vario verso vi via vicino visto vita voi volta volte
|
|
||||||
vostra vostre vostri vostro
|
|
||||||
""".split())
|
|
||||||
|
|
||||||
|
|
||||||
TOKENIZER_EXCEPTIONS = {
|
|
||||||
|
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
ORTH_ONLY = {
|
|
||||||
|
|
||||||
}
|
|
||||||
|
|
85
spacy/it/stop_words.py
Normal file
85
spacy/it/stop_words.py
Normal file
|
@ -0,0 +1,85 @@
|
||||||
|
# encoding: utf8
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
|
||||||
|
STOP_WORDS = set("""
|
||||||
|
a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl
|
||||||
|
agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri
|
||||||
|
altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai
|
||||||
|
attesa attraverso avanti avemmo avendo avente aver avere averlo avesse
|
||||||
|
avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate
|
||||||
|
avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste
|
||||||
|
avresti avrete avrà avrò avuta avute avuti avuto
|
||||||
|
|
||||||
|
basta bene benissimo brava bravo
|
||||||
|
|
||||||
|
casa caso cento certa certe certi certo che chi chicchessia chiunque ci
|
||||||
|
ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto
|
||||||
|
cogli coi col colei coll coloro colui come cominci comunque con concernente
|
||||||
|
conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui
|
||||||
|
|
||||||
|
da dagl dagli dai dal dall dalla dalle dallo dappertutto davanti degl degli
|
||||||
|
dei del dell della delle dello dentro detto deve di dice dietro dire
|
||||||
|
dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due
|
||||||
|
dunque durante
|
||||||
|
|
||||||
|
ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era
|
||||||
|
erano eravamo eravate eri ero esempio esse essendo esser essere essi ex
|
||||||
|
|
||||||
|
fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero
|
||||||
|
facessi facessimo faceste facesti faceva facevamo facevano facevate facevi
|
||||||
|
facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo
|
||||||
|
fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente
|
||||||
|
finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra
|
||||||
|
frattempo fu fui fummo fuori furono futuro generale
|
||||||
|
|
||||||
|
gia già giacche giorni giorno gli gliela gliele glieli glielo gliene governo
|
||||||
|
grande grazie gruppo
|
||||||
|
|
||||||
|
ha haha hai hanno ho
|
||||||
|
|
||||||
|
ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io
|
||||||
|
|
||||||
|
la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo
|
||||||
|
|
||||||
|
ma macche magari maggior mai male malgrado malissimo mancanza marche me
|
||||||
|
medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi
|
||||||
|
milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto
|
||||||
|
|
||||||
|
nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun
|
||||||
|
nessuna nessuno niente no noi non nondimeno nonostante nonsia nostra nostre
|
||||||
|
nostri nostro novanta nove nulla nuovo
|
||||||
|
|
||||||
|
od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto
|
||||||
|
|
||||||
|
paese parecchi parecchie parecchio parte partendo peccato peggio per perche
|
||||||
|
perché percio perciò perfino pero persino persone però piedi pieno piglia piu
|
||||||
|
piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto
|
||||||
|
potrebbe preferibilmente presa press prima primo principalmente probabilmente
|
||||||
|
proprio puo può pure purtroppo
|
||||||
|
|
||||||
|
qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante
|
||||||
|
quanti quanto quantunque quasi quattro quel quella quelle quelli quello quest
|
||||||
|
questa queste questi questo qui quindi
|
||||||
|
|
||||||
|
realmente recente recentemente registrazione relativo riecco salvo
|
||||||
|
|
||||||
|
sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste
|
||||||
|
saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei
|
||||||
|
sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate
|
||||||
|
siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando
|
||||||
|
stanno starai staranno starebbe starebbero starei staremmo staremo stareste
|
||||||
|
staresti starete starà starò stata state stati stato stava stavamo stavano
|
||||||
|
stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso
|
||||||
|
steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua
|
||||||
|
subito successivamente successivo sue sugl sugli sui sul sull sulla sulle
|
||||||
|
sullo suo suoi
|
||||||
|
|
||||||
|
tale tali talvolta tanto te tempo ti titolo torino tra tranne tre trenta
|
||||||
|
troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto
|
||||||
|
|
||||||
|
uguali ulteriore ultimo un una uno uomo
|
||||||
|
|
||||||
|
va vale vari varia varie vario verso vi via vicino visto vita voi volta volte
|
||||||
|
vostra vostre vostri vostro
|
||||||
|
""".split())
|
|
@ -1,4 +1,5 @@
|
||||||
from .emoticons import *
|
from .emoticons import *
|
||||||
from .punctuation import *
|
from .punctuation import *
|
||||||
|
from .tag_map import *
|
||||||
from .entity_rules import *
|
from .entity_rules import *
|
||||||
from .util import *
|
from .util import *
|
||||||
|
|
|
@ -4,39 +4,16 @@ from __future__ import unicode_literals, print_function
|
||||||
from os import path
|
from os import path
|
||||||
|
|
||||||
from ..language import Language
|
from ..language import Language
|
||||||
from . import language_data
|
|
||||||
from ..attrs import LANG
|
from ..attrs import LANG
|
||||||
|
from .language_data import *
|
||||||
from ..language_data import update_exc
|
|
||||||
from ..language_data import strings_to_exc
|
|
||||||
from ..language_data import EMOTICONS
|
|
||||||
|
|
||||||
from .language_data import ORTH_ONLY
|
|
||||||
|
|
||||||
|
|
||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
|
|
||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
|
|
||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
|
|
||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
|
|
||||||
TAG_MAP = dict(language_data.TAG_MAP)
|
|
||||||
STOP_WORDS = set(language_data.STOP_WORDS)
|
|
||||||
|
|
||||||
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
|
|
||||||
|
|
||||||
|
|
||||||
class Dutch(Language):
|
class Dutch(Language):
|
||||||
lang = 'nl'
|
lang = 'nl'
|
||||||
|
|
||||||
class Defaults(Language.Defaults):
|
class Defaults(Language.Defaults):
|
||||||
tokenizer_exceptions = dict(language_data.TOKENIZER_EXCEPTIONS)
|
|
||||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||||
lex_attr_getters[LANG] = lambda text: 'nl'
|
lex_attr_getters[LANG] = lambda text: 'nl'
|
||||||
|
|
||||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||||
prefixes = TOKENIZER_PREFIXES
|
|
||||||
suffixes = TOKENIZER_SUFFIXES
|
|
||||||
infixes = TOKENIZER_INFIXES
|
|
||||||
tag_map = TAG_MAP
|
|
||||||
stop_words = STOP_WORDS
|
stop_words = STOP_WORDS
|
||||||
|
|
|
@ -1,83 +1,14 @@
|
||||||
# encoding: utf8
|
# encoding: utf8
|
||||||
from __future__ import unicode_literals
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
from ..symbols import *
|
from .. import language_data as base
|
||||||
from ..language_data import PRON_LEMMA
|
from ..language_data import update_exc, strings_to_exc
|
||||||
from ..language_data import TOKENIZER_PREFIXES
|
|
||||||
from ..language_data import TOKENIZER_SUFFIXES
|
from .stop_words import STOP_WORDS
|
||||||
from ..language_data import TOKENIZER_INFIXES
|
|
||||||
|
|
||||||
|
|
||||||
# TODO insert TAG_MAP for Dutch
|
TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
|
||||||
|
STOP_WORDS = set(STOP_WORDS)
|
||||||
TAG_MAP = {
|
|
||||||
"ADV": {POS: ADV},
|
|
||||||
"NOUN": {POS: NOUN},
|
|
||||||
"ADP": {POS: ADP},
|
|
||||||
"PRON": {POS: PRON},
|
|
||||||
"SCONJ": {POS: SCONJ},
|
|
||||||
"PROPN": {POS: PROPN},
|
|
||||||
"DET": {POS: DET},
|
|
||||||
"SYM": {POS: SYM},
|
|
||||||
"INTJ": {POS: INTJ},
|
|
||||||
"PUNCT": {POS: PUNCT},
|
|
||||||
"NUM": {POS: NUM},
|
|
||||||
"AUX": {POS: AUX},
|
|
||||||
"X": {POS: X},
|
|
||||||
"CONJ": {POS: CONJ},
|
|
||||||
"ADJ": {POS: ADJ},
|
|
||||||
"VERB": {POS: VERB}
|
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
# Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt
|
__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
|
||||||
|
|
||||||
STOP_WORDS = set("""
|
|
||||||
aan af al alles als altijd andere
|
|
||||||
|
|
||||||
ben bij
|
|
||||||
|
|
||||||
daar dan dat de der deze die dit doch doen door dus
|
|
||||||
|
|
||||||
een eens en er
|
|
||||||
|
|
||||||
ge geen geweest
|
|
||||||
|
|
||||||
haar had heb hebben heeft hem het hier hij hoe hun
|
|
||||||
|
|
||||||
iemand iets ik in is
|
|
||||||
|
|
||||||
ja je
|
|
||||||
|
|
||||||
kan kon kunnen
|
|
||||||
|
|
||||||
maar me meer men met mij mijn moet
|
|
||||||
|
|
||||||
na naar niet niets nog nu
|
|
||||||
|
|
||||||
of om omdat ons ook op over
|
|
||||||
|
|
||||||
reeds
|
|
||||||
|
|
||||||
te tegen toch toen tot
|
|
||||||
|
|
||||||
u uit uw
|
|
||||||
|
|
||||||
van veel voor
|
|
||||||
|
|
||||||
want waren was wat we wel werd wezen wie wij wil worden
|
|
||||||
|
|
||||||
zal ze zei zelf zich zij zijn zo zonder zou
|
|
||||||
""".split())
|
|
||||||
|
|
||||||
|
|
||||||
# TODO Make tokenizer excpetions for Dutch
|
|
||||||
|
|
||||||
TOKENIZER_EXCEPTIONS = {
|
|
||||||
|
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
ORTH_ONLY = {
|
|
||||||
|
|
||||||
}
|
|
||||||
|
|
43
spacy/nl/stop_words.py
Normal file
43
spacy/nl/stop_words.py
Normal file
|
@ -0,0 +1,43 @@
|
||||||
|
# encoding: utf8
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
|
||||||
|
# Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt
|
||||||
|
|
||||||
|
STOP_WORDS = set("""
|
||||||
|
aan af al alles als altijd andere
|
||||||
|
|
||||||
|
ben bij
|
||||||
|
|
||||||
|
daar dan dat de der deze die dit doch doen door dus
|
||||||
|
|
||||||
|
een eens en er
|
||||||
|
|
||||||
|
ge geen geweest
|
||||||
|
|
||||||
|
haar had heb hebben heeft hem het hier hij hoe hun
|
||||||
|
|
||||||
|
iemand iets ik in is
|
||||||
|
|
||||||
|
ja je
|
||||||
|
|
||||||
|
kan kon kunnen
|
||||||
|
|
||||||
|
maar me meer men met mij mijn moet
|
||||||
|
|
||||||
|
na naar niet niets nog nu
|
||||||
|
|
||||||
|
of om omdat ons ook op over
|
||||||
|
|
||||||
|
reeds
|
||||||
|
|
||||||
|
te tegen toch toen tot
|
||||||
|
|
||||||
|
u uit uw
|
||||||
|
|
||||||
|
van veel voor
|
||||||
|
|
||||||
|
want waren was wat we wel werd wezen wie wij wil worden
|
||||||
|
|
||||||
|
zal ze zei zelf zich zij zijn zo zonder zou
|
||||||
|
""".split())
|
|
@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
|
||||||
from os import path
|
from os import path
|
||||||
|
|
||||||
from ..language import Language
|
from ..language import Language
|
||||||
from . import language_data
|
|
||||||
from ..attrs import LANG
|
from ..attrs import LANG
|
||||||
|
|
||||||
from ..language_data import update_exc
|
from .language_data import *
|
||||||
from ..language_data import strings_to_exc
|
|
||||||
from ..language_data import EMOTICONS
|
|
||||||
|
|
||||||
from .language_data import ORTH_ONLY
|
|
||||||
|
|
||||||
|
|
||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
|
|
||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
|
|
||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
|
|
||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
|
|
||||||
TAG_MAP = dict(language_data.TAG_MAP)
|
|
||||||
STOP_WORDS = set(language_data.STOP_WORDS)
|
|
||||||
|
|
||||||
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
|
|
||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
|
|
||||||
|
|
||||||
|
|
||||||
class Portuguese(Language):
|
class Portuguese(Language):
|
||||||
|
@ -34,8 +17,4 @@ class Portuguese(Language):
|
||||||
lex_attr_getters[LANG] = lambda text: 'pt'
|
lex_attr_getters[LANG] = lambda text: 'pt'
|
||||||
|
|
||||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||||
prefixes = TOKENIZER_PREFIXES
|
|
||||||
suffixes = TOKENIZER_SUFFIXES
|
|
||||||
infixes = TOKENIZER_INFIXES
|
|
||||||
tag_map = TAG_MAP
|
|
||||||
stop_words = STOP_WORDS
|
stop_words = STOP_WORDS
|
||||||
|
|
|
@ -1,87 +1,14 @@
|
||||||
# encoding: utf8
|
# encoding: utf8
|
||||||
from __future__ import unicode_literals
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
from ..symbols import *
|
from .. import language_data as base
|
||||||
from ..language_data import PRON_LEMMA
|
from ..language_data import update_exc, strings_to_exc
|
||||||
from ..language_data import TOKENIZER_PREFIXES
|
|
||||||
from ..language_data import TOKENIZER_SUFFIXES
|
from .stop_words import STOP_WORDS
|
||||||
from ..language_data import TOKENIZER_INFIXES
|
|
||||||
|
|
||||||
|
|
||||||
TAG_MAP = {
|
TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
|
||||||
|
STOP_WORDS = set(STOP_WORDS)
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
STOP_WORDS = set("""
|
__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
|
||||||
à às acerca adeus agora ainda algmas algo algumas alguns ali além ambos ano
|
|
||||||
anos antes ao aos apenas apoio apontar após aquela aquelas aquele aqueles aqui
|
|
||||||
aquilo area área as assim através atrás até aí
|
|
||||||
|
|
||||||
baixo bastante bem bom breve
|
|
||||||
|
|
||||||
cada caminho catorze cedo cento certamente certeza cima cinco coisa com como
|
|
||||||
comprido conhecido conselho contra corrente custa cá
|
|
||||||
|
|
||||||
da daquela daquele dar das de debaixo demais dentro depois desde desligado
|
|
||||||
dessa desse desta deste deve devem deverá dez dezanove dezasseis dezassete
|
|
||||||
dezoito dia diante direita diz dizem dizer do dois dos doze duas dá dão dúvida
|
|
||||||
|
|
||||||
é ela elas ele eles em embora enquanto entre então era és essa essas esse esses
|
|
||||||
esta estado estar estará estas estava este estes esteve estive estivemos
|
|
||||||
estiveram estiveste estivestes estou está estás estão eu exemplo
|
|
||||||
|
|
||||||
falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final
|
|
||||||
foi fomos for fora foram forma foste fostes fui
|
|
||||||
|
|
||||||
geral grande grandes grupo
|
|
||||||
|
|
||||||
hoje horas há
|
|
||||||
|
|
||||||
iniciar inicio ir irá isso ista iste isto já
|
|
||||||
|
|
||||||
lado ligado local logo longe lugar lá
|
|
||||||
|
|
||||||
maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus
|
|
||||||
mil minha minhas momento muito muitos máximo mês
|
|
||||||
|
|
||||||
na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no noite nome
|
|
||||||
nos nossa nossas nosso nossos nova nove novo novos num numa nunca não nível nós
|
|
||||||
número
|
|
||||||
|
|
||||||
obra obrigada obrigado oitava oitavo oito onde ontem onze os ou outra outras
|
|
||||||
outro outros
|
|
||||||
|
|
||||||
para parece parte partir pegar pela pelas pelo pelos perto pessoas pode podem
|
|
||||||
poder poderá podia ponto pontos por porque porquê posição possivelmente posso
|
|
||||||
possível pouca pouco povo primeira primeiro promeiro próprio próximo puderam
|
|
||||||
pôde põe põem
|
|
||||||
|
|
||||||
qual qualquer quando quanto quarta quarto quatro que quem quer quero questão
|
|
||||||
quieto quinta quinto quinze quê relação
|
|
||||||
|
|
||||||
sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta
|
|
||||||
sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo
|
|
||||||
|
|
||||||
tal talvez também tanto tarde te tem temos tempo tendes tenho tens tentar
|
|
||||||
tentaram tente tentei ter terceira terceiro teu teus teve tipo tive tivemos
|
|
||||||
tiveram tiveste tivestes toda todas todo todos trabalhar trabalho treze três tu
|
|
||||||
tua tuas tudo tão têm
|
|
||||||
|
|
||||||
último um uma umas uns usa usar
|
|
||||||
|
|
||||||
vai vais valor veja vem vens ver verdade verdadeiro vez vezes viagem vindo
|
|
||||||
vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós
|
|
||||||
|
|
||||||
zero
|
|
||||||
""".split())
|
|
||||||
|
|
||||||
|
|
||||||
TOKENIZER_EXCEPTIONS = {
|
|
||||||
|
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
ORTH_ONLY = {
|
|
||||||
|
|
||||||
}
|
|
||||||
|
|
66
spacy/pt/stop_words.py
Normal file
66
spacy/pt/stop_words.py
Normal file
|
@ -0,0 +1,66 @@
|
||||||
|
# encoding: utf8
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
|
||||||
|
STOP_WORDS = set("""
|
||||||
|
à às acerca adeus agora ainda algmas algo algumas alguns ali além ambos ano
|
||||||
|
anos antes ao aos apenas apoio apontar após aquela aquelas aquele aqueles aqui
|
||||||
|
aquilo area área as assim através atrás até aí
|
||||||
|
|
||||||
|
baixo bastante bem bom breve
|
||||||
|
|
||||||
|
cada caminho catorze cedo cento certamente certeza cima cinco coisa com como
|
||||||
|
comprido conhecido conselho contra corrente custa cá
|
||||||
|
|
||||||
|
da daquela daquele dar das de debaixo demais dentro depois desde desligado
|
||||||
|
dessa desse desta deste deve devem deverá dez dezanove dezasseis dezassete
|
||||||
|
dezoito dia diante direita diz dizem dizer do dois dos doze duas dá dão dúvida
|
||||||
|
|
||||||
|
é ela elas ele eles em embora enquanto entre então era és essa essas esse esses
|
||||||
|
esta estado estar estará estas estava este estes esteve estive estivemos
|
||||||
|
estiveram estiveste estivestes estou está estás estão eu exemplo
|
||||||
|
|
||||||
|
falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final
|
||||||
|
foi fomos for fora foram forma foste fostes fui
|
||||||
|
|
||||||
|
geral grande grandes grupo
|
||||||
|
|
||||||
|
hoje horas há
|
||||||
|
|
||||||
|
iniciar inicio ir irá isso ista iste isto já
|
||||||
|
|
||||||
|
lado ligado local logo longe lugar lá
|
||||||
|
|
||||||
|
maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus
|
||||||
|
mil minha minhas momento muito muitos máximo mês
|
||||||
|
|
||||||
|
na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no noite nome
|
||||||
|
nos nossa nossas nosso nossos nova nove novo novos num numa nunca não nível nós
|
||||||
|
número
|
||||||
|
|
||||||
|
obra obrigada obrigado oitava oitavo oito onde ontem onze os ou outra outras
|
||||||
|
outro outros
|
||||||
|
|
||||||
|
para parece parte partir pegar pela pelas pelo pelos perto pessoas pode podem
|
||||||
|
poder poderá podia ponto pontos por porque porquê posição possivelmente posso
|
||||||
|
possível pouca pouco povo primeira primeiro promeiro próprio próximo puderam
|
||||||
|
pôde põe põem
|
||||||
|
|
||||||
|
qual qualquer quando quanto quarta quarto quatro que quem quer quero questão
|
||||||
|
quieto quinta quinto quinze quê relação
|
||||||
|
|
||||||
|
sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta
|
||||||
|
sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo
|
||||||
|
|
||||||
|
tal talvez também tanto tarde te tem temos tempo tendes tenho tens tentar
|
||||||
|
tentaram tente tentei ter terceira terceiro teu teus teve tipo tive tivemos
|
||||||
|
tiveram tiveste tivestes toda todas todo todos trabalhar trabalho treze três tu
|
||||||
|
tua tuas tudo tão têm
|
||||||
|
|
||||||
|
último um uma umas uns usa usar
|
||||||
|
|
||||||
|
vai vais valor veja vem vens ver verdade verdadeiro vez vezes viagem vindo
|
||||||
|
vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós
|
||||||
|
|
||||||
|
zero
|
||||||
|
""".split())
|
Loading…
Reference in New Issue
Block a user