mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-11-04 09:57:26 +03:00 
			
		
		
		
	Merge branch 'organize-language-data' of ssh://github.com/explosion/spaCy into organize-language-data
This commit is contained in:
		
						commit
						e4c951c153
					
				| 
						 | 
					@ -5,25 +5,8 @@ from os import path
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..language import Language
 | 
					from ..language import Language
 | 
				
			||||||
from ..attrs import LANG
 | 
					from ..attrs import LANG
 | 
				
			||||||
from . import language_data
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..language_data import update_exc
 | 
					from .language_data import *
 | 
				
			||||||
from ..language_data import strings_to_exc
 | 
					 | 
				
			||||||
from ..language_data import EMOTICONS
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
from .language_data import ORTH_ONLY
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 | 
					 | 
				
			||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 | 
					 | 
				
			||||||
TAG_MAP = dict(language_data.TAG_MAP)
 | 
					 | 
				
			||||||
STOP_WORDS = set(language_data.STOP_WORDS)
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
class German(Language):
 | 
					class German(Language):
 | 
				
			||||||
| 
						 | 
					@ -35,8 +18,5 @@ class German(Language):
 | 
				
			||||||
        lex_attr_getters[LANG] = lambda text: 'de'
 | 
					        lex_attr_getters[LANG] = lambda text: 'de'
 | 
				
			||||||
 | 
					
 | 
				
			||||||
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
					        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
				
			||||||
        prefixes = TOKENIZER_PREFIXES
 | 
					 | 
				
			||||||
        suffixes = TOKENIZER_SUFFIXES
 | 
					 | 
				
			||||||
        infixes = TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
        tag_map = TAG_MAP
 | 
					        tag_map = TAG_MAP
 | 
				
			||||||
        stop_words = STOP_WORDS
 | 
					        stop_words = STOP_WORDS
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
| 
						 | 
					@ -1,12 +1,21 @@
 | 
				
			||||||
# encoding: utf8
 | 
					# encoding: utf8
 | 
				
			||||||
from __future__ import unicode_literals
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..symbols import *
 | 
					from .. import language_data as base
 | 
				
			||||||
from ..language_data import PRON_LEMMA
 | 
					from ..language_data import update_exc, strings_to_exc
 | 
				
			||||||
from ..language_data import TOKENIZER_PREFIXES
 | 
					 | 
				
			||||||
from ..language_data import TOKENIZER_SUFFIXES
 | 
					 | 
				
			||||||
from ..language_data import TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
from .tag_map import TAG_MAP
 | 
					from .tag_map import TAG_MAP
 | 
				
			||||||
from .stop_words import STOP_WORDS
 | 
					from .stop_words import STOP_WORDS
 | 
				
			||||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
 | 
					from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
 | 
				
			||||||
 | 
					TAG_MAP = dict(TAG_MAP)
 | 
				
			||||||
 | 
					STOP_WORDS = set(STOP_WORDS)
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 | 
				
			||||||
 | 
					update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					__all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS"]
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
| 
						 | 
					@ -4,36 +4,12 @@ from __future__ import unicode_literals, print_function
 | 
				
			||||||
from os import path
 | 
					from os import path
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..language import Language
 | 
					from ..language import Language
 | 
				
			||||||
from . import language_data
 | 
					 | 
				
			||||||
from .. import util
 | 
					 | 
				
			||||||
from ..lemmatizer import Lemmatizer
 | 
					from ..lemmatizer import Lemmatizer
 | 
				
			||||||
from ..vocab import Vocab
 | 
					from ..vocab import Vocab
 | 
				
			||||||
from ..tokenizer import Tokenizer
 | 
					from ..tokenizer import Tokenizer
 | 
				
			||||||
from ..attrs import LANG
 | 
					from ..attrs import LANG
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..language_data import update_exc
 | 
					from .language_data import *
 | 
				
			||||||
from ..language_data import strings_to_exc
 | 
					 | 
				
			||||||
from ..language_data import expand_exc
 | 
					 | 
				
			||||||
from ..language_data import EMOTICONS
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
from .language_data import ORTH_ONLY
 | 
					 | 
				
			||||||
from .language_data import get_time_exc
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
from .lemma_rules import LEMMA_RULES
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 | 
					 | 
				
			||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 | 
					 | 
				
			||||||
TAG_MAP = dict(language_data.TAG_MAP)
 | 
					 | 
				
			||||||
STOP_WORDS = set(language_data.STOP_WORDS)
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1)))
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’"))
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
class English(Language):
 | 
					class English(Language):
 | 
				
			||||||
| 
						 | 
					@ -44,9 +20,6 @@ class English(Language):
 | 
				
			||||||
        lex_attr_getters[LANG] = lambda text: 'en'
 | 
					        lex_attr_getters[LANG] = lambda text: 'en'
 | 
				
			||||||
 | 
					
 | 
				
			||||||
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
					        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
				
			||||||
        prefixes = TOKENIZER_PREFIXES
 | 
					 | 
				
			||||||
        suffixes = TOKENIZER_SUFFIXES
 | 
					 | 
				
			||||||
        infixes = TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
        tag_map = TAG_MAP
 | 
					        tag_map = TAG_MAP
 | 
				
			||||||
        stop_words = STOP_WORDS
 | 
					        stop_words = STOP_WORDS
 | 
				
			||||||
        lemma_rules = LEMMA_RULES
 | 
					        lemma_rules = LEMMA_RULES
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
| 
						 | 
					@ -1,13 +1,9 @@
 | 
				
			||||||
# encoding: utf8
 | 
					# encoding: utf8
 | 
				
			||||||
from __future__ import unicode_literals
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..symbols import *
 | 
					from .. import language_data as base
 | 
				
			||||||
from ..language_data import PRON_LEMMA
 | 
					from ..language_data import update_exc, strings_to_exc, expand_exc
 | 
				
			||||||
from ..language_data import ENT_ID
 | 
					from ..symbols import ORTH, LEMMA
 | 
				
			||||||
from ..language_data import TOKENIZER_PREFIXES
 | 
					 | 
				
			||||||
from ..language_data import TOKENIZER_SUFFIXES
 | 
					 | 
				
			||||||
from ..language_data import TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
from ..language_data import ENTITY_RULES, FALSE_POSITIVES
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
from .tag_map import TAG_MAP
 | 
					from .tag_map import TAG_MAP
 | 
				
			||||||
from .stop_words import STOP_WORDS
 | 
					from .stop_words import STOP_WORDS
 | 
				
			||||||
| 
						 | 
					@ -39,3 +35,17 @@ def get_time_exc(hours):
 | 
				
			||||||
            {ORTH: "pm", LEMMA: "p.m."}
 | 
					            {ORTH: "pm", LEMMA: "p.m."}
 | 
				
			||||||
        ]
 | 
					        ]
 | 
				
			||||||
    return exc
 | 
					    return exc
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
 | 
				
			||||||
 | 
					TAG_MAP = dict(TAG_MAP)
 | 
				
			||||||
 | 
					STOP_WORDS = set(STOP_WORDS)
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 | 
				
			||||||
 | 
					update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1)))
 | 
				
			||||||
 | 
					update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’"))
 | 
				
			||||||
 | 
					update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					__all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS", "LEMMA_RULES", "MORPH_RULES"]
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
| 
						 | 
					@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
 | 
				
			||||||
from os import path
 | 
					from os import path
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..language import Language
 | 
					from ..language import Language
 | 
				
			||||||
from . import language_data
 | 
					 | 
				
			||||||
from ..attrs import LANG
 | 
					from ..attrs import LANG
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..language_data import update_exc
 | 
					from .language_data import *
 | 
				
			||||||
from ..language_data import strings_to_exc
 | 
					 | 
				
			||||||
from ..language_data import EMOTICONS
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
from .language_data import ORTH_ONLY
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 | 
					 | 
				
			||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 | 
					 | 
				
			||||||
TAG_MAP = dict(language_data.TAG_MAP)
 | 
					 | 
				
			||||||
STOP_WORDS = set(language_data.STOP_WORDS)
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
class Spanish(Language):
 | 
					class Spanish(Language):
 | 
				
			||||||
| 
						 | 
					@ -34,8 +17,4 @@ class Spanish(Language):
 | 
				
			||||||
        lex_attr_getters[LANG] = lambda text: 'es'
 | 
					        lex_attr_getters[LANG] = lambda text: 'es'
 | 
				
			||||||
 | 
					
 | 
				
			||||||
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
					        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
				
			||||||
        prefixes = TOKENIZER_PREFIXES
 | 
					 | 
				
			||||||
        suffixes = TOKENIZER_SUFFIXES
 | 
					 | 
				
			||||||
        infixes = TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
        tag_map = TAG_MAP
 | 
					 | 
				
			||||||
        stop_words = STOP_WORDS
 | 
					        stop_words = STOP_WORDS
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
| 
						 | 
					@ -1,408 +1,19 @@
 | 
				
			||||||
# encoding: utf8
 | 
					# encoding: utf8
 | 
				
			||||||
from __future__ import unicode_literals
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..symbols import *
 | 
					from .. import language_data as base
 | 
				
			||||||
from ..language_data import PRON_LEMMA
 | 
					from ..language_data import update_exc, strings_to_exc
 | 
				
			||||||
from ..language_data import TOKENIZER_PREFIXES
 | 
					 | 
				
			||||||
from ..language_data import TOKENIZER_SUFFIXES
 | 
					 | 
				
			||||||
from ..language_data import TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					from .stop_words import STOP_WORDS
 | 
				
			||||||
 | 
					from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
 | 
				
			||||||
 | 
					
 | 
				
			||||||
TAG_MAP = {
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
}
 | 
					TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
 | 
				
			||||||
 | 
					STOP_WORDS = set(STOP_WORDS)
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
STOP_WORDS = set("""
 | 
					update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 | 
				
			||||||
actualmente acuerdo adelante ademas además adrede afirmó agregó ahi ahora ahí
 | 
					update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
 | 
				
			||||||
al algo alguna algunas alguno algunos algún alli allí alrededor ambos ampleamos
 | 
					 | 
				
			||||||
antano antaño ante anterior antes apenas aproximadamente aquel aquella aquellas
 | 
					 | 
				
			||||||
aquello aquellos aqui aquél aquélla aquéllas aquéllos aquí arriba arribaabajo
 | 
					 | 
				
			||||||
aseguró asi así atras aun aunque ayer añadió aún
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
bajo bastante bien breve buen buena buenas bueno buenos
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
cada casi cerca cierta ciertas cierto ciertos cinco claro comentó como con
 | 
					__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
 | 
				
			||||||
conmigo conocer conseguimos conseguir considera consideró consigo consigue
 | 
					 | 
				
			||||||
consiguen consigues contigo contra cosas creo cual cuales cualquier cuando
 | 
					 | 
				
			||||||
cuanta cuantas cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas
 | 
					 | 
				
			||||||
cuánto cuántos cómo
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
da dado dan dar de debajo debe deben debido decir dejó del delante demasiado
 | 
					 | 
				
			||||||
demás dentro deprisa desde despacio despues después detras detrás dia dias dice
 | 
					 | 
				
			||||||
dicen dicho dieron diferente diferentes dijeron dijo dio donde dos durante día
 | 
					 | 
				
			||||||
días dónde
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ejemplo el ella ellas ello ellos embargo empleais emplean emplear empleas
 | 
					 | 
				
			||||||
empleo en encima encuentra enfrente enseguida entonces entre era eramos eran
 | 
					 | 
				
			||||||
eras eres es esa esas ese eso esos esta estaba estaban estado estados estais
 | 
					 | 
				
			||||||
estamos estan estar estará estas este esto estos estoy estuvo está están ex
 | 
					 | 
				
			||||||
excepto existe existen explicó expresó él ésa ésas ése ésos ésta éstas éste
 | 
					 | 
				
			||||||
éstos
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
fin final fue fuera fueron fui fuimos
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
general gran grandes gueno
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer
 | 
					 | 
				
			||||||
hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron
 | 
					 | 
				
			||||||
hizo horas hoy hubo
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
igual incluso indicó informo informó intenta intentais intentamos intentan
 | 
					 | 
				
			||||||
intentar intentas intento ir
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
junto
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
la lado largo las le lejos les llegó lleva llevar lo los luego lugar
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi
 | 
					 | 
				
			||||||
mia mias mientras mio mios mis misma mismas mismo mismos modo momento mucha
 | 
					 | 
				
			||||||
muchas mucho muchos muy más mí mía mías mío míos
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros
 | 
					 | 
				
			||||||
nuestra nuestras nuestro nuestros nueva nuevas nuevo nuevos nunca
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ocho os otra otras otro otros
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
pais para parece parte partir pasada pasado paìs peor pero pesar poca pocas
 | 
					 | 
				
			||||||
poco pocos podeis podemos poder podria podriais podriamos podrian podrias podrá
 | 
					 | 
				
			||||||
podrán podría podrían poner por porque posible primer primera primero primeros
 | 
					 | 
				
			||||||
principalmente pronto propia propias propio propios proximo próximo próximos
 | 
					 | 
				
			||||||
pudo pueda puede pueden puedo pues
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién quiénes qué
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
raras realizado realizar realizó repente respecto
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo
 | 
					 | 
				
			||||||
según seis ser sera será serán sería señaló si sido siempre siendo siete sigue
 | 
					 | 
				
			||||||
siguiente sin sino sobre sois sola solamente solas solo solos somos son soy
 | 
					 | 
				
			||||||
soyos su supuesto sus suya suyas suyo sé sí sólo
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis
 | 
					 | 
				
			||||||
tenemos tener tenga tengo tenido tenía tercera ti tiempo tiene tienen toda
 | 
					 | 
				
			||||||
todas todavia todavía todo todos total trabaja trabajais trabajamos trabajan
 | 
					 | 
				
			||||||
trabajar trabajas trabajo tras trata través tres tu tus tuvo tuya tuyas tuyo
 | 
					 | 
				
			||||||
tuyos tú
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes
 | 
					 | 
				
			||||||
última últimas último últimos
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
va vais valor vamos van varias varios vaya veces ver verdad verdadera verdadero
 | 
					 | 
				
			||||||
vez vosotras vosotros voy vuestra vuestras vuestro vuestros
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ya yo
 | 
					 | 
				
			||||||
""".split())
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
TOKENIZER_EXCEPTIONS = {
 | 
					 | 
				
			||||||
    "accidentarse": [
 | 
					 | 
				
			||||||
        {ORTH: "accidentar", LEMMA: "accidentar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "aceptarlo": [
 | 
					 | 
				
			||||||
        {ORTH: "aceptar", LEMMA: "aceptar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "acompañarla": [
 | 
					 | 
				
			||||||
        {ORTH: "acompañar", LEMMA: "acompañar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "advertirle": [
 | 
					 | 
				
			||||||
        {ORTH: "advertir", LEMMA: "advertir", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "al": [
 | 
					 | 
				
			||||||
        {ORTH: "a", LEMMA: "a", POS: ADP},
 | 
					 | 
				
			||||||
        {ORTH: "el", LEMMA: "el", POS: DET}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "anunciarnos": [
 | 
					 | 
				
			||||||
        {ORTH: "anunciar", LEMMA: "anunciar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "asegurándole": [
 | 
					 | 
				
			||||||
        {ORTH: "asegurando", LEMMA: "asegurar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "considerarle": [
 | 
					 | 
				
			||||||
        {ORTH: "considerar", LEMMA: "considerar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "decirle": [
 | 
					 | 
				
			||||||
        {ORTH: "decir", LEMMA: "decir", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "decirles": [
 | 
					 | 
				
			||||||
        {ORTH: "decir", LEMMA: "decir", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "decirte": [
 | 
					 | 
				
			||||||
        {ORTH: "Decir", LEMMA: "decir", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "dejarla": [
 | 
					 | 
				
			||||||
        {ORTH: "dejar", LEMMA: "dejar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "dejarnos": [
 | 
					 | 
				
			||||||
        {ORTH: "dejar", LEMMA: "dejar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "dejándole": [
 | 
					 | 
				
			||||||
        {ORTH: "dejando", LEMMA: "dejar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "del": [
 | 
					 | 
				
			||||||
        {ORTH: "de", LEMMA: "de", POS: ADP},
 | 
					 | 
				
			||||||
        {ORTH: "el", LEMMA: "el", POS: DET}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "demostrarles": [
 | 
					 | 
				
			||||||
        {ORTH: "demostrar", LEMMA: "demostrar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "diciéndole": [
 | 
					 | 
				
			||||||
        {ORTH: "diciendo", LEMMA: "decir", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "diciéndoles": [
 | 
					 | 
				
			||||||
        {ORTH: "diciendo", LEMMA: "decir", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "diferenciarse": [
 | 
					 | 
				
			||||||
        {ORTH: "diferenciar", LEMMA: "diferenciar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "se", LEMMA: "él", POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "divirtiéndome": [
 | 
					 | 
				
			||||||
        {ORTH: "divirtiendo", LEMMA: "divertir", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "ensanchándose": [
 | 
					 | 
				
			||||||
        {ORTH: "ensanchando", LEMMA: "ensanchar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "explicarles": [
 | 
					 | 
				
			||||||
        {ORTH: "explicar", LEMMA: "explicar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "haberla": [
 | 
					 | 
				
			||||||
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "haberlas": [
 | 
					 | 
				
			||||||
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "haberlo": [
 | 
					 | 
				
			||||||
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "haberlos": [
 | 
					 | 
				
			||||||
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "haberme": [
 | 
					 | 
				
			||||||
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "haberse": [
 | 
					 | 
				
			||||||
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "hacerle": [
 | 
					 | 
				
			||||||
        {ORTH: "hacer", LEMMA: "hacer", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "hacerles": [
 | 
					 | 
				
			||||||
        {ORTH: "hacer", LEMMA: "hacer", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "hallarse": [
 | 
					 | 
				
			||||||
        {ORTH: "hallar", LEMMA: "hallar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "imaginaros": [
 | 
					 | 
				
			||||||
        {ORTH: "imaginar", LEMMA: "imaginar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "os", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "insinuarle": [
 | 
					 | 
				
			||||||
        {ORTH: "insinuar", LEMMA: "insinuar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "justificarla": [
 | 
					 | 
				
			||||||
        {ORTH: "justificar", LEMMA: "justificar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "mantenerlas": [
 | 
					 | 
				
			||||||
        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "mantenerlos": [
 | 
					 | 
				
			||||||
        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "mantenerme": [
 | 
					 | 
				
			||||||
        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "pasarte": [
 | 
					 | 
				
			||||||
        {ORTH: "pasar", LEMMA: "pasar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "pedirle": [
 | 
					 | 
				
			||||||
        {ORTH: "pedir", LEMMA: "pedir", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: "él", POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "pel": [
 | 
					 | 
				
			||||||
        {ORTH: "per", LEMMA: "per", POS: ADP},
 | 
					 | 
				
			||||||
        {ORTH: "el", LEMMA: "el", POS: DET}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "pidiéndonos": [
 | 
					 | 
				
			||||||
        {ORTH: "pidiendo", LEMMA: "pedir", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "poderle": [
 | 
					 | 
				
			||||||
        {ORTH: "poder", LEMMA: "poder", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "preguntarse": [
 | 
					 | 
				
			||||||
        {ORTH: "preguntar", LEMMA: "preguntar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "preguntándose": [
 | 
					 | 
				
			||||||
        {ORTH: "preguntando", LEMMA: "preguntar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "presentarla": [
 | 
					 | 
				
			||||||
        {ORTH: "presentar", LEMMA: "presentar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "pudiéndolo": [
 | 
					 | 
				
			||||||
        {ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "pudiéndose": [
 | 
					 | 
				
			||||||
        {ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "quererle": [
 | 
					 | 
				
			||||||
        {ORTH: "querer", LEMMA: "querer", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "rasgarse": [
 | 
					 | 
				
			||||||
        {ORTH: "Rasgar", LEMMA: "rasgar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "repetirlo": [
 | 
					 | 
				
			||||||
        {ORTH: "repetir", LEMMA: "repetir", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "robarle": [
 | 
					 | 
				
			||||||
        {ORTH: "robar", LEMMA: "robar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "seguirlos": [
 | 
					 | 
				
			||||||
        {ORTH: "seguir", LEMMA: "seguir", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "serle": [
 | 
					 | 
				
			||||||
        {ORTH: "ser", LEMMA: "ser", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "serlo": [
 | 
					 | 
				
			||||||
        {ORTH: "ser", LEMMA: "ser", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "señalándole": [
 | 
					 | 
				
			||||||
        {ORTH: "señalando", LEMMA: "señalar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "suplicarle": [
 | 
					 | 
				
			||||||
        {ORTH: "suplicar", LEMMA: "suplicar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "tenerlos": [
 | 
					 | 
				
			||||||
        {ORTH: "tener", LEMMA: "tener", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "vengarse": [
 | 
					 | 
				
			||||||
        {ORTH: "vengar", LEMMA: "vengar", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "verla": [
 | 
					 | 
				
			||||||
        {ORTH: "ver", LEMMA: "ver", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "verle": [
 | 
					 | 
				
			||||||
        {ORTH: "ver", LEMMA: "ver", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ],
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
    "volverlo": [
 | 
					 | 
				
			||||||
        {ORTH: "volver", LEMMA: "volver", POS: AUX},
 | 
					 | 
				
			||||||
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
 | 
					 | 
				
			||||||
    ]
 | 
					 | 
				
			||||||
}
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ORTH_ONLY = [
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
]
 | 
					 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
							
								
								
									
										84
									
								
								spacy/es/stop_words.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										84
									
								
								spacy/es/stop_words.py
									
									
									
									
									
										Normal file
									
								
							| 
						 | 
					@ -0,0 +1,84 @@
 | 
				
			||||||
 | 
					# encoding: utf8
 | 
				
			||||||
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					STOP_WORDS = set("""
 | 
				
			||||||
 | 
					actualmente acuerdo adelante ademas además adrede afirmó agregó ahi ahora ahí
 | 
				
			||||||
 | 
					al algo alguna algunas alguno algunos algún alli allí alrededor ambos ampleamos
 | 
				
			||||||
 | 
					antano antaño ante anterior antes apenas aproximadamente aquel aquella aquellas
 | 
				
			||||||
 | 
					aquello aquellos aqui aquél aquélla aquéllas aquéllos aquí arriba arribaabajo
 | 
				
			||||||
 | 
					aseguró asi así atras aun aunque ayer añadió aún
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					bajo bastante bien breve buen buena buenas bueno buenos
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					cada casi cerca cierta ciertas cierto ciertos cinco claro comentó como con
 | 
				
			||||||
 | 
					conmigo conocer conseguimos conseguir considera consideró consigo consigue
 | 
				
			||||||
 | 
					consiguen consigues contigo contra cosas creo cual cuales cualquier cuando
 | 
				
			||||||
 | 
					cuanta cuantas cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas
 | 
				
			||||||
 | 
					cuánto cuántos cómo
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					da dado dan dar de debajo debe deben debido decir dejó del delante demasiado
 | 
				
			||||||
 | 
					demás dentro deprisa desde despacio despues después detras detrás dia dias dice
 | 
				
			||||||
 | 
					dicen dicho dieron diferente diferentes dijeron dijo dio donde dos durante día
 | 
				
			||||||
 | 
					días dónde
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ejemplo el ella ellas ello ellos embargo empleais emplean emplear empleas
 | 
				
			||||||
 | 
					empleo en encima encuentra enfrente enseguida entonces entre era eramos eran
 | 
				
			||||||
 | 
					eras eres es esa esas ese eso esos esta estaba estaban estado estados estais
 | 
				
			||||||
 | 
					estamos estan estar estará estas este esto estos estoy estuvo está están ex
 | 
				
			||||||
 | 
					excepto existe existen explicó expresó él ésa ésas ése ésos ésta éstas éste
 | 
				
			||||||
 | 
					éstos
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					fin final fue fuera fueron fui fuimos
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					general gran grandes gueno
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer
 | 
				
			||||||
 | 
					hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron
 | 
				
			||||||
 | 
					hizo horas hoy hubo
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					igual incluso indicó informo informó intenta intentais intentamos intentan
 | 
				
			||||||
 | 
					intentar intentas intento ir
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					junto
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					la lado largo las le lejos les llegó lleva llevar lo los luego lugar
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi
 | 
				
			||||||
 | 
					mia mias mientras mio mios mis misma mismas mismo mismos modo momento mucha
 | 
				
			||||||
 | 
					muchas mucho muchos muy más mí mía mías mío míos
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros
 | 
				
			||||||
 | 
					nuestra nuestras nuestro nuestros nueva nuevas nuevo nuevos nunca
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ocho os otra otras otro otros
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					pais para parece parte partir pasada pasado paìs peor pero pesar poca pocas
 | 
				
			||||||
 | 
					poco pocos podeis podemos poder podria podriais podriamos podrian podrias podrá
 | 
				
			||||||
 | 
					podrán podría podrían poner por porque posible primer primera primero primeros
 | 
				
			||||||
 | 
					principalmente pronto propia propias propio propios proximo próximo próximos
 | 
				
			||||||
 | 
					pudo pueda puede pueden puedo pues
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién quiénes qué
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					raras realizado realizar realizó repente respecto
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo
 | 
				
			||||||
 | 
					según seis ser sera será serán sería señaló si sido siempre siendo siete sigue
 | 
				
			||||||
 | 
					siguiente sin sino sobre sois sola solamente solas solo solos somos son soy
 | 
				
			||||||
 | 
					soyos su supuesto sus suya suyas suyo sé sí sólo
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis
 | 
				
			||||||
 | 
					tenemos tener tenga tengo tenido tenía tercera ti tiempo tiene tienen toda
 | 
				
			||||||
 | 
					todas todavia todavía todo todos total trabaja trabajais trabajamos trabajan
 | 
				
			||||||
 | 
					trabajar trabajas trabajo tras trata través tres tu tus tuvo tuya tuyas tuyo
 | 
				
			||||||
 | 
					tuyos tú
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes
 | 
				
			||||||
 | 
					última últimas último últimos
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					va vais valor vamos van varias varios vaya veces ver verdad verdadera verdadero
 | 
				
			||||||
 | 
					vez vosotras vosotros voy vuestra vuestras vuestro vuestros
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ya yo
 | 
				
			||||||
 | 
					""".split())
 | 
				
			||||||
							
								
								
									
										318
									
								
								spacy/es/tokenizer_exceptions.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										318
									
								
								spacy/es/tokenizer_exceptions.py
									
									
									
									
									
										Normal file
									
								
							| 
						 | 
					@ -0,0 +1,318 @@
 | 
				
			||||||
 | 
					# encoding: utf8
 | 
				
			||||||
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					from ..symbols import *
 | 
				
			||||||
 | 
					from ..language_data import PRON_LEMMA
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					TOKENIZER_EXCEPTIONS = {
 | 
				
			||||||
 | 
					    "accidentarse": [
 | 
				
			||||||
 | 
					        {ORTH: "accidentar", LEMMA: "accidentar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "aceptarlo": [
 | 
				
			||||||
 | 
					        {ORTH: "aceptar", LEMMA: "aceptar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "acompañarla": [
 | 
				
			||||||
 | 
					        {ORTH: "acompañar", LEMMA: "acompañar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "advertirle": [
 | 
				
			||||||
 | 
					        {ORTH: "advertir", LEMMA: "advertir", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "al": [
 | 
				
			||||||
 | 
					        {ORTH: "a", LEMMA: "a", POS: ADP},
 | 
				
			||||||
 | 
					        {ORTH: "el", LEMMA: "el", POS: DET}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "anunciarnos": [
 | 
				
			||||||
 | 
					        {ORTH: "anunciar", LEMMA: "anunciar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "asegurándole": [
 | 
				
			||||||
 | 
					        {ORTH: "asegurando", LEMMA: "asegurar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "considerarle": [
 | 
				
			||||||
 | 
					        {ORTH: "considerar", LEMMA: "considerar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "decirle": [
 | 
				
			||||||
 | 
					        {ORTH: "decir", LEMMA: "decir", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "decirles": [
 | 
				
			||||||
 | 
					        {ORTH: "decir", LEMMA: "decir", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "decirte": [
 | 
				
			||||||
 | 
					        {ORTH: "Decir", LEMMA: "decir", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "dejarla": [
 | 
				
			||||||
 | 
					        {ORTH: "dejar", LEMMA: "dejar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "dejarnos": [
 | 
				
			||||||
 | 
					        {ORTH: "dejar", LEMMA: "dejar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "dejándole": [
 | 
				
			||||||
 | 
					        {ORTH: "dejando", LEMMA: "dejar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "del": [
 | 
				
			||||||
 | 
					        {ORTH: "de", LEMMA: "de", POS: ADP},
 | 
				
			||||||
 | 
					        {ORTH: "el", LEMMA: "el", POS: DET}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "demostrarles": [
 | 
				
			||||||
 | 
					        {ORTH: "demostrar", LEMMA: "demostrar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "diciéndole": [
 | 
				
			||||||
 | 
					        {ORTH: "diciendo", LEMMA: "decir", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "diciéndoles": [
 | 
				
			||||||
 | 
					        {ORTH: "diciendo", LEMMA: "decir", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "diferenciarse": [
 | 
				
			||||||
 | 
					        {ORTH: "diferenciar", LEMMA: "diferenciar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "se", LEMMA: "él", POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "divirtiéndome": [
 | 
				
			||||||
 | 
					        {ORTH: "divirtiendo", LEMMA: "divertir", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "ensanchándose": [
 | 
				
			||||||
 | 
					        {ORTH: "ensanchando", LEMMA: "ensanchar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "explicarles": [
 | 
				
			||||||
 | 
					        {ORTH: "explicar", LEMMA: "explicar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "haberla": [
 | 
				
			||||||
 | 
					        {ORTH: "haber", LEMMA: "haber", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "haberlas": [
 | 
				
			||||||
 | 
					        {ORTH: "haber", LEMMA: "haber", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "haberlo": [
 | 
				
			||||||
 | 
					        {ORTH: "haber", LEMMA: "haber", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "haberlos": [
 | 
				
			||||||
 | 
					        {ORTH: "haber", LEMMA: "haber", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "haberme": [
 | 
				
			||||||
 | 
					        {ORTH: "haber", LEMMA: "haber", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "haberse": [
 | 
				
			||||||
 | 
					        {ORTH: "haber", LEMMA: "haber", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "hacerle": [
 | 
				
			||||||
 | 
					        {ORTH: "hacer", LEMMA: "hacer", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "hacerles": [
 | 
				
			||||||
 | 
					        {ORTH: "hacer", LEMMA: "hacer", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "hallarse": [
 | 
				
			||||||
 | 
					        {ORTH: "hallar", LEMMA: "hallar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "imaginaros": [
 | 
				
			||||||
 | 
					        {ORTH: "imaginar", LEMMA: "imaginar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "os", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "insinuarle": [
 | 
				
			||||||
 | 
					        {ORTH: "insinuar", LEMMA: "insinuar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "justificarla": [
 | 
				
			||||||
 | 
					        {ORTH: "justificar", LEMMA: "justificar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "mantenerlas": [
 | 
				
			||||||
 | 
					        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "mantenerlos": [
 | 
				
			||||||
 | 
					        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "mantenerme": [
 | 
				
			||||||
 | 
					        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "pasarte": [
 | 
				
			||||||
 | 
					        {ORTH: "pasar", LEMMA: "pasar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "pedirle": [
 | 
				
			||||||
 | 
					        {ORTH: "pedir", LEMMA: "pedir", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: "él", POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "pel": [
 | 
				
			||||||
 | 
					        {ORTH: "per", LEMMA: "per", POS: ADP},
 | 
				
			||||||
 | 
					        {ORTH: "el", LEMMA: "el", POS: DET}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "pidiéndonos": [
 | 
				
			||||||
 | 
					        {ORTH: "pidiendo", LEMMA: "pedir", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "poderle": [
 | 
				
			||||||
 | 
					        {ORTH: "poder", LEMMA: "poder", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "preguntarse": [
 | 
				
			||||||
 | 
					        {ORTH: "preguntar", LEMMA: "preguntar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "preguntándose": [
 | 
				
			||||||
 | 
					        {ORTH: "preguntando", LEMMA: "preguntar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "presentarla": [
 | 
				
			||||||
 | 
					        {ORTH: "presentar", LEMMA: "presentar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "pudiéndolo": [
 | 
				
			||||||
 | 
					        {ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "pudiéndose": [
 | 
				
			||||||
 | 
					        {ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "quererle": [
 | 
				
			||||||
 | 
					        {ORTH: "querer", LEMMA: "querer", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "rasgarse": [
 | 
				
			||||||
 | 
					        {ORTH: "Rasgar", LEMMA: "rasgar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "repetirlo": [
 | 
				
			||||||
 | 
					        {ORTH: "repetir", LEMMA: "repetir", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "robarle": [
 | 
				
			||||||
 | 
					        {ORTH: "robar", LEMMA: "robar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "seguirlos": [
 | 
				
			||||||
 | 
					        {ORTH: "seguir", LEMMA: "seguir", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "serle": [
 | 
				
			||||||
 | 
					        {ORTH: "ser", LEMMA: "ser", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "serlo": [
 | 
				
			||||||
 | 
					        {ORTH: "ser", LEMMA: "ser", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "señalándole": [
 | 
				
			||||||
 | 
					        {ORTH: "señalando", LEMMA: "señalar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "suplicarle": [
 | 
				
			||||||
 | 
					        {ORTH: "suplicar", LEMMA: "suplicar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "tenerlos": [
 | 
				
			||||||
 | 
					        {ORTH: "tener", LEMMA: "tener", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "vengarse": [
 | 
				
			||||||
 | 
					        {ORTH: "vengar", LEMMA: "vengar", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "verla": [
 | 
				
			||||||
 | 
					        {ORTH: "ver", LEMMA: "ver", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "verle": [
 | 
				
			||||||
 | 
					        {ORTH: "ver", LEMMA: "ver", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ],
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					    "volverlo": [
 | 
				
			||||||
 | 
					        {ORTH: "volver", LEMMA: "volver", POS: AUX},
 | 
				
			||||||
 | 
					        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
 | 
				
			||||||
 | 
					    ]
 | 
				
			||||||
 | 
					}
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ORTH_ONLY = [
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					]
 | 
				
			||||||
| 
						 | 
					@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
 | 
				
			||||||
from os import path
 | 
					from os import path
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..language import Language
 | 
					from ..language import Language
 | 
				
			||||||
from . import language_data
 | 
					 | 
				
			||||||
from ..attrs import LANG
 | 
					from ..attrs import LANG
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..language_data import update_exc
 | 
					from .language_data import *
 | 
				
			||||||
from ..language_data import strings_to_exc
 | 
					 | 
				
			||||||
from ..language_data import EMOTICONS
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
from .language_data import ORTH_ONLY
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 | 
					 | 
				
			||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 | 
					 | 
				
			||||||
TAG_MAP = dict(language_data.TAG_MAP)
 | 
					 | 
				
			||||||
STOP_WORDS = set(language_data.STOP_WORDS)
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
class French(Language):
 | 
					class French(Language):
 | 
				
			||||||
| 
						 | 
					@ -34,8 +17,4 @@ class French(Language):
 | 
				
			||||||
        lex_attr_getters[LANG] = lambda text: 'fr'
 | 
					        lex_attr_getters[LANG] = lambda text: 'fr'
 | 
				
			||||||
 | 
					
 | 
				
			||||||
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
					        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
				
			||||||
        prefixes = TOKENIZER_PREFIXES
 | 
					 | 
				
			||||||
        suffixes = TOKENIZER_SUFFIXES
 | 
					 | 
				
			||||||
        infixes = TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
        tag_map = TAG_MAP
 | 
					 | 
				
			||||||
        stop_words = STOP_WORDS
 | 
					        stop_words = STOP_WORDS
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
| 
						 | 
					@ -1,109 +1,14 @@
 | 
				
			||||||
# encoding: utf8
 | 
					# encoding: utf8
 | 
				
			||||||
from __future__ import unicode_literals
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..symbols import *
 | 
					from .. import language_data as base
 | 
				
			||||||
from ..language_data import PRON_LEMMA
 | 
					from ..language_data import strings_to_exc
 | 
				
			||||||
from ..language_data import TOKENIZER_PREFIXES
 | 
					
 | 
				
			||||||
from ..language_data import TOKENIZER_SUFFIXES
 | 
					from .stop_words import STOP_WORDS
 | 
				
			||||||
from ..language_data import TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
TAG_MAP = {
 | 
					TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
 | 
				
			||||||
 | 
					STOP_WORDS = set(STOP_WORDS)
 | 
				
			||||||
}
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
STOP_WORDS = set("""
 | 
					__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
 | 
				
			||||||
a à â abord absolument afin ah ai aie ailleurs ainsi ait allaient allo allons
 | 
					 | 
				
			||||||
allô alors anterieur anterieure anterieures apres après as assez attendu au
 | 
					 | 
				
			||||||
aucun aucune aujourd aujourd'hui aupres auquel aura auraient aurait auront
 | 
					 | 
				
			||||||
aussi autre autrefois autrement autres autrui aux auxquelles auxquels avaient
 | 
					 | 
				
			||||||
avais avait avant avec avoir avons ayant
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
bah bas basee bat beau beaucoup bien bigre boum bravo brrr
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ça car ce ceci cela celle celle-ci celle-là celles celles-ci celles-là celui
 | 
					 | 
				
			||||||
celui-ci celui-là cent cependant certain certaine certaines certains certes ces
 | 
					 | 
				
			||||||
cet cette ceux ceux-ci ceux-là chacun chacune chaque cher chers chez chiche
 | 
					 | 
				
			||||||
chut chère chères ci cinq cinquantaine cinquante cinquantième cinquième clac
 | 
					 | 
				
			||||||
clic combien comme comment comparable comparables compris concernant contre
 | 
					 | 
				
			||||||
couic crac
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
da dans de debout dedans dehors deja delà depuis dernier derniere derriere
 | 
					 | 
				
			||||||
derrière des desormais desquelles desquels dessous dessus deux deuxième
 | 
					 | 
				
			||||||
deuxièmement devant devers devra different differentes differents différent
 | 
					 | 
				
			||||||
différente différentes différents dire directe directement dit dite dits divers
 | 
					 | 
				
			||||||
diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont
 | 
					 | 
				
			||||||
douze douzième dring du duquel durant dès désormais
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
effet egale egalement egales eh elle elle-même elles elles-mêmes en encore
 | 
					 | 
				
			||||||
enfin entre envers environ es ès est et etaient étaient etais étais etait était
 | 
					 | 
				
			||||||
etant étant etc été etre être eu euh eux eux-mêmes exactement excepté extenso
 | 
					 | 
				
			||||||
exterieur
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
fais faisaient faisant fait façon feront fi flac floc font
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
gens
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ha hein hem hep hi ho holà hop hormis hors hou houp hue hui huit huitième hum
 | 
					 | 
				
			||||||
hurrah hé hélas i il ils importe
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
je jusqu jusque juste
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
la laisser laquelle las le lequel les lesquelles lesquels leur leurs longtemps
 | 
					 | 
				
			||||||
lors lorsque lui lui-meme lui-même là lès
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ma maint maintenant mais malgre malgré maximale me meme memes merci mes mien
 | 
					 | 
				
			||||||
mienne miennes miens mille mince minimale moi moi-meme moi-même moindres moins
 | 
					 | 
				
			||||||
mon moyennant multiple multiples même mêmes
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
na naturel naturelle naturelles ne neanmoins necessaire necessairement neuf
 | 
					 | 
				
			||||||
neuvième ni nombreuses nombreux non nos notamment notre nous nous-mêmes nouveau
 | 
					 | 
				
			||||||
nul néanmoins nôtre nôtres
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
o ô oh ohé ollé olé on ont onze onzième ore ou ouf ouias oust ouste outre
 | 
					 | 
				
			||||||
ouvert ouverte ouverts où
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
paf pan par parce parfois parle parlent parler parmi parseme partant
 | 
					 | 
				
			||||||
particulier particulière particulièrement pas passé pendant pense permet
 | 
					 | 
				
			||||||
personne peu peut peuvent peux pff pfft pfut pif pire plein plouf plus
 | 
					 | 
				
			||||||
plusieurs plutôt possessif possessifs possible possibles pouah pour pourquoi
 | 
					 | 
				
			||||||
pourrais pourrait pouvait prealable precisement premier première premièrement
 | 
					 | 
				
			||||||
pres probable probante procedant proche près psitt pu puis puisque pur pure
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
qu quand quant quant-à-soi quanta quarante quatorze quatre quatre-vingt
 | 
					 | 
				
			||||||
quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque
 | 
					 | 
				
			||||||
quelques quels qui quiconque quinze quoi quoique
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
rare rarement rares relative relativement remarquable rend rendre restant reste
 | 
					 | 
				
			||||||
restent restrictif retour revoici revoilà rien
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
sa sacrebleu sait sans sapristi sauf se sein seize selon semblable semblaient
 | 
					 | 
				
			||||||
semble semblent sent sept septième sera seraient serait seront ses seul seule
 | 
					 | 
				
			||||||
seulement si sien sienne siennes siens sinon six sixième soi soi-même soit
 | 
					 | 
				
			||||||
soixante son sont sous souvent specifique specifiques speculatif stop
 | 
					 | 
				
			||||||
strictement subtiles suffisant suffisante suffit suis suit suivant suivante
 | 
					 | 
				
			||||||
suivantes suivants suivre superpose sur surtout
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ta tac tant tardive te tel telle tellement telles tels tenant tend tenir tente
 | 
					 | 
				
			||||||
tes tic tien tienne tiennes tiens toc toi toi-même ton touchant toujours tous
 | 
					 | 
				
			||||||
tout toute toutefois toutes treize trente tres trois troisième troisièmement
 | 
					 | 
				
			||||||
trop très tsoin tsouin tu té
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
un une unes uniformement unique uniques uns
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
va vais vas vers via vif vifs vingt vivat vive vives vlan voici voilà vont vos
 | 
					 | 
				
			||||||
votre vous vous-mêmes vu vé vôtre vôtres
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
zut
 | 
					 | 
				
			||||||
""".split())
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
TOKENIZER_EXCEPTIONS = {
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
}
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ORTH_ONLY = {
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
}
 | 
					 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
							
								
								
									
										88
									
								
								spacy/fr/stop_words.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										88
									
								
								spacy/fr/stop_words.py
									
									
									
									
									
										Normal file
									
								
							| 
						 | 
					@ -0,0 +1,88 @@
 | 
				
			||||||
 | 
					# encoding: utf8
 | 
				
			||||||
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					STOP_WORDS = set("""
 | 
				
			||||||
 | 
					a à â abord absolument afin ah ai aie ailleurs ainsi ait allaient allo allons
 | 
				
			||||||
 | 
					allô alors anterieur anterieure anterieures apres après as assez attendu au
 | 
				
			||||||
 | 
					aucun aucune aujourd aujourd'hui aupres auquel aura auraient aurait auront
 | 
				
			||||||
 | 
					aussi autre autrefois autrement autres autrui aux auxquelles auxquels avaient
 | 
				
			||||||
 | 
					avais avait avant avec avoir avons ayant
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					bah bas basee bat beau beaucoup bien bigre boum bravo brrr
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ça car ce ceci cela celle celle-ci celle-là celles celles-ci celles-là celui
 | 
				
			||||||
 | 
					celui-ci celui-là cent cependant certain certaine certaines certains certes ces
 | 
				
			||||||
 | 
					cet cette ceux ceux-ci ceux-là chacun chacune chaque cher chers chez chiche
 | 
				
			||||||
 | 
					chut chère chères ci cinq cinquantaine cinquante cinquantième cinquième clac
 | 
				
			||||||
 | 
					clic combien comme comment comparable comparables compris concernant contre
 | 
				
			||||||
 | 
					couic crac
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					da dans de debout dedans dehors deja delà depuis dernier derniere derriere
 | 
				
			||||||
 | 
					derrière des desormais desquelles desquels dessous dessus deux deuxième
 | 
				
			||||||
 | 
					deuxièmement devant devers devra different differentes differents différent
 | 
				
			||||||
 | 
					différente différentes différents dire directe directement dit dite dits divers
 | 
				
			||||||
 | 
					diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont
 | 
				
			||||||
 | 
					douze douzième dring du duquel durant dès désormais
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					effet egale egalement egales eh elle elle-même elles elles-mêmes en encore
 | 
				
			||||||
 | 
					enfin entre envers environ es ès est et etaient étaient etais étais etait était
 | 
				
			||||||
 | 
					etant étant etc été etre être eu euh eux eux-mêmes exactement excepté extenso
 | 
				
			||||||
 | 
					exterieur
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					fais faisaient faisant fait façon feront fi flac floc font
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					gens
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ha hein hem hep hi ho holà hop hormis hors hou houp hue hui huit huitième hum
 | 
				
			||||||
 | 
					hurrah hé hélas i il ils importe
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					je jusqu jusque juste
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					la laisser laquelle las le lequel les lesquelles lesquels leur leurs longtemps
 | 
				
			||||||
 | 
					lors lorsque lui lui-meme lui-même là lès
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ma maint maintenant mais malgre malgré maximale me meme memes merci mes mien
 | 
				
			||||||
 | 
					mienne miennes miens mille mince minimale moi moi-meme moi-même moindres moins
 | 
				
			||||||
 | 
					mon moyennant multiple multiples même mêmes
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					na naturel naturelle naturelles ne neanmoins necessaire necessairement neuf
 | 
				
			||||||
 | 
					neuvième ni nombreuses nombreux non nos notamment notre nous nous-mêmes nouveau
 | 
				
			||||||
 | 
					nul néanmoins nôtre nôtres
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					o ô oh ohé ollé olé on ont onze onzième ore ou ouf ouias oust ouste outre
 | 
				
			||||||
 | 
					ouvert ouverte ouverts où
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					paf pan par parce parfois parle parlent parler parmi parseme partant
 | 
				
			||||||
 | 
					particulier particulière particulièrement pas passé pendant pense permet
 | 
				
			||||||
 | 
					personne peu peut peuvent peux pff pfft pfut pif pire plein plouf plus
 | 
				
			||||||
 | 
					plusieurs plutôt possessif possessifs possible possibles pouah pour pourquoi
 | 
				
			||||||
 | 
					pourrais pourrait pouvait prealable precisement premier première premièrement
 | 
				
			||||||
 | 
					pres probable probante procedant proche près psitt pu puis puisque pur pure
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					qu quand quant quant-à-soi quanta quarante quatorze quatre quatre-vingt
 | 
				
			||||||
 | 
					quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque
 | 
				
			||||||
 | 
					quelques quels qui quiconque quinze quoi quoique
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					rare rarement rares relative relativement remarquable rend rendre restant reste
 | 
				
			||||||
 | 
					restent restrictif retour revoici revoilà rien
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					sa sacrebleu sait sans sapristi sauf se sein seize selon semblable semblaient
 | 
				
			||||||
 | 
					semble semblent sent sept septième sera seraient serait seront ses seul seule
 | 
				
			||||||
 | 
					seulement si sien sienne siennes siens sinon six sixième soi soi-même soit
 | 
				
			||||||
 | 
					soixante son sont sous souvent specifique specifiques speculatif stop
 | 
				
			||||||
 | 
					strictement subtiles suffisant suffisante suffit suis suit suivant suivante
 | 
				
			||||||
 | 
					suivantes suivants suivre superpose sur surtout
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ta tac tant tardive te tel telle tellement telles tels tenant tend tenir tente
 | 
				
			||||||
 | 
					tes tic tien tienne tiennes tiens toc toi toi-même ton touchant toujours tous
 | 
				
			||||||
 | 
					tout toute toutefois toutes treize trente tres trois troisième troisièmement
 | 
				
			||||||
 | 
					trop très tsoin tsouin tu té
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					un une unes uniformement unique uniques uns
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					va vais vas vers via vif vifs vingt vivat vive vives vlan voici voilà vont vos
 | 
				
			||||||
 | 
					votre vous vous-mêmes vu vé vôtre vôtres
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					zut
 | 
				
			||||||
 | 
					""".split())
 | 
				
			||||||
| 
						 | 
					@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
 | 
				
			||||||
from os import path
 | 
					from os import path
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..language import Language
 | 
					from ..language import Language
 | 
				
			||||||
from . import language_data
 | 
					 | 
				
			||||||
from ..attrs import LANG
 | 
					from ..attrs import LANG
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..language_data import update_exc
 | 
					from .language_data import *
 | 
				
			||||||
from ..language_data import strings_to_exc
 | 
					 | 
				
			||||||
from ..language_data import EMOTICONS
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
from .language_data import ORTH_ONLY
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 | 
					 | 
				
			||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 | 
					 | 
				
			||||||
TAG_MAP = dict(language_data.TAG_MAP)
 | 
					 | 
				
			||||||
STOP_WORDS = set(language_data.STOP_WORDS)
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
class Italian(Language):
 | 
					class Italian(Language):
 | 
				
			||||||
| 
						 | 
					@ -34,8 +17,4 @@ class Italian(Language):
 | 
				
			||||||
        lex_attr_getters[LANG] = lambda text: 'it'
 | 
					        lex_attr_getters[LANG] = lambda text: 'it'
 | 
				
			||||||
 | 
					
 | 
				
			||||||
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
					        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
				
			||||||
        prefixes = TOKENIZER_PREFIXES
 | 
					 | 
				
			||||||
        suffixes = TOKENIZER_SUFFIXES
 | 
					 | 
				
			||||||
        infixes = TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
        tag_map = TAG_MAP
 | 
					 | 
				
			||||||
        stop_words = STOP_WORDS
 | 
					        stop_words = STOP_WORDS
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
| 
						 | 
					@ -1,106 +1,14 @@
 | 
				
			||||||
# encoding: utf8
 | 
					# encoding: utf8
 | 
				
			||||||
from __future__ import unicode_literals
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..symbols import *
 | 
					from .. import language_data as base
 | 
				
			||||||
from ..language_data import PRON_LEMMA
 | 
					from ..language_data import update_exc, strings_to_exc
 | 
				
			||||||
from ..language_data import TOKENIZER_PREFIXES
 | 
					
 | 
				
			||||||
from ..language_data import TOKENIZER_SUFFIXES
 | 
					from .stop_words import STOP_WORDS
 | 
				
			||||||
from ..language_data import TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
TAG_MAP = {
 | 
					TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
 | 
				
			||||||
 | 
					STOP_WORDS = set(STOP_WORDS)
 | 
				
			||||||
}
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
STOP_WORDS = set("""
 | 
					__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
 | 
				
			||||||
a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl
 | 
					 | 
				
			||||||
agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri
 | 
					 | 
				
			||||||
altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai
 | 
					 | 
				
			||||||
attesa attraverso avanti avemmo avendo avente aver avere averlo avesse
 | 
					 | 
				
			||||||
avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate
 | 
					 | 
				
			||||||
avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste
 | 
					 | 
				
			||||||
avresti avrete avrà avrò avuta avute avuti avuto
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
basta bene benissimo brava bravo
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
casa caso cento certa certe certi certo che chi chicchessia chiunque ci
 | 
					 | 
				
			||||||
ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto
 | 
					 | 
				
			||||||
cogli coi col colei coll coloro colui come cominci comunque con concernente
 | 
					 | 
				
			||||||
conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
da dagl dagli dai dal dall dalla dalle dallo dappertutto davanti degl degli
 | 
					 | 
				
			||||||
dei del dell della delle dello dentro detto deve di dice dietro dire
 | 
					 | 
				
			||||||
dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due
 | 
					 | 
				
			||||||
dunque durante
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era
 | 
					 | 
				
			||||||
erano eravamo eravate eri ero esempio esse essendo esser essere essi ex
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero
 | 
					 | 
				
			||||||
facessi facessimo faceste facesti faceva facevamo facevano facevate facevi
 | 
					 | 
				
			||||||
facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo
 | 
					 | 
				
			||||||
fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente
 | 
					 | 
				
			||||||
finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra
 | 
					 | 
				
			||||||
frattempo fu fui fummo fuori furono futuro generale
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
gia già giacche giorni giorno gli gliela gliele glieli glielo gliene governo
 | 
					 | 
				
			||||||
grande grazie gruppo
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ha haha hai hanno ho
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ma macche magari maggior mai male malgrado malissimo mancanza marche me
 | 
					 | 
				
			||||||
medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi
 | 
					 | 
				
			||||||
milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun
 | 
					 | 
				
			||||||
nessuna nessuno niente no noi non nondimeno nonostante nonsia nostra nostre
 | 
					 | 
				
			||||||
nostri nostro novanta nove nulla nuovo
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
paese parecchi parecchie parecchio parte partendo peccato peggio per perche
 | 
					 | 
				
			||||||
perché percio perciò perfino pero persino persone però piedi pieno piglia piu
 | 
					 | 
				
			||||||
piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto
 | 
					 | 
				
			||||||
potrebbe preferibilmente presa press prima primo principalmente probabilmente
 | 
					 | 
				
			||||||
proprio puo può pure purtroppo
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante
 | 
					 | 
				
			||||||
quanti quanto quantunque quasi quattro quel quella quelle quelli quello quest
 | 
					 | 
				
			||||||
questa queste questi questo qui quindi
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
realmente recente recentemente registrazione relativo riecco salvo
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste
 | 
					 | 
				
			||||||
saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei
 | 
					 | 
				
			||||||
sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate
 | 
					 | 
				
			||||||
siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando
 | 
					 | 
				
			||||||
stanno starai staranno starebbe starebbero starei staremmo staremo stareste
 | 
					 | 
				
			||||||
staresti starete starà starò stata state stati stato stava stavamo stavano
 | 
					 | 
				
			||||||
stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso
 | 
					 | 
				
			||||||
steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua
 | 
					 | 
				
			||||||
subito successivamente successivo sue sugl sugli sui sul sull sulla sulle
 | 
					 | 
				
			||||||
sullo suo suoi
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
tale tali talvolta tanto te tempo ti titolo torino tra tranne tre trenta
 | 
					 | 
				
			||||||
troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
uguali ulteriore ultimo un una uno uomo
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
va vale vari varia varie vario verso vi via vicino visto vita voi volta volte
 | 
					 | 
				
			||||||
vostra vostre vostri vostro
 | 
					 | 
				
			||||||
""".split())
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
TOKENIZER_EXCEPTIONS = {
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
}
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ORTH_ONLY = {
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
}
 | 
					 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
							
								
								
									
										85
									
								
								spacy/it/stop_words.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										85
									
								
								spacy/it/stop_words.py
									
									
									
									
									
										Normal file
									
								
							| 
						 | 
					@ -0,0 +1,85 @@
 | 
				
			||||||
 | 
					# encoding: utf8
 | 
				
			||||||
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					STOP_WORDS = set("""
 | 
				
			||||||
 | 
					a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl
 | 
				
			||||||
 | 
					agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri
 | 
				
			||||||
 | 
					altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai
 | 
				
			||||||
 | 
					attesa attraverso avanti avemmo avendo avente aver avere averlo avesse
 | 
				
			||||||
 | 
					avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate
 | 
				
			||||||
 | 
					avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste
 | 
				
			||||||
 | 
					avresti avrete avrà avrò avuta avute avuti avuto
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					basta bene benissimo brava bravo
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					casa caso cento certa certe certi certo che chi chicchessia chiunque ci
 | 
				
			||||||
 | 
					ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto
 | 
				
			||||||
 | 
					cogli coi col colei coll coloro colui come cominci comunque con concernente
 | 
				
			||||||
 | 
					conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					da dagl dagli dai dal dall dalla dalle dallo dappertutto davanti degl degli
 | 
				
			||||||
 | 
					dei del dell della delle dello dentro detto deve di dice dietro dire
 | 
				
			||||||
 | 
					dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due
 | 
				
			||||||
 | 
					dunque durante
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era
 | 
				
			||||||
 | 
					erano eravamo eravate eri ero esempio esse essendo esser essere essi ex
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero
 | 
				
			||||||
 | 
					facessi facessimo faceste facesti faceva facevamo facevano facevate facevi
 | 
				
			||||||
 | 
					facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo
 | 
				
			||||||
 | 
					fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente
 | 
				
			||||||
 | 
					finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra
 | 
				
			||||||
 | 
					frattempo fu fui fummo fuori furono futuro generale
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					gia già giacche giorni giorno gli gliela gliele glieli glielo gliene governo
 | 
				
			||||||
 | 
					grande grazie gruppo
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ha haha hai hanno ho
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ma macche magari maggior mai male malgrado malissimo mancanza marche me
 | 
				
			||||||
 | 
					medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi
 | 
				
			||||||
 | 
					milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun
 | 
				
			||||||
 | 
					nessuna nessuno niente no noi non nondimeno nonostante nonsia nostra nostre
 | 
				
			||||||
 | 
					nostri nostro novanta nove nulla nuovo
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					paese parecchi parecchie parecchio parte partendo peccato peggio per perche
 | 
				
			||||||
 | 
					perché percio perciò perfino pero persino persone però piedi pieno piglia piu
 | 
				
			||||||
 | 
					piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto
 | 
				
			||||||
 | 
					potrebbe preferibilmente presa press prima primo principalmente probabilmente
 | 
				
			||||||
 | 
					proprio puo può pure purtroppo
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante
 | 
				
			||||||
 | 
					quanti quanto quantunque quasi quattro quel quella quelle quelli quello quest
 | 
				
			||||||
 | 
					questa queste questi questo qui quindi
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					realmente recente recentemente registrazione relativo riecco salvo
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste
 | 
				
			||||||
 | 
					saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei
 | 
				
			||||||
 | 
					sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate
 | 
				
			||||||
 | 
					siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando
 | 
				
			||||||
 | 
					stanno starai staranno starebbe starebbero starei staremmo staremo stareste
 | 
				
			||||||
 | 
					staresti starete starà starò stata state stati stato stava stavamo stavano
 | 
				
			||||||
 | 
					stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso
 | 
				
			||||||
 | 
					steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua
 | 
				
			||||||
 | 
					subito successivamente successivo sue sugl sugli sui sul sull sulla sulle
 | 
				
			||||||
 | 
					sullo suo suoi
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					tale tali talvolta tanto te tempo ti titolo torino tra tranne tre trenta
 | 
				
			||||||
 | 
					troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					uguali ulteriore ultimo un una uno uomo
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					va vale vari varia varie vario verso vi via vicino visto vita voi volta volte
 | 
				
			||||||
 | 
					vostra vostre vostri vostro
 | 
				
			||||||
 | 
					""".split())
 | 
				
			||||||
| 
						 | 
					@ -21,6 +21,7 @@ from .matcher import Matcher
 | 
				
			||||||
from . import attrs
 | 
					from . import attrs
 | 
				
			||||||
from . import orth
 | 
					from . import orth
 | 
				
			||||||
from . import util
 | 
					from . import util
 | 
				
			||||||
 | 
					from . import language_data
 | 
				
			||||||
from .lemmatizer import Lemmatizer
 | 
					from .lemmatizer import Lemmatizer
 | 
				
			||||||
from .train import Trainer
 | 
					from .train import Trainer
 | 
				
			||||||
 | 
					
 | 
				
			||||||
| 
						 | 
					@ -141,13 +142,13 @@ class BaseDefaults(object):
 | 
				
			||||||
            pipeline.append(nlp.entity)
 | 
					            pipeline.append(nlp.entity)
 | 
				
			||||||
        return pipeline
 | 
					        return pipeline
 | 
				
			||||||
 | 
					
 | 
				
			||||||
    prefixes = tuple()
 | 
					    prefixes = tuple(language_data.TOKENIZER_PREFIXES)
 | 
				
			||||||
 | 
					
 | 
				
			||||||
    suffixes = tuple()
 | 
					    suffixes = tuple(language_data.TOKENIZER_SUFFIXES)
 | 
				
			||||||
 | 
					
 | 
				
			||||||
    infixes = tuple()
 | 
					    infixes = tuple(language_data.TOKENIZER_INFIXES)
 | 
				
			||||||
 | 
					
 | 
				
			||||||
    tag_map = {}
 | 
					    tag_map = dict(language_data.TAG_MAP)
 | 
				
			||||||
 | 
					
 | 
				
			||||||
    tokenizer_exceptions = {}
 | 
					    tokenizer_exceptions = {}
 | 
				
			||||||
 | 
					
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
| 
						 | 
					@ -1,4 +1,5 @@
 | 
				
			||||||
from .emoticons import *
 | 
					from .emoticons import *
 | 
				
			||||||
from .punctuation import *
 | 
					from .punctuation import *
 | 
				
			||||||
 | 
					from .tag_map import *
 | 
				
			||||||
from .entity_rules import *
 | 
					from .entity_rules import *
 | 
				
			||||||
from .util import *
 | 
					from .util import *
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
							
								
								
									
										24
									
								
								spacy/language_data/tag_map.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										24
									
								
								spacy/language_data/tag_map.py
									
									
									
									
									
										Normal file
									
								
							| 
						 | 
					@ -0,0 +1,24 @@
 | 
				
			||||||
 | 
					# encoding: utf8
 | 
				
			||||||
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					from ..symbols import *
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					TAG_MAP = {
 | 
				
			||||||
 | 
					    "ADV":      {POS: ADV},
 | 
				
			||||||
 | 
					    "NOUN":     {POS: NOUN},
 | 
				
			||||||
 | 
					    "ADP":      {POS: ADP},
 | 
				
			||||||
 | 
					    "PRON":     {POS: PRON},
 | 
				
			||||||
 | 
					    "SCONJ":    {POS: SCONJ},
 | 
				
			||||||
 | 
					    "PROPN":    {POS: PROPN},
 | 
				
			||||||
 | 
					    "DET":      {POS: DET},
 | 
				
			||||||
 | 
					    "SYM":      {POS: SYM},
 | 
				
			||||||
 | 
					    "INTJ":     {POS: INTJ},
 | 
				
			||||||
 | 
					    "PUNCT":    {POS: PUNCT},
 | 
				
			||||||
 | 
					    "NUM":      {POS: NUM},
 | 
				
			||||||
 | 
					    "AUX":      {POS: AUX},
 | 
				
			||||||
 | 
					    "X":        {POS: X},
 | 
				
			||||||
 | 
					    "CONJ":     {POS: CONJ},
 | 
				
			||||||
 | 
					    "ADJ":      {POS: ADJ},
 | 
				
			||||||
 | 
					    "VERB":     {POS: VERB}
 | 
				
			||||||
 | 
					}
 | 
				
			||||||
| 
						 | 
					@ -4,39 +4,16 @@ from __future__ import unicode_literals, print_function
 | 
				
			||||||
from os import path
 | 
					from os import path
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..language import Language
 | 
					from ..language import Language
 | 
				
			||||||
from . import language_data
 | 
					 | 
				
			||||||
from ..attrs import LANG
 | 
					from ..attrs import LANG
 | 
				
			||||||
 | 
					from .language_data import *
 | 
				
			||||||
from ..language_data import update_exc
 | 
					 | 
				
			||||||
from ..language_data import strings_to_exc
 | 
					 | 
				
			||||||
from ..language_data import EMOTICONS
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
from .language_data import ORTH_ONLY
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 | 
					 | 
				
			||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 | 
					 | 
				
			||||||
TAG_MAP = dict(language_data.TAG_MAP)
 | 
					 | 
				
			||||||
STOP_WORDS = set(language_data.STOP_WORDS)
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
class Dutch(Language):
 | 
					class Dutch(Language):
 | 
				
			||||||
    lang = 'nl'
 | 
					    lang = 'nl'
 | 
				
			||||||
 | 
					
 | 
				
			||||||
    class Defaults(Language.Defaults):
 | 
					    class Defaults(Language.Defaults):
 | 
				
			||||||
        tokenizer_exceptions = dict(language_data.TOKENIZER_EXCEPTIONS)
 | 
					 | 
				
			||||||
        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
 | 
					        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
 | 
				
			||||||
        lex_attr_getters[LANG] = lambda text: 'nl'
 | 
					        lex_attr_getters[LANG] = lambda text: 'nl'
 | 
				
			||||||
 | 
					
 | 
				
			||||||
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
					        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
				
			||||||
        prefixes = TOKENIZER_PREFIXES
 | 
					 | 
				
			||||||
        suffixes = TOKENIZER_SUFFIXES
 | 
					 | 
				
			||||||
        infixes = TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
        tag_map = TAG_MAP
 | 
					 | 
				
			||||||
        stop_words = STOP_WORDS
 | 
					        stop_words = STOP_WORDS
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
| 
						 | 
					@ -1,83 +1,14 @@
 | 
				
			||||||
# encoding: utf8
 | 
					# encoding: utf8
 | 
				
			||||||
from __future__ import unicode_literals
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..symbols import *
 | 
					from .. import language_data as base
 | 
				
			||||||
from ..language_data import PRON_LEMMA
 | 
					from ..language_data import update_exc, strings_to_exc
 | 
				
			||||||
from ..language_data import TOKENIZER_PREFIXES
 | 
					
 | 
				
			||||||
from ..language_data import TOKENIZER_SUFFIXES
 | 
					from .stop_words import STOP_WORDS
 | 
				
			||||||
from ..language_data import TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
# TODO insert TAG_MAP for Dutch
 | 
					TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
 | 
				
			||||||
 | 
					STOP_WORDS = set(STOP_WORDS)
 | 
				
			||||||
TAG_MAP = {
 | 
					 | 
				
			||||||
    "ADV":      {POS: ADV},
 | 
					 | 
				
			||||||
    "NOUN":     {POS: NOUN},
 | 
					 | 
				
			||||||
    "ADP":      {POS: ADP},
 | 
					 | 
				
			||||||
    "PRON":     {POS: PRON},
 | 
					 | 
				
			||||||
    "SCONJ":    {POS: SCONJ},
 | 
					 | 
				
			||||||
    "PROPN":    {POS: PROPN},
 | 
					 | 
				
			||||||
    "DET":      {POS: DET},
 | 
					 | 
				
			||||||
    "SYM":      {POS: SYM},
 | 
					 | 
				
			||||||
    "INTJ":     {POS: INTJ},
 | 
					 | 
				
			||||||
    "PUNCT":    {POS: PUNCT},
 | 
					 | 
				
			||||||
    "NUM":      {POS: NUM},
 | 
					 | 
				
			||||||
    "AUX":      {POS: AUX},
 | 
					 | 
				
			||||||
    "X":        {POS: X},
 | 
					 | 
				
			||||||
    "CONJ":     {POS: CONJ},
 | 
					 | 
				
			||||||
    "ADJ":      {POS: ADJ},
 | 
					 | 
				
			||||||
    "VERB":     {POS: VERB}
 | 
					 | 
				
			||||||
}
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
# Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt
 | 
					__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
 | 
				
			||||||
 | 
					 | 
				
			||||||
STOP_WORDS = set("""
 | 
					 | 
				
			||||||
aan af al alles als altijd andere
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ben bij
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
daar dan dat de der deze die dit doch doen door dus
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
een eens en er
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ge geen geweest
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
haar had heb hebben heeft hem het hier hij hoe hun
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
iemand iets ik in is
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ja je
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
kan kon kunnen
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
maar me meer men met mij mijn moet
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
na naar niet niets nog nu
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
of om omdat ons ook op over
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
reeds
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
te tegen toch toen tot
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
u uit uw
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
van veel voor
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
want waren was wat we wel werd wezen wie wij wil worden
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
zal ze zei zelf zich zij zijn zo zonder zou
 | 
					 | 
				
			||||||
""".split())
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
# TODO Make tokenizer excpetions for Dutch
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
TOKENIZER_EXCEPTIONS = {
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
}
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ORTH_ONLY = {
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
}
 | 
					 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
							
								
								
									
										43
									
								
								spacy/nl/stop_words.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										43
									
								
								spacy/nl/stop_words.py
									
									
									
									
									
										Normal file
									
								
							| 
						 | 
					@ -0,0 +1,43 @@
 | 
				
			||||||
 | 
					# encoding: utf8
 | 
				
			||||||
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					# Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					STOP_WORDS = set("""
 | 
				
			||||||
 | 
					aan af al alles als altijd andere
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ben bij
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					daar dan dat de der deze die dit doch doen door dus
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					een eens en er
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ge geen geweest
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					haar had heb hebben heeft hem het hier hij hoe hun
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					iemand iets ik in is
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					ja je
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					kan kon kunnen
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					maar me meer men met mij mijn moet
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					na naar niet niets nog nu
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					of om omdat ons ook op over
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					reeds
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					te tegen toch toen tot
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					u uit uw
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					van veel voor
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					want waren was wat we wel werd wezen wie wij wil worden
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					zal ze zei zelf zich zij zijn zo zonder zou
 | 
				
			||||||
 | 
					""".split())
 | 
				
			||||||
| 
						 | 
					@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
 | 
				
			||||||
from os import path
 | 
					from os import path
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..language import Language
 | 
					from ..language import Language
 | 
				
			||||||
from . import language_data
 | 
					 | 
				
			||||||
from ..attrs import LANG
 | 
					from ..attrs import LANG
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..language_data import update_exc
 | 
					from .language_data import *
 | 
				
			||||||
from ..language_data import strings_to_exc
 | 
					 | 
				
			||||||
from ..language_data import EMOTICONS
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
from .language_data import ORTH_ONLY
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 | 
					 | 
				
			||||||
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 | 
					 | 
				
			||||||
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 | 
					 | 
				
			||||||
TAG_MAP = dict(language_data.TAG_MAP)
 | 
					 | 
				
			||||||
STOP_WORDS = set(language_data.STOP_WORDS)
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 | 
					 | 
				
			||||||
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
class Portuguese(Language):
 | 
					class Portuguese(Language):
 | 
				
			||||||
| 
						 | 
					@ -34,8 +17,4 @@ class Portuguese(Language):
 | 
				
			||||||
        lex_attr_getters[LANG] = lambda text: 'pt'
 | 
					        lex_attr_getters[LANG] = lambda text: 'pt'
 | 
				
			||||||
 | 
					
 | 
				
			||||||
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
					        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 | 
				
			||||||
        prefixes = TOKENIZER_PREFIXES
 | 
					 | 
				
			||||||
        suffixes = TOKENIZER_SUFFIXES
 | 
					 | 
				
			||||||
        infixes = TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
        tag_map = TAG_MAP
 | 
					 | 
				
			||||||
        stop_words = STOP_WORDS
 | 
					        stop_words = STOP_WORDS
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
| 
						 | 
					@ -1,87 +1,14 @@
 | 
				
			||||||
# encoding: utf8
 | 
					# encoding: utf8
 | 
				
			||||||
from __future__ import unicode_literals
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ..symbols import *
 | 
					from .. import language_data as base
 | 
				
			||||||
from ..language_data import PRON_LEMMA
 | 
					from ..language_data import update_exc, strings_to_exc
 | 
				
			||||||
from ..language_data import TOKENIZER_PREFIXES
 | 
					
 | 
				
			||||||
from ..language_data import TOKENIZER_SUFFIXES
 | 
					from .stop_words import STOP_WORDS
 | 
				
			||||||
from ..language_data import TOKENIZER_INFIXES
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
TAG_MAP = {
 | 
					TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
 | 
				
			||||||
 | 
					STOP_WORDS = set(STOP_WORDS)
 | 
				
			||||||
}
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
STOP_WORDS = set("""
 | 
					__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
 | 
				
			||||||
à às acerca adeus agora ainda algmas algo algumas alguns ali além ambos ano
 | 
					 | 
				
			||||||
anos antes ao aos apenas apoio apontar após aquela aquelas aquele aqueles aqui
 | 
					 | 
				
			||||||
aquilo area área as assim através atrás até aí
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
baixo bastante bem bom breve
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
cada caminho catorze cedo cento certamente certeza cima cinco coisa com como
 | 
					 | 
				
			||||||
comprido conhecido conselho contra corrente custa cá
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
da daquela daquele dar das de debaixo demais dentro depois desde desligado
 | 
					 | 
				
			||||||
dessa desse desta deste deve devem deverá dez dezanove dezasseis dezassete
 | 
					 | 
				
			||||||
dezoito dia diante direita diz dizem dizer do dois dos doze duas dá dão dúvida
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
é ela elas ele eles em embora enquanto entre então era és essa essas esse esses
 | 
					 | 
				
			||||||
esta estado estar estará estas estava este estes esteve estive estivemos
 | 
					 | 
				
			||||||
estiveram estiveste estivestes estou está estás estão eu exemplo
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final
 | 
					 | 
				
			||||||
foi fomos for fora foram forma foste fostes fui
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
geral grande grandes grupo
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
hoje horas há
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
iniciar inicio ir irá isso ista iste isto já
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
lado ligado local logo longe lugar lá
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus
 | 
					 | 
				
			||||||
mil minha minhas momento muito muitos máximo mês
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no noite nome
 | 
					 | 
				
			||||||
nos nossa nossas nosso nossos nova nove novo novos num numa nunca não nível nós
 | 
					 | 
				
			||||||
número
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
obra obrigada obrigado oitava oitavo oito onde ontem onze os ou outra outras
 | 
					 | 
				
			||||||
outro outros
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
para parece parte partir pegar pela pelas pelo pelos perto pessoas pode podem
 | 
					 | 
				
			||||||
poder poderá podia ponto pontos por porque porquê posição possivelmente posso
 | 
					 | 
				
			||||||
possível pouca pouco povo primeira primeiro promeiro próprio próximo puderam
 | 
					 | 
				
			||||||
pôde põe põem
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
qual qualquer quando quanto quarta quarto quatro que quem quer quero questão
 | 
					 | 
				
			||||||
quieto quinta quinto quinze quê relação
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta
 | 
					 | 
				
			||||||
sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
tal talvez também tanto tarde te tem temos tempo tendes tenho tens tentar
 | 
					 | 
				
			||||||
tentaram tente tentei ter terceira terceiro teu teus teve tipo tive tivemos
 | 
					 | 
				
			||||||
tiveram tiveste tivestes toda todas todo todos trabalhar trabalho treze três tu
 | 
					 | 
				
			||||||
tua tuas tudo tão têm
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
último um uma umas uns usa usar
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
vai vais valor veja vem vens ver verdade verdadeiro vez vezes viagem vindo
 | 
					 | 
				
			||||||
vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
zero
 | 
					 | 
				
			||||||
""".split())
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
TOKENIZER_EXCEPTIONS = {
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
}
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
ORTH_ONLY = {
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
}
 | 
					 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
							
								
								
									
										66
									
								
								spacy/pt/stop_words.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										66
									
								
								spacy/pt/stop_words.py
									
									
									
									
									
										Normal file
									
								
							| 
						 | 
					@ -0,0 +1,66 @@
 | 
				
			||||||
 | 
					# encoding: utf8
 | 
				
			||||||
 | 
					from __future__ import unicode_literals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					STOP_WORDS = set("""
 | 
				
			||||||
 | 
					à às acerca adeus agora ainda algmas algo algumas alguns ali além ambos ano
 | 
				
			||||||
 | 
					anos antes ao aos apenas apoio apontar após aquela aquelas aquele aqueles aqui
 | 
				
			||||||
 | 
					aquilo area área as assim através atrás até aí
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					baixo bastante bem bom breve
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					cada caminho catorze cedo cento certamente certeza cima cinco coisa com como
 | 
				
			||||||
 | 
					comprido conhecido conselho contra corrente custa cá
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					da daquela daquele dar das de debaixo demais dentro depois desde desligado
 | 
				
			||||||
 | 
					dessa desse desta deste deve devem deverá dez dezanove dezasseis dezassete
 | 
				
			||||||
 | 
					dezoito dia diante direita diz dizem dizer do dois dos doze duas dá dão dúvida
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					é ela elas ele eles em embora enquanto entre então era és essa essas esse esses
 | 
				
			||||||
 | 
					esta estado estar estará estas estava este estes esteve estive estivemos
 | 
				
			||||||
 | 
					estiveram estiveste estivestes estou está estás estão eu exemplo
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final
 | 
				
			||||||
 | 
					foi fomos for fora foram forma foste fostes fui
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					geral grande grandes grupo
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					hoje horas há
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					iniciar inicio ir irá isso ista iste isto já
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					lado ligado local logo longe lugar lá
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus
 | 
				
			||||||
 | 
					mil minha minhas momento muito muitos máximo mês
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no noite nome
 | 
				
			||||||
 | 
					nos nossa nossas nosso nossos nova nove novo novos num numa nunca não nível nós
 | 
				
			||||||
 | 
					número
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					obra obrigada obrigado oitava oitavo oito onde ontem onze os ou outra outras
 | 
				
			||||||
 | 
					outro outros
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					para parece parte partir pegar pela pelas pelo pelos perto pessoas pode podem
 | 
				
			||||||
 | 
					poder poderá podia ponto pontos por porque porquê posição possivelmente posso
 | 
				
			||||||
 | 
					possível pouca pouco povo primeira primeiro promeiro próprio próximo puderam
 | 
				
			||||||
 | 
					pôde põe põem
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					qual qualquer quando quanto quarta quarto quatro que quem quer quero questão
 | 
				
			||||||
 | 
					quieto quinta quinto quinze quê relação
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta
 | 
				
			||||||
 | 
					sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					tal talvez também tanto tarde te tem temos tempo tendes tenho tens tentar
 | 
				
			||||||
 | 
					tentaram tente tentei ter terceira terceiro teu teus teve tipo tive tivemos
 | 
				
			||||||
 | 
					tiveram tiveste tivestes toda todas todo todos trabalhar trabalho treze três tu
 | 
				
			||||||
 | 
					tua tuas tudo tão têm
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					último um uma umas uns usa usar
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					vai vais valor veja vem vens ver verdade verdadeiro vez vezes viagem vindo
 | 
				
			||||||
 | 
					vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					zero
 | 
				
			||||||
 | 
					""".split())
 | 
				
			||||||
| 
						 | 
					@ -8,9 +8,9 @@ import cloudpickle
 | 
				
			||||||
import tempfile
 | 
					import tempfile
 | 
				
			||||||
 | 
					
 | 
				
			||||||
from ... import util
 | 
					from ... import util
 | 
				
			||||||
from ...en.language_data import TOKENIZER_PREFIXES as EN_TOKENIZER_PREFIXES
 | 
					from ...language_data import TOKENIZER_PREFIXES
 | 
				
			||||||
 | 
					
 | 
				
			||||||
en_search_prefixes = util.compile_prefix_regex(EN_TOKENIZER_PREFIXES).search
 | 
					en_search_prefixes = util.compile_prefix_regex(TOKENIZER_PREFIXES).search
 | 
				
			||||||
 | 
					
 | 
				
			||||||
# @pytest.mark.xfail
 | 
					# @pytest.mark.xfail
 | 
				
			||||||
# def test_pickle(en_tokenizer):
 | 
					# def test_pickle(en_tokenizer):
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
		Loading…
	
		Reference in New Issue
	
	Block a user