Merge branch 'organize-language-data' of ssh://github.com/explosion/spaCy into organize-language-data

2025-11-04 09:57:26 +03:00 · 2016-12-18 17:01:08 +01:00 · 2016-12-18 17:01:08 +01:00 · e4c951c153
commit e4c951c153
parent 1b31c05bf8 b99d683a93
24 changed files with 802 additions and 945 deletions
--- a/spacy/de/init.py
+++ b/spacy/de/init.py
@ -5,25 +5,8 @@ from os import path
 from ..language import Language
 from ..attrs import LANG
 from . import language_data
-from ..language_data import update_exc
+from .language_data import *
 from ..language_data import strings_to_exc
 from ..language_data import EMOTICONS
 from .language_data import ORTH_ONLY
 TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 TAG_MAP = dict(language_data.TAG_MAP)
 STOP_WORDS = set(language_data.STOP_WORDS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 class German(Language):
@ -35,8 +18,5 @@ class German(Language):
        lex_attr_getters[LANG] = lambda text: 'de'
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
        prefixes = TOKENIZER_PREFIXES
        suffixes = TOKENIZER_SUFFIXES
        infixes = TOKENIZER_INFIXES
        tag_map = TAG_MAP
        stop_words = STOP_WORDS
--- a/spacy/de/language_data.py
+++ b/spacy/de/language_data.py
@ -1,12 +1,21 @@
 # encoding: utf8
 from __future__ import unicode_literals
-from ..symbols import *
+from .. import language_data as base
-from ..language_data import PRON_LEMMA
+from ..language_data import update_exc, strings_to_exc
 from ..language_data import TOKENIZER_PREFIXES
 from ..language_data import TOKENIZER_SUFFIXES
 from ..language_data import TOKENIZER_INFIXES
 from .tag_map import TAG_MAP
 from .stop_words import STOP_WORDS
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
 TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
 TAG_MAP = dict(TAG_MAP)
 STOP_WORDS = set(STOP_WORDS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
 __all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS"]
--- a/spacy/en/init.py
+++ b/spacy/en/init.py
@ -4,36 +4,12 @@ from __future__ import unicode_literals, print_function
 from os import path
 from ..language import Language
 from . import language_data
 from .. import util
 from ..lemmatizer import Lemmatizer
 from ..vocab import Vocab
 from ..tokenizer import Tokenizer
 from ..attrs import LANG
-from ..language_data import update_exc
+from .language_data import *
 from ..language_data import strings_to_exc
 from ..language_data import expand_exc
 from ..language_data import EMOTICONS
 from .language_data import ORTH_ONLY
 from .language_data import get_time_exc
 from .lemma_rules import LEMMA_RULES
 TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 TAG_MAP = dict(language_data.TAG_MAP)
 STOP_WORDS = set(language_data.STOP_WORDS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1)))
 update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’"))
 class English(Language):
@ -44,9 +20,6 @@ class English(Language):
        lex_attr_getters[LANG] = lambda text: 'en'
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
        prefixes = TOKENIZER_PREFIXES
        suffixes = TOKENIZER_SUFFIXES
        infixes = TOKENIZER_INFIXES
        tag_map = TAG_MAP
        stop_words = STOP_WORDS
        lemma_rules = LEMMA_RULES
--- a/spacy/en/language_data.py
+++ b/spacy/en/language_data.py
@ -1,13 +1,9 @@
 # encoding: utf8
 from __future__ import unicode_literals
-from ..symbols import *
+from .. import language_data as base
-from ..language_data import PRON_LEMMA
+from ..language_data import update_exc, strings_to_exc, expand_exc
-from ..language_data import ENT_ID
+from ..symbols import ORTH, LEMMA
 from ..language_data import TOKENIZER_PREFIXES
 from ..language_data import TOKENIZER_SUFFIXES
 from ..language_data import TOKENIZER_INFIXES
 from ..language_data import ENTITY_RULES, FALSE_POSITIVES
 from .tag_map import TAG_MAP
 from .stop_words import STOP_WORDS
@ -39,3 +35,17 @@ def get_time_exc(hours):
            {ORTH: "pm", LEMMA: "p.m."}
        ]
    return exc
 TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
 TAG_MAP = dict(TAG_MAP)
 STOP_WORDS = set(STOP_WORDS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1)))
 update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’"))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
 __all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS", "LEMMA_RULES", "MORPH_RULES"]
--- a/spacy/es/init.py
+++ b/spacy/es/init.py
@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
 from os import path
 from ..language import Language
 from . import language_data
 from ..attrs import LANG
-from ..language_data import update_exc
+from .language_data import *
 from ..language_data import strings_to_exc
 from ..language_data import EMOTICONS
 from .language_data import ORTH_ONLY
 TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 TAG_MAP = dict(language_data.TAG_MAP)
 STOP_WORDS = set(language_data.STOP_WORDS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 class Spanish(Language):
@ -34,8 +17,4 @@ class Spanish(Language):
        lex_attr_getters[LANG] = lambda text: 'es'
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
        prefixes = TOKENIZER_PREFIXES
        suffixes = TOKENIZER_SUFFIXES
        infixes = TOKENIZER_INFIXES
        tag_map = TAG_MAP
        stop_words = STOP_WORDS
--- a/spacy/es/language_data.py
+++ b/spacy/es/language_data.py
@ -1,408 +1,19 @@
 # encoding: utf8
 from __future__ import unicode_literals
-from ..symbols import *
+from .. import language_data as base
-from ..language_data import PRON_LEMMA
+from ..language_data import update_exc, strings_to_exc
 from ..language_data import TOKENIZER_PREFIXES
 from ..language_data import TOKENIZER_SUFFIXES
 from ..language_data import TOKENIZER_INFIXES
 from .stop_words import STOP_WORDS
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
 TAG_MAP = {
-}
+TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
 STOP_WORDS = set(STOP_WORDS)
-STOP_WORDS = set("""
+update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
-actualmente acuerdo adelante ademas además adrede afirmó agregó ahi ahora ahí
+update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
 al algo alguna algunas alguno algunos algún alli allí alrededor ambos ampleamos
 antano antaño ante anterior antes apenas aproximadamente aquel aquella aquellas
 aquello aquellos aqui aquél aquélla aquéllas aquéllos aquí arriba arribaabajo
 aseguró asi así atras aun aunque ayer añadió aún
 bajo bastante bien breve buen buena buenas bueno buenos
-cada casi cerca cierta ciertas cierto ciertos cinco claro comentó como con
+__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
 conmigo conocer conseguimos conseguir considera consideró consigo consigue
 consiguen consigues contigo contra cosas creo cual cuales cualquier cuando
 cuanta cuantas cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas
 cuánto cuántos cómo
 da dado dan dar de debajo debe deben debido decir dejó del delante demasiado
 demás dentro deprisa desde despacio despues después detras detrás dia dias dice
 dicen dicho dieron diferente diferentes dijeron dijo dio donde dos durante día
 días dónde
 ejemplo el ella ellas ello ellos embargo empleais emplean emplear empleas
 empleo en encima encuentra enfrente enseguida entonces entre era eramos eran
 eras eres es esa esas ese eso esos esta estaba estaban estado estados estais
 estamos estan estar estará estas este esto estos estoy estuvo está están ex
 excepto existe existen explicó expresó él ésa ésas ése ésos ésta éstas éste
 éstos
 fin final fue fuera fueron fui fuimos
 general gran grandes gueno
 ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer
 hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron
 hizo horas hoy hubo
 igual incluso indicó informo informó intenta intentais intentamos intentan
 intentar intentas intento ir
 junto
 la lado largo las le lejos les llegó lleva llevar lo los luego lugar
 mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi
 mia mias mientras mio mios mis misma mismas mismo mismos modo momento mucha
 muchas mucho muchos muy más mí mía mías mío míos
 nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros
 nuestra nuestras nuestro nuestros nueva nuevas nuevo nuevos nunca
 ocho os otra otras otro otros
 pais para parece parte partir pasada pasado paìs peor pero pesar poca pocas
 poco pocos podeis podemos poder podria podriais podriamos podrian podrias podrá
 podrán podría podrían poner por porque posible primer primera primero primeros
 principalmente pronto propia propias propio propios proximo próximo próximos
 pudo pueda puede pueden puedo pues
 qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién quiénes qué
 raras realizado realizar realizó repente respecto
 sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo
 según seis ser sera será serán sería señaló si sido siempre siendo siete sigue
 siguiente sin sino sobre sois sola solamente solas solo solos somos son soy
 soyos su supuesto sus suya suyas suyo sé sí sólo
 tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis
 tenemos tener tenga tengo tenido tenía tercera ti tiempo tiene tienen toda
 todas todavia todavía todo todos total trabaja trabajais trabajamos trabajan
 trabajar trabajas trabajo tras trata través tres tu tus tuvo tuya tuyas tuyo
 tuyos tú
 ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes
 última últimas último últimos
 va vais valor vamos van varias varios vaya veces ver verdad verdadera verdadero
 vez vosotras vosotros voy vuestra vuestras vuestro vuestros
 ya yo
 """.split())
 TOKENIZER_EXCEPTIONS = {
    "accidentarse": [
        {ORTH: "accidentar", LEMMA: "accidentar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "aceptarlo": [
        {ORTH: "aceptar", LEMMA: "aceptar", POS: AUX},
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "acompañarla": [
        {ORTH: "acompañar", LEMMA: "acompañar", POS: AUX},
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "advertirle": [
        {ORTH: "advertir", LEMMA: "advertir", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "al": [
        {ORTH: "a", LEMMA: "a", POS: ADP},
        {ORTH: "el", LEMMA: "el", POS: DET}
    ],
    "anunciarnos": [
        {ORTH: "anunciar", LEMMA: "anunciar", POS: AUX},
        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "asegurándole": [
        {ORTH: "asegurando", LEMMA: "asegurar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "considerarle": [
        {ORTH: "considerar", LEMMA: "considerar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "decirle": [
        {ORTH: "decir", LEMMA: "decir", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "decirles": [
        {ORTH: "decir", LEMMA: "decir", POS: AUX},
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "decirte": [
        {ORTH: "Decir", LEMMA: "decir", POS: AUX},
        {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "dejarla": [
        {ORTH: "dejar", LEMMA: "dejar", POS: AUX},
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "dejarnos": [
        {ORTH: "dejar", LEMMA: "dejar", POS: AUX},
        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "dejándole": [
        {ORTH: "dejando", LEMMA: "dejar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "del": [
        {ORTH: "de", LEMMA: "de", POS: ADP},
        {ORTH: "el", LEMMA: "el", POS: DET}
    ],
    "demostrarles": [
        {ORTH: "demostrar", LEMMA: "demostrar", POS: AUX},
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "diciéndole": [
        {ORTH: "diciendo", LEMMA: "decir", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "diciéndoles": [
        {ORTH: "diciendo", LEMMA: "decir", POS: AUX},
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "diferenciarse": [
        {ORTH: "diferenciar", LEMMA: "diferenciar", POS: AUX},
        {ORTH: "se", LEMMA: "él", POS: PRON}
    ],
    "divirtiéndome": [
        {ORTH: "divirtiendo", LEMMA: "divertir", POS: AUX},
        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "ensanchándose": [
        {ORTH: "ensanchando", LEMMA: "ensanchar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "explicarles": [
        {ORTH: "explicar", LEMMA: "explicar", POS: AUX},
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "haberla": [
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "haberlas": [
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
        {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "haberlo": [
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "haberlos": [
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "haberme": [
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "haberse": [
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "hacerle": [
        {ORTH: "hacer", LEMMA: "hacer", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "hacerles": [
        {ORTH: "hacer", LEMMA: "hacer", POS: AUX},
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "hallarse": [
        {ORTH: "hallar", LEMMA: "hallar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "imaginaros": [
        {ORTH: "imaginar", LEMMA: "imaginar", POS: AUX},
        {ORTH: "os", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "insinuarle": [
        {ORTH: "insinuar", LEMMA: "insinuar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "justificarla": [
        {ORTH: "justificar", LEMMA: "justificar", POS: AUX},
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "mantenerlas": [
        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
        {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "mantenerlos": [
        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "mantenerme": [
        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "pasarte": [
        {ORTH: "pasar", LEMMA: "pasar", POS: AUX},
        {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "pedirle": [
        {ORTH: "pedir", LEMMA: "pedir", POS: AUX},
        {ORTH: "le", LEMMA: "él", POS: PRON}
    ],
    "pel": [
        {ORTH: "per", LEMMA: "per", POS: ADP},
        {ORTH: "el", LEMMA: "el", POS: DET}
    ],
    "pidiéndonos": [
        {ORTH: "pidiendo", LEMMA: "pedir", POS: AUX},
        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "poderle": [
        {ORTH: "poder", LEMMA: "poder", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "preguntarse": [
        {ORTH: "preguntar", LEMMA: "preguntar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "preguntándose": [
        {ORTH: "preguntando", LEMMA: "preguntar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "presentarla": [
        {ORTH: "presentar", LEMMA: "presentar", POS: AUX},
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "pudiéndolo": [
        {ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "pudiéndose": [
        {ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "quererle": [
        {ORTH: "querer", LEMMA: "querer", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "rasgarse": [
        {ORTH: "Rasgar", LEMMA: "rasgar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "repetirlo": [
        {ORTH: "repetir", LEMMA: "repetir", POS: AUX},
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "robarle": [
        {ORTH: "robar", LEMMA: "robar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "seguirlos": [
        {ORTH: "seguir", LEMMA: "seguir", POS: AUX},
        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "serle": [
        {ORTH: "ser", LEMMA: "ser", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "serlo": [
        {ORTH: "ser", LEMMA: "ser", POS: AUX},
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "señalándole": [
        {ORTH: "señalando", LEMMA: "señalar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "suplicarle": [
        {ORTH: "suplicar", LEMMA: "suplicar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "tenerlos": [
        {ORTH: "tener", LEMMA: "tener", POS: AUX},
        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "vengarse": [
        {ORTH: "vengar", LEMMA: "vengar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "verla": [
        {ORTH: "ver", LEMMA: "ver", POS: AUX},
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "verle": [
        {ORTH: "ver", LEMMA: "ver", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "volverlo": [
        {ORTH: "volver", LEMMA: "volver", POS: AUX},
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
    ]
 }
 ORTH_ONLY = [
 ]
--- a/spacy/es/stop_words.py
+++ b/spacy/es/stop_words.py
@ -0,0 +1,84 @@
 # encoding: utf8
 from __future__ import unicode_literals
 STOP_WORDS = set("""
 actualmente acuerdo adelante ademas además adrede afirmó agregó ahi ahora ahí
 al algo alguna algunas alguno algunos algún alli allí alrededor ambos ampleamos
 antano antaño ante anterior antes apenas aproximadamente aquel aquella aquellas
 aquello aquellos aqui aquél aquélla aquéllas aquéllos aquí arriba arribaabajo
 aseguró asi así atras aun aunque ayer añadió aún
 bajo bastante bien breve buen buena buenas bueno buenos
 cada casi cerca cierta ciertas cierto ciertos cinco claro comentó como con
 conmigo conocer conseguimos conseguir considera consideró consigo consigue
 consiguen consigues contigo contra cosas creo cual cuales cualquier cuando
 cuanta cuantas cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas
 cuánto cuántos cómo
 da dado dan dar de debajo debe deben debido decir dejó del delante demasiado
 demás dentro deprisa desde despacio despues después detras detrás dia dias dice
 dicen dicho dieron diferente diferentes dijeron dijo dio donde dos durante día
 días dónde
 ejemplo el ella ellas ello ellos embargo empleais emplean emplear empleas
 empleo en encima encuentra enfrente enseguida entonces entre era eramos eran
 eras eres es esa esas ese eso esos esta estaba estaban estado estados estais
 estamos estan estar estará estas este esto estos estoy estuvo está están ex
 excepto existe existen explicó expresó él ésa ésas ése ésos ésta éstas éste
 éstos
 fin final fue fuera fueron fui fuimos
 general gran grandes gueno
 ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer
 hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron
 hizo horas hoy hubo
 igual incluso indicó informo informó intenta intentais intentamos intentan
 intentar intentas intento ir
 junto
 la lado largo las le lejos les llegó lleva llevar lo los luego lugar
 mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi
 mia mias mientras mio mios mis misma mismas mismo mismos modo momento mucha
 muchas mucho muchos muy más mí mía mías mío míos
 nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros
 nuestra nuestras nuestro nuestros nueva nuevas nuevo nuevos nunca
 ocho os otra otras otro otros
 pais para parece parte partir pasada pasado paìs peor pero pesar poca pocas
 poco pocos podeis podemos poder podria podriais podriamos podrian podrias podrá
 podrán podría podrían poner por porque posible primer primera primero primeros
 principalmente pronto propia propias propio propios proximo próximo próximos
 pudo pueda puede pueden puedo pues
 qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién quiénes qué
 raras realizado realizar realizó repente respecto
 sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo
 según seis ser sera será serán sería señaló si sido siempre siendo siete sigue
 siguiente sin sino sobre sois sola solamente solas solo solos somos son soy
 soyos su supuesto sus suya suyas suyo sé sí sólo
 tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis
 tenemos tener tenga tengo tenido tenía tercera ti tiempo tiene tienen toda
 todas todavia todavía todo todos total trabaja trabajais trabajamos trabajan
 trabajar trabajas trabajo tras trata través tres tu tus tuvo tuya tuyas tuyo
 tuyos tú
 ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes
 última últimas último últimos
 va vais valor vamos van varias varios vaya veces ver verdad verdadera verdadero
 vez vosotras vosotros voy vuestra vuestras vuestro vuestros
 ya yo
 """.split())
--- a/spacy/es/tokenizer_exceptions.py
+++ b/spacy/es/tokenizer_exceptions.py
@ -0,0 +1,318 @@
 # encoding: utf8
 from __future__ import unicode_literals
 from ..symbols import *
 from ..language_data import PRON_LEMMA
 TOKENIZER_EXCEPTIONS = {
    "accidentarse": [
        {ORTH: "accidentar", LEMMA: "accidentar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "aceptarlo": [
        {ORTH: "aceptar", LEMMA: "aceptar", POS: AUX},
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "acompañarla": [
        {ORTH: "acompañar", LEMMA: "acompañar", POS: AUX},
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "advertirle": [
        {ORTH: "advertir", LEMMA: "advertir", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "al": [
        {ORTH: "a", LEMMA: "a", POS: ADP},
        {ORTH: "el", LEMMA: "el", POS: DET}
    ],
    "anunciarnos": [
        {ORTH: "anunciar", LEMMA: "anunciar", POS: AUX},
        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "asegurándole": [
        {ORTH: "asegurando", LEMMA: "asegurar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "considerarle": [
        {ORTH: "considerar", LEMMA: "considerar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "decirle": [
        {ORTH: "decir", LEMMA: "decir", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "decirles": [
        {ORTH: "decir", LEMMA: "decir", POS: AUX},
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "decirte": [
        {ORTH: "Decir", LEMMA: "decir", POS: AUX},
        {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "dejarla": [
        {ORTH: "dejar", LEMMA: "dejar", POS: AUX},
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "dejarnos": [
        {ORTH: "dejar", LEMMA: "dejar", POS: AUX},
        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "dejándole": [
        {ORTH: "dejando", LEMMA: "dejar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "del": [
        {ORTH: "de", LEMMA: "de", POS: ADP},
        {ORTH: "el", LEMMA: "el", POS: DET}
    ],
    "demostrarles": [
        {ORTH: "demostrar", LEMMA: "demostrar", POS: AUX},
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "diciéndole": [
        {ORTH: "diciendo", LEMMA: "decir", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "diciéndoles": [
        {ORTH: "diciendo", LEMMA: "decir", POS: AUX},
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "diferenciarse": [
        {ORTH: "diferenciar", LEMMA: "diferenciar", POS: AUX},
        {ORTH: "se", LEMMA: "él", POS: PRON}
    ],
    "divirtiéndome": [
        {ORTH: "divirtiendo", LEMMA: "divertir", POS: AUX},
        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "ensanchándose": [
        {ORTH: "ensanchando", LEMMA: "ensanchar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "explicarles": [
        {ORTH: "explicar", LEMMA: "explicar", POS: AUX},
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "haberla": [
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "haberlas": [
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
        {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "haberlo": [
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "haberlos": [
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "haberme": [
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "haberse": [
        {ORTH: "haber", LEMMA: "haber", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "hacerle": [
        {ORTH: "hacer", LEMMA: "hacer", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "hacerles": [
        {ORTH: "hacer", LEMMA: "hacer", POS: AUX},
        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "hallarse": [
        {ORTH: "hallar", LEMMA: "hallar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "imaginaros": [
        {ORTH: "imaginar", LEMMA: "imaginar", POS: AUX},
        {ORTH: "os", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "insinuarle": [
        {ORTH: "insinuar", LEMMA: "insinuar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "justificarla": [
        {ORTH: "justificar", LEMMA: "justificar", POS: AUX},
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "mantenerlas": [
        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
        {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "mantenerlos": [
        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "mantenerme": [
        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "pasarte": [
        {ORTH: "pasar", LEMMA: "pasar", POS: AUX},
        {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "pedirle": [
        {ORTH: "pedir", LEMMA: "pedir", POS: AUX},
        {ORTH: "le", LEMMA: "él", POS: PRON}
    ],
    "pel": [
        {ORTH: "per", LEMMA: "per", POS: ADP},
        {ORTH: "el", LEMMA: "el", POS: DET}
    ],
    "pidiéndonos": [
        {ORTH: "pidiendo", LEMMA: "pedir", POS: AUX},
        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "poderle": [
        {ORTH: "poder", LEMMA: "poder", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "preguntarse": [
        {ORTH: "preguntar", LEMMA: "preguntar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "preguntándose": [
        {ORTH: "preguntando", LEMMA: "preguntar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "presentarla": [
        {ORTH: "presentar", LEMMA: "presentar", POS: AUX},
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "pudiéndolo": [
        {ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "pudiéndose": [
        {ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "quererle": [
        {ORTH: "querer", LEMMA: "querer", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "rasgarse": [
        {ORTH: "Rasgar", LEMMA: "rasgar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "repetirlo": [
        {ORTH: "repetir", LEMMA: "repetir", POS: AUX},
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "robarle": [
        {ORTH: "robar", LEMMA: "robar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "seguirlos": [
        {ORTH: "seguir", LEMMA: "seguir", POS: AUX},
        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "serle": [
        {ORTH: "ser", LEMMA: "ser", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "serlo": [
        {ORTH: "ser", LEMMA: "ser", POS: AUX},
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "señalándole": [
        {ORTH: "señalando", LEMMA: "señalar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "suplicarle": [
        {ORTH: "suplicar", LEMMA: "suplicar", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "tenerlos": [
        {ORTH: "tener", LEMMA: "tener", POS: AUX},
        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "vengarse": [
        {ORTH: "vengar", LEMMA: "vengar", POS: AUX},
        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "verla": [
        {ORTH: "ver", LEMMA: "ver", POS: AUX},
        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "verle": [
        {ORTH: "ver", LEMMA: "ver", POS: AUX},
        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
    ],
    "volverlo": [
        {ORTH: "volver", LEMMA: "volver", POS: AUX},
        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
    ]
 }
 ORTH_ONLY = [
 ]
--- a/spacy/fr/init.py
+++ b/spacy/fr/init.py
@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
 from os import path
 from ..language import Language
 from . import language_data
 from ..attrs import LANG
-from ..language_data import update_exc
+from .language_data import *
 from ..language_data import strings_to_exc
 from ..language_data import EMOTICONS
 from .language_data import ORTH_ONLY
 TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 TAG_MAP = dict(language_data.TAG_MAP)
 STOP_WORDS = set(language_data.STOP_WORDS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 class French(Language):
@ -34,8 +17,4 @@ class French(Language):
        lex_attr_getters[LANG] = lambda text: 'fr'
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
        prefixes = TOKENIZER_PREFIXES
        suffixes = TOKENIZER_SUFFIXES
        infixes = TOKENIZER_INFIXES
        tag_map = TAG_MAP
        stop_words = STOP_WORDS
--- a/spacy/fr/language_data.py
+++ b/spacy/fr/language_data.py
@ -1,109 +1,14 @@
 # encoding: utf8
 from __future__ import unicode_literals
-from ..symbols import *
+from .. import language_data as base
-from ..language_data import PRON_LEMMA
+from ..language_data import strings_to_exc
-from ..language_data import TOKENIZER_PREFIXES
+
-from ..language_data import TOKENIZER_SUFFIXES
+from .stop_words import STOP_WORDS
 from ..language_data import TOKENIZER_INFIXES
-TAG_MAP = {
+TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
-
+STOP_WORDS = set(STOP_WORDS)
 }
-STOP_WORDS = set("""
+__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
 a à â abord absolument afin ah ai aie ailleurs ainsi ait allaient allo allons
 allô alors anterieur anterieure anterieures apres après as assez attendu au
 aucun aucune aujourd aujourd'hui aupres auquel aura auraient aurait auront
 aussi autre autrefois autrement autres autrui aux auxquelles auxquels avaient
 avais avait avant avec avoir avons ayant
 bah bas basee bat beau beaucoup bien bigre boum bravo brrr
 ça car ce ceci cela celle celle-ci celle-là celles celles-ci celles-là celui
 celui-ci celui-là cent cependant certain certaine certaines certains certes ces
 cet cette ceux ceux-ci ceux-là chacun chacune chaque cher chers chez chiche
 chut chère chères ci cinq cinquantaine cinquante cinquantième cinquième clac
 clic combien comme comment comparable comparables compris concernant contre
 couic crac
 da dans de debout dedans dehors deja delà depuis dernier derniere derriere
 derrière des desormais desquelles desquels dessous dessus deux deuxième
 deuxièmement devant devers devra different differentes differents différent
 différente différentes différents dire directe directement dit dite dits divers
 diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont
 douze douzième dring du duquel durant dès désormais
 effet egale egalement egales eh elle elle-même elles elles-mêmes en encore
 enfin entre envers environ es ès est et etaient étaient etais étais etait était
 etant étant etc été etre être eu euh eux eux-mêmes exactement excepté extenso
 exterieur
 fais faisaient faisant fait façon feront fi flac floc font
 gens
 ha hein hem hep hi ho holà hop hormis hors hou houp hue hui huit huitième hum
 hurrah hé hélas i il ils importe
 je jusqu jusque juste
 la laisser laquelle las le lequel les lesquelles lesquels leur leurs longtemps
 lors lorsque lui lui-meme lui-même là lès
 ma maint maintenant mais malgre malgré maximale me meme memes merci mes mien
 mienne miennes miens mille mince minimale moi moi-meme moi-même moindres moins
 mon moyennant multiple multiples même mêmes
 na naturel naturelle naturelles ne neanmoins necessaire necessairement neuf
 neuvième ni nombreuses nombreux non nos notamment notre nous nous-mêmes nouveau
 nul néanmoins nôtre nôtres
 o ô oh ohé ollé olé on ont onze onzième ore ou ouf ouias oust ouste outre
 ouvert ouverte ouverts où
 paf pan par parce parfois parle parlent parler parmi parseme partant
 particulier particulière particulièrement pas passé pendant pense permet
 personne peu peut peuvent peux pff pfft pfut pif pire plein plouf plus
 plusieurs plutôt possessif possessifs possible possibles pouah pour pourquoi
 pourrais pourrait pouvait prealable precisement premier première premièrement
 pres probable probante procedant proche près psitt pu puis puisque pur pure
 qu quand quant quant-à-soi quanta quarante quatorze quatre quatre-vingt
 quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque
 quelques quels qui quiconque quinze quoi quoique
 rare rarement rares relative relativement remarquable rend rendre restant reste
 restent restrictif retour revoici revoilà rien
 sa sacrebleu sait sans sapristi sauf se sein seize selon semblable semblaient
 semble semblent sent sept septième sera seraient serait seront ses seul seule
 seulement si sien sienne siennes siens sinon six sixième soi soi-même soit
 soixante son sont sous souvent specifique specifiques speculatif stop
 strictement subtiles suffisant suffisante suffit suis suit suivant suivante
 suivantes suivants suivre superpose sur surtout
 ta tac tant tardive te tel telle tellement telles tels tenant tend tenir tente
 tes tic tien tienne tiennes tiens toc toi toi-même ton touchant toujours tous
 tout toute toutefois toutes treize trente tres trois troisième troisièmement
 trop très tsoin tsouin tu té
 un une unes uniformement unique uniques uns
 va vais vas vers via vif vifs vingt vivat vive vives vlan voici voilà vont vos
 votre vous vous-mêmes vu vé vôtre vôtres
 zut
 """.split())
 TOKENIZER_EXCEPTIONS = {
 }
 ORTH_ONLY = {
 }
--- a/spacy/fr/stop_words.py
+++ b/spacy/fr/stop_words.py
@ -0,0 +1,88 @@
 # encoding: utf8
 from __future__ import unicode_literals
 STOP_WORDS = set("""
 a à â abord absolument afin ah ai aie ailleurs ainsi ait allaient allo allons
 allô alors anterieur anterieure anterieures apres après as assez attendu au
 aucun aucune aujourd aujourd'hui aupres auquel aura auraient aurait auront
 aussi autre autrefois autrement autres autrui aux auxquelles auxquels avaient
 avais avait avant avec avoir avons ayant
 bah bas basee bat beau beaucoup bien bigre boum bravo brrr
 ça car ce ceci cela celle celle-ci celle-là celles celles-ci celles-là celui
 celui-ci celui-là cent cependant certain certaine certaines certains certes ces
 cet cette ceux ceux-ci ceux-là chacun chacune chaque cher chers chez chiche
 chut chère chères ci cinq cinquantaine cinquante cinquantième cinquième clac
 clic combien comme comment comparable comparables compris concernant contre
 couic crac
 da dans de debout dedans dehors deja delà depuis dernier derniere derriere
 derrière des desormais desquelles desquels dessous dessus deux deuxième
 deuxièmement devant devers devra different differentes differents différent
 différente différentes différents dire directe directement dit dite dits divers
 diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont
 douze douzième dring du duquel durant dès désormais
 effet egale egalement egales eh elle elle-même elles elles-mêmes en encore
 enfin entre envers environ es ès est et etaient étaient etais étais etait était
 etant étant etc été etre être eu euh eux eux-mêmes exactement excepté extenso
 exterieur
 fais faisaient faisant fait façon feront fi flac floc font
 gens
 ha hein hem hep hi ho holà hop hormis hors hou houp hue hui huit huitième hum
 hurrah hé hélas i il ils importe
 je jusqu jusque juste
 la laisser laquelle las le lequel les lesquelles lesquels leur leurs longtemps
 lors lorsque lui lui-meme lui-même là lès
 ma maint maintenant mais malgre malgré maximale me meme memes merci mes mien
 mienne miennes miens mille mince minimale moi moi-meme moi-même moindres moins
 mon moyennant multiple multiples même mêmes
 na naturel naturelle naturelles ne neanmoins necessaire necessairement neuf
 neuvième ni nombreuses nombreux non nos notamment notre nous nous-mêmes nouveau
 nul néanmoins nôtre nôtres
 o ô oh ohé ollé olé on ont onze onzième ore ou ouf ouias oust ouste outre
 ouvert ouverte ouverts où
 paf pan par parce parfois parle parlent parler parmi parseme partant
 particulier particulière particulièrement pas passé pendant pense permet
 personne peu peut peuvent peux pff pfft pfut pif pire plein plouf plus
 plusieurs plutôt possessif possessifs possible possibles pouah pour pourquoi
 pourrais pourrait pouvait prealable precisement premier première premièrement
 pres probable probante procedant proche près psitt pu puis puisque pur pure
 qu quand quant quant-à-soi quanta quarante quatorze quatre quatre-vingt
 quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque
 quelques quels qui quiconque quinze quoi quoique
 rare rarement rares relative relativement remarquable rend rendre restant reste
 restent restrictif retour revoici revoilà rien
 sa sacrebleu sait sans sapristi sauf se sein seize selon semblable semblaient
 semble semblent sent sept septième sera seraient serait seront ses seul seule
 seulement si sien sienne siennes siens sinon six sixième soi soi-même soit
 soixante son sont sous souvent specifique specifiques speculatif stop
 strictement subtiles suffisant suffisante suffit suis suit suivant suivante
 suivantes suivants suivre superpose sur surtout
 ta tac tant tardive te tel telle tellement telles tels tenant tend tenir tente
 tes tic tien tienne tiennes tiens toc toi toi-même ton touchant toujours tous
 tout toute toutefois toutes treize trente tres trois troisième troisièmement
 trop très tsoin tsouin tu té
 un une unes uniformement unique uniques uns
 va vais vas vers via vif vifs vingt vivat vive vives vlan voici voilà vont vos
 votre vous vous-mêmes vu vé vôtre vôtres
 zut
 """.split())
--- a/spacy/it/init.py
+++ b/spacy/it/init.py
@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
 from os import path
 from ..language import Language
 from . import language_data
 from ..attrs import LANG
-from ..language_data import update_exc
+from .language_data import *
 from ..language_data import strings_to_exc
 from ..language_data import EMOTICONS
 from .language_data import ORTH_ONLY
 TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 TAG_MAP = dict(language_data.TAG_MAP)
 STOP_WORDS = set(language_data.STOP_WORDS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 class Italian(Language):
@ -34,8 +17,4 @@ class Italian(Language):
        lex_attr_getters[LANG] = lambda text: 'it'
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
        prefixes = TOKENIZER_PREFIXES
        suffixes = TOKENIZER_SUFFIXES
        infixes = TOKENIZER_INFIXES
        tag_map = TAG_MAP
        stop_words = STOP_WORDS
--- a/spacy/it/language_data.py
+++ b/spacy/it/language_data.py
@ -1,106 +1,14 @@
 # encoding: utf8
 from __future__ import unicode_literals
-from ..symbols import *
+from .. import language_data as base
-from ..language_data import PRON_LEMMA
+from ..language_data import update_exc, strings_to_exc
-from ..language_data import TOKENIZER_PREFIXES
+
-from ..language_data import TOKENIZER_SUFFIXES
+from .stop_words import STOP_WORDS
 from ..language_data import TOKENIZER_INFIXES
-TAG_MAP = {
+TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
-
+STOP_WORDS = set(STOP_WORDS)
 }
-STOP_WORDS = set("""
+__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
 a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl
 agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri
 altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai
 attesa attraverso avanti avemmo avendo avente aver avere averlo avesse
 avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate
 avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste
 avresti avrete avrà avrò avuta avute avuti avuto
 basta bene benissimo brava bravo
 casa caso cento certa certe certi certo che chi chicchessia chiunque ci
 ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto
 cogli coi col colei coll coloro colui come cominci comunque con concernente
 conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui
 da dagl dagli dai dal dall dalla dalle dallo dappertutto davanti degl degli
 dei del dell della delle dello dentro detto deve di dice dietro dire
 dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due
 dunque durante
 ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era
 erano eravamo eravate eri ero esempio esse essendo esser essere essi ex
 fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero
 facessi facessimo faceste facesti faceva facevamo facevano facevate facevi
 facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo
 fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente
 finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra
 frattempo fu fui fummo fuori furono futuro generale
 gia già giacche giorni giorno gli gliela gliele glieli glielo gliene governo
 grande grazie gruppo
 ha haha hai hanno ho
 ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io
 la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo
 ma macche magari maggior mai male malgrado malissimo mancanza marche me
 medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi
 milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto
 nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun
 nessuna nessuno niente no noi non nondimeno nonostante nonsia nostra nostre
 nostri nostro novanta nove nulla nuovo
 od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto
 paese parecchi parecchie parecchio parte partendo peccato peggio per perche
 perché percio perciò perfino pero persino persone però piedi pieno piglia piu
 piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto
 potrebbe preferibilmente presa press prima primo principalmente probabilmente
 proprio puo può pure purtroppo
 qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante
 quanti quanto quantunque quasi quattro quel quella quelle quelli quello quest
 questa queste questi questo qui quindi
 realmente recente recentemente registrazione relativo riecco salvo
 sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste
 saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei
 sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate
 siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando
 stanno starai staranno starebbe starebbero starei staremmo staremo stareste
 staresti starete starà starò stata state stati stato stava stavamo stavano
 stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso
 steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua
 subito successivamente successivo sue sugl sugli sui sul sull sulla sulle
 sullo suo suoi
 tale tali talvolta tanto te tempo ti titolo torino tra tranne tre trenta
 troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto
 uguali ulteriore ultimo un una uno uomo
 va vale vari varia varie vario verso vi via vicino visto vita voi volta volte
 vostra vostre vostri vostro
 """.split())
 TOKENIZER_EXCEPTIONS = {
 }
 ORTH_ONLY = {
 }
--- a/spacy/it/stop_words.py
+++ b/spacy/it/stop_words.py
@ -0,0 +1,85 @@
 # encoding: utf8
 from __future__ import unicode_literals
 STOP_WORDS = set("""
 a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl
 agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri
 altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai
 attesa attraverso avanti avemmo avendo avente aver avere averlo avesse
 avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate
 avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste
 avresti avrete avrà avrò avuta avute avuti avuto
 basta bene benissimo brava bravo
 casa caso cento certa certe certi certo che chi chicchessia chiunque ci
 ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto
 cogli coi col colei coll coloro colui come cominci comunque con concernente
 conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui
 da dagl dagli dai dal dall dalla dalle dallo dappertutto davanti degl degli
 dei del dell della delle dello dentro detto deve di dice dietro dire
 dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due
 dunque durante
 ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era
 erano eravamo eravate eri ero esempio esse essendo esser essere essi ex
 fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero
 facessi facessimo faceste facesti faceva facevamo facevano facevate facevi
 facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo
 fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente
 finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra
 frattempo fu fui fummo fuori furono futuro generale
 gia già giacche giorni giorno gli gliela gliele glieli glielo gliene governo
 grande grazie gruppo
 ha haha hai hanno ho
 ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io
 la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo
 ma macche magari maggior mai male malgrado malissimo mancanza marche me
 medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi
 milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto
 nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun
 nessuna nessuno niente no noi non nondimeno nonostante nonsia nostra nostre
 nostri nostro novanta nove nulla nuovo
 od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto
 paese parecchi parecchie parecchio parte partendo peccato peggio per perche
 perché percio perciò perfino pero persino persone però piedi pieno piglia piu
 piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto
 potrebbe preferibilmente presa press prima primo principalmente probabilmente
 proprio puo può pure purtroppo
 qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante
 quanti quanto quantunque quasi quattro quel quella quelle quelli quello quest
 questa queste questi questo qui quindi
 realmente recente recentemente registrazione relativo riecco salvo
 sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste
 saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei
 sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate
 siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando
 stanno starai staranno starebbe starebbero starei staremmo staremo stareste
 staresti starete starà starò stata state stati stato stava stavamo stavano
 stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso
 steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua
 subito successivamente successivo sue sugl sugli sui sul sull sulla sulle
 sullo suo suoi
 tale tali talvolta tanto te tempo ti titolo torino tra tranne tre trenta
 troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto
 uguali ulteriore ultimo un una uno uomo
 va vale vari varia varie vario verso vi via vicino visto vita voi volta volte
 vostra vostre vostri vostro
 """.split())
--- a/spacy/language.py
+++ b/spacy/language.py
@ -21,6 +21,7 @@ from .matcher import Matcher
 from . import attrs
 from . import orth
 from . import util
 from . import language_data
 from .lemmatizer import Lemmatizer
 from .train import Trainer
@ -141,13 +142,13 @@ class BaseDefaults(object):
            pipeline.append(nlp.entity)
        return pipeline
-    prefixes = tuple()
+    prefixes = tuple(language_data.TOKENIZER_PREFIXES)
-    suffixes = tuple()
+    suffixes = tuple(language_data.TOKENIZER_SUFFIXES)
-    infixes = tuple()
+    infixes = tuple(language_data.TOKENIZER_INFIXES)
-    tag_map = {}
+    tag_map = dict(language_data.TAG_MAP)
    tokenizer_exceptions = {}
--- a/spacy/language_data/init.py
+++ b/spacy/language_data/init.py
@ -1,4 +1,5 @@
 from .emoticons import *
 from .punctuation import *
 from .tag_map import *
 from .entity_rules import *
 from .util import *
--- a/spacy/language_data/tag_map.py
+++ b/spacy/language_data/tag_map.py
@ -0,0 +1,24 @@
 # encoding: utf8
 from __future__ import unicode_literals
 from ..symbols import *
 TAG_MAP = {
    "ADV":      {POS: ADV},
    "NOUN":     {POS: NOUN},
    "ADP":      {POS: ADP},
    "PRON":     {POS: PRON},
    "SCONJ":    {POS: SCONJ},
    "PROPN":    {POS: PROPN},
    "DET":      {POS: DET},
    "SYM":      {POS: SYM},
    "INTJ":     {POS: INTJ},
    "PUNCT":    {POS: PUNCT},
    "NUM":      {POS: NUM},
    "AUX":      {POS: AUX},
    "X":        {POS: X},
    "CONJ":     {POS: CONJ},
    "ADJ":      {POS: ADJ},
    "VERB":     {POS: VERB}
 }
--- a/spacy/nl/init.py
+++ b/spacy/nl/init.py
@ -4,39 +4,16 @@ from __future__ import unicode_literals, print_function
 from os import path
 from ..language import Language
 from . import language_data
 from ..attrs import LANG
-
+from .language_data import *
 from ..language_data import update_exc
 from ..language_data import strings_to_exc
 from ..language_data import EMOTICONS
 from .language_data import ORTH_ONLY
 TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 TAG_MAP = dict(language_data.TAG_MAP)
 STOP_WORDS = set(language_data.STOP_WORDS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 class Dutch(Language):
    lang = 'nl'
    class Defaults(Language.Defaults):
        tokenizer_exceptions = dict(language_data.TOKENIZER_EXCEPTIONS)
        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
        lex_attr_getters[LANG] = lambda text: 'nl'
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
        prefixes = TOKENIZER_PREFIXES
        suffixes = TOKENIZER_SUFFIXES
        infixes = TOKENIZER_INFIXES
        tag_map = TAG_MAP
        stop_words = STOP_WORDS
--- a/spacy/nl/language_data.py
+++ b/spacy/nl/language_data.py
@ -1,83 +1,14 @@
 # encoding: utf8
 from __future__ import unicode_literals
-from ..symbols import *
+from .. import language_data as base
-from ..language_data import PRON_LEMMA
+from ..language_data import update_exc, strings_to_exc
-from ..language_data import TOKENIZER_PREFIXES
+
-from ..language_data import TOKENIZER_SUFFIXES
+from .stop_words import STOP_WORDS
 from ..language_data import TOKENIZER_INFIXES
-# TODO insert TAG_MAP for Dutch
+TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
-
+STOP_WORDS = set(STOP_WORDS)
 TAG_MAP = {
    "ADV":      {POS: ADV},
    "NOUN":     {POS: NOUN},
    "ADP":      {POS: ADP},
    "PRON":     {POS: PRON},
    "SCONJ":    {POS: SCONJ},
    "PROPN":    {POS: PROPN},
    "DET":      {POS: DET},
    "SYM":      {POS: SYM},
    "INTJ":     {POS: INTJ},
    "PUNCT":    {POS: PUNCT},
    "NUM":      {POS: NUM},
    "AUX":      {POS: AUX},
    "X":        {POS: X},
    "CONJ":     {POS: CONJ},
    "ADJ":      {POS: ADJ},
    "VERB":     {POS: VERB}
 }
-# Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt
+__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
 STOP_WORDS = set("""
 aan af al alles als altijd andere
 ben bij
 daar dan dat de der deze die dit doch doen door dus
 een eens en er
 ge geen geweest
 haar had heb hebben heeft hem het hier hij hoe hun
 iemand iets ik in is
 ja je
 kan kon kunnen
 maar me meer men met mij mijn moet
 na naar niet niets nog nu
 of om omdat ons ook op over
 reeds
 te tegen toch toen tot
 u uit uw
 van veel voor
 want waren was wat we wel werd wezen wie wij wil worden
 zal ze zei zelf zich zij zijn zo zonder zou
 """.split())
 # TODO Make tokenizer excpetions for Dutch
 TOKENIZER_EXCEPTIONS = {
 }
 ORTH_ONLY = {
 }
--- a/spacy/nl/stop_words.py
+++ b/spacy/nl/stop_words.py
@ -0,0 +1,43 @@
 # encoding: utf8
 from __future__ import unicode_literals
 # Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt
 STOP_WORDS = set("""
 aan af al alles als altijd andere
 ben bij
 daar dan dat de der deze die dit doch doen door dus
 een eens en er
 ge geen geweest
 haar had heb hebben heeft hem het hier hij hoe hun
 iemand iets ik in is
 ja je
 kan kon kunnen
 maar me meer men met mij mijn moet
 na naar niet niets nog nu
 of om omdat ons ook op over
 reeds
 te tegen toch toen tot
 u uit uw
 van veel voor
 want waren was wat we wel werd wezen wie wij wil worden
 zal ze zei zelf zich zij zijn zo zonder zou
 """.split())
--- a/spacy/pt/init.py
+++ b/spacy/pt/init.py
@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
 from os import path
 from ..language import Language
 from . import language_data
 from ..attrs import LANG
-from ..language_data import update_exc
+from .language_data import *
 from ..language_data import strings_to_exc
 from ..language_data import EMOTICONS
 from .language_data import ORTH_ONLY
 TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 TAG_MAP = dict(language_data.TAG_MAP)
 STOP_WORDS = set(language_data.STOP_WORDS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 class Portuguese(Language):
@ -34,8 +17,4 @@ class Portuguese(Language):
        lex_attr_getters[LANG] = lambda text: 'pt'
        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
        prefixes = TOKENIZER_PREFIXES
        suffixes = TOKENIZER_SUFFIXES
        infixes = TOKENIZER_INFIXES
        tag_map = TAG_MAP
        stop_words = STOP_WORDS
--- a/spacy/pt/language_data.py
+++ b/spacy/pt/language_data.py
@ -1,87 +1,14 @@
 # encoding: utf8
 from __future__ import unicode_literals
-from ..symbols import *
+from .. import language_data as base
-from ..language_data import PRON_LEMMA
+from ..language_data import update_exc, strings_to_exc
-from ..language_data import TOKENIZER_PREFIXES
+
-from ..language_data import TOKENIZER_SUFFIXES
+from .stop_words import STOP_WORDS
 from ..language_data import TOKENIZER_INFIXES
-TAG_MAP = {
+TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
-
+STOP_WORDS = set(STOP_WORDS)
 }
-STOP_WORDS = set("""
+__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
 à às acerca adeus agora ainda algmas algo algumas alguns ali além ambos ano
 anos antes ao aos apenas apoio apontar após aquela aquelas aquele aqueles aqui
 aquilo area área as assim através atrás até aí
 baixo bastante bem bom breve
 cada caminho catorze cedo cento certamente certeza cima cinco coisa com como
 comprido conhecido conselho contra corrente custa cá
 da daquela daquele dar das de debaixo demais dentro depois desde desligado
 dessa desse desta deste deve devem deverá dez dezanove dezasseis dezassete
 dezoito dia diante direita diz dizem dizer do dois dos doze duas dá dão dúvida
 é ela elas ele eles em embora enquanto entre então era és essa essas esse esses
 esta estado estar estará estas estava este estes esteve estive estivemos
 estiveram estiveste estivestes estou está estás estão eu exemplo
 falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final
 foi fomos for fora foram forma foste fostes fui
 geral grande grandes grupo
 hoje horas há
 iniciar inicio ir irá isso ista iste isto já
 lado ligado local logo longe lugar lá
 maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus
 mil minha minhas momento muito muitos máximo mês
 na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no noite nome
 nos nossa nossas nosso nossos nova nove novo novos num numa nunca não nível nós
 número
 obra obrigada obrigado oitava oitavo oito onde ontem onze os ou outra outras
 outro outros
 para parece parte partir pegar pela pelas pelo pelos perto pessoas pode podem
 poder poderá podia ponto pontos por porque porquê posição possivelmente posso
 possível pouca pouco povo primeira primeiro promeiro próprio próximo puderam
 pôde põe põem
 qual qualquer quando quanto quarta quarto quatro que quem quer quero questão
 quieto quinta quinto quinze quê relação
 sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta
 sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo
 tal talvez também tanto tarde te tem temos tempo tendes tenho tens tentar
 tentaram tente tentei ter terceira terceiro teu teus teve tipo tive tivemos
 tiveram tiveste tivestes toda todas todo todos trabalhar trabalho treze três tu
 tua tuas tudo tão têm
 último um uma umas uns usa usar
 vai vais valor veja vem vens ver verdade verdadeiro vez vezes viagem vindo
 vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós
 zero
 """.split())
 TOKENIZER_EXCEPTIONS = {
 }
 ORTH_ONLY = {
 }
--- a/spacy/pt/stop_words.py
+++ b/spacy/pt/stop_words.py
@ -0,0 +1,66 @@
 # encoding: utf8
 from __future__ import unicode_literals
 STOP_WORDS = set("""
 à às acerca adeus agora ainda algmas algo algumas alguns ali além ambos ano
 anos antes ao aos apenas apoio apontar após aquela aquelas aquele aqueles aqui
 aquilo area área as assim através atrás até aí
 baixo bastante bem bom breve
 cada caminho catorze cedo cento certamente certeza cima cinco coisa com como
 comprido conhecido conselho contra corrente custa cá
 da daquela daquele dar das de debaixo demais dentro depois desde desligado
 dessa desse desta deste deve devem deverá dez dezanove dezasseis dezassete
 dezoito dia diante direita diz dizem dizer do dois dos doze duas dá dão dúvida
 é ela elas ele eles em embora enquanto entre então era és essa essas esse esses
 esta estado estar estará estas estava este estes esteve estive estivemos
 estiveram estiveste estivestes estou está estás estão eu exemplo
 falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final
 foi fomos for fora foram forma foste fostes fui
 geral grande grandes grupo
 hoje horas há
 iniciar inicio ir irá isso ista iste isto já
 lado ligado local logo longe lugar lá
 maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus
 mil minha minhas momento muito muitos máximo mês
 na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no noite nome
 nos nossa nossas nosso nossos nova nove novo novos num numa nunca não nível nós
 número
 obra obrigada obrigado oitava oitavo oito onde ontem onze os ou outra outras
 outro outros
 para parece parte partir pegar pela pelas pelo pelos perto pessoas pode podem
 poder poderá podia ponto pontos por porque porquê posição possivelmente posso
 possível pouca pouco povo primeira primeiro promeiro próprio próximo puderam
 pôde põe põem
 qual qualquer quando quanto quarta quarto quatro que quem quer quero questão
 quieto quinta quinto quinze quê relação
 sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta
 sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo
 tal talvez também tanto tarde te tem temos tempo tendes tenho tens tentar
 tentaram tente tentei ter terceira terceiro teu teus teve tipo tive tivemos
 tiveram tiveste tivestes toda todas todo todos trabalhar trabalho treze três tu
 tua tuas tudo tão têm
 último um uma umas uns usa usar
 vai vais valor veja vem vens ver verdade verdadeiro vez vezes viagem vindo
 vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós
 zero
 """.split())
--- a/spacy/tests/tokenizer/test_tokenizer.py
+++ b/spacy/tests/tokenizer/test_tokenizer.py
@ -8,9 +8,9 @@ import cloudpickle
 import tempfile
 from ... import util
-from ...en.language_data import TOKENIZER_PREFIXES as EN_TOKENIZER_PREFIXES
+from ...language_data import TOKENIZER_PREFIXES
-en_search_prefixes = util.compile_prefix_regex(EN_TOKENIZER_PREFIXES).search
+en_search_prefixes = util.compile_prefix_regex(TOKENIZER_PREFIXES).search
 # @pytest.mark.xfail
 # def test_pickle(en_tokenizer):