spaCy/spacy/es/tokenizer_exceptions.py

# coding: utf8
from __future__ import unicode_literals

from ..symbols import *
from ..language_data import PRON_LEMMA, DET_LEMMA


TOKENIZER_EXCEPTIONS = {
    "al": [
        {ORTH: "a", LEMMA: "a", TAG: ADP},
        {ORTH: "el", LEMMA: "el", TAG: DET}
    ],

    "consigo": [
        {ORTH: "con", LEMMA: "con"},
        {ORTH: "sigo", LEMMA: PRON_LEMMA, NORM: "sí"}
    ],

    "conmigo": [
        {ORTH: "con", LEMMA: "con"},
        {ORTH: "migo", LEMMA: PRON_LEMMA, NORM: "mí"}
    ],

    "contigo": [
        {ORTH: "con", LEMMA: "con"},
        {ORTH: "tigo", LEMMA: PRON_LEMMA, NORM: "ti"}
    ],

    "del": [
        {ORTH: "de", LEMMA: "de", TAG: ADP},
        {ORTH: "l", LEMMA: "el", TAG: DET}
    ],

    "pel": [
        {ORTH: "pe", LEMMA: "per", TAG: ADP},
        {ORTH: "l", LEMMA: "el", TAG: DET}
    ],

    "pal": [
        {ORTH: "pa", LEMMA: "para"},
        {ORTH: "l", LEMMA: DET_LEMMA, NORM: "el"}
    ],

    "pala": [
        {ORTH: "pa", LEMMA: "para"},
        {ORTH: "la", LEMMA: DET_LEMMA}
    ],

    "aprox.": [
        {ORTH: "aprox.", LEMMA: "aproximadamente"}
    ],

    "dna.": [
        {ORTH: "dna.", LEMMA: "docena"}
    ],

    "esq.": [
        {ORTH: "esq.", LEMMA: "esquina"}
    ],

    "pág.": [
        {ORTH: "pág.", LEMMA: "página"}
    ],

    "p.ej.": [
        {ORTH: "p.ej.", LEMMA: "por ejemplo"}
    ],

    "Ud.": [
        {ORTH: "Ud.", LEMMA: PRON_LEMMA, NORM: "usted"}
    ],

    "Vd.": [
        {ORTH: "Vd.", LEMMA: PRON_LEMMA, NORM: "usted"}
    ],

    "Uds.": [
        {ORTH: "Uds.", LEMMA: PRON_LEMMA, NORM: "ustedes"}
    ],

    "Vds.": [
        {ORTH: "Vds.", LEMMA: PRON_LEMMA, NORM: "ustedes"}
    ]
}


ORTH_ONLY = [
    "a.C.",
    "a.J.C.",
    "apdo.",
    "Av.",
    "Avda.",
    "Cía.",
    "etc.",
    "Gob.",
    "Gral.",
    "Ing.",
    "J.C.",
    "Lic.",
    "m.n.",
    "no.",
    "núm.",
    "P.D.",
    "Prof.",
    "Profa.",
    "q.e.p.d."
    "S.A.",
    "S.L.",
    "s.s.s.",
    "Sr.",
    "Sra.",
    "Srta."
]
Use consistent unicode declarations 2017-03-12 15:07:28 +03:00			`# coding: utf8`
Reorganise language data 2016-12-18 18:54:19 +03:00			`from __future__ import unicode_literals`

			`from ..symbols import *`
Update Spanish tokenizer Remove reflexive pronouns as they're part of an open class, fix mistakes and add exceptions 2016-12-23 23:35:03 +03:00			`from ..language_data import PRON_LEMMA, DET_LEMMA`
Reorganise language data 2016-12-18 18:54:19 +03:00

			`TOKENIZER_EXCEPTIONS = {`
			`"al": [`
Update tokenizer exceptions for Spanish 2016-12-21 20:06:17 +03:00			`{ORTH: "a", LEMMA: "a", TAG: ADP},`
			`{ORTH: "el", LEMMA: "el", TAG: DET}`
Reorganise language data 2016-12-18 18:54:19 +03:00			`],`

Update Spanish tokenizer Remove reflexive pronouns as they're part of an open class, fix mistakes and add exceptions 2016-12-23 23:35:03 +03:00			`"consigo": [`
			`{ORTH: "con", LEMMA: "con"},`
			`{ORTH: "sigo", LEMMA: PRON_LEMMA, NORM: "sí"}`
Reorganise language data 2016-12-18 18:54:19 +03:00			`],`

Update Spanish tokenizer Remove reflexive pronouns as they're part of an open class, fix mistakes and add exceptions 2016-12-23 23:35:03 +03:00			`"conmigo": [`
			`{ORTH: "con", LEMMA: "con"},`
			`{ORTH: "migo", LEMMA: PRON_LEMMA, NORM: "mí"}`
Reorganise language data 2016-12-18 18:54:19 +03:00			`],`

Update Spanish tokenizer Remove reflexive pronouns as they're part of an open class, fix mistakes and add exceptions 2016-12-23 23:35:03 +03:00			`"contigo": [`
			`{ORTH: "con", LEMMA: "con"},`
			`{ORTH: "tigo", LEMMA: PRON_LEMMA, NORM: "ti"}`
Reorganise language data 2016-12-18 18:54:19 +03:00			`],`

			`"del": [`
Update tokenizer exceptions for Spanish 2016-12-21 20:06:17 +03:00			`{ORTH: "de", LEMMA: "de", TAG: ADP},`
Update Spanish tokenizer Remove reflexive pronouns as they're part of an open class, fix mistakes and add exceptions 2016-12-23 23:35:03 +03:00			`{ORTH: "l", LEMMA: "el", TAG: DET}`
Reorganise language data 2016-12-18 18:54:19 +03:00			`],`

			`"pel": [`
Update Spanish tokenizer Remove reflexive pronouns as they're part of an open class, fix mistakes and add exceptions 2016-12-23 23:35:03 +03:00			`{ORTH: "pe", LEMMA: "per", TAG: ADP},`
			`{ORTH: "l", LEMMA: "el", TAG: DET}`
Reorganise language data 2016-12-18 18:54:19 +03:00			`],`

Update Spanish tokenizer Remove reflexive pronouns as they're part of an open class, fix mistakes and add exceptions 2016-12-23 23:35:03 +03:00			`"pal": [`
			`{ORTH: "pa", LEMMA: "para"},`
			`{ORTH: "l", LEMMA: DET_LEMMA, NORM: "el"}`
Reorganise language data 2016-12-18 18:54:19 +03:00			`],`

Update Spanish tokenizer Remove reflexive pronouns as they're part of an open class, fix mistakes and add exceptions 2016-12-23 23:35:03 +03:00			`"pala": [`
			`{ORTH: "pa", LEMMA: "para"},`
			`{ORTH: "la", LEMMA: DET_LEMMA}`
Update tokenizer exceptions for Spanish 2016-12-21 20:06:17 +03:00			`],`

			`"aprox.": [`
			`{ORTH: "aprox.", LEMMA: "aproximadamente"}`
			`],`

			`"dna.": [`
			`{ORTH: "dna.", LEMMA: "docena"}`
			`],`

			`"esq.": [`
			`{ORTH: "esq.", LEMMA: "esquina"}`
			`],`

			`"pág.": [`
			`{ORTH: "pág.", LEMMA: "página"}`
			`],`

			`"p.ej.": [`
			`{ORTH: "p.ej.", LEMMA: "por ejemplo"}`
			`],`

			`"Ud.": [`
			`{ORTH: "Ud.", LEMMA: PRON_LEMMA, NORM: "usted"}`
			`],`

			`"Vd.": [`
			`{ORTH: "Vd.", LEMMA: PRON_LEMMA, NORM: "usted"}`
			`],`

			`"Uds.": [`
			`{ORTH: "Uds.", LEMMA: PRON_LEMMA, NORM: "ustedes"}`
			`],`

			`"Vds.": [`
			`{ORTH: "Vds.", LEMMA: PRON_LEMMA, NORM: "ustedes"}`
Reorganise language data 2016-12-18 18:54:19 +03:00			`]`
			`}`


			`ORTH_ONLY = [`
Update tokenizer exceptions for Spanish 2016-12-21 20:06:17 +03:00			`"a.C.",`
			`"a.J.C.",`
			`"apdo.",`
			`"Av.",`
			`"Avda.",`
			`"Cía.",`
			`"etc.",`
			`"Gob.",`
			`"Gral.",`
			`"Ing.",`
			`"J.C.",`
			`"Lic.",`
			`"m.n.",`
			`"no.",`
			`"núm.",`
			`"P.D.",`
			`"Prof.",`
			`"Profa.",`
			`"q.e.p.d."`
			`"S.A.",`
			`"S.L.",`
			`"s.s.s.",`
			`"Sr.",`
			`"Sra.",`
Use global abbreviation data languages and remove duplicates 2017-01-08 22:36:00 +03:00			`"Srta."`
Reorganise language data 2016-12-18 18:54:19 +03:00			`]`