spaCy/spacy/lang/pt/tokenizer_exceptions.py

# coding: utf8
from __future__ import unicode_literals

from ...symbols import ORTH, LEMMA, NORM, PRON_LEMMA


_exc = {
    "às": [
        {ORTH: "à", NORM: "a"},
        {ORTH: "s", NORM: "as"}],

    "ao": [
        {ORTH: "a"},
        {ORTH: "o"}],

    "aos": [
        {ORTH: "a"},
        {ORTH: "os"}],

    "àquele": [
        {ORTH: "à", NORM: "a"},
        {ORTH: "quele", NORM: "aquele"}],

    "àquela": [
        {ORTH: "à", NORM: "a"},
        {ORTH: "quela", NORM: "aquela"}],

    "àqueles": [
        {ORTH: "à", NORM: "a"},
        {ORTH: "queles", NORM: "aqueles"}],

    "àquelas": [
        {ORTH: "à", NORM: "a"},
        {ORTH: "quelas", NORM: "aquelas"}],

    "àquilo": [
        {ORTH: "à", NORM: "a"},
        {ORTH: "quilo", NORM: "aquilo"}],

    "aonde": [
        {ORTH: "a"},
        {ORTH: "onde"}]
}


# Contractions

_per_pron = ["ele", "ela", "eles", "elas"]
_dem_pron = ["este", "esta", "estes", "estas", "isto", "esse", "essa", "esses",
             "essas", "isso", "aquele", "aquela", "aqueles", "aquelas", "aquilo"]
_und_pron = ["outro", "outra", "outros", "outras"]
_adv = ["aqui", "aí", "ali", "além"]


for orth in _per_pron + _dem_pron + _und_pron + _adv:
    _exc["d" + orth] = [
        {ORTH: "d", NORM: "de"},
        {ORTH: orth}]

for orth in _per_pron + _dem_pron + _und_pron:
    _exc["n" + orth] = [
        {ORTH: "n", NORM: "em"},
        {ORTH: orth}]


for orth in [
    "Adm.", "Dr.", "e.g.", "E.g.", "E.G.", "Gen.", "Gov.", "i.e.", "I.e.",
    "I.E.", "Jr.", "Ltd.", "p.m.", "Ph.D.", "Rep.", "Rev.", "Sen.", "Sr.",
    "Sra.", "vs."]:
    _exc[orth] = [{ORTH: orth}]


TOKENIZER_EXCEPTIONS = _exc
Portuguese contractions and some abreviations 2017-03-31 17:52:55 +03:00			`# coding: utf8`
			`from __future__ import unicode_literals`

Fix PRON_LEMMA imports 2017-11-06 19:41:53 +03:00			`from ...symbols import ORTH, LEMMA, NORM, PRON_LEMMA`
Portuguese contractions and some abreviations 2017-03-31 17:52:55 +03:00

Reorganise Portuguese language data 2017-05-08 16:52:01 +03:00			`_exc = {`
Portuguese contractions and some abreviations 2017-03-31 17:52:55 +03:00			`"às": [`
			`{ORTH: "à", NORM: "a"},`
Reorganise Portuguese language data 2017-05-08 16:52:01 +03:00			`{ORTH: "s", NORM: "as"}],`

Portuguese contractions and some abreviations 2017-03-31 17:52:55 +03:00			`"ao": [`
			`{ORTH: "a"},`
Reorganise Portuguese language data 2017-05-08 16:52:01 +03:00			`{ORTH: "o"}],`

Portuguese contractions and some abreviations 2017-03-31 17:52:55 +03:00			`"aos": [`
			`{ORTH: "a"},`
Reorganise Portuguese language data 2017-05-08 16:52:01 +03:00			`{ORTH: "os"}],`

Portuguese contractions and some abreviations 2017-03-31 17:52:55 +03:00			`"àquele": [`
			`{ORTH: "à", NORM: "a"},`
Reorganise Portuguese language data 2017-05-08 16:52:01 +03:00			`{ORTH: "quele", NORM: "aquele"}],`

Portuguese contractions and some abreviations 2017-03-31 17:52:55 +03:00			`"àquela": [`
			`{ORTH: "à", NORM: "a"},`
Reorganise Portuguese language data 2017-05-08 16:52:01 +03:00			`{ORTH: "quela", NORM: "aquela"}],`

Portuguese contractions and some abreviations 2017-03-31 17:52:55 +03:00			`"àqueles": [`
			`{ORTH: "à", NORM: "a"},`
Reorganise Portuguese language data 2017-05-08 16:52:01 +03:00			`{ORTH: "queles", NORM: "aqueles"}],`

Portuguese contractions and some abreviations 2017-03-31 17:52:55 +03:00			`"àquelas": [`
			`{ORTH: "à", NORM: "a"},`
Reorganise Portuguese language data 2017-05-08 16:52:01 +03:00			`{ORTH: "quelas", NORM: "aquelas"}],`

Portuguese contractions and some abreviations 2017-03-31 17:52:55 +03:00			`"àquilo": [`
			`{ORTH: "à", NORM: "a"},`
Reorganise Portuguese language data 2017-05-08 16:52:01 +03:00			`{ORTH: "quilo", NORM: "aquilo"}],`

Portuguese contractions and some abreviations 2017-03-31 17:52:55 +03:00			`"aonde": [`
			`{ORTH: "a"},`
Reorganise Portuguese language data 2017-05-08 16:52:01 +03:00			`{ORTH: "onde"}]`
			`}`


			`# Contractions`

			`_per_pron = ["ele", "ela", "eles", "elas"]`
			`_dem_pron = ["este", "esta", "estes", "estas", "isto", "esse", "essa", "esses",`
			`"essas", "isso", "aquele", "aquela", "aqueles", "aquelas", "aquilo"]`
			`_und_pron = ["outro", "outra", "outros", "outras"]`
			`_adv = ["aqui", "aí", "ali", "além"]`


			`for orth in _per_pron + _dem_pron + _und_pron + _adv:`
			`_exc["d" + orth] = [`
			`{ORTH: "d", NORM: "de"},`
			`{ORTH: orth}]`

			`for orth in _per_pron + _dem_pron + _und_pron:`
			`_exc["n" + orth] = [`
			`{ORTH: "n", NORM: "em"},`
			`{ORTH: orth}]`



			`for orth in [`
			`"Adm.", "Dr.", "e.g.", "E.g.", "E.G.", "Gen.", "Gov.", "i.e.", "I.e.",`
			`"I.E.", "Jr.", "Ltd.", "p.m.", "Ph.D.", "Rep.", "Rev.", "Sen.", "Sr.",`
			`"Sra.", "vs."]:`
			`_exc[orth] = [{ORTH: orth}]`


Don't copy exception dicts if not necessary and tidy up 2017-10-31 23:05:29 +03:00			`TOKENIZER_EXCEPTIONS = _exc`