mirror of
https://github.com/explosion/spaCy.git
synced 2025-01-12 18:26:30 +03:00
Modifications/updates to Portuguese tokenization (#5203)
Modifications to Portuguese tokenization for UD_Portuguese-Bosque. Instead of splitting contactions as exceptions, they are kept as merged tokens.
This commit is contained in:
parent
4117a5c705
commit
923a453449
|
@ -4,69 +4,47 @@ from __future__ import unicode_literals
|
||||||
from ...symbols import ORTH, NORM
|
from ...symbols import ORTH, NORM
|
||||||
|
|
||||||
|
|
||||||
_exc = {
|
_exc = {}
|
||||||
"às": [{ORTH: "à", NORM: "a"}, {ORTH: "s", NORM: "as"}],
|
|
||||||
"ao": [{ORTH: "a"}, {ORTH: "o"}],
|
|
||||||
"aos": [{ORTH: "a"}, {ORTH: "os"}],
|
|
||||||
"àquele": [{ORTH: "à", NORM: "a"}, {ORTH: "quele", NORM: "aquele"}],
|
|
||||||
"àquela": [{ORTH: "à", NORM: "a"}, {ORTH: "quela", NORM: "aquela"}],
|
|
||||||
"àqueles": [{ORTH: "à", NORM: "a"}, {ORTH: "queles", NORM: "aqueles"}],
|
|
||||||
"àquelas": [{ORTH: "à", NORM: "a"}, {ORTH: "quelas", NORM: "aquelas"}],
|
|
||||||
"àquilo": [{ORTH: "à", NORM: "a"}, {ORTH: "quilo", NORM: "aquilo"}],
|
|
||||||
"aonde": [{ORTH: "a"}, {ORTH: "onde"}],
|
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
# Contractions
|
|
||||||
_per_pron = ["ele", "ela", "eles", "elas"]
|
|
||||||
_dem_pron = [
|
|
||||||
"este",
|
|
||||||
"esta",
|
|
||||||
"estes",
|
|
||||||
"estas",
|
|
||||||
"isto",
|
|
||||||
"esse",
|
|
||||||
"essa",
|
|
||||||
"esses",
|
|
||||||
"essas",
|
|
||||||
"isso",
|
|
||||||
"aquele",
|
|
||||||
"aquela",
|
|
||||||
"aqueles",
|
|
||||||
"aquelas",
|
|
||||||
"aquilo",
|
|
||||||
]
|
|
||||||
_und_pron = ["outro", "outra", "outros", "outras"]
|
|
||||||
_adv = ["aqui", "aí", "ali", "além"]
|
|
||||||
|
|
||||||
|
|
||||||
for orth in _per_pron + _dem_pron + _und_pron + _adv:
|
|
||||||
_exc["d" + orth] = [{ORTH: "d", NORM: "de"}, {ORTH: orth}]
|
|
||||||
|
|
||||||
for orth in _per_pron + _dem_pron + _und_pron:
|
|
||||||
_exc["n" + orth] = [{ORTH: "n", NORM: "em"}, {ORTH: orth}]
|
|
||||||
|
|
||||||
|
|
||||||
for orth in [
|
for orth in [
|
||||||
"Adm.",
|
"Adm.",
|
||||||
|
"Art.",
|
||||||
|
"art.",
|
||||||
|
"Av.",
|
||||||
|
"av.",
|
||||||
|
"Cia.",
|
||||||
|
"dom.",
|
||||||
"Dr.",
|
"Dr.",
|
||||||
|
"dr.",
|
||||||
"e.g.",
|
"e.g.",
|
||||||
"E.g.",
|
"E.g.",
|
||||||
"E.G.",
|
"E.G.",
|
||||||
|
"e/ou",
|
||||||
|
"ed.",
|
||||||
|
"eng.",
|
||||||
|
"etc.",
|
||||||
|
"Fund.",
|
||||||
"Gen.",
|
"Gen.",
|
||||||
"Gov.",
|
"Gov.",
|
||||||
"i.e.",
|
"i.e.",
|
||||||
"I.e.",
|
"I.e.",
|
||||||
"I.E.",
|
"I.E.",
|
||||||
|
"Inc.",
|
||||||
"Jr.",
|
"Jr.",
|
||||||
|
"km/h",
|
||||||
"Ltd.",
|
"Ltd.",
|
||||||
|
"Mr.",
|
||||||
"p.m.",
|
"p.m.",
|
||||||
"Ph.D.",
|
"Ph.D.",
|
||||||
"Rep.",
|
"Rep.",
|
||||||
"Rev.",
|
"Rev.",
|
||||||
|
"S/A",
|
||||||
"Sen.",
|
"Sen.",
|
||||||
"Sr.",
|
"Sr.",
|
||||||
|
"sr.",
|
||||||
"Sra.",
|
"Sra.",
|
||||||
|
"sra.",
|
||||||
"vs.",
|
"vs.",
|
||||||
"tel.",
|
"tel.",
|
||||||
"pág.",
|
"pág.",
|
||||||
|
|
Loading…
Reference in New Issue
Block a user