mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-24 17:06:29 +03:00
Auto-format [ci skip]
This commit is contained in:
parent
60e10a9f93
commit
a8752a569d
|
@ -19,7 +19,6 @@ sentences = [
|
|||
"Ко је председник Француске?",
|
||||
# Serbian common and slang
|
||||
"Moj ћале је инжењер!",
|
||||
"Новак Ђоковић је најбољи тенисер света."
|
||||
"У Пироту има добрих кафана!",
|
||||
"Музеј Николе Тесле се налази у Београду."
|
||||
"Новак Ђоковић је најбољи тенисер света." "У Пироту има добрих кафана!",
|
||||
"Музеј Николе Тесле се налази у Београду.",
|
||||
]
|
||||
|
|
|
@ -47,7 +47,7 @@ _num_words = [
|
|||
"милијарду",
|
||||
"трилион",
|
||||
"квадрилион",
|
||||
"квинтилион"
|
||||
"квинтилион",
|
||||
]
|
||||
|
||||
|
||||
|
|
|
@ -15,7 +15,7 @@ _exc = {
|
|||
"бус": "аутобус",
|
||||
"пискарало": "службеник",
|
||||
"бакутанер": "бака",
|
||||
"џибер": "простак"
|
||||
"џибер": "простак",
|
||||
}
|
||||
|
||||
|
||||
|
|
|
@ -15,7 +15,6 @@ _abbrev_exc = [
|
|||
{ORTH: "пет", LEMMA: "петак", NORM: "петак"},
|
||||
{ORTH: "суб", LEMMA: "субота", NORM: "субота"},
|
||||
{ORTH: "нед", LEMMA: "недеља", NORM: "недеља"},
|
||||
|
||||
# Months abbreviations
|
||||
{ORTH: "јан", LEMMA: "јануар", NORM: "јануар"},
|
||||
{ORTH: "феб", LEMMA: "фебруар", NORM: "фебруар"},
|
||||
|
@ -28,7 +27,7 @@ _abbrev_exc = [
|
|||
{ORTH: "септ", LEMMA: "септембар", NORM: "септембар"},
|
||||
{ORTH: "окт", LEMMA: "октобар", NORM: "октобар"},
|
||||
{ORTH: "нов", LEMMA: "новембар", NORM: "новембар"},
|
||||
{ORTH: "дец", LEMMA: "децембар", NORM: "децембар"}
|
||||
{ORTH: "дец", LEMMA: "децембар", NORM: "децембар"},
|
||||
]
|
||||
|
||||
|
||||
|
@ -36,41 +35,43 @@ for abbrev_desc in _abbrev_exc:
|
|||
abbrev = abbrev_desc[ORTH]
|
||||
for orth in (abbrev, abbrev.capitalize(), abbrev.upper()):
|
||||
_exc[orth] = [{ORTH: orth, LEMMA: abbrev_desc[LEMMA], NORM: abbrev_desc[NORM]}]
|
||||
_exc[orth + '.'] = [{ORTH: orth + '.', LEMMA: abbrev_desc[LEMMA], NORM: abbrev_desc[NORM]}]
|
||||
_exc[orth + "."] = [
|
||||
{ORTH: orth + ".", LEMMA: abbrev_desc[LEMMA], NORM: abbrev_desc[NORM]}
|
||||
]
|
||||
|
||||
|
||||
# common abbreviations
|
||||
_slang_exc = [
|
||||
# without dot
|
||||
{ORTH: 'др', LEMMA: 'доктор', NORM: 'доктор'},
|
||||
{ORTH: 'гдин', LEMMA: 'господин', NORM: 'господин'},
|
||||
{ORTH: 'гђа', LEMMA: 'госпођа', NORM: 'госпођа'},
|
||||
{ORTH: 'гђица', LEMMA: 'госпођица', NORM: 'госпођица'},
|
||||
{ORTH: 'мр', LEMMA: 'магистар', NORM: 'магистар'},
|
||||
{ORTH: 'Бгд', LEMMA: 'Београд', NORM: 'београд'},
|
||||
{ORTH: 'цм', LEMMA: 'центиметар', NORM: 'центиметар'},
|
||||
{ORTH: 'м', LEMMA: 'метар', NORM: 'метар'},
|
||||
{ORTH: 'км', LEMMA: 'километар', NORM: 'километар'},
|
||||
{ORTH: 'мг', LEMMA: 'милиграм', NORM: 'милиграм'},
|
||||
{ORTH: 'кг', LEMMA: 'килограм', NORM: 'килограм'},
|
||||
{ORTH: 'дл', LEMMA: 'децилитар', NORM: 'децилитар'},
|
||||
{ORTH: 'хл', LEMMA: 'хектолитар', NORM: 'хектолитар'},
|
||||
{ORTH: "др", LEMMA: "доктор", NORM: "доктор"},
|
||||
{ORTH: "гдин", LEMMA: "господин", NORM: "господин"},
|
||||
{ORTH: "гђа", LEMMA: "госпођа", NORM: "госпођа"},
|
||||
{ORTH: "гђица", LEMMA: "госпођица", NORM: "госпођица"},
|
||||
{ORTH: "мр", LEMMA: "магистар", NORM: "магистар"},
|
||||
{ORTH: "Бгд", LEMMA: "Београд", NORM: "београд"},
|
||||
{ORTH: "цм", LEMMA: "центиметар", NORM: "центиметар"},
|
||||
{ORTH: "м", LEMMA: "метар", NORM: "метар"},
|
||||
{ORTH: "км", LEMMA: "километар", NORM: "километар"},
|
||||
{ORTH: "мг", LEMMA: "милиграм", NORM: "милиграм"},
|
||||
{ORTH: "кг", LEMMA: "килограм", NORM: "килограм"},
|
||||
{ORTH: "дл", LEMMA: "децилитар", NORM: "децилитар"},
|
||||
{ORTH: "хл", LEMMA: "хектолитар", NORM: "хектолитар"},
|
||||
# with dot
|
||||
{ORTH: 'ул.', LEMMA: 'улица', NORM: 'улица'},
|
||||
{ORTH: 'бр.', LEMMA: 'број', NORM: 'број'},
|
||||
{ORTH: 'нпр.', LEMMA: 'на пример', NORM: 'на пример'},
|
||||
{ORTH: 'тзв.', LEMMA: 'такозван', NORM: 'такозван'},
|
||||
{ORTH: 'проф.', LEMMA: 'професор', NORM: 'професор'},
|
||||
{ORTH: 'стр.', LEMMA: 'страна', NORM: 'страна'},
|
||||
{ORTH: 'једн.', LEMMA: 'једнина', NORM: 'једнина'},
|
||||
{ORTH: 'мн.', LEMMA: 'множина', NORM: 'множина'},
|
||||
{ORTH: 'уч.', LEMMA: 'ученик', NORM: 'ученик'},
|
||||
{ORTH: 'разр.', LEMMA: 'разред', NORM: 'разред'},
|
||||
{ORTH: 'инж.', LEMMA: 'инжењер', NORM: 'инжењер'},
|
||||
{ORTH: 'гимн.', LEMMA: 'гимназија', NORM: 'гимназија'},
|
||||
{ORTH: 'год.', LEMMA: 'година', NORM: 'година'},
|
||||
{ORTH: 'мед.', LEMMA: 'медицина', NORM: 'медицина'},
|
||||
{ORTH: 'гимн.', LEMMA: 'гимназија', NORM: 'гимназија'},
|
||||
{ORTH: "ул.", LEMMA: "улица", NORM: "улица"},
|
||||
{ORTH: "бр.", LEMMA: "број", NORM: "број"},
|
||||
{ORTH: "нпр.", LEMMA: "на пример", NORM: "на пример"},
|
||||
{ORTH: "тзв.", LEMMA: "такозван", NORM: "такозван"},
|
||||
{ORTH: "проф.", LEMMA: "професор", NORM: "професор"},
|
||||
{ORTH: "стр.", LEMMA: "страна", NORM: "страна"},
|
||||
{ORTH: "једн.", LEMMA: "једнина", NORM: "једнина"},
|
||||
{ORTH: "мн.", LEMMA: "множина", NORM: "множина"},
|
||||
{ORTH: "уч.", LEMMA: "ученик", NORM: "ученик"},
|
||||
{ORTH: "разр.", LEMMA: "разред", NORM: "разред"},
|
||||
{ORTH: "инж.", LEMMA: "инжењер", NORM: "инжењер"},
|
||||
{ORTH: "гимн.", LEMMA: "гимназија", NORM: "гимназија"},
|
||||
{ORTH: "год.", LEMMA: "година", NORM: "година"},
|
||||
{ORTH: "мед.", LEMMA: "медицина", NORM: "медицина"},
|
||||
{ORTH: "гимн.", LEMMA: "гимназија", NORM: "гимназија"},
|
||||
{ORTH: "акад.", LEMMA: "академик", NORM: "академик"},
|
||||
{ORTH: "доц.", LEMMA: "доцент", NORM: "доцент"},
|
||||
{ORTH: "итд.", LEMMA: "и тако даље", NORM: "и тако даље"},
|
||||
|
@ -85,7 +86,7 @@ _slang_exc = [
|
|||
{ORTH: "ил'", LEMMA: "или", NORM: "или"},
|
||||
{ORTH: "је л'", LEMMA: "је ли", NORM: "је ли"},
|
||||
{ORTH: "да л'", LEMMA: "да ли", NORM: "да ли"},
|
||||
{ORTH: "држ'те", LEMMA: "држати", NORM: "држите"}
|
||||
{ORTH: "држ'те", LEMMA: "држати", NORM: "држите"},
|
||||
]
|
||||
|
||||
for slang_desc in _slang_exc:
|
||||
|
|
Loading…
Reference in New Issue
Block a user