From a8752a569dd0992f72262643bde65918b04dbc6a Mon Sep 17 00:00:00 2001 From: Ines Montani Date: Thu, 22 Aug 2019 11:44:39 +0200 Subject: [PATCH] Auto-format [ci skip] --- spacy/lang/sr/examples.py | 5 +-- spacy/lang/sr/lex_attrs.py | 2 +- spacy/lang/sr/norm_exceptions.py | 2 +- spacy/lang/sr/tokenizer_exceptions.py | 65 ++++++++++++++------------- 4 files changed, 37 insertions(+), 37 deletions(-) diff --git a/spacy/lang/sr/examples.py b/spacy/lang/sr/examples.py index fb75f716d..c501a0262 100644 --- a/spacy/lang/sr/examples.py +++ b/spacy/lang/sr/examples.py @@ -19,7 +19,6 @@ sentences = [ "Ко је председник Француске?", # Serbian common and slang "Moj ћале је инжењер!", - "Новак Ђоковић је најбољи тенисер света." - "У Пироту има добрих кафана!", - "Музеј Николе Тесле се налази у Београду." + "Новак Ђоковић је најбољи тенисер света." "У Пироту има добрих кафана!", + "Музеј Николе Тесле се налази у Београду.", ] diff --git a/spacy/lang/sr/lex_attrs.py b/spacy/lang/sr/lex_attrs.py index 8909b7958..c90dc0da7 100644 --- a/spacy/lang/sr/lex_attrs.py +++ b/spacy/lang/sr/lex_attrs.py @@ -47,7 +47,7 @@ _num_words = [ "милијарду", "трилион", "квадрилион", - "квинтилион" + "квинтилион", ] diff --git a/spacy/lang/sr/norm_exceptions.py b/spacy/lang/sr/norm_exceptions.py index 25db66532..69f2c3173 100644 --- a/spacy/lang/sr/norm_exceptions.py +++ b/spacy/lang/sr/norm_exceptions.py @@ -15,7 +15,7 @@ _exc = { "бус": "аутобус", "пискарало": "службеник", "бакутанер": "бака", - "џибер": "простак" + "џибер": "простак", } diff --git a/spacy/lang/sr/tokenizer_exceptions.py b/spacy/lang/sr/tokenizer_exceptions.py index 8fdfd91b8..8fca346a3 100755 --- a/spacy/lang/sr/tokenizer_exceptions.py +++ b/spacy/lang/sr/tokenizer_exceptions.py @@ -15,7 +15,6 @@ _abbrev_exc = [ {ORTH: "пет", LEMMA: "петак", NORM: "петак"}, {ORTH: "суб", LEMMA: "субота", NORM: "субота"}, {ORTH: "нед", LEMMA: "недеља", NORM: "недеља"}, - # Months abbreviations {ORTH: "јан", LEMMA: "јануар", NORM: "јануар"}, {ORTH: "феб", LEMMA: "фебруар", NORM: "фебруар"}, @@ -28,7 +27,7 @@ _abbrev_exc = [ {ORTH: "септ", LEMMA: "септембар", NORM: "септембар"}, {ORTH: "окт", LEMMA: "октобар", NORM: "октобар"}, {ORTH: "нов", LEMMA: "новембар", NORM: "новембар"}, - {ORTH: "дец", LEMMA: "децембар", NORM: "децембар"} + {ORTH: "дец", LEMMA: "децембар", NORM: "децембар"}, ] @@ -36,41 +35,43 @@ for abbrev_desc in _abbrev_exc: abbrev = abbrev_desc[ORTH] for orth in (abbrev, abbrev.capitalize(), abbrev.upper()): _exc[orth] = [{ORTH: orth, LEMMA: abbrev_desc[LEMMA], NORM: abbrev_desc[NORM]}] - _exc[orth + '.'] = [{ORTH: orth + '.', LEMMA: abbrev_desc[LEMMA], NORM: abbrev_desc[NORM]}] + _exc[orth + "."] = [ + {ORTH: orth + ".", LEMMA: abbrev_desc[LEMMA], NORM: abbrev_desc[NORM]} + ] # common abbreviations _slang_exc = [ # without dot - {ORTH: 'др', LEMMA: 'доктор', NORM: 'доктор'}, - {ORTH: 'гдин', LEMMA: 'господин', NORM: 'господин'}, - {ORTH: 'гђа', LEMMA: 'госпођа', NORM: 'госпођа'}, - {ORTH: 'гђица', LEMMA: 'госпођица', NORM: 'госпођица'}, - {ORTH: 'мр', LEMMA: 'магистар', NORM: 'магистар'}, - {ORTH: 'Бгд', LEMMA: 'Београд', NORM: 'београд'}, - {ORTH: 'цм', LEMMA: 'центиметар', NORM: 'центиметар'}, - {ORTH: 'м', LEMMA: 'метар', NORM: 'метар'}, - {ORTH: 'км', LEMMA: 'километар', NORM: 'километар'}, - {ORTH: 'мг', LEMMA: 'милиграм', NORM: 'милиграм'}, - {ORTH: 'кг', LEMMA: 'килограм', NORM: 'килограм'}, - {ORTH: 'дл', LEMMA: 'децилитар', NORM: 'децилитар'}, - {ORTH: 'хл', LEMMA: 'хектолитар', NORM: 'хектолитар'}, + {ORTH: "др", LEMMA: "доктор", NORM: "доктор"}, + {ORTH: "гдин", LEMMA: "господин", NORM: "господин"}, + {ORTH: "гђа", LEMMA: "госпођа", NORM: "госпођа"}, + {ORTH: "гђица", LEMMA: "госпођица", NORM: "госпођица"}, + {ORTH: "мр", LEMMA: "магистар", NORM: "магистар"}, + {ORTH: "Бгд", LEMMA: "Београд", NORM: "београд"}, + {ORTH: "цм", LEMMA: "центиметар", NORM: "центиметар"}, + {ORTH: "м", LEMMA: "метар", NORM: "метар"}, + {ORTH: "км", LEMMA: "километар", NORM: "километар"}, + {ORTH: "мг", LEMMA: "милиграм", NORM: "милиграм"}, + {ORTH: "кг", LEMMA: "килограм", NORM: "килограм"}, + {ORTH: "дл", LEMMA: "децилитар", NORM: "децилитар"}, + {ORTH: "хл", LEMMA: "хектолитар", NORM: "хектолитар"}, # with dot - {ORTH: 'ул.', LEMMA: 'улица', NORM: 'улица'}, - {ORTH: 'бр.', LEMMA: 'број', NORM: 'број'}, - {ORTH: 'нпр.', LEMMA: 'на пример', NORM: 'на пример'}, - {ORTH: 'тзв.', LEMMA: 'такозван', NORM: 'такозван'}, - {ORTH: 'проф.', LEMMA: 'професор', NORM: 'професор'}, - {ORTH: 'стр.', LEMMA: 'страна', NORM: 'страна'}, - {ORTH: 'једн.', LEMMA: 'једнина', NORM: 'једнина'}, - {ORTH: 'мн.', LEMMA: 'множина', NORM: 'множина'}, - {ORTH: 'уч.', LEMMA: 'ученик', NORM: 'ученик'}, - {ORTH: 'разр.', LEMMA: 'разред', NORM: 'разред'}, - {ORTH: 'инж.', LEMMA: 'инжењер', NORM: 'инжењер'}, - {ORTH: 'гимн.', LEMMA: 'гимназија', NORM: 'гимназија'}, - {ORTH: 'год.', LEMMA: 'година', NORM: 'година'}, - {ORTH: 'мед.', LEMMA: 'медицина', NORM: 'медицина'}, - {ORTH: 'гимн.', LEMMA: 'гимназија', NORM: 'гимназија'}, + {ORTH: "ул.", LEMMA: "улица", NORM: "улица"}, + {ORTH: "бр.", LEMMA: "број", NORM: "број"}, + {ORTH: "нпр.", LEMMA: "на пример", NORM: "на пример"}, + {ORTH: "тзв.", LEMMA: "такозван", NORM: "такозван"}, + {ORTH: "проф.", LEMMA: "професор", NORM: "професор"}, + {ORTH: "стр.", LEMMA: "страна", NORM: "страна"}, + {ORTH: "једн.", LEMMA: "једнина", NORM: "једнина"}, + {ORTH: "мн.", LEMMA: "множина", NORM: "множина"}, + {ORTH: "уч.", LEMMA: "ученик", NORM: "ученик"}, + {ORTH: "разр.", LEMMA: "разред", NORM: "разред"}, + {ORTH: "инж.", LEMMA: "инжењер", NORM: "инжењер"}, + {ORTH: "гимн.", LEMMA: "гимназија", NORM: "гимназија"}, + {ORTH: "год.", LEMMA: "година", NORM: "година"}, + {ORTH: "мед.", LEMMA: "медицина", NORM: "медицина"}, + {ORTH: "гимн.", LEMMA: "гимназија", NORM: "гимназија"}, {ORTH: "акад.", LEMMA: "академик", NORM: "академик"}, {ORTH: "доц.", LEMMA: "доцент", NORM: "доцент"}, {ORTH: "итд.", LEMMA: "и тако даље", NORM: "и тако даље"}, @@ -85,7 +86,7 @@ _slang_exc = [ {ORTH: "ил'", LEMMA: "или", NORM: "или"}, {ORTH: "је л'", LEMMA: "је ли", NORM: "је ли"}, {ORTH: "да л'", LEMMA: "да ли", NORM: "да ли"}, - {ORTH: "држ'те", LEMMA: "држати", NORM: "држите"} + {ORTH: "држ'те", LEMMA: "држати", NORM: "држите"}, ] for slang_desc in _slang_exc: