spaCy/spacy/lang/sr/tokenizer_exceptions.py

from .lex_attrs import _cyr_to_latin_norm
from ..tokenizer_exceptions import BASE_EXCEPTIONS
from ...symbols import ORTH, NORM
from ...util import update_exc


_exc = {}

_abbrev_exc = [
    # Weekdays abbreviations
    {ORTH: "пoн", NORM: "понедељак"},
    {ORTH: "уто", NORM: "уторак"},
    {ORTH: "сре", NORM: "среда"},
    {ORTH: "чет", NORM: "четвртак"},
    {ORTH: "пет", NORM: "петак"},
    {ORTH: "суб", NORM: "субота"},
    {ORTH: "нед", NORM: "недеља"},
    # Months abbreviations
    {ORTH: "јан", NORM: "јануар"},
    {ORTH: "феб", NORM: "фебруар"},
    {ORTH: "мар", NORM: "март"},
    {ORTH: "апр", NORM: "април"},
    {ORTH: "јуни", NORM: "јун"},
    {ORTH: "јули", NORM: "јул"},
    {ORTH: "авг", NORM: "август"},
    {ORTH: "сеп", NORM: "септембар"},
    {ORTH: "септ", NORM: "септембар"},
    {ORTH: "окт", NORM: "октобар"},
    {ORTH: "нов", NORM: "новембар"},
    {ORTH: "дец", NORM: "децембар"},
]


for abbrev_desc in _abbrev_exc:
    abbrev = abbrev_desc[ORTH]
    for orth in (abbrev, abbrev.capitalize(), abbrev.upper()):
        _exc[orth] = [{ORTH: orth, NORM: abbrev_desc[NORM]}]
        _exc[orth + "."] = [{ORTH: orth + ".", NORM: abbrev_desc[NORM]}]


# common abbreviations
_slang_exc = [
    # without dot
    {ORTH: "др", NORM: "доктор"},
    {ORTH: "гдин", NORM: "господин"},
    {ORTH: "гђа", NORM: "госпођа"},
    {ORTH: "гђица", NORM: "госпођица"},
    {ORTH: "мр", NORM: "магистар"},
    {ORTH: "Бгд", NORM: "београд"},
    {ORTH: "цм", NORM: "центиметар"},
    {ORTH: "м", NORM: "метар"},
    {ORTH: "км", NORM: "километар"},
    {ORTH: "мг", NORM: "милиграм"},
    {ORTH: "кг", NORM: "килограм"},
    {ORTH: "дл", NORM: "децилитар"},
    {ORTH: "хл", NORM: "хектолитар"},
    # with dot
    {ORTH: "ул.", NORM: "улица"},
    {ORTH: "бр.", NORM: "број"},
    {ORTH: "нпр.", NORM: "на пример"},
    {ORTH: "тзв.", NORM: "такозван"},
    {ORTH: "проф.", NORM: "професор"},
    {ORTH: "стр.", NORM: "страна"},
    {ORTH: "једн.", NORM: "једнина"},
    {ORTH: "мн.", NORM: "множина"},
    {ORTH: "уч.", NORM: "ученик"},
    {ORTH: "разр.", NORM: "разред"},
    {ORTH: "инж.", NORM: "инжењер"},
    {ORTH: "гимн.", NORM: "гимназија"},
    {ORTH: "год.", NORM: "година"},
    {ORTH: "мед.", NORM: "медицина"},
    {ORTH: "гимн.", NORM: "гимназија"},
    {ORTH: "акад.", NORM: "академик"},
    {ORTH: "доц.", NORM: "доцент"},
    {ORTH: "итд.", NORM: "и тако даље"},
    {ORTH: "и сл.", NORM: "и слично"},
    {ORTH: "н.е.", NORM: "нове ере"},
    {ORTH: "о.г.", NORM: "ове године"},
    {ORTH: "л.к.", NORM: "лична карта"},
    {ORTH: "в.д.", NORM: "вршилац дужности"},
    {ORTH: "стр.", NORM: "страна"},
    # with qoute
    {ORTH: "ал'", NORM: "али"},
    {ORTH: "ил'", NORM: "или"},
    {ORTH: "је л'", NORM: "је ли"},
    {ORTH: "да л'", NORM: "да ли"},
    {ORTH: "држ'те", NORM: "држите"},
]

for slang_desc in _slang_exc:
    _exc[slang_desc[ORTH]] = [slang_desc]

for _exc_key in _exc:
    _exc[_exc_key][0][NORM] = _cyr_to_latin_norm(_exc[_exc_key][0][NORM])

TOKENIZER_EXCEPTIONS = update_exc(BASE_EXCEPTIONS, _exc)
-												Use Latin normalization for Serbian attrs (#12608)

* Use Latin normalization for Serbian attrs

Use Latin normalization for Serbian `NORM`, `PREFIX`, and `SUFFIX`.

* Update NORMs in tokenizer exceptions and related tests

* Add tests for all custom lex attrs

* Remove unused imports
											
										
										
											2023-05-08 13:33:56 +03:00
+								from .lex_attrs import _cyr_to_latin_norm
-												Tidy up and move noun_chunks, token_match, url_match

											
										
										
											2020-07-22 23:18:46 +03:00
+								from ..tokenizer_exceptions import BASE_EXCEPTIONS
-												Remove POS, TAG and LEMMA from tokenizer exceptions

											
										
										
											2020-07-23 00:09:01 +03:00
+								from ...symbols import ORTH, NORM
-												Tidy up and move noun_chunks, token_match, url_match

											
										
										
											2020-07-22 23:18:46 +03:00
+								from ...util import update_exc
-												Serbian language improvement  (#4169)

* Serbian stopwords added. (cyrillic alphabet)

* spaCy Contribution agreement included.

* Test initialize updated

* Serbian language code update. --bugfix

* Tokenizer exceptions added. Init file updated.

* Norm exceptions and lexical attributes added.

* Examples added.

* Tests added.

* sr_lang examples update.

* Tokenizer exceptions updated. (Serbian)

											
										
										
											2019-08-22 12:43:07 +03:00
 								_exc = {}
 								_abbrev_exc = [
 								    # Weekdays abbreviations
-												Remove POS, TAG and LEMMA from tokenizer exceptions

											
										
										
											2020-07-23 00:09:01 +03:00
+								    {ORTH: "пoн", NORM: "понедељак"},
 								    {ORTH: "уто", NORM: "уторак"},
 								    {ORTH: "сре", NORM: "среда"},
 								    {ORTH: "чет", NORM: "четвртак"},
 								    {ORTH: "пет", NORM: "петак"},
 								    {ORTH: "суб", NORM: "субота"},
 								    {ORTH: "нед", NORM: "недеља"},
-												Serbian language improvement  (#4169)

* Serbian stopwords added. (cyrillic alphabet)

* spaCy Contribution agreement included.

* Test initialize updated

* Serbian language code update. --bugfix

* Tokenizer exceptions added. Init file updated.

* Norm exceptions and lexical attributes added.

* Examples added.

* Tests added.

* sr_lang examples update.

* Tokenizer exceptions updated. (Serbian)

											
										
										
											2019-08-22 12:43:07 +03:00
+								    # Months abbreviations
-												Remove POS, TAG and LEMMA from tokenizer exceptions

											
										
										
											2020-07-23 00:09:01 +03:00
+								    {ORTH: "јан", NORM: "јануар"},
 								    {ORTH: "феб", NORM: "фебруар"},
 								    {ORTH: "мар", NORM: "март"},
 								    {ORTH: "апр", NORM: "април"},
 								    {ORTH: "јуни", NORM: "јун"},
 								    {ORTH: "јули", NORM: "јул"},
 								    {ORTH: "авг", NORM: "август"},
 								    {ORTH: "сеп", NORM: "септембар"},
 								    {ORTH: "септ", NORM: "септембар"},
 								    {ORTH: "окт", NORM: "октобар"},
 								    {ORTH: "нов", NORM: "новембар"},
 								    {ORTH: "дец", NORM: "децембар"},
-												Serbian language improvement  (#4169)

* Serbian stopwords added. (cyrillic alphabet)

* spaCy Contribution agreement included.

* Test initialize updated

* Serbian language code update. --bugfix

* Tokenizer exceptions added. Init file updated.

* Norm exceptions and lexical attributes added.

* Examples added.

* Tests added.

* sr_lang examples update.

* Tokenizer exceptions updated. (Serbian)

											
										
										
											2019-08-22 12:43:07 +03:00
+								]
 								for abbrev_desc in _abbrev_exc:
 								    abbrev = abbrev_desc[ORTH]
 								    for orth in (abbrev, abbrev.capitalize(), abbrev.upper()):
-												Remove POS, TAG and LEMMA from tokenizer exceptions

											
										
										
											2020-07-23 00:09:01 +03:00
+								        _exc[orth] = [{ORTH: orth, NORM: abbrev_desc[NORM]}]
 								        _exc[orth + "."] = [{ORTH: orth + ".", NORM: abbrev_desc[NORM]}]
-												Serbian language improvement  (#4169)

* Serbian stopwords added. (cyrillic alphabet)

* spaCy Contribution agreement included.

* Test initialize updated

* Serbian language code update. --bugfix

* Tokenizer exceptions added. Init file updated.

* Norm exceptions and lexical attributes added.

* Examples added.

* Tests added.

* sr_lang examples update.

* Tokenizer exceptions updated. (Serbian)

											
										
										
											2019-08-22 12:43:07 +03:00
 								# common abbreviations
 								_slang_exc = [
 								    # without dot
-												Remove POS, TAG and LEMMA from tokenizer exceptions

											
										
										
											2020-07-23 00:09:01 +03:00
+								    {ORTH: "др", NORM: "доктор"},
 								    {ORTH: "гдин", NORM: "господин"},
 								    {ORTH: "гђа", NORM: "госпођа"},
 								    {ORTH: "гђица", NORM: "госпођица"},
 								    {ORTH: "мр", NORM: "магистар"},
 								    {ORTH: "Бгд", NORM: "београд"},
 								    {ORTH: "цм", NORM: "центиметар"},
 								    {ORTH: "м", NORM: "метар"},
 								    {ORTH: "км", NORM: "километар"},
 								    {ORTH: "мг", NORM: "милиграм"},
 								    {ORTH: "кг", NORM: "килограм"},
 								    {ORTH: "дл", NORM: "децилитар"},
 								    {ORTH: "хл", NORM: "хектолитар"},
-												Serbian language improvement  (#4169)

* Serbian stopwords added. (cyrillic alphabet)

* spaCy Contribution agreement included.

* Test initialize updated

* Serbian language code update. --bugfix

* Tokenizer exceptions added. Init file updated.

* Norm exceptions and lexical attributes added.

* Examples added.

* Tests added.

* sr_lang examples update.

* Tokenizer exceptions updated. (Serbian)

											
										
										
											2019-08-22 12:43:07 +03:00
+								    # with dot
-												Remove POS, TAG and LEMMA from tokenizer exceptions

											
										
										
											2020-07-23 00:09:01 +03:00
+								    {ORTH: "ул.", NORM: "улица"},
 								    {ORTH: "бр.", NORM: "број"},
 								    {ORTH: "нпр.", NORM: "на пример"},
 								    {ORTH: "тзв.", NORM: "такозван"},
 								    {ORTH: "проф.", NORM: "професор"},
 								    {ORTH: "стр.", NORM: "страна"},
 								    {ORTH: "једн.", NORM: "једнина"},
 								    {ORTH: "мн.", NORM: "множина"},
 								    {ORTH: "уч.", NORM: "ученик"},
 								    {ORTH: "разр.", NORM: "разред"},
 								    {ORTH: "инж.", NORM: "инжењер"},
 								    {ORTH: "гимн.", NORM: "гимназија"},
 								    {ORTH: "год.", NORM: "година"},
 								    {ORTH: "мед.", NORM: "медицина"},
 								    {ORTH: "гимн.", NORM: "гимназија"},
 								    {ORTH: "акад.", NORM: "академик"},
 								    {ORTH: "доц.", NORM: "доцент"},
 								    {ORTH: "итд.", NORM: "и тако даље"},
 								    {ORTH: "и сл.", NORM: "и слично"},
 								    {ORTH: "н.е.", NORM: "нове ере"},
 								    {ORTH: "о.г.", NORM: "ове године"},
 								    {ORTH: "л.к.", NORM: "лична карта"},
 								    {ORTH: "в.д.", NORM: "вршилац дужности"},
 								    {ORTH: "стр.", NORM: "страна"},
-												Serbian language improvement  (#4169)

* Serbian stopwords added. (cyrillic alphabet)

* spaCy Contribution agreement included.

* Test initialize updated

* Serbian language code update. --bugfix

* Tokenizer exceptions added. Init file updated.

* Norm exceptions and lexical attributes added.

* Examples added.

* Tests added.

* sr_lang examples update.

* Tokenizer exceptions updated. (Serbian)

											
										
										
											2019-08-22 12:43:07 +03:00
+								    # with qoute
-												Remove POS, TAG and LEMMA from tokenizer exceptions

											
										
										
											2020-07-23 00:09:01 +03:00
+								    {ORTH: "ал'", NORM: "али"},
 								    {ORTH: "ил'", NORM: "или"},
 								    {ORTH: "је л'", NORM: "је ли"},
 								    {ORTH: "да л'", NORM: "да ли"},
 								    {ORTH: "држ'те", NORM: "држите"},
-												Serbian language improvement  (#4169)

* Serbian stopwords added. (cyrillic alphabet)

* spaCy Contribution agreement included.

* Test initialize updated

* Serbian language code update. --bugfix

* Tokenizer exceptions added. Init file updated.

* Norm exceptions and lexical attributes added.

* Examples added.

* Tests added.

* sr_lang examples update.

* Tokenizer exceptions updated. (Serbian)

											
										
										
											2019-08-22 12:43:07 +03:00
+								]
 								for slang_desc in _slang_exc:
 								    _exc[slang_desc[ORTH]] = [slang_desc]
-												Use Latin normalization for Serbian attrs (#12608)

* Use Latin normalization for Serbian attrs

Use Latin normalization for Serbian `NORM`, `PREFIX`, and `SUFFIX`.

* Update NORMs in tokenizer exceptions and related tests

* Add tests for all custom lex attrs

* Remove unused imports
											
										
										
											2023-05-08 13:33:56 +03:00
+								for _exc_key in _exc:
 								    _exc[_exc_key][0][NORM] = _cyr_to_latin_norm(_exc[_exc_key][0][NORM])
-												Serbian language improvement  (#4169)

* Serbian stopwords added. (cyrillic alphabet)

* spaCy Contribution agreement included.

* Test initialize updated

* Serbian language code update. --bugfix

* Tokenizer exceptions added. Init file updated.

* Norm exceptions and lexical attributes added.

* Examples added.

* Tests added.

* sr_lang examples update.

* Tokenizer exceptions updated. (Serbian)

											
										
										
											2019-08-22 12:43:07 +03:00
-												Tidy up and move noun_chunks, token_match, url_match

											
										
										
											2020-07-22 23:18:46 +03:00
+								TOKENIZER_EXCEPTIONS = update_exc(BASE_EXCEPTIONS, _exc)