mirror of
https://github.com/explosion/spaCy.git
synced 2025-01-12 02:06:31 +03:00
Improve the stop words and the tokenizer exceptions in Bulgarian language. (#8862)
* Add more stop words and Improve the readability * Add and categorize the tokenizer exceptions for `bg` lang * Create syrull.md * Add references for the additional stop words and tokenizer exc abbrs
This commit is contained in:
parent
415dee587c
commit
733ffe439d
106
.github/contributors/syrull.md
vendored
Normal file
106
.github/contributors/syrull.md
vendored
Normal file
|
@ -0,0 +1,106 @@
|
||||||
|
# spaCy contributor agreement
|
||||||
|
|
||||||
|
This spaCy Contributor Agreement (**"SCA"**) is based on the
|
||||||
|
[Oracle Contributor Agreement](http://www.oracle.com/technetwork/oca-405177.pdf).
|
||||||
|
The SCA applies to any contribution that you make to any product or project
|
||||||
|
managed by us (the **"project"**), and sets out the intellectual property rights
|
||||||
|
you grant to us in the contributed materials. The term **"us"** shall mean
|
||||||
|
[ExplosionAI GmbH](https://explosion.ai/legal). The term
|
||||||
|
**"you"** shall mean the person or entity identified below.
|
||||||
|
|
||||||
|
If you agree to be bound by these terms, fill in the information requested
|
||||||
|
below and include the filled-in version with your first pull request, under the
|
||||||
|
folder [`.github/contributors/`](/.github/contributors/). The name of the file
|
||||||
|
should be your GitHub username, with the extension `.md`. For example, the user
|
||||||
|
example_user would create the file `.github/contributors/example_user.md`.
|
||||||
|
|
||||||
|
Read this agreement carefully before signing. These terms and conditions
|
||||||
|
constitute a binding legal agreement.
|
||||||
|
|
||||||
|
## Contributor Agreement
|
||||||
|
|
||||||
|
1. The term "contribution" or "contributed materials" means any source code,
|
||||||
|
object code, patch, tool, sample, graphic, specification, manual,
|
||||||
|
documentation, or any other material posted or submitted by you to the project.
|
||||||
|
|
||||||
|
2. With respect to any worldwide copyrights, or copyright applications and
|
||||||
|
registrations, in your contribution:
|
||||||
|
|
||||||
|
* you hereby assign to us joint ownership, and to the extent that such
|
||||||
|
assignment is or becomes invalid, ineffective or unenforceable, you hereby
|
||||||
|
grant to us a perpetual, irrevocable, non-exclusive, worldwide, no-charge,
|
||||||
|
royalty-free, unrestricted license to exercise all rights under those
|
||||||
|
copyrights. This includes, at our option, the right to sublicense these same
|
||||||
|
rights to third parties through multiple levels of sublicensees or other
|
||||||
|
licensing arrangements;
|
||||||
|
|
||||||
|
* you agree that each of us can do all things in relation to your
|
||||||
|
contribution as if each of us were the sole owners, and if one of us makes
|
||||||
|
a derivative work of your contribution, the one who makes the derivative
|
||||||
|
work (or has it made will be the sole owner of that derivative work;
|
||||||
|
|
||||||
|
* you agree that you will not assert any moral rights in your contribution
|
||||||
|
against us, our licensees or transferees;
|
||||||
|
|
||||||
|
* you agree that we may register a copyright in your contribution and
|
||||||
|
exercise all ownership rights associated with it; and
|
||||||
|
|
||||||
|
* you agree that neither of us has any duty to consult with, obtain the
|
||||||
|
consent of, pay or render an accounting to the other for any use or
|
||||||
|
distribution of your contribution.
|
||||||
|
|
||||||
|
3. With respect to any patents you own, or that you can license without payment
|
||||||
|
to any third party, you hereby grant to us a perpetual, irrevocable,
|
||||||
|
non-exclusive, worldwide, no-charge, royalty-free license to:
|
||||||
|
|
||||||
|
* make, have made, use, sell, offer to sell, import, and otherwise transfer
|
||||||
|
your contribution in whole or in part, alone or in combination with or
|
||||||
|
included in any product, work or materials arising out of the project to
|
||||||
|
which your contribution was submitted, and
|
||||||
|
|
||||||
|
* at our option, to sublicense these same rights to third parties through
|
||||||
|
multiple levels of sublicensees or other licensing arrangements.
|
||||||
|
|
||||||
|
4. Except as set out above, you keep all right, title, and interest in your
|
||||||
|
contribution. The rights that you grant to us under these terms are effective
|
||||||
|
on the date you first submitted a contribution to us, even if your submission
|
||||||
|
took place before the date you sign these terms.
|
||||||
|
|
||||||
|
5. You covenant, represent, warrant and agree that:
|
||||||
|
|
||||||
|
* Each contribution that you submit is and shall be an original work of
|
||||||
|
authorship and you can legally grant the rights set out in this SCA;
|
||||||
|
|
||||||
|
* to the best of your knowledge, each contribution will not violate any
|
||||||
|
third party's copyrights, trademarks, patents, or other intellectual
|
||||||
|
property rights; and
|
||||||
|
|
||||||
|
* each contribution shall be in compliance with U.S. export control laws and
|
||||||
|
other applicable export and import laws. You agree to notify us if you
|
||||||
|
become aware of any circumstance which would make any of the foregoing
|
||||||
|
representations inaccurate in any respect. We may publicly disclose your
|
||||||
|
participation in the project, including the fact that you have signed the SCA.
|
||||||
|
|
||||||
|
6. This SCA is governed by the laws of the State of California and applicable
|
||||||
|
U.S. Federal law. Any choice of law rules will not apply.
|
||||||
|
|
||||||
|
7. Please place an “x” on one of the applicable statement below. Please do NOT
|
||||||
|
mark both statements:
|
||||||
|
|
||||||
|
* [x] I am signing on behalf of myself as an individual and no other person
|
||||||
|
or entity, including my employer, has or will have rights with respect to my
|
||||||
|
contributions.
|
||||||
|
|
||||||
|
* [ ] I am signing on behalf of my employer or a legal entity and I have the
|
||||||
|
actual authority to contractually bind that entity.
|
||||||
|
|
||||||
|
## Contributor Details
|
||||||
|
|
||||||
|
| Field | Entry |
|
||||||
|
|------------------------------- | -------------------- |
|
||||||
|
| Name | Dimitar Ganev |
|
||||||
|
| Company name (if applicable) | |
|
||||||
|
| Title or role (if applicable) | |
|
||||||
|
| Date | 2021/8/2 |
|
||||||
|
| GitHub username | syrull |
|
||||||
|
| Website (optional) | |
|
|
@ -1,265 +1,79 @@
|
||||||
# Source: https://github.com/Alir3z4/stop-words
|
"""
|
||||||
|
References:
|
||||||
|
https://github.com/Alir3z4/stop-words - Original list, serves as a base.
|
||||||
|
https://postvai.com/books/stop-dumi.pdf - Additions to the original list in order to improve it.
|
||||||
|
"""
|
||||||
STOP_WORDS = set(
|
STOP_WORDS = set(
|
||||||
"""
|
"""
|
||||||
а
|
а автентичен аз ако ала
|
||||||
автентичен
|
|
||||||
аз
|
бе без беше би бивш бивша бившо бивши бил била били било благодаря близо бъдат
|
||||||
ако
|
бъде бъда бяха
|
||||||
ала
|
|
||||||
бе
|
в вас ваш ваша вашата вашият вероятно вече взема ви вие винаги внимава време все
|
||||||
без
|
всеки всички вместо всичко вследствие всъщност всяка втори във въпреки върху
|
||||||
беше
|
вътре веднъж
|
||||||
би
|
|
||||||
бивш
|
г ги главен главна главно глас го годно година години годишен
|
||||||
бивша
|
|
||||||
бившо
|
д да дали далеч далече два двама двамата две двете ден днес дни до добра добре
|
||||||
бил
|
добро добър достатъчно докато докога дори досега доста друг друга другаде други
|
||||||
била
|
|
||||||
били
|
е евтин едва един една еднаква еднакви еднакъв едно екип ето
|
||||||
било
|
|
||||||
благодаря
|
живот жив
|
||||||
близо
|
|
||||||
бъдат
|
за здравей здрасти знае зная забавям зад зададени заедно заради засега заспал
|
||||||
бъде
|
затова запазва започвам защо защото завинаги
|
||||||
бяха
|
|
||||||
в
|
и из или им има имат иска искам използвайки изглежда изглеждаше изглеждайки
|
||||||
вас
|
извън имайки
|
||||||
ваш
|
|
||||||
ваша
|
й йо
|
||||||
вероятно
|
|
||||||
вече
|
каза казва казвайки казвам как каква какво както какъв като кога кауза каузи
|
||||||
взема
|
когато когото което които кой който колко която къде където към край кратък
|
||||||
ви
|
кръгъл
|
||||||
вие
|
|
||||||
винаги
|
лесен лесно ли летя летиш летим лош
|
||||||
внимава
|
|
||||||
време
|
м май малко макар малцина междувременно минус ме между мек мен месец ми мис
|
||||||
все
|
мисля много мнозина мога могат може мой можем мокър моля момента му
|
||||||
всеки
|
|
||||||
всички
|
н на над назад най наш навсякъде навътре нагоре направи напред надолу наистина
|
||||||
всичко
|
например наопаки наполовина напоследък нека независимо нас насам наскоро
|
||||||
всяка
|
настрана необходимо него негов нещо нея ни ние никой нито нищо но нов някак нова
|
||||||
във
|
нови новина някои някой някога някъде няколко няма
|
||||||
въпреки
|
|
||||||
върху
|
о обаче около описан опитах опитва опитвайки опитвам определен определено освен
|
||||||
г
|
обикновено осигурява обратно означава особен особено от ох отвъд отгоре отдолу
|
||||||
ги
|
отново отива отивам отидох отсега отделно отколкото откъдето очевидно оттам
|
||||||
главен
|
относно още
|
||||||
главна
|
|
||||||
главно
|
п пак по повече повечето под поне просто пряко поради после последен последно
|
||||||
глас
|
посочен почти прави прав прави правя пред преди през при пък първата първи първо
|
||||||
го
|
път пъти плюс
|
||||||
година
|
|
||||||
години
|
равен равна различен различни разумен разумно
|
||||||
годишен
|
|
||||||
д
|
с са сам само себе сериозно сигурен сигурно се сега си син скоро скорошен след
|
||||||
да
|
следващ следващия следва следното следователно случва сме смях собствен
|
||||||
дали
|
сравнително смея според сред става срещу съвсем съдържа съдържащ съжалявам
|
||||||
два
|
съответен съответно сте съм със също
|
||||||
двама
|
|
||||||
двамата
|
т така техен техни такива такъв твърде там трета твой те тези ти то това
|
||||||
две
|
тогава този той търси толкова точно три трябва тук тъй тя тях
|
||||||
двете
|
|
||||||
ден
|
у утре ужасно употреба успоредно уточнен уточняване
|
||||||
днес
|
|
||||||
дни
|
харесва харесали хиляди
|
||||||
до
|
|
||||||
добра
|
ч часа ценя цяло цялостен че често чрез чудя
|
||||||
добре
|
|
||||||
добро
|
ще щеше щом щяха
|
||||||
добър
|
|
||||||
докато
|
|
||||||
докога
|
|
||||||
дори
|
|
||||||
досега
|
|
||||||
доста
|
|
||||||
друг
|
|
||||||
друга
|
|
||||||
други
|
|
||||||
е
|
|
||||||
евтин
|
|
||||||
едва
|
|
||||||
един
|
|
||||||
една
|
|
||||||
еднаква
|
|
||||||
еднакви
|
|
||||||
еднакъв
|
|
||||||
едно
|
|
||||||
екип
|
|
||||||
ето
|
|
||||||
живот
|
|
||||||
за
|
|
||||||
забавям
|
|
||||||
зад
|
|
||||||
заедно
|
|
||||||
заради
|
|
||||||
засега
|
|
||||||
заспал
|
|
||||||
затова
|
|
||||||
защо
|
|
||||||
защото
|
|
||||||
и
|
|
||||||
из
|
|
||||||
или
|
|
||||||
им
|
|
||||||
има
|
|
||||||
имат
|
|
||||||
иска
|
|
||||||
й
|
|
||||||
каза
|
|
||||||
как
|
|
||||||
каква
|
|
||||||
какво
|
|
||||||
както
|
|
||||||
какъв
|
|
||||||
като
|
|
||||||
кога
|
|
||||||
когато
|
|
||||||
което
|
|
||||||
които
|
|
||||||
кой
|
|
||||||
който
|
|
||||||
колко
|
|
||||||
която
|
|
||||||
къде
|
|
||||||
където
|
|
||||||
към
|
|
||||||
лесен
|
|
||||||
лесно
|
|
||||||
ли
|
|
||||||
лош
|
|
||||||
м
|
|
||||||
май
|
|
||||||
малко
|
|
||||||
ме
|
|
||||||
между
|
|
||||||
мек
|
|
||||||
мен
|
|
||||||
месец
|
|
||||||
ми
|
|
||||||
много
|
|
||||||
мнозина
|
|
||||||
мога
|
|
||||||
могат
|
|
||||||
може
|
|
||||||
мокър
|
|
||||||
моля
|
|
||||||
момента
|
|
||||||
му
|
|
||||||
н
|
|
||||||
на
|
|
||||||
над
|
|
||||||
назад
|
|
||||||
най
|
|
||||||
направи
|
|
||||||
напред
|
|
||||||
например
|
|
||||||
нас
|
|
||||||
не
|
|
||||||
него
|
|
||||||
нещо
|
|
||||||
нея
|
|
||||||
ни
|
|
||||||
ние
|
|
||||||
никой
|
|
||||||
нито
|
|
||||||
нищо
|
|
||||||
но
|
|
||||||
нов
|
|
||||||
нова
|
|
||||||
нови
|
|
||||||
новина
|
|
||||||
някои
|
|
||||||
някой
|
|
||||||
няколко
|
|
||||||
няма
|
|
||||||
обаче
|
|
||||||
около
|
|
||||||
освен
|
|
||||||
особено
|
|
||||||
от
|
|
||||||
отгоре
|
|
||||||
отново
|
|
||||||
още
|
|
||||||
пак
|
|
||||||
по
|
|
||||||
повече
|
|
||||||
повечето
|
|
||||||
под
|
|
||||||
поне
|
|
||||||
поради
|
|
||||||
после
|
|
||||||
почти
|
|
||||||
прави
|
|
||||||
пред
|
|
||||||
преди
|
|
||||||
през
|
|
||||||
при
|
|
||||||
пък
|
|
||||||
първата
|
|
||||||
първи
|
|
||||||
първо
|
|
||||||
пъти
|
|
||||||
равен
|
|
||||||
равна
|
|
||||||
с
|
|
||||||
са
|
|
||||||
сам
|
|
||||||
само
|
|
||||||
се
|
|
||||||
сега
|
|
||||||
си
|
|
||||||
син
|
|
||||||
скоро
|
|
||||||
след
|
|
||||||
следващ
|
|
||||||
сме
|
|
||||||
смях
|
|
||||||
според
|
|
||||||
сред
|
|
||||||
срещу
|
|
||||||
сте
|
|
||||||
съм
|
|
||||||
със
|
|
||||||
също
|
|
||||||
т
|
|
||||||
тази
|
|
||||||
така
|
|
||||||
такива
|
|
||||||
такъв
|
|
||||||
там
|
|
||||||
твой
|
|
||||||
те
|
|
||||||
тези
|
|
||||||
ти
|
|
||||||
т.н.
|
|
||||||
то
|
|
||||||
това
|
|
||||||
тогава
|
|
||||||
този
|
|
||||||
той
|
|
||||||
толкова
|
|
||||||
точно
|
|
||||||
три
|
|
||||||
трябва
|
|
||||||
тук
|
|
||||||
тъй
|
|
||||||
тя
|
|
||||||
тях
|
|
||||||
у
|
|
||||||
утре
|
|
||||||
харесва
|
|
||||||
хиляди
|
|
||||||
ч
|
|
||||||
часа
|
|
||||||
че
|
|
||||||
често
|
|
||||||
чрез
|
|
||||||
ще
|
|
||||||
щом
|
|
||||||
юмрук
|
юмрук
|
||||||
я
|
|
||||||
як
|
я як
|
||||||
""".split()
|
""".split()
|
||||||
)
|
)
|
||||||
|
|
|
@ -1,10 +1,16 @@
|
||||||
|
"""
|
||||||
|
References:
|
||||||
|
https://slovored.com/bg/abbr/grammar/ - Additional refs for abbreviations
|
||||||
|
(countries, occupations, fields of studies and more).
|
||||||
|
"""
|
||||||
|
|
||||||
from ...symbols import ORTH, NORM
|
from ...symbols import ORTH, NORM
|
||||||
|
|
||||||
|
|
||||||
_exc = {}
|
_exc = {}
|
||||||
|
|
||||||
|
# measurements
|
||||||
_abbr_exc = [
|
for abbr in [
|
||||||
{ORTH: "м", NORM: "метър"},
|
{ORTH: "м", NORM: "метър"},
|
||||||
{ORTH: "мм", NORM: "милиметър"},
|
{ORTH: "мм", NORM: "милиметър"},
|
||||||
{ORTH: "см", NORM: "сантиметър"},
|
{ORTH: "см", NORM: "сантиметър"},
|
||||||
|
@ -17,51 +23,191 @@ _abbr_exc = [
|
||||||
{ORTH: "хл", NORM: "хектолиър"},
|
{ORTH: "хл", NORM: "хектолиър"},
|
||||||
{ORTH: "дкл", NORM: "декалитър"},
|
{ORTH: "дкл", NORM: "декалитър"},
|
||||||
{ORTH: "л", NORM: "литър"},
|
{ORTH: "л", NORM: "литър"},
|
||||||
]
|
]:
|
||||||
for abbr in _abbr_exc:
|
|
||||||
_exc[abbr[ORTH]] = [abbr]
|
_exc[abbr[ORTH]] = [abbr]
|
||||||
|
|
||||||
_abbr_line_exc = [
|
# line abbreviations
|
||||||
|
for abbr in [
|
||||||
{ORTH: "г-жа", NORM: "госпожа"},
|
{ORTH: "г-жа", NORM: "госпожа"},
|
||||||
{ORTH: "г-н", NORM: "господин"},
|
{ORTH: "г-н", NORM: "господин"},
|
||||||
{ORTH: "г-ца", NORM: "госпожица"},
|
{ORTH: "г-ца", NORM: "госпожица"},
|
||||||
{ORTH: "д-р", NORM: "доктор"},
|
{ORTH: "д-р", NORM: "доктор"},
|
||||||
{ORTH: "о-в", NORM: "остров"},
|
{ORTH: "о-в", NORM: "остров"},
|
||||||
{ORTH: "п-в", NORM: "полуостров"},
|
{ORTH: "п-в", NORM: "полуостров"},
|
||||||
]
|
{ORTH: "с-у", NORM: "срещу"},
|
||||||
|
{ORTH: "в-у", NORM: "върху"},
|
||||||
for abbr in _abbr_line_exc:
|
{ORTH: "м-у", NORM: "между"},
|
||||||
|
]:
|
||||||
_exc[abbr[ORTH]] = [abbr]
|
_exc[abbr[ORTH]] = [abbr]
|
||||||
|
|
||||||
_abbr_dot_exc = [
|
# foreign language related abbreviations
|
||||||
|
for abbr in [
|
||||||
|
{ORTH: "англ.", NORM: "английски"},
|
||||||
|
{ORTH: "ан.", NORM: "английски термин"},
|
||||||
|
{ORTH: "араб.", NORM: "арабски"},
|
||||||
|
{ORTH: "афр.", NORM: "африкански"},
|
||||||
|
{ORTH: "гр.", NORM: "гръцки"},
|
||||||
|
{ORTH: "лат.", NORM: "латински"},
|
||||||
|
{ORTH: "рим.", NORM: "римски"},
|
||||||
|
{ORTH: "старогр.", NORM: "старогръцки"},
|
||||||
|
{ORTH: "староевр.", NORM: "староеврейски"},
|
||||||
|
{ORTH: "фр.", NORM: "френски"},
|
||||||
|
{ORTH: "хол.", NORM: "холандски"},
|
||||||
|
{ORTH: "швед.", NORM: "шведски"},
|
||||||
|
{ORTH: "шотл.", NORM: "шотландски"},
|
||||||
|
{ORTH: "яп.", NORM: "японски"},
|
||||||
|
]:
|
||||||
|
_exc[abbr[ORTH]] = [abbr]
|
||||||
|
|
||||||
|
# profession and academic titles abbreviations
|
||||||
|
for abbr in [
|
||||||
{ORTH: "акад.", NORM: "академик"},
|
{ORTH: "акад.", NORM: "академик"},
|
||||||
{ORTH: "ал.", NORM: "алинея"},
|
|
||||||
{ORTH: "арх.", NORM: "архитект"},
|
{ORTH: "арх.", NORM: "архитект"},
|
||||||
|
{ORTH: "инж.", NORM: "инженер"},
|
||||||
|
{ORTH: "канц.", NORM: "канцлер"},
|
||||||
|
{ORTH: "проф.", NORM: "професор"},
|
||||||
|
{ORTH: "св.", NORM: "свети"},
|
||||||
|
]:
|
||||||
|
_exc[abbr[ORTH]] = [abbr]
|
||||||
|
|
||||||
|
# fields of studies
|
||||||
|
for abbr in [
|
||||||
|
{ORTH: "агр.", NORM: "агрономия"},
|
||||||
|
{ORTH: "ав.", NORM: "авиация"},
|
||||||
|
{ORTH: "агр.", NORM: "агрономия"},
|
||||||
|
{ORTH: "археол.", NORM: "археология"},
|
||||||
|
{ORTH: "астр.", NORM: "астрономия"},
|
||||||
|
{ORTH: "геод.", NORM: "геодезия"},
|
||||||
|
{ORTH: "геол.", NORM: "геология"},
|
||||||
|
{ORTH: "геом.", NORM: "геометрия"},
|
||||||
|
{ORTH: "гимн.", NORM: "гимнастика"},
|
||||||
|
{ORTH: "грам.", NORM: "граматика"},
|
||||||
|
{ORTH: "жур.", NORM: "журналистика"},
|
||||||
|
{ORTH: "журн.", NORM: "журналистика"},
|
||||||
|
{ORTH: "зем.", NORM: "земеделие"},
|
||||||
|
{ORTH: "икон.", NORM: "икономика"},
|
||||||
|
{ORTH: "лит.", NORM: "литература"},
|
||||||
|
{ORTH: "мат.", NORM: "математика"},
|
||||||
|
{ORTH: "мед.", NORM: "медицина"},
|
||||||
|
{ORTH: "муз.", NORM: "музика"},
|
||||||
|
{ORTH: "печ.", NORM: "печатарство"},
|
||||||
|
{ORTH: "пол.", NORM: "политика"},
|
||||||
|
{ORTH: "псих.", NORM: "психология"},
|
||||||
|
{ORTH: "соц.", NORM: "социология"},
|
||||||
|
{ORTH: "стат.", NORM: "статистика"},
|
||||||
|
{ORTH: "стил.", NORM: "стилистика"},
|
||||||
|
{ORTH: "топогр.", NORM: "топография"},
|
||||||
|
{ORTH: "търг.", NORM: "търговия"},
|
||||||
|
{ORTH: "фарм.", NORM: "фармацевтика"},
|
||||||
|
{ORTH: "фехт.", NORM: "фехтовка"},
|
||||||
|
{ORTH: "физиол.", NORM: "физиология"},
|
||||||
|
{ORTH: "физ.", NORM: "физика"},
|
||||||
|
{ORTH: "фил.", NORM: "философия"},
|
||||||
|
{ORTH: "фин.", NORM: "финанси"},
|
||||||
|
{ORTH: "фолкл.", NORM: "фолклор"},
|
||||||
|
{ORTH: "фон.", NORM: "фонетика"},
|
||||||
|
{ORTH: "фот.", NORM: "фотография"},
|
||||||
|
{ORTH: "футб.", NORM: "футбол"},
|
||||||
|
{ORTH: "хим.", NORM: "химия"},
|
||||||
|
{ORTH: "хир.", NORM: "хирургия"},
|
||||||
|
{ORTH: "ел.", NORM: "електротехника"},
|
||||||
|
]:
|
||||||
|
_exc[abbr[ORTH]] = [abbr]
|
||||||
|
|
||||||
|
for abbr in [
|
||||||
|
{ORTH: "ал.", NORM: "алинея"},
|
||||||
|
{ORTH: "авт.", NORM: "автоматично"},
|
||||||
|
{ORTH: "адм.", NORM: "администрация"},
|
||||||
|
{ORTH: "арт.", NORM: "артилерия"},
|
||||||
{ORTH: "бл.", NORM: "блок"},
|
{ORTH: "бл.", NORM: "блок"},
|
||||||
{ORTH: "бр.", NORM: "брой"},
|
{ORTH: "бр.", NORM: "брой"},
|
||||||
{ORTH: "бул.", NORM: "булевард"},
|
{ORTH: "бул.", NORM: "булевард"},
|
||||||
|
{ORTH: "букв.", NORM: "буквално"},
|
||||||
{ORTH: "в.", NORM: "век"},
|
{ORTH: "в.", NORM: "век"},
|
||||||
|
{ORTH: "вр.", NORM: "време"},
|
||||||
|
{ORTH: "вм.", NORM: "вместо"},
|
||||||
|
{ORTH: "воен.", NORM: "военен термин"},
|
||||||
{ORTH: "г.", NORM: "година"},
|
{ORTH: "г.", NORM: "година"},
|
||||||
{ORTH: "гр.", NORM: "град"},
|
{ORTH: "гр.", NORM: "град"},
|
||||||
|
{ORTH: "гл.", NORM: "глагол"},
|
||||||
|
{ORTH: "др.", NORM: "други"},
|
||||||
|
{ORTH: "ез.", NORM: "езеро"},
|
||||||
{ORTH: "ж.р.", NORM: "женски род"},
|
{ORTH: "ж.р.", NORM: "женски род"},
|
||||||
{ORTH: "инж.", NORM: "инженер"},
|
{ORTH: "жп.", NORM: "железопът"},
|
||||||
|
{ORTH: "застр.", NORM: "застрахователно дело"},
|
||||||
|
{ORTH: "знач.", NORM: "значение"},
|
||||||
|
{ORTH: "и др.", NORM: "и други"},
|
||||||
|
{ORTH: "и под.", NORM: "и подобни"},
|
||||||
|
{ORTH: "и пр.", NORM: "и прочие"},
|
||||||
|
{ORTH: "изр.", NORM: "изречение"},
|
||||||
|
{ORTH: "изт.", NORM: "източен"},
|
||||||
|
{ORTH: "конкр.", NORM: "конкретно"},
|
||||||
{ORTH: "лв.", NORM: "лев"},
|
{ORTH: "лв.", NORM: "лев"},
|
||||||
|
{ORTH: "л.", NORM: "лице"},
|
||||||
{ORTH: "м.р.", NORM: "мъжки род"},
|
{ORTH: "м.р.", NORM: "мъжки род"},
|
||||||
{ORTH: "мат.", NORM: "математика"},
|
{ORTH: "мин.вр.", NORM: "минало време"},
|
||||||
{ORTH: "мед.", NORM: "медицина"},
|
{ORTH: "мн.ч.", NORM: "множествено число"},
|
||||||
|
{ORTH: "напр.", NORM: "например"},
|
||||||
|
{ORTH: "нар.", NORM: "наречие"},
|
||||||
|
{ORTH: "науч.", NORM: "научен термин"},
|
||||||
|
{ORTH: "непр.", NORM: "неправилно"},
|
||||||
|
{ORTH: "обик.", NORM: "обикновено"},
|
||||||
|
{ORTH: "опред.", NORM: "определение"},
|
||||||
|
{ORTH: "особ.", NORM: "особено"},
|
||||||
|
{ORTH: "ост.", NORM: "остаряло"},
|
||||||
|
{ORTH: "относ.", NORM: "относително"},
|
||||||
|
{ORTH: "отр.", NORM: "отрицателно"},
|
||||||
{ORTH: "пл.", NORM: "площад"},
|
{ORTH: "пл.", NORM: "площад"},
|
||||||
{ORTH: "проф.", NORM: "професор"},
|
{ORTH: "пад.", NORM: "падеж"},
|
||||||
|
{ORTH: "парл.", NORM: "парламентарен"},
|
||||||
|
{ORTH: "погов.", NORM: "поговорка"},
|
||||||
|
{ORTH: "пон.", NORM: "понякога"},
|
||||||
|
{ORTH: "правосл.", NORM: "православен"},
|
||||||
|
{ORTH: "прибл.", NORM: "приблизително"},
|
||||||
|
{ORTH: "прил.", NORM: "прилагателно име"},
|
||||||
|
{ORTH: "пр.", NORM: "прочие"},
|
||||||
{ORTH: "с.", NORM: "село"},
|
{ORTH: "с.", NORM: "село"},
|
||||||
{ORTH: "с.р.", NORM: "среден род"},
|
{ORTH: "с.р.", NORM: "среден род"},
|
||||||
{ORTH: "св.", NORM: "свети"},
|
|
||||||
{ORTH: "сп.", NORM: "списание"},
|
{ORTH: "сп.", NORM: "списание"},
|
||||||
{ORTH: "стр.", NORM: "страница"},
|
{ORTH: "стр.", NORM: "страница"},
|
||||||
|
{ORTH: "сз.", NORM: "съюз"},
|
||||||
|
{ORTH: "сег.", NORM: "сегашно"},
|
||||||
|
{ORTH: "сп.", NORM: "спорт"},
|
||||||
|
{ORTH: "срв.", NORM: "сравни"},
|
||||||
|
{ORTH: "с.ст.", NORM: "селскостопанска техника"},
|
||||||
|
{ORTH: "счет.", NORM: "счетоводство"},
|
||||||
|
{ORTH: "съкр.", NORM: "съкратено"},
|
||||||
|
{ORTH: "съобщ.", NORM: "съобщение"},
|
||||||
|
{ORTH: "същ.", NORM: "съществително"},
|
||||||
|
{ORTH: "текст.", NORM: "текстилен"},
|
||||||
|
{ORTH: "телев.", NORM: "телевизия"},
|
||||||
|
{ORTH: "тел.", NORM: "телефон"},
|
||||||
|
{ORTH: "т.е.", NORM: "тоест"},
|
||||||
|
{ORTH: "т.н.", NORM: "така нататък"},
|
||||||
|
{ORTH: "т.нар.", NORM: "така наречен"},
|
||||||
|
{ORTH: "търж.", NORM: "тържествено"},
|
||||||
{ORTH: "ул.", NORM: "улица"},
|
{ORTH: "ул.", NORM: "улица"},
|
||||||
|
{ORTH: "уч.", NORM: "училище"},
|
||||||
|
{ORTH: "унив.", NORM: "университет"},
|
||||||
|
{ORTH: "харт.", NORM: "хартия"},
|
||||||
|
{ORTH: "хидр.", NORM: "хидравлика"},
|
||||||
|
{ORTH: "хран.", NORM: "хранителна"},
|
||||||
|
{ORTH: "църк.", NORM: "църковен термин"},
|
||||||
|
{ORTH: "числ.", NORM: "числително"},
|
||||||
{ORTH: "чл.", NORM: "член"},
|
{ORTH: "чл.", NORM: "член"},
|
||||||
]
|
{ORTH: "ч.", NORM: "число"},
|
||||||
|
{ORTH: "числ.", NORM: "числително"},
|
||||||
for abbr in _abbr_dot_exc:
|
{ORTH: "шахм.", NORM: "шахмат"},
|
||||||
|
{ORTH: "шах.", NORM: "шахмат"},
|
||||||
|
{ORTH: "юр.", NORM: "юридически"},
|
||||||
|
]:
|
||||||
_exc[abbr[ORTH]] = [abbr]
|
_exc[abbr[ORTH]] = [abbr]
|
||||||
|
|
||||||
|
# slash abbreviations
|
||||||
|
for abbr in [
|
||||||
|
{ORTH: "м/у", NORM: "между"},
|
||||||
|
{ORTH: "с/у", NORM: "срещу"},
|
||||||
|
]:
|
||||||
|
_exc[abbr[ORTH]] = [abbr]
|
||||||
|
|
||||||
TOKENIZER_EXCEPTIONS = _exc
|
TOKENIZER_EXCEPTIONS = _exc
|
||||||
|
|
Loading…
Reference in New Issue
Block a user