mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-24 00:46:28 +03:00
Stopwords for Serbian language. (#4078)
* Serbian stopwords added. (cyrillic alphabet) * spaCy Contribution agreement included. * Test initialize updated
This commit is contained in:
parent
878302a55d
commit
e1a935d71c
106
.github/contributors/Pavle992.md
vendored
Normal file
106
.github/contributors/Pavle992.md
vendored
Normal file
|
@ -0,0 +1,106 @@
|
|||
# spaCy contributor agreement
|
||||
|
||||
This spaCy Contributor Agreement (**"SCA"**) is based on the
|
||||
[Oracle Contributor Agreement](http://www.oracle.com/technetwork/oca-405177.pdf).
|
||||
The SCA applies to any contribution that you make to any product or project
|
||||
managed by us (the **"project"**), and sets out the intellectual property rights
|
||||
you grant to us in the contributed materials. The term **"us"** shall mean
|
||||
[ExplosionAI UG (haftungsbeschränkt)](https://explosion.ai/legal). The term
|
||||
**"you"** shall mean the person or entity identified below.
|
||||
|
||||
If you agree to be bound by these terms, fill in the information requested
|
||||
below and include the filled-in version with your first pull request, under the
|
||||
folder [`.github/contributors/`](/.github/contributors/). The name of the file
|
||||
should be your GitHub username, with the extension `.md`. For example, the user
|
||||
example_user would create the file `.github/contributors/example_user.md`.
|
||||
|
||||
Read this agreement carefully before signing. These terms and conditions
|
||||
constitute a binding legal agreement.
|
||||
|
||||
## Contributor Agreement
|
||||
|
||||
1. The term "contribution" or "contributed materials" means any source code,
|
||||
object code, patch, tool, sample, graphic, specification, manual,
|
||||
documentation, or any other material posted or submitted by you to the project.
|
||||
|
||||
2. With respect to any worldwide copyrights, or copyright applications and
|
||||
registrations, in your contribution:
|
||||
|
||||
* you hereby assign to us joint ownership, and to the extent that such
|
||||
assignment is or becomes invalid, ineffective or unenforceable, you hereby
|
||||
grant to us a perpetual, irrevocable, non-exclusive, worldwide, no-charge,
|
||||
royalty-free, unrestricted license to exercise all rights under those
|
||||
copyrights. This includes, at our option, the right to sublicense these same
|
||||
rights to third parties through multiple levels of sublicensees or other
|
||||
licensing arrangements;
|
||||
|
||||
* you agree that each of us can do all things in relation to your
|
||||
contribution as if each of us were the sole owners, and if one of us makes
|
||||
a derivative work of your contribution, the one who makes the derivative
|
||||
work (or has it made will be the sole owner of that derivative work;
|
||||
|
||||
* you agree that you will not assert any moral rights in your contribution
|
||||
against us, our licensees or transferees;
|
||||
|
||||
* you agree that we may register a copyright in your contribution and
|
||||
exercise all ownership rights associated with it; and
|
||||
|
||||
* you agree that neither of us has any duty to consult with, obtain the
|
||||
consent of, pay or render an accounting to the other for any use or
|
||||
distribution of your contribution.
|
||||
|
||||
3. With respect to any patents you own, or that you can license without payment
|
||||
to any third party, you hereby grant to us a perpetual, irrevocable,
|
||||
non-exclusive, worldwide, no-charge, royalty-free license to:
|
||||
|
||||
* make, have made, use, sell, offer to sell, import, and otherwise transfer
|
||||
your contribution in whole or in part, alone or in combination with or
|
||||
included in any product, work or materials arising out of the project to
|
||||
which your contribution was submitted, and
|
||||
|
||||
* at our option, to sublicense these same rights to third parties through
|
||||
multiple levels of sublicensees or other licensing arrangements.
|
||||
|
||||
4. Except as set out above, you keep all right, title, and interest in your
|
||||
contribution. The rights that you grant to us under these terms are effective
|
||||
on the date you first submitted a contribution to us, even if your submission
|
||||
took place before the date you sign these terms.
|
||||
|
||||
5. You covenant, represent, warrant and agree that:
|
||||
|
||||
* Each contribution that you submit is and shall be an original work of
|
||||
authorship and you can legally grant the rights set out in this SCA;
|
||||
|
||||
* to the best of your knowledge, each contribution will not violate any
|
||||
third party's copyrights, trademarks, patents, or other intellectual
|
||||
property rights; and
|
||||
|
||||
* each contribution shall be in compliance with U.S. export control laws and
|
||||
other applicable export and import laws. You agree to notify us if you
|
||||
become aware of any circumstance which would make any of the foregoing
|
||||
representations inaccurate in any respect. We may publicly disclose your
|
||||
participation in the project, including the fact that you have signed the SCA.
|
||||
|
||||
6. This SCA is governed by the laws of the State of California and applicable
|
||||
U.S. Federal law. Any choice of law rules will not apply.
|
||||
|
||||
7. Please place an “x” on one of the applicable statement below. Please do NOT
|
||||
mark both statements:
|
||||
|
||||
* [x] I am signing on behalf of myself as an individual and no other person
|
||||
or entity, including my employer, has or will have rights with respect to my
|
||||
contributions.
|
||||
|
||||
* [ ] I am signing on behalf of my employer or a legal entity and I have the
|
||||
actual authority to contractually bind that entity.
|
||||
|
||||
## Contributor Details
|
||||
|
||||
| Field | Entry |
|
||||
|------------------------------- | -------------------- |
|
||||
| Name | Pavle Vidanović |
|
||||
| Company name (if applicable) | - |
|
||||
| Title or role (if applicable) | - |
|
||||
| Date | August 4, 2019 |
|
||||
| GitHub username | Pavle992 |
|
||||
| Website (optional) | - |
|
28
spacy/lang/rs/__init__.py
Normal file
28
spacy/lang/rs/__init__.py
Normal file
|
@ -0,0 +1,28 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from .stop_words import STOP_WORDS
|
||||
|
||||
from ..tokenizer_exceptions import BASE_EXCEPTIONS
|
||||
from ..norm_exceptions import BASE_NORMS
|
||||
from ...language import Language
|
||||
from ...attrs import LANG, NORM
|
||||
from ...util import update_exc, add_lookups
|
||||
|
||||
|
||||
class SerbianDefaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: "rs"
|
||||
lex_attr_getters[NORM] = add_lookups(
|
||||
Language.Defaults.lex_attr_getters[NORM], BASE_NORMS
|
||||
)
|
||||
tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
|
||||
stop_words = STOP_WORDS
|
||||
|
||||
|
||||
class Serbian(Language):
|
||||
lang = "rs"
|
||||
Defaults = SerbianDefaults
|
||||
|
||||
|
||||
__all__ = ["Serbian"]
|
397
spacy/lang/rs/stop_words.py
Normal file
397
spacy/lang/rs/stop_words.py
Normal file
|
@ -0,0 +1,397 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
STOP_WORDS = set(
|
||||
"""
|
||||
а
|
||||
авај
|
||||
ако
|
||||
ал
|
||||
али
|
||||
арх
|
||||
ау
|
||||
ах
|
||||
аха
|
||||
ај
|
||||
бар
|
||||
би
|
||||
била
|
||||
били
|
||||
било
|
||||
бисмо
|
||||
бисте
|
||||
бих
|
||||
бијасмо
|
||||
бијасте
|
||||
бијах
|
||||
бијаху
|
||||
бијаше
|
||||
биће
|
||||
близу
|
||||
број
|
||||
брр
|
||||
буде
|
||||
будимо
|
||||
будите
|
||||
буду
|
||||
будући
|
||||
бум
|
||||
бућ
|
||||
вам
|
||||
вама
|
||||
вас
|
||||
ваша
|
||||
ваше
|
||||
вашим
|
||||
вашима
|
||||
ваљда
|
||||
веома
|
||||
вероватно
|
||||
већ
|
||||
већина
|
||||
ви
|
||||
видео
|
||||
више
|
||||
врло
|
||||
врх
|
||||
га
|
||||
где
|
||||
гиц
|
||||
год
|
||||
горе
|
||||
гђекоје
|
||||
да
|
||||
дакле
|
||||
дана
|
||||
данас
|
||||
дај
|
||||
два
|
||||
де
|
||||
дедер
|
||||
делимице
|
||||
делимично
|
||||
дем
|
||||
до
|
||||
добар
|
||||
добити
|
||||
довечер
|
||||
докле
|
||||
доле
|
||||
донекле
|
||||
досад
|
||||
доскоро
|
||||
дотад
|
||||
дотле
|
||||
дошао
|
||||
доћи
|
||||
другамо
|
||||
другде
|
||||
други
|
||||
е
|
||||
ево
|
||||
ено
|
||||
ето
|
||||
ех
|
||||
ехе
|
||||
еј
|
||||
желела
|
||||
желеле
|
||||
желели
|
||||
желело
|
||||
желех
|
||||
желећи
|
||||
жели
|
||||
за
|
||||
заиста
|
||||
зар
|
||||
затим
|
||||
зато
|
||||
захвалити
|
||||
зашто
|
||||
збиља
|
||||
зимус
|
||||
знати
|
||||
зум
|
||||
и
|
||||
иде
|
||||
из
|
||||
изван
|
||||
изволи
|
||||
између
|
||||
изнад
|
||||
икада
|
||||
икакав
|
||||
икаква
|
||||
икакве
|
||||
икакви
|
||||
икаквим
|
||||
икаквима
|
||||
икаквих
|
||||
икакво
|
||||
икаквог
|
||||
икаквога
|
||||
икаквом
|
||||
икаквоме
|
||||
икаквој
|
||||
или
|
||||
им
|
||||
има
|
||||
имам
|
||||
имао
|
||||
испод
|
||||
их
|
||||
ију
|
||||
ићи
|
||||
кад
|
||||
када
|
||||
кога
|
||||
којекакав
|
||||
којима
|
||||
коју
|
||||
кришом
|
||||
лани
|
||||
ли
|
||||
мали
|
||||
мањи
|
||||
ме
|
||||
мене
|
||||
мени
|
||||
ми
|
||||
мимо
|
||||
мисли
|
||||
много
|
||||
могу
|
||||
мора
|
||||
морао
|
||||
мој
|
||||
моја
|
||||
моје
|
||||
моји
|
||||
моју
|
||||
моћи
|
||||
му
|
||||
на
|
||||
над
|
||||
након
|
||||
нам
|
||||
нама
|
||||
нас
|
||||
наша
|
||||
наше
|
||||
нашег
|
||||
наши
|
||||
наћи
|
||||
не
|
||||
негде
|
||||
нека
|
||||
некад
|
||||
неке
|
||||
неког
|
||||
неку
|
||||
нема
|
||||
немам
|
||||
неко
|
||||
неће
|
||||
нећемо
|
||||
нећете
|
||||
нећеш
|
||||
нећу
|
||||
ни
|
||||
никада
|
||||
никога
|
||||
никоје
|
||||
никоји
|
||||
никоју
|
||||
нисам
|
||||
ниси
|
||||
нисте
|
||||
нису
|
||||
ништа
|
||||
ниједан
|
||||
но
|
||||
о
|
||||
ова
|
||||
овако
|
||||
овамо
|
||||
овај
|
||||
овде
|
||||
ове
|
||||
овим
|
||||
овима
|
||||
ово
|
||||
овој
|
||||
од
|
||||
одмах
|
||||
око
|
||||
около
|
||||
он
|
||||
онај
|
||||
оне
|
||||
оним
|
||||
онима
|
||||
оном
|
||||
оној
|
||||
ону
|
||||
осим
|
||||
остали
|
||||
отишао
|
||||
па
|
||||
пак
|
||||
питати
|
||||
по
|
||||
поводом
|
||||
под
|
||||
подаље
|
||||
пожељан
|
||||
пожељна
|
||||
поиздаље
|
||||
поименце
|
||||
понекад
|
||||
попреко
|
||||
поред
|
||||
после
|
||||
потаман
|
||||
потрбушке
|
||||
поуздано
|
||||
почетак
|
||||
поједини
|
||||
правити
|
||||
први
|
||||
преко
|
||||
према
|
||||
прије
|
||||
пут
|
||||
пљус
|
||||
радије
|
||||
с
|
||||
са
|
||||
сав
|
||||
сада
|
||||
сам
|
||||
само
|
||||
сасвим
|
||||
сва
|
||||
сваки
|
||||
сви
|
||||
свим
|
||||
свог
|
||||
свом
|
||||
свој
|
||||
своја
|
||||
своје
|
||||
своју
|
||||
сву
|
||||
свугде
|
||||
се
|
||||
себе
|
||||
себи
|
||||
си
|
||||
смети
|
||||
смо
|
||||
ствар
|
||||
стварно
|
||||
сте
|
||||
су
|
||||
сутра
|
||||
та
|
||||
таèно
|
||||
тако
|
||||
такође
|
||||
тамо
|
||||
твој
|
||||
твоја
|
||||
твоје
|
||||
твоји
|
||||
твоју
|
||||
те
|
||||
тебе
|
||||
теби
|
||||
ти
|
||||
тима
|
||||
то
|
||||
томе
|
||||
тој
|
||||
ту
|
||||
у
|
||||
увек
|
||||
увијек
|
||||
уз
|
||||
уза
|
||||
узалуд
|
||||
уздуж
|
||||
узети
|
||||
умало
|
||||
унутра
|
||||
употребити
|
||||
упркос
|
||||
учинио
|
||||
учинити
|
||||
хало
|
||||
хвала
|
||||
хеј
|
||||
хм
|
||||
хоп
|
||||
хоће
|
||||
хоћемо
|
||||
хоћете
|
||||
хоћеш
|
||||
хоћу
|
||||
хтедосте
|
||||
хтедох
|
||||
хтедоше
|
||||
хтела
|
||||
хтеле
|
||||
хтели
|
||||
хтео
|
||||
хтејасмо
|
||||
хтејасте
|
||||
хтејаху
|
||||
хура
|
||||
често
|
||||
чијем
|
||||
чији
|
||||
чијим
|
||||
чијима
|
||||
шиц
|
||||
штагод
|
||||
што
|
||||
штогод
|
||||
ја
|
||||
је
|
||||
један
|
||||
једини
|
||||
једна
|
||||
једне
|
||||
једни
|
||||
једно
|
||||
једном
|
||||
јер
|
||||
јесам
|
||||
јеси
|
||||
јесмо
|
||||
јесу
|
||||
јим
|
||||
јој
|
||||
ју
|
||||
јуче
|
||||
његова
|
||||
његово
|
||||
њезин
|
||||
њезина
|
||||
њезино
|
||||
њему
|
||||
њен
|
||||
њим
|
||||
њима
|
||||
њихова
|
||||
њихово
|
||||
њој
|
||||
њу
|
||||
ће
|
||||
ћемо
|
||||
ћете
|
||||
ћеш
|
||||
ћу
|
||||
""".split()
|
||||
)
|
|
@ -10,8 +10,8 @@ from spacy.util import get_lang_class
|
|||
# excluded: ja, ru, th, uk, vi, zh
|
||||
LANGUAGES = ["af", "ar", "bg", "bn", "ca", "cs", "da", "de", "el", "en", "es",
|
||||
"et", "fa", "fi", "fr", "ga", "he", "hi", "hr", "hu", "id", "is",
|
||||
"it", "kn", "lt", "lv", "nb", "nl", "pl", "pt", "ro", "si", "sk",
|
||||
"sl", "sq", "sv", "ta", "te", "tl", "tr", "tt", "ur"]
|
||||
"it", "kn", "lt", "lv", "nb", "nl", "pl", "pt", "ro", "rs", "si",
|
||||
"sk", "sl", "sq", "sv", "ta", "te", "tl", "tr", "tt", "ur"]
|
||||
# fmt: on
|
||||
|
||||
|
||||
|
|
Loading…
Reference in New Issue
Block a user