mirror of
https://github.com/explosion/spaCy.git
synced 2025-01-12 18:26:30 +03:00
Add basic Polish Language class
This commit is contained in:
parent
48177c4f92
commit
ca65993d59
24
spacy/lang/pl/__init__.py
Normal file
24
spacy/lang/pl/__init__.py
Normal file
|
@ -0,0 +1,24 @@
|
||||||
|
# coding: utf8
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||||
|
from .stop_words import STOP_WORDS
|
||||||
|
|
||||||
|
from ..tokenizer_exceptions import BASE_EXCEPTIONS
|
||||||
|
from ...language import Language
|
||||||
|
from ...attrs import LANG
|
||||||
|
from ...util import update_exc
|
||||||
|
|
||||||
|
|
||||||
|
class Polish(Language):
|
||||||
|
lang = 'pl'
|
||||||
|
|
||||||
|
class Defaults(Language.Defaults):
|
||||||
|
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||||
|
lex_attr_getters[LANG] = lambda text: 'pl'
|
||||||
|
|
||||||
|
tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
|
||||||
|
stop_words = set(STOP_WORDS)
|
||||||
|
|
||||||
|
|
||||||
|
__all__ = ['Polish']
|
46
spacy/lang/pl/stop_words.py
Normal file
46
spacy/lang/pl/stop_words.py
Normal file
|
@ -0,0 +1,46 @@
|
||||||
|
# encoding: utf8
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
|
||||||
|
# Source: http://www.ranks.nl/stopwords/polish
|
||||||
|
|
||||||
|
STOP_WORDS = set("""
|
||||||
|
ach aj albo
|
||||||
|
|
||||||
|
bardzo bez bo być
|
||||||
|
|
||||||
|
ci cię ciebie co czy
|
||||||
|
|
||||||
|
daleko dla dlaczego dlatego do dobrze dokąd dość dużo dwa dwaj dwie dwoje dziś
|
||||||
|
dzisiaj
|
||||||
|
|
||||||
|
gdyby gdzie
|
||||||
|
|
||||||
|
go
|
||||||
|
|
||||||
|
ich ile im inny
|
||||||
|
|
||||||
|
ja ją jak jakby jaki je jeden jedna jedno jego jej jemu jeśli jest jestem
|
||||||
|
jeżeli już
|
||||||
|
|
||||||
|
każdy kiedy kierunku kto ku
|
||||||
|
|
||||||
|
lub
|
||||||
|
|
||||||
|
ma mają mam mi mną mnie moi mój moja moje może mu my
|
||||||
|
|
||||||
|
na nam nami nas nasi nasz nasza nasze natychmiast nią nic nich nie niego niej
|
||||||
|
niemu nigdy nim nimi niż
|
||||||
|
|
||||||
|
obok od około on ona one oni ono owszem
|
||||||
|
|
||||||
|
po pod ponieważ przed przedtem
|
||||||
|
|
||||||
|
są sam sama się skąd
|
||||||
|
|
||||||
|
tak taki tam ten to tobą tobie tu tutaj twoi twój twoja twoje ty
|
||||||
|
|
||||||
|
wam wami was wasi wasz wasza wasze we więc wszystko wtedy wy
|
||||||
|
|
||||||
|
żaden zawsze że
|
||||||
|
""".split())
|
Loading…
Reference in New Issue
Block a user