mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-27 18:36:36 +03:00
b64243ed55
* Added examples for Slovene * Update spacy/lang/sl/examples.py Co-authored-by: Adriane Boyd <adrianeboyd@gmail.com> * Corrected a typo in one of the sentences * Updated support for Slovenian * Some minor changes to corrections * Added forint currency * Corrected HYPHENS_PERMITTED regex and some formatting * Minor changes * Un-xfail tokenizer test * Format Co-authored-by: Luka Dragar <D20124481@mytudublin.ie> Co-authored-by: Adriane Boyd <adrianeboyd@gmail.com>
85 lines
2.4 KiB
Python
85 lines
2.4 KiB
Python
# Source: https://github.com/stopwords-iso/stopwords-sl
|
|
|
|
STOP_WORDS = set(
|
|
"""
|
|
a ali
|
|
|
|
b bi bil bila bile bili bilo biti blizu bo bodo bojo bolj bom bomo
|
|
boste bova boš brez
|
|
|
|
c cel cela celi celo
|
|
|
|
č če često četrta četrtek četrti četrto čez čigav
|
|
|
|
d da daleč dan danes datum deset deseta deseti deseto devet
|
|
deveta deveti deveto do dober dobra dobri dobro dokler dol dolg
|
|
dolga dolgi dovolj drug druga drugi drugo dva dve
|
|
|
|
e eden en ena ene eni enkrat eno etc.
|
|
|
|
f
|
|
|
|
g g. ga ga. gor gospa gospod
|
|
|
|
h halo
|
|
|
|
i idr. ii iii in iv ix iz
|
|
|
|
j jaz je ji jih jim jo jutri
|
|
|
|
k kadarkoli kaj kajti kako kakor kamor kamorkoli kar karkoli
|
|
katerikoli kdaj kdo kdorkoli ker ki kje kjer kjerkoli
|
|
ko koder koderkoli koga komu kot kratek kratka kratke kratki
|
|
|
|
l lahka lahke lahki lahko le lep lepa lepe lepi lepo leto
|
|
|
|
m majhen majhna majhni malce malo manj me med medtem mene
|
|
mesec mi midva midve mnogo moj moja moje mora morajo moram
|
|
moramo morate moraš morem mu
|
|
|
|
n na nad naj najina najino najmanj naju največ nam narobe
|
|
nas nato nazaj naš naša naše ne nedavno nedelja nek neka
|
|
nekaj nekatere nekateri nekatero nekdo neke nekega neki
|
|
nekje neko nekoga nekoč ni nikamor nikdar nikjer nikoli
|
|
nič nje njega njegov njegova njegovo njej njemu njen
|
|
njena njeno nji njih njihov njihova njihovo njiju njim
|
|
njo njun njuna njuno no nocoj npr.
|
|
|
|
o ob oba obe oboje od odprt odprta odprti okoli on
|
|
onadva one oni onidve osem osma osmi osmo oz.
|
|
|
|
p pa pet peta petek peti peto po pod pogosto poleg poln
|
|
polna polni polno ponavadi ponedeljek ponovno potem
|
|
povsod pozdravljen pozdravljeni prav prava prave pravi
|
|
pravo prazen prazna prazno prbl. precej pred prej preko
|
|
pri pribl. približno primer pripravljen pripravljena
|
|
pripravljeni proti prva prvi prvo
|
|
|
|
r ravno redko res reč
|
|
|
|
s saj sam sama same sami samo se sebe sebi sedaj sedem
|
|
sedma sedmi sedmo sem seveda si sicer skoraj skozi slab sm
|
|
so sobota spet sreda srednja srednji sta ste stran stvar sva
|
|
|
|
š šest šesta šesti šesto štiri
|
|
|
|
t ta tak taka take taki tako takoj tam te tebe tebi tega
|
|
težak težka težki težko ti tista tiste tisti tisto tj.
|
|
tja to toda torek tretja tretje tretji tri tu tudi tukaj
|
|
tvoj tvoja tvoje
|
|
|
|
u
|
|
|
|
v vaju vam vas vaš vaša vaše ve vedno velik velika veliki
|
|
veliko vendar ves več vi vidva vii viii visok visoka visoke
|
|
visoki vsa vsaj vsak vsaka vsakdo vsake vsaki vsakomur vse
|
|
vsega vsi vso včasih včeraj
|
|
|
|
x
|
|
|
|
z za zadaj zadnji zakaj zaprta zaprti zaprto zdaj zelo zunaj
|
|
|
|
ž že
|
|
""".split()
|
|
)
|