mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-26 01:46:28 +03:00
42b34832e4
* Contributor agreement for janimo * Update Romanian stopword list Include the correct spellings of all the words already in the repo that are using cedillas (ş and ţ) instead of commas (ș and ț). Add another unrelated spelling fix. See https://github.com/stopwords-iso/stopwords-ro/pull/1 and https://github.com/stopwords-iso/stopwords-ro/pull/2
476 lines
2.7 KiB
Python
476 lines
2.7 KiB
Python
# encoding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
# Source: https://github.com/stopwords-iso/stopwords-ro
|
|
|
|
STOP_WORDS = set("""
|
|
a
|
|
abia
|
|
acea
|
|
aceasta
|
|
această
|
|
aceea
|
|
aceeasi
|
|
acei
|
|
aceia
|
|
acel
|
|
acela
|
|
acelasi
|
|
acele
|
|
acelea
|
|
acest
|
|
acesta
|
|
aceste
|
|
acestea
|
|
acestei
|
|
acestia
|
|
acestui
|
|
aceşti
|
|
aceştia
|
|
acești
|
|
aceștia
|
|
acolo
|
|
acord
|
|
acum
|
|
adica
|
|
ai
|
|
aia
|
|
aibă
|
|
aici
|
|
aiurea
|
|
al
|
|
ala
|
|
alaturi
|
|
ale
|
|
alea
|
|
alt
|
|
alta
|
|
altceva
|
|
altcineva
|
|
alte
|
|
altfel
|
|
alti
|
|
altii
|
|
altul
|
|
alături
|
|
am
|
|
anume
|
|
apoi
|
|
ar
|
|
are
|
|
as
|
|
asa
|
|
asemenea
|
|
asta
|
|
astazi
|
|
astea
|
|
astfel
|
|
astăzi
|
|
asupra
|
|
atare
|
|
atat
|
|
atata
|
|
atatea
|
|
atatia
|
|
ati
|
|
atit
|
|
atita
|
|
atitea
|
|
atitia
|
|
atunci
|
|
au
|
|
avea
|
|
avem
|
|
aveţi
|
|
aveți
|
|
avut
|
|
azi
|
|
aş
|
|
aşadar
|
|
aţi
|
|
aș
|
|
așadar
|
|
ați
|
|
b
|
|
ba
|
|
bine
|
|
bucur
|
|
bună
|
|
c
|
|
ca
|
|
cam
|
|
cand
|
|
capat
|
|
care
|
|
careia
|
|
carora
|
|
caruia
|
|
cat
|
|
catre
|
|
caut
|
|
ce
|
|
cea
|
|
ceea
|
|
cei
|
|
ceilalti
|
|
cel
|
|
cele
|
|
celor
|
|
ceva
|
|
chiar
|
|
ci
|
|
cinci
|
|
cind
|
|
cine
|
|
cineva
|
|
cit
|
|
cita
|
|
cite
|
|
citeva
|
|
citi
|
|
citiva
|
|
conform
|
|
contra
|
|
cu
|
|
cui
|
|
cum
|
|
cumva
|
|
curând
|
|
curînd
|
|
când
|
|
cât
|
|
câte
|
|
câtva
|
|
câţi
|
|
câți
|
|
cînd
|
|
cît
|
|
cîte
|
|
cîtva
|
|
cîţi
|
|
cîți
|
|
că
|
|
căci
|
|
cărei
|
|
căror
|
|
cărui
|
|
către
|
|
d
|
|
da
|
|
daca
|
|
dacă
|
|
dar
|
|
dat
|
|
datorită
|
|
dată
|
|
dau
|
|
de
|
|
deasupra
|
|
deci
|
|
decit
|
|
degraba
|
|
deja
|
|
deoarece
|
|
departe
|
|
desi
|
|
despre
|
|
deşi
|
|
deși
|
|
din
|
|
dinaintea
|
|
dintr
|
|
dintr-
|
|
dintre
|
|
doar
|
|
doi
|
|
doilea
|
|
două
|
|
drept
|
|
dupa
|
|
după
|
|
dă
|
|
e
|
|
ea
|
|
ei
|
|
el
|
|
ele
|
|
era
|
|
eram
|
|
este
|
|
eu
|
|
exact
|
|
eşti
|
|
ești
|
|
f
|
|
face
|
|
fara
|
|
fata
|
|
fel
|
|
fi
|
|
fie
|
|
fiecare
|
|
fii
|
|
fim
|
|
fiu
|
|
fiţi
|
|
fiți
|
|
foarte
|
|
fost
|
|
frumos
|
|
fără
|
|
g
|
|
geaba
|
|
graţie
|
|
grație
|
|
h
|
|
halbă
|
|
i
|
|
ia
|
|
iar
|
|
ieri
|
|
ii
|
|
il
|
|
imi
|
|
in
|
|
inainte
|
|
inapoi
|
|
inca
|
|
incit
|
|
insa
|
|
intr
|
|
intre
|
|
isi
|
|
iti
|
|
j
|
|
k
|
|
l
|
|
la
|
|
le
|
|
li
|
|
lor
|
|
lui
|
|
lângă
|
|
lîngă
|
|
m
|
|
ma
|
|
mai
|
|
mare
|
|
mea
|
|
mei
|
|
mele
|
|
mereu
|
|
meu
|
|
mi
|
|
mie
|
|
mine
|
|
mod
|
|
mult
|
|
multa
|
|
multe
|
|
multi
|
|
multă
|
|
mulţi
|
|
mulţumesc
|
|
mulți
|
|
mulțumesc
|
|
mâine
|
|
mîine
|
|
mă
|
|
n
|
|
ne
|
|
nevoie
|
|
ni
|
|
nici
|
|
niciodata
|
|
nicăieri
|
|
nimeni
|
|
nimeri
|
|
nimic
|
|
niste
|
|
nişte
|
|
niște
|
|
noastre
|
|
noastră
|
|
noi
|
|
noroc
|
|
nostri
|
|
nostru
|
|
nou
|
|
noua
|
|
nouă
|
|
noştri
|
|
noștri
|
|
nu
|
|
numai
|
|
o
|
|
opt
|
|
or
|
|
ori
|
|
oricare
|
|
orice
|
|
oricine
|
|
oricum
|
|
oricând
|
|
oricât
|
|
oricînd
|
|
oricît
|
|
oriunde
|
|
p
|
|
pai
|
|
parca
|
|
patra
|
|
patru
|
|
patrulea
|
|
pe
|
|
pentru
|
|
peste
|
|
pic
|
|
pina
|
|
plus
|
|
poate
|
|
pot
|
|
prea
|
|
prima
|
|
primul
|
|
prin
|
|
printr-
|
|
putini
|
|
puţin
|
|
puţina
|
|
puţină
|
|
puțin
|
|
puțina
|
|
puțină
|
|
până
|
|
pînă
|
|
r
|
|
rog
|
|
s
|
|
sa
|
|
sa-mi
|
|
sa-ti
|
|
sai
|
|
sale
|
|
sau
|
|
se
|
|
si
|
|
sint
|
|
sintem
|
|
spate
|
|
spre
|
|
sub
|
|
sunt
|
|
suntem
|
|
sunteţi
|
|
sunteți
|
|
sus
|
|
sută
|
|
sînt
|
|
sîntem
|
|
sînteţi
|
|
sînteți
|
|
să
|
|
săi
|
|
său
|
|
t
|
|
ta
|
|
tale
|
|
te
|
|
ti
|
|
timp
|
|
tine
|
|
toata
|
|
toate
|
|
toată
|
|
tocmai
|
|
tot
|
|
toti
|
|
totul
|
|
totusi
|
|
totuşi
|
|
totuși
|
|
toţi
|
|
toți
|
|
trei
|
|
treia
|
|
treilea
|
|
tu
|
|
tuturor
|
|
tăi
|
|
tău
|
|
u
|
|
ul
|
|
ului
|
|
un
|
|
una
|
|
unde
|
|
undeva
|
|
unei
|
|
uneia
|
|
unele
|
|
uneori
|
|
unii
|
|
unor
|
|
unora
|
|
unu
|
|
unui
|
|
unuia
|
|
unul
|
|
v
|
|
va
|
|
vi
|
|
voastre
|
|
voastră
|
|
voi
|
|
vom
|
|
vor
|
|
vostru
|
|
vouă
|
|
voştri
|
|
voștri
|
|
vreme
|
|
vreo
|
|
vreun
|
|
vă
|
|
x
|
|
z
|
|
zece
|
|
zero
|
|
zi
|
|
zice
|
|
îi
|
|
îl
|
|
îmi
|
|
împotriva
|
|
în
|
|
înainte
|
|
înaintea
|
|
încotro
|
|
încât
|
|
încît
|
|
între
|
|
întrucât
|
|
întrucît
|
|
îţi
|
|
îți
|
|
ăla
|
|
ălea
|
|
ăsta
|
|
ăstea
|
|
ăştia
|
|
ăștia
|
|
şapte
|
|
şase
|
|
şi
|
|
ştiu
|
|
ţi
|
|
ţie
|
|
șapte
|
|
șase
|
|
și
|
|
știu
|
|
ți
|
|
ție
|
|
""".split())
|