mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-15 06:09:01 +03:00
55db9c2e87
Implemented a foundational Scottish Gaelic (gd) language option with tokenizer_exceptions and stop_words files.
387 lines
2.3 KiB
Python
387 lines
2.3 KiB
Python
STOP_WORDS = set(
|
|
"""
|
|
'ad
|
|
'ar
|
|
'd # iad
|
|
'g # ag
|
|
'ga
|
|
'gam
|
|
'gan
|
|
'gar
|
|
'gur
|
|
'm # am
|
|
'n # an
|
|
'n seo
|
|
'na
|
|
'nad
|
|
'nam
|
|
'nan
|
|
'nar
|
|
'nuair
|
|
'nur
|
|
's
|
|
'sa
|
|
'san
|
|
'sann
|
|
'se
|
|
'sna
|
|
a
|
|
a'
|
|
a'd # agad
|
|
a'm # agam
|
|
a-chèile
|
|
a-seo
|
|
a-sin
|
|
a-siud
|
|
a chionn
|
|
a chionn 's
|
|
a chèile
|
|
a chéile
|
|
a dh'
|
|
a h-uile
|
|
a seo
|
|
ac' # aca
|
|
aca
|
|
aca-san
|
|
acasan
|
|
ach
|
|
ag
|
|
agad
|
|
agad-sa
|
|
agads'
|
|
agadsa
|
|
agaibh
|
|
agaibhse
|
|
againn
|
|
againne
|
|
agam
|
|
agam-sa
|
|
agams'
|
|
agamsa
|
|
agus
|
|
aice
|
|
aice-se
|
|
aicese
|
|
aig
|
|
aig' # aige
|
|
aige
|
|
aige-san
|
|
aigesan
|
|
air
|
|
air-san
|
|
air neo
|
|
airsan
|
|
am
|
|
an
|
|
an seo
|
|
an sin
|
|
an siud
|
|
an uair
|
|
ann
|
|
ann a
|
|
ann a'
|
|
ann a shin
|
|
ann am
|
|
ann an
|
|
annad
|
|
annam
|
|
annam-s'
|
|
annamsa
|
|
anns
|
|
anns an
|
|
annta
|
|
aon
|
|
ar
|
|
as
|
|
asad
|
|
asda
|
|
asta
|
|
b'
|
|
bho
|
|
bhon
|
|
bhuaidhe # bhuaithe
|
|
bhuainn
|
|
bhuaipe
|
|
bhuaithe
|
|
bhuapa
|
|
bhur
|
|
brì
|
|
bu
|
|
c'à
|
|
car son
|
|
carson
|
|
cha
|
|
chan
|
|
chionn
|
|
choir
|
|
chon
|
|
chun
|
|
chèile
|
|
chéile
|
|
chòir
|
|
cia mheud
|
|
ciamar
|
|
co-dhiubh
|
|
cuide
|
|
cuin
|
|
cuin'
|
|
cuine
|
|
cà
|
|
cà'
|
|
càil
|
|
càit
|
|
càit'
|
|
càite
|
|
cò
|
|
cò mheud
|
|
có
|
|
d'
|
|
da
|
|
de
|
|
dh'
|
|
dha
|
|
dhaibh
|
|
dhaibh-san
|
|
dhaibhsan
|
|
dhan
|
|
dhasan
|
|
dhe
|
|
dhen
|
|
dheth
|
|
dhi
|
|
dhiom
|
|
dhiot
|
|
dhith
|
|
dhiubh
|
|
dhomh
|
|
dhomh-s'
|
|
dhomhsa
|
|
dhu'sa # dhut-sa
|
|
dhuibh
|
|
dhuibhse
|
|
dhuinn
|
|
dhuinne
|
|
dhuit
|
|
dhut
|
|
dhutsa
|
|
dhut-sa
|
|
dhà
|
|
dhà-san
|
|
dhàsan
|
|
dhòmhsa
|
|
diubh
|
|
do
|
|
docha
|
|
don
|
|
dà
|
|
dè
|
|
dè mar
|
|
dé
|
|
dé mar
|
|
dòch'
|
|
dòcha
|
|
e
|
|
eadar
|
|
eatarra
|
|
eatorra
|
|
eile
|
|
esan
|
|
fa
|
|
far
|
|
feud
|
|
fhad
|
|
fheudar
|
|
fhearr
|
|
fhein
|
|
fheudar
|
|
fheàrr
|
|
fhèin
|
|
fhéin
|
|
fhìn
|
|
fo
|
|
fodha
|
|
fodhainn
|
|
foipe
|
|
fon
|
|
fèin
|
|
ga
|
|
gach
|
|
gam
|
|
gan
|
|
ge brith
|
|
ged
|
|
gu
|
|
gu dè
|
|
gu ruige
|
|
gun
|
|
gur
|
|
gus
|
|
i
|
|
iad
|
|
iadsan
|
|
innte
|
|
is
|
|
ise
|
|
le
|
|
leam
|
|
leam-sa
|
|
leamsa
|
|
leat
|
|
leat-sa
|
|
leatha
|
|
leatsa
|
|
leibh
|
|
leis
|
|
leis-san
|
|
leoth'
|
|
leotha
|
|
leotha-san
|
|
linn
|
|
m'
|
|
m'a
|
|
ma
|
|
mac
|
|
man
|
|
mar
|
|
mas
|
|
mathaid
|
|
mi
|
|
mis'
|
|
mise
|
|
mo
|
|
mu
|
|
mu 'n
|
|
mun
|
|
mur
|
|
mura
|
|
mus
|
|
na
|
|
na b'
|
|
na bu
|
|
na iad
|
|
nach
|
|
nad
|
|
nam
|
|
nan
|
|
nar
|
|
nas
|
|
neo
|
|
no
|
|
nuair
|
|
o
|
|
o'n
|
|
oir
|
|
oirbh
|
|
oirbh-se
|
|
oirnn
|
|
oirnne
|
|
oirre
|
|
on
|
|
orm
|
|
orm-sa
|
|
ormsa
|
|
orra
|
|
orra-san
|
|
orrasan
|
|
ort
|
|
os
|
|
r'
|
|
ri
|
|
ribh
|
|
rinn
|
|
ris
|
|
rithe
|
|
rithe-se
|
|
rium
|
|
rium-sa
|
|
riums'
|
|
riumsa
|
|
riut
|
|
riuth'
|
|
riutha
|
|
riuthasan
|
|
ro
|
|
ro'n
|
|
roimh
|
|
roimhe
|
|
romhainn
|
|
romham
|
|
romhpa
|
|
ron
|
|
ruibh
|
|
ruinn
|
|
ruinne
|
|
sa
|
|
san
|
|
sann
|
|
se
|
|
seach
|
|
seo
|
|
seothach
|
|
shin
|
|
sibh
|
|
sibh-se
|
|
sibhse
|
|
sin
|
|
sineach
|
|
sinn
|
|
sinne
|
|
siod
|
|
siodach
|
|
siud
|
|
siudach
|
|
sna # ann an
|
|
sè
|
|
t'
|
|
tarsaing
|
|
tarsainn
|
|
tarsuinn
|
|
thar
|
|
thoigh
|
|
thro
|
|
thu
|
|
thuc'
|
|
thuca
|
|
thugad
|
|
thugaibh
|
|
thugainn
|
|
thugam
|
|
thugamsa
|
|
thuice
|
|
thuige
|
|
thus'
|
|
thusa
|
|
timcheall
|
|
toigh
|
|
toil
|
|
tro
|
|
tro' # troimh
|
|
troimh
|
|
troimhe
|
|
tron
|
|
tu
|
|
tusa
|
|
uair
|
|
ud
|
|
ugaibh
|
|
ugam-s'
|
|
ugam-sa
|
|
uice
|
|
uige
|
|
uige-san
|
|
umad
|
|
unnta # ann an
|
|
ur
|
|
urrainn
|
|
à
|
|
às
|
|
àsan
|
|
á
|
|
ás
|
|
è
|
|
ì
|
|
ò
|
|
ó
|
|
""".split("\n")
|
|
)
|