mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-26 09:56:28 +03:00
2e31921d0a
* Add base classes for more languages * Add test for language class initialization Make sure language can be initialize – otherwise, it's difficult to catch serious errors in the test suite, because languages are lazy-loaded
163 lines
1.1 KiB
Python
163 lines
1.1 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
# Source: https://github.com/Xangis/extra-stopwords
|
|
|
|
STOP_WORDS = set(
|
|
"""
|
|
afhverju
|
|
aftan
|
|
aftur
|
|
afþví
|
|
aldrei
|
|
allir
|
|
allt
|
|
alveg
|
|
annað
|
|
annars
|
|
bara
|
|
dag
|
|
eða
|
|
eftir
|
|
eiga
|
|
einhver
|
|
einhverjir
|
|
einhvers
|
|
eins
|
|
einu
|
|
eitthvað
|
|
ekkert
|
|
ekki
|
|
ennþá
|
|
eru
|
|
fara
|
|
fer
|
|
finna
|
|
fjöldi
|
|
fólk
|
|
framan
|
|
frá
|
|
frekar
|
|
fyrir
|
|
gegnum
|
|
geta
|
|
getur
|
|
gmg
|
|
gott
|
|
hann
|
|
hafa
|
|
hef
|
|
hefur
|
|
heyra
|
|
hér
|
|
hérna
|
|
hjá
|
|
hún
|
|
hvað
|
|
hvar
|
|
hver
|
|
hverjir
|
|
hverjum
|
|
hvernig
|
|
hvor
|
|
hvort
|
|
hægt
|
|
img
|
|
inn
|
|
kannski
|
|
koma
|
|
líka
|
|
lol
|
|
maður
|
|
mátt
|
|
mér
|
|
með
|
|
mega
|
|
meira
|
|
mig
|
|
mikið
|
|
minna
|
|
minni
|
|
missa
|
|
mjög
|
|
nei
|
|
niður
|
|
núna
|
|
oft
|
|
okkar
|
|
okkur
|
|
póst
|
|
póstur
|
|
rofl
|
|
saman
|
|
sem
|
|
sér
|
|
sig
|
|
sinni
|
|
síðan
|
|
sjá
|
|
smá
|
|
smátt
|
|
spurja
|
|
spyrja
|
|
staðar
|
|
stórt
|
|
svo
|
|
svona
|
|
sælir
|
|
sæll
|
|
taka
|
|
takk
|
|
til
|
|
tilvitnun
|
|
titlar
|
|
upp
|
|
var
|
|
vel
|
|
velkomin
|
|
velkominn
|
|
vera
|
|
verður
|
|
verið
|
|
vel
|
|
við
|
|
vil
|
|
vilja
|
|
vill
|
|
vita
|
|
væri
|
|
yfir
|
|
ykkar
|
|
það
|
|
þakka
|
|
þakkir
|
|
þannig
|
|
það
|
|
þar
|
|
þarf
|
|
þau
|
|
þeim
|
|
þeir
|
|
þeirra
|
|
þeirra
|
|
þegar
|
|
þess
|
|
þessa
|
|
þessi
|
|
þessu
|
|
þessum
|
|
þetta
|
|
þér
|
|
þið
|
|
þinn
|
|
þitt
|
|
þín
|
|
þráð
|
|
þráður
|
|
því
|
|
þær
|
|
ætti
|
|
""".split()
|
|
)
|