Cleanup list of Danish stopwords

This commit is contained in:
mollerhoj 2017-07-03 15:40:58 +02:00
parent e265e34e18
commit dc5be7d2f3

View File

@ -1,47 +1,46 @@
# encoding: utf8
from __future__ import unicode_literals
# Source: https://github.com/stopwords-iso/stopwords-da
# Source: Handpicked by Jens Dahl Møllerhøj.
STOP_WORDS = set("""
ad af aldrig alle alt anden andet andre at
af aldrig alene alle allerede alligevel alt altid anden andet andre at
bare begge blev blive bliver
bag begge blandt blev blive bliver burde r
da de dem den denne der deres det dette dig din dine disse dit dog du
da de dem den denne dens der derefter deres derfor derfra deri dermed derpå derved det dette dig din dine disse dog du
efter ej eller en end ene eneste enhver er et
efter egen eller ellers en end endnu ene eneste enhver ens enten er et
far fem fik fire flere fleste for fordi forrige fra får før
flere flest fleste for foran fordi forrige fra før først
god godt
gennem gjorde gjort god gør gøre gørende
ham han hans har havde have hej helt hende hendes her hos hun hvad hvem hver
hvilken hvis hvor hvordan hvorfor hvornår
ham han hans har havde have hel heller hen hende hendes henover her herefter heri hermed herpå hun hvad hvem hver hvilke hvilken hvilkes hvis hvor hvordan hvorefter hvorfor hvorfra hvorhen hvori hvorimod hvornår hvorved
i ikke ind ingen intet
i igen igennem ikke imellem imens imod ind indtil ingen intet
ja jeg jer jeres jo
jeg jer jeres jo
kan kom komme kommer kun kunne
kan kom kommer kun kunne
lad lav lidt lige lille
lad langs lav lave lavet lidt lige ligesom lille længere
man mand mange med meget men mens mere mig min mine mit mod
man mange med meget mellem men mens mere mest mig min mindre mindst mine mit måske
ned nej ni nogen noget nogle nu ny nyt når nær næste næsten
ned nemlig nogen nogensinde noget nogle nok nu ny nyt nær næste næsten
og også okay om op os otte over
og også om omkring op os over overalt
se seks selv ser ses sig sige sin sine sit skal skulle som stor store syv
sådan
samme sammen selv selvom senere ses siden sig sige skal skulle som stadig synes syntes sådan således
tag tage thi ti til to tre
temmelig tidligere til tilbage tit
ud under
ud uden udover under undtagen
var ved vi vil ville vor vores være været
var ved vi via vil ville vore vores vær være været
øvrigt
""".split())