Add Danish language data

2025-11-02 00:47:52 +03:00 · 2017-05-10 21:15:12 +02:00 · 2017-05-10 21:15:12 +02:00 · bb8be3d194
commit bb8be3d194
parent 4efb391994
3 changed files with 88 additions and 0 deletions
--- a/spacy/lang/da/init.py
+++ b/spacy/lang/da/init.py
@ -0,0 +1,24 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
+from .stop_words import STOP_WORDS
+
+from ..tokenizer_exceptions import BASE_EXCEPTIONS
+from ...language import Language
+from ...attrs import LANG
+from ...util import update_exc
+
+
+class Danish(Language):
+    lang = 'da'
+
+    class Defaults(Language.Defaults):
+        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+        lex_attr_getters[LANG] = lambda text: 'da'
+
+        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
+        stop_words = set(STOP_WORDS)
+
+
+__all__ = ['Danish']
--- a/spacy/lang/da/stop_words.py
+++ b/spacy/lang/da/stop_words.py
@ -0,0 +1,47 @@
+# encoding: utf8
+from __future__ import unicode_literals
+
+
+# Source: https://github.com/stopwords-iso/stopwords-da
+
+STOP_WORDS = set("""
+ad af aldrig alle alt anden andet andre at
+
+bare begge blev blive bliver
+
+da de dem den denne der deres det dette dig din dine disse dit dog du
+
+efter ej eller en end ene eneste enhver er et
+
+far fem fik fire flere fleste for fordi forrige fra få får før
+
+god godt
+
+ham han hans har havde have hej helt hende hendes her hos hun hvad hvem hver
+hvilken hvis hvor hvordan hvorfor hvornår
+
+i ikke ind ingen intet
+
+ja jeg jer jeres jo
+
+kan kom komme kommer kun kunne
+
+lad lav lidt lige lille
+
+man mand mange med meget men mens mere mig min mine mit mod må
+
+ned nej ni nogen noget nogle nu ny nyt når nær næste næsten
+
+og også okay om op os otte over
+
+på
+
+se seks selv ser ses sig sige sin sine sit skal skulle som stor store syv så
+sådan
+
+tag tage thi ti til to tre
+
+ud under
+
+var ved vi vil ville vor vores være været
+""".split())
--- a/spacy/lang/da/tokenizer_exceptions.py
+++ b/spacy/lang/da/tokenizer_exceptions.py
@ -0,0 +1,17 @@
+# encoding: utf8
+from __future__ import unicode_literals
+
+from ...symbols import ORTH, LEMMA
+
+
+_exc = {}
+
+
+for orth in [
+    "A/S", "beg.", "bl.a.", "ca.", "d.s.s.", "dvs.", "f.eks.", "fr.", "hhv.",
+    "if.", "iflg.", "m.a.o.", "mht.", "min.", "osv.", "pga.", "resp.", "self.",
+    "t.o.m.", "vha.", ""]:
+    _exc[orth] = [{ORTH: orth}]
+
+
+TOKENIZER_EXCEPTIONS = dict(_exc)