Add Danish language data

2025-11-03 01:17:52 +03:00 · 2017-05-10 21:15:12 +02:00 · 2017-05-10 21:15:12 +02:00 · bb8be3d194
commit bb8be3d194
parent 4efb391994
3 changed files with 88 additions and 0 deletions
--- a/spacy/lang/da/init.py
+++ b/spacy/lang/da/init.py
@ -0,0 +1,24 @@
 # coding: utf8
 from __future__ import unicode_literals
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
 from .stop_words import STOP_WORDS
 from ..tokenizer_exceptions import BASE_EXCEPTIONS
 from ...language import Language
 from ...attrs import LANG
 from ...util import update_exc
 class Danish(Language):
    lang = 'da'
    class Defaults(Language.Defaults):
        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
        lex_attr_getters[LANG] = lambda text: 'da'
        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
        stop_words = set(STOP_WORDS)
 __all__ = ['Danish']
--- a/spacy/lang/da/stop_words.py
+++ b/spacy/lang/da/stop_words.py
@ -0,0 +1,47 @@
 # encoding: utf8
 from __future__ import unicode_literals
 # Source: https://github.com/stopwords-iso/stopwords-da
 STOP_WORDS = set("""
 ad af aldrig alle alt anden andet andre at
 bare begge blev blive bliver
 da de dem den denne der deres det dette dig din dine disse dit dog du
 efter ej eller en end ene eneste enhver er et
 far fem fik fire flere fleste for fordi forrige fra få får før
 god godt
 ham han hans har havde have hej helt hende hendes her hos hun hvad hvem hver
 hvilken hvis hvor hvordan hvorfor hvornår
 i ikke ind ingen intet
 ja jeg jer jeres jo
 kan kom komme kommer kun kunne
 lad lav lidt lige lille
 man mand mange med meget men mens mere mig min mine mit mod må
 ned nej ni nogen noget nogle nu ny nyt når nær næste næsten
 og også okay om op os otte over
 på
 se seks selv ser ses sig sige sin sine sit skal skulle som stor store syv så
 sådan
 tag tage thi ti til to tre
 ud under
 var ved vi vil ville vor vores være været
 """.split())
--- a/spacy/lang/da/tokenizer_exceptions.py
+++ b/spacy/lang/da/tokenizer_exceptions.py
@ -0,0 +1,17 @@
 # encoding: utf8
 from __future__ import unicode_literals
 from ...symbols import ORTH, LEMMA
 _exc = {}
 for orth in [
    "A/S", "beg.", "bl.a.", "ca.", "d.s.s.", "dvs.", "f.eks.", "fr.", "hhv.",
    "if.", "iflg.", "m.a.o.", "mht.", "min.", "osv.", "pga.", "resp.", "self.",
    "t.o.m.", "vha.", ""]:
    _exc[orth] = [{ORTH: orth}]
 TOKENIZER_EXCEPTIONS = dict(_exc)