From bb8be3d194689a78c29cf04b989e25a30405e1e2 Mon Sep 17 00:00:00 2001 From: ines Date: Wed, 10 May 2017 21:15:12 +0200 Subject: [PATCH] Add Danish language data --- spacy/lang/da/__init__.py | 24 ++++++++++++++ spacy/lang/da/stop_words.py | 47 +++++++++++++++++++++++++++ spacy/lang/da/tokenizer_exceptions.py | 17 ++++++++++ 3 files changed, 88 insertions(+) create mode 100644 spacy/lang/da/__init__.py create mode 100644 spacy/lang/da/stop_words.py create mode 100644 spacy/lang/da/tokenizer_exceptions.py diff --git a/spacy/lang/da/__init__.py b/spacy/lang/da/__init__.py new file mode 100644 index 000000000..19752cad5 --- /dev/null +++ b/spacy/lang/da/__init__.py @@ -0,0 +1,24 @@ +# coding: utf8 +from __future__ import unicode_literals + +from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS +from .stop_words import STOP_WORDS + +from ..tokenizer_exceptions import BASE_EXCEPTIONS +from ...language import Language +from ...attrs import LANG +from ...util import update_exc + + +class Danish(Language): + lang = 'da' + + class Defaults(Language.Defaults): + lex_attr_getters = dict(Language.Defaults.lex_attr_getters) + lex_attr_getters[LANG] = lambda text: 'da' + + tokenizer_exceptions = update_exc(BASE_EXCEPTIONS) + stop_words = set(STOP_WORDS) + + +__all__ = ['Danish'] diff --git a/spacy/lang/da/stop_words.py b/spacy/lang/da/stop_words.py new file mode 100644 index 000000000..ac2195f10 --- /dev/null +++ b/spacy/lang/da/stop_words.py @@ -0,0 +1,47 @@ +# encoding: utf8 +from __future__ import unicode_literals + + +# Source: https://github.com/stopwords-iso/stopwords-da + +STOP_WORDS = set(""" +ad af aldrig alle alt anden andet andre at + +bare begge blev blive bliver + +da de dem den denne der deres det dette dig din dine disse dit dog du + +efter ej eller en end ene eneste enhver er et + +far fem fik fire flere fleste for fordi forrige fra få får før + +god godt + +ham han hans har havde have hej helt hende hendes her hos hun hvad hvem hver +hvilken hvis hvor hvordan hvorfor hvornår + +i ikke ind ingen intet + +ja jeg jer jeres jo + +kan kom komme kommer kun kunne + +lad lav lidt lige lille + +man mand mange med meget men mens mere mig min mine mit mod må + +ned nej ni nogen noget nogle nu ny nyt når nær næste næsten + +og også okay om op os otte over + +på + +se seks selv ser ses sig sige sin sine sit skal skulle som stor store syv så +sådan + +tag tage thi ti til to tre + +ud under + +var ved vi vil ville vor vores være været +""".split()) diff --git a/spacy/lang/da/tokenizer_exceptions.py b/spacy/lang/da/tokenizer_exceptions.py new file mode 100644 index 000000000..fbfbbad86 --- /dev/null +++ b/spacy/lang/da/tokenizer_exceptions.py @@ -0,0 +1,17 @@ +# encoding: utf8 +from __future__ import unicode_literals + +from ...symbols import ORTH, LEMMA + + +_exc = {} + + +for orth in [ + "A/S", "beg.", "bl.a.", "ca.", "d.s.s.", "dvs.", "f.eks.", "fr.", "hhv.", + "if.", "iflg.", "m.a.o.", "mht.", "min.", "osv.", "pga.", "resp.", "self.", + "t.o.m.", "vha.", ""]: + _exc[orth] = [{ORTH: orth}] + + +TOKENIZER_EXCEPTIONS = dict(_exc)