Add Danish language data

This commit is contained in:
ines 2017-05-10 21:15:12 +02:00
parent 4efb391994
commit bb8be3d194
3 changed files with 88 additions and 0 deletions

24
spacy/lang/da/__init__.py Normal file
View File

@ -0,0 +1,24 @@
# coding: utf8
from __future__ import unicode_literals
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .stop_words import STOP_WORDS
from ..tokenizer_exceptions import BASE_EXCEPTIONS
from ...language import Language
from ...attrs import LANG
from ...util import update_exc
class Danish(Language):
lang = 'da'
class Defaults(Language.Defaults):
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
lex_attr_getters[LANG] = lambda text: 'da'
tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
stop_words = set(STOP_WORDS)
__all__ = ['Danish']

View File

@ -0,0 +1,47 @@
# encoding: utf8
from __future__ import unicode_literals
# Source: https://github.com/stopwords-iso/stopwords-da
STOP_WORDS = set("""
ad af aldrig alle alt anden andet andre at
bare begge blev blive bliver
da de dem den denne der deres det dette dig din dine disse dit dog du
efter ej eller en end ene eneste enhver er et
far fem fik fire flere fleste for fordi forrige fra får før
god godt
ham han hans har havde have hej helt hende hendes her hos hun hvad hvem hver
hvilken hvis hvor hvordan hvorfor hvornår
i ikke ind ingen intet
ja jeg jer jeres jo
kan kom komme kommer kun kunne
lad lav lidt lige lille
man mand mange med meget men mens mere mig min mine mit mod
ned nej ni nogen noget nogle nu ny nyt når nær næste næsten
og også okay om op os otte over
se seks selv ser ses sig sige sin sine sit skal skulle som stor store syv
sådan
tag tage thi ti til to tre
ud under
var ved vi vil ville vor vores være været
""".split())

View File

@ -0,0 +1,17 @@
# encoding: utf8
from __future__ import unicode_literals
from ...symbols import ORTH, LEMMA
_exc = {}
for orth in [
"A/S", "beg.", "bl.a.", "ca.", "d.s.s.", "dvs.", "f.eks.", "fr.", "hhv.",
"if.", "iflg.", "m.a.o.", "mht.", "min.", "osv.", "pga.", "resp.", "self.",
"t.o.m.", "vha.", ""]:
_exc[orth] = [{ORTH: orth}]
TOKENIZER_EXCEPTIONS = dict(_exc)