mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-25 17:36:30 +03:00
Add Danish language data
This commit is contained in:
parent
4efb391994
commit
bb8be3d194
24
spacy/lang/da/__init__.py
Normal file
24
spacy/lang/da/__init__.py
Normal file
|
@ -0,0 +1,24 @@
|
||||||
|
# coding: utf8
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||||
|
from .stop_words import STOP_WORDS
|
||||||
|
|
||||||
|
from ..tokenizer_exceptions import BASE_EXCEPTIONS
|
||||||
|
from ...language import Language
|
||||||
|
from ...attrs import LANG
|
||||||
|
from ...util import update_exc
|
||||||
|
|
||||||
|
|
||||||
|
class Danish(Language):
|
||||||
|
lang = 'da'
|
||||||
|
|
||||||
|
class Defaults(Language.Defaults):
|
||||||
|
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||||
|
lex_attr_getters[LANG] = lambda text: 'da'
|
||||||
|
|
||||||
|
tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
|
||||||
|
stop_words = set(STOP_WORDS)
|
||||||
|
|
||||||
|
|
||||||
|
__all__ = ['Danish']
|
47
spacy/lang/da/stop_words.py
Normal file
47
spacy/lang/da/stop_words.py
Normal file
|
@ -0,0 +1,47 @@
|
||||||
|
# encoding: utf8
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
|
||||||
|
# Source: https://github.com/stopwords-iso/stopwords-da
|
||||||
|
|
||||||
|
STOP_WORDS = set("""
|
||||||
|
ad af aldrig alle alt anden andet andre at
|
||||||
|
|
||||||
|
bare begge blev blive bliver
|
||||||
|
|
||||||
|
da de dem den denne der deres det dette dig din dine disse dit dog du
|
||||||
|
|
||||||
|
efter ej eller en end ene eneste enhver er et
|
||||||
|
|
||||||
|
far fem fik fire flere fleste for fordi forrige fra få får før
|
||||||
|
|
||||||
|
god godt
|
||||||
|
|
||||||
|
ham han hans har havde have hej helt hende hendes her hos hun hvad hvem hver
|
||||||
|
hvilken hvis hvor hvordan hvorfor hvornår
|
||||||
|
|
||||||
|
i ikke ind ingen intet
|
||||||
|
|
||||||
|
ja jeg jer jeres jo
|
||||||
|
|
||||||
|
kan kom komme kommer kun kunne
|
||||||
|
|
||||||
|
lad lav lidt lige lille
|
||||||
|
|
||||||
|
man mand mange med meget men mens mere mig min mine mit mod må
|
||||||
|
|
||||||
|
ned nej ni nogen noget nogle nu ny nyt når nær næste næsten
|
||||||
|
|
||||||
|
og også okay om op os otte over
|
||||||
|
|
||||||
|
på
|
||||||
|
|
||||||
|
se seks selv ser ses sig sige sin sine sit skal skulle som stor store syv så
|
||||||
|
sådan
|
||||||
|
|
||||||
|
tag tage thi ti til to tre
|
||||||
|
|
||||||
|
ud under
|
||||||
|
|
||||||
|
var ved vi vil ville vor vores være været
|
||||||
|
""".split())
|
17
spacy/lang/da/tokenizer_exceptions.py
Normal file
17
spacy/lang/da/tokenizer_exceptions.py
Normal file
|
@ -0,0 +1,17 @@
|
||||||
|
# encoding: utf8
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
from ...symbols import ORTH, LEMMA
|
||||||
|
|
||||||
|
|
||||||
|
_exc = {}
|
||||||
|
|
||||||
|
|
||||||
|
for orth in [
|
||||||
|
"A/S", "beg.", "bl.a.", "ca.", "d.s.s.", "dvs.", "f.eks.", "fr.", "hhv.",
|
||||||
|
"if.", "iflg.", "m.a.o.", "mht.", "min.", "osv.", "pga.", "resp.", "self.",
|
||||||
|
"t.o.m.", "vha.", ""]:
|
||||||
|
_exc[orth] = [{ORTH: orth}]
|
||||||
|
|
||||||
|
|
||||||
|
TOKENIZER_EXCEPTIONS = dict(_exc)
|
Loading…
Reference in New Issue
Block a user