mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-25 17:36:30 +03:00
Add Danish language data
This commit is contained in:
parent
4efb391994
commit
bb8be3d194
24
spacy/lang/da/__init__.py
Normal file
24
spacy/lang/da/__init__.py
Normal file
|
@ -0,0 +1,24 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .stop_words import STOP_WORDS
|
||||
|
||||
from ..tokenizer_exceptions import BASE_EXCEPTIONS
|
||||
from ...language import Language
|
||||
from ...attrs import LANG
|
||||
from ...util import update_exc
|
||||
|
||||
|
||||
class Danish(Language):
|
||||
lang = 'da'
|
||||
|
||||
class Defaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: 'da'
|
||||
|
||||
tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
|
||||
stop_words = set(STOP_WORDS)
|
||||
|
||||
|
||||
__all__ = ['Danish']
|
47
spacy/lang/da/stop_words.py
Normal file
47
spacy/lang/da/stop_words.py
Normal file
|
@ -0,0 +1,47 @@
|
|||
# encoding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
# Source: https://github.com/stopwords-iso/stopwords-da
|
||||
|
||||
STOP_WORDS = set("""
|
||||
ad af aldrig alle alt anden andet andre at
|
||||
|
||||
bare begge blev blive bliver
|
||||
|
||||
da de dem den denne der deres det dette dig din dine disse dit dog du
|
||||
|
||||
efter ej eller en end ene eneste enhver er et
|
||||
|
||||
far fem fik fire flere fleste for fordi forrige fra få får før
|
||||
|
||||
god godt
|
||||
|
||||
ham han hans har havde have hej helt hende hendes her hos hun hvad hvem hver
|
||||
hvilken hvis hvor hvordan hvorfor hvornår
|
||||
|
||||
i ikke ind ingen intet
|
||||
|
||||
ja jeg jer jeres jo
|
||||
|
||||
kan kom komme kommer kun kunne
|
||||
|
||||
lad lav lidt lige lille
|
||||
|
||||
man mand mange med meget men mens mere mig min mine mit mod må
|
||||
|
||||
ned nej ni nogen noget nogle nu ny nyt når nær næste næsten
|
||||
|
||||
og også okay om op os otte over
|
||||
|
||||
på
|
||||
|
||||
se seks selv ser ses sig sige sin sine sit skal skulle som stor store syv så
|
||||
sådan
|
||||
|
||||
tag tage thi ti til to tre
|
||||
|
||||
ud under
|
||||
|
||||
var ved vi vil ville vor vores være været
|
||||
""".split())
|
17
spacy/lang/da/tokenizer_exceptions.py
Normal file
17
spacy/lang/da/tokenizer_exceptions.py
Normal file
|
@ -0,0 +1,17 @@
|
|||
# encoding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from ...symbols import ORTH, LEMMA
|
||||
|
||||
|
||||
_exc = {}
|
||||
|
||||
|
||||
for orth in [
|
||||
"A/S", "beg.", "bl.a.", "ca.", "d.s.s.", "dvs.", "f.eks.", "fr.", "hhv.",
|
||||
"if.", "iflg.", "m.a.o.", "mht.", "min.", "osv.", "pga.", "resp.", "self.",
|
||||
"t.o.m.", "vha.", ""]:
|
||||
_exc[orth] = [{ORTH: orth}]
|
||||
|
||||
|
||||
TOKENIZER_EXCEPTIONS = dict(_exc)
|
Loading…
Reference in New Issue
Block a user