Add norwegian lemmatizer and tag_map

2025-12-23 01:53:17 +03:00 · 2018-01-24 12:28:29 +01:00 · 2018-01-24 12:28:29 +01:00 · b9b3a40c78
commit b9b3a40c78
parent fe4748fc38
4 changed files with 248 additions and 0 deletions
--- a/spacy/lang/nb/init.py
+++ b/spacy/lang/nb/init.py
@ -7,6 +7,8 @@ from .morph_rules import MORPH_RULES
 from ..tokenizer_exceptions import BASE_EXCEPTIONS
 from ..norm_exceptions import BASE_NORMS
 from .lemmatizer import LOOKUP
 from .tag_map import TAG_MAP
 from ...language import Language
 from ...attrs import LANG, NORM
 from ...util import update_exc, add_lookups
@ -18,6 +20,8 @@ class NorwegianDefaults(Language.Defaults):
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
    stop_words = STOP_WORDS
    tag_map = TAG_MAP
    lemma_lookup = LOOKUP
 class Norwegian(Language):
--- a/spacy/lang/nb/lemmatizer.py
+++ b/spacy/lang/nb/lemmatizer.py
@ -0,0 +1,164 @@
 # coding: utf8
 from __future__ import unicode_literals
 LOOKUP = {
 'a':'a',
 'aabakken':'aabakken',
 'aabakkens':'aabakkens',
 'aarbakke':'aarbakke',
 'aarum':'aarum',
 'aase':'aase',
 'ab':'ab',
 'abitanti':'abitanti',
 'abitazione':'abitazione',
 'ablegÃ¸yer':'ablegÃ¸yer',
 'absolutt':'absolutt',
 'absorberes':'absorberes',
 'ad':'ad',
 'adgang':'adgang',
 'adgangen':'adgangen',
 'adkomst':'adkomst',
 'adkomstdokument':'adkomstdokument',
 'adkomstdokumenter':'adkomstdokumenter',
 'adkomsten':'adkomsten',
 'adlyde':'adlyde',
 'adlyder':'adlyder',
 'adm':'adm',
 'administrasjon':'administrasjon',
 'administrasjonen':'administrasjonen',
 'administrasjonsdepartementet':'administrasjonsdepartementet',
 'administrasjonskostnadene':'administrasjonskostnadene',
 'administrativ':'administrativ',
 'administrative':'administrative',
 'administrativt':'administrativt',
 'administrere':'administrere',
 'administrerende':'administrerende',
 'administreres':'administreres',
 'administrert':'administrert',
 'adopsjon':'adopsjon',
 'adopsjonspenger':'adopsjonspenger',
 'adresse':'adresse',
 'adresser':'adresser',
 'adskillelse':'adskillelse',
 'adskilt':'adskilt',
 'advare':'advare',
 'advarselen':'advarselen',
 'advart':'advart',
 'advokat':'advokat',
 'advokatar':'advokatar',
 'advokatfirmaet':'advokatfirmaet',
 'advokatfullmektig':'advokatfullmektig',
 'agder':'agder',
 'agenter':'agenter',
 'agenturer':'agenturer',
 'aggregeres':'aggregeres',
 'aggregert':'aggregert',
 'agn':'agn',
 'agnar':'agnar',
 'agreement':'agreement',
 'ajourfÃ¸ring':'ajourfÃ¸ring',
 'akademikerne':'akademikerne',
 'akademikernes':'akademikernes',
 'ake':'ake',
 'akershus':'akershus',
 'akkord':'akkord',
 'akkumulerte':'akkumulerte',
 'akkurat':'akkurat',
 'aksept':'aksept',
 'akseptabel':'akseptabel',
 'akseptabelt':'akseptabelt',
 'akseptable':'akseptable',
 'aksepterast':'aksepterast',
 'akseptere':'akseptere',
 'aksepteres':'aksepteres',
 'akseptert':'akseptert',
 'aksjane':'aksjane',
 'aksjar':'aksjar',
 'aksje':'aksje',
 'aksjeandel':'aksjeandel',
 'aksjeavkastning':'aksjeavkastning',
 'aksjebrev':'aksjebrev',
 'aksjebustader':'aksjebustader',
 'aksjeeigar':'aksjeeigar',
 'aksjeeigarane':'aksjeeigarane',
 'aksjeeigarar':'aksjeeigarar',
 'aksjeeigaravtale':'aksjeeigaravtale',
 'aksjeeigaren':'aksjeeigaren',
 'aksjegevinster':'aksjegevinster',
 'aksjeinnskot':'aksjeinnskot',
 'aksjekapital':'aksjekapital',
 'aksjekapitalen':'aksjekapitalen',
 'aksjelov':'aksjelov',
 'aksjelova':'aksjelova',
 'aksjeloven':'aksjeloven',
 'aksjelovens':'aksjelovens',
 'aksjelovgjeving':'aksjelovgjeving',
 'aksjelovgjevinga':'aksjelovgjevinga',
 'aksjer':'aksjer',
 'aksjerettslig':'aksjerettslig',
 'aksjeselskap':'aksjeselskap',
 'aksjeselskaper':'aksjeselskaper',
 'aksjeselskapet':'aksjeselskapet',
 'aksjeselskapsformen':'aksjeselskapsformen',
 'aksjeselskapsrettslege':'aksjeselskapsrettslege',
 'aksjonÃ¦r':'aksjonÃ¦r',
 'aksjonÃ¦roppgaver':'aksjonÃ¦roppgaver',
 'aktersetet':'aktersetet',
 'aktes':'aktes',
 'aktiv':'aktiv',
 'aktiva':'aktiva',
 'aktivaklasser':'aktivaklasser',
 'aktivasammensetning':'aktivasammensetning',
 'aktive':'aktive',
 'aktivitet':'aktivitet',
 'aktivitetane':'aktivitetane',
 'aktivitetar':'aktivitetar',
 'aktiviteten':'aktiviteten',
 'aktivitetene':'aktivitetene',
 'aktiviteter':'aktiviteter',
 'aktivitetsÃ¸kning':'aktivitetsÃ¸kning',
 'aktivt':'aktivt',
 'aktlaust':'aktlaust',
 'aktlÃ¸yse':'aktlÃ¸yse',
 'aktsemd':'aktsemd',
 'aktsemdplikta':'aktsemdplikta',
 'aktualisere':'aktualisere',
 'aktuar':'aktuar',
 'aktuell':'aktuell',
 'aktuelle':'aktuelle',
 'aktuelt':'aktuelt',
 'aktÃ¸r':'aktÃ¸r',
 'aktÃ¸rane':'aktÃ¸rane',
 'aktÃ¸rar':'aktÃ¸rar',
 'aktÃ¸rene':'aktÃ¸rene',
 'aktÃ¸renes':'aktÃ¸renes',
 'aktÃ¸rens':'aktÃ¸rens',
 'aktÃ¸rer':'aktÃ¸rer',
 'aktÃ¸rers':'aktÃ¸rers',
 'aktÃ¸rgruppe':'aktÃ¸rgruppe',
 'aku':'aku',
 'alarmsignalet':'alarmsignalet',
 'aldeles':'aldeles',
 'alder':'alder',
 'alderdom':'alderdom',
 'alderdommen':'alderdommen',
 'alderen':'alderen',
 'alderkilde':'alderkilde',
 'alderpensjonen':'alderpensjonen',
 'alderpensjonskapital':'alderpensjonskapital',
 'alders':'alders',
 'aldersdifferanse':'aldersdifferanse',
 'aldersforskjellen':'aldersforskjellen',
 'aldersgrense':'aldersgrense',
 'aldersgrensen':'aldersgrensen',
 'aldersgrensene':'aldersgrensene',
 'aldersgrupper':'aldersgrupper',
 'alderspensjon':'alderspensjon',
 'alderspensjonen':'alderspensjonen',
 'alderspensjoner':'alderspensjoner',
 'alderspensjonist':'alderspensjonist',
 'alderspensjonistene':'alderspensjonistene',
 'alderspensjonister':'alderspensjonister',
 'alderspensjonsforsikring':'alderspensjonsforsikring',
 'alderspensjonsforsikringen':'alderspensjonsforsikringen',
 }
--- a/spacy/lang/nb/punctuation.py
+++ b/spacy/lang/nb/punctuation.py
@ -0,0 +1,25 @@
 # coding: utf8
 """Punctuation stolen from Danish"""
 from __future__ import unicode_literals
 from ..char_classes import LIST_ELLIPSES, LIST_ICONS
 from ..char_classes import QUOTES, ALPHA, ALPHA_LOWER, ALPHA_UPPER
 from ..punctuation import TOKENIZER_SUFFIXES
 _quotes = QUOTES.replace("'", '')
 _infixes = (LIST_ELLIPSES + LIST_ICONS +
            [r'(?<=[{}])\.(?=[{}])'.format(ALPHA_LOWER, ALPHA_UPPER),
             r'(?<=[{a}])[,!?](?=[{a}])'.format(a=ALPHA),
             r'(?<=[{a}"])[:<>=](?=[{a}])'.format(a=ALPHA),
             r'(?<=[{a}]),(?=[{a}])'.format(a=ALPHA),
             r'(?<=[{a}])([{q}\)\]\(\[])(?=[\{a}])'.format(a=ALPHA, q=_quotes),
             r'(?<=[{a}])--(?=[{a}])'.format(a=ALPHA)])
 _suffixes = [suffix for suffix in TOKENIZER_SUFFIXES if suffix not in ["'s", "'S", "’s", "’S", r"\'"]]
 _suffixes += [r"(?<=[^sSxXzZ])\'"]
 TOKENIZER_INFIXES = _infixes
 TOKENIZER_SUFFIXES = _suffixes
--- a/spacy/lang/nb/tag_map.py
+++ b/spacy/lang/nb/tag_map.py
@ -0,0 +1,55 @@
 # coding: utf8
 """Based on Garman tag map, converted using
 https://pdfs.semanticscholar.org/87b9/24e2134f6782acc59ab567f6bf87cb5e5d9f.pdf"""
 from __future__ import unicode_literals
 from ...symbols import POS, PUNCT, ADJ, CONJ, CCONJ, SCONJ, SYM, NUM, DET, ADV, ADP, X, VERB
 from ...symbols import NOUN, PROPN, PART, INTJ, SPACE, PRON, AUX
 TAG_MAP = {
    "$(":       {POS: PUNCT, "PunctType": "PUNCT"},
    "$)":       {POS: PUNCT, "PunctType": "PUNCT"},
        # <parentes-slutt> PUNCT
        # <parentes-beg> PUNCT
    "$,":       {POS: PUNCT, "PunctType": "PUNCT"},
    "$.":       {POS: PUNCT, "PunctType": "PUNCT"},
    "$\"":      {POS: PUNCT, "PunctType": "PUNCT"},
    "$-":       {POS: PUNCT, "PunctType": "PUNCT"},
    'NOUN': {POS: NOUN},
    'PROPN': {POS: PROPN},
    'VERB': {POS: VERB},
    'PUNCT': {POS: PUNCT},
    'ADJ': {POS: ADJ},
    'ADP': {POS: ADP},
    'PART': {POS: PART},
    'DET': {POS: DET},
    'AUX': {POS: AUX},
    'PRON': {POS: PRON},
    'CCONJ': {POS: CCONJ},
    'NUM': {POS: NUM},
    'ADV': {POS: ADV},
    'SCONJ': {POS: SCONJ},
    'SYM': {POS: SYM},
    'X': {POS: X},
    'INTJ': {POS: INTJ},
    # <anf> PUNCT
    # 'adj':      {POS: ADJ},
    # 'adv':      {POS: ADV},
    # 'clb':      {POS: PUNCT}, # SYM
    # 'det':      {POS: DET}, # NUM
    # 'konj':     {POS: CONJ},
    # 'interj':   {POS: INTJ},
    # 'inf-merke': {POS: PART},
    # 'prep':     {POS: ADP},
    # # 'prep':     {POS: ADV},
    # 'pron':     {POS: PRON},
    # 'sbu':      {POS: SCONJ}, #
    # 'subst':    {POS: NOUN}, #, PROPN
    # 'symb':     {POS: SYM}, #
    # 'ukjent':   {POS: X}, #
    # 'verb':     {POS: AUX}, #, VERB
 }