Reorganise Norwegian language data

2025-10-28 06:31:12 +03:00 · 2017-05-08 15:51:22 +02:00 · 2017-05-08 15:51:22 +02:00 · 04ef5025bd
commit 04ef5025bd
parent 5edbc725d8
4 changed files with 77 additions and 210 deletions
--- a/spacy/nb/init.py
+++ b/spacy/nb/init.py
@ -1,28 +1,26 @@
-# encoding: utf8
+# coding: utf8
-from __future__ import unicode_literals, print_function
+from __future__ import unicode_literals
-from os import path
+from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
 from .stop_words import STOP_WORDS
 from .morph_rules import MORPH_RULES
 from ..language_data import BASE_EXCEPTIONS
 from ..language import Language
 from ..attrs import LANG
 from ..util import update_exc
 # Import language-specific data
 from .language_data import *
 # create Language subclass
 class Norwegian(Language):
-    lang = 'nb' # ISO code
+    lang = 'nb'
    class Defaults(Language.Defaults):
        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
        lex_attr_getters[LANG] = lambda text: 'nb'
-        # override defaults
+        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
+        stop_words = set(STOP_WORDS)
-        #tag_map = TAG_MAP
+        morph_rules = dict(MORPH_RULES)
        stop_words = STOP_WORDS
-EXPORT = Norwegian
+__all__ = ['Norwegian']
--- a/spacy/nb/morph_rules.py
+++ b/spacy/nb/morph_rules.py
@ -1,9 +1,9 @@
 # encoding: utf8
 # norwegian bokmål
 from __future__ import unicode_literals
-from ..symbols import *
+from ..symbols import LEMMA
-from ..language_data import PRON_LEMMA
+from ..deprecated import PRON_LEMMA
 # Used the table of pronouns at https://no.wiktionary.org/wiki/Tillegg:Pronomen_i_norsk
--- a/spacy/nb/stop_words.py
+++ b/spacy/nb/stop_words.py
@ -10,21 +10,25 @@ da dag de del dem den denne der dermed det dette disse drept du
 eller en enn er et ett etter
-fem fikk fire fjor flere folk for fortsatt fotball fra fram frankrike fredag funnet få får fått før først første
+fem fikk fire fjor flere folk for fortsatt fotball fra fram frankrike fredag
 funnet få får fått før først første
 gang gi gikk gjennom gjorde gjort gjør gjøre god godt grunn gå går
-ha hadde ham han hans har hele helt henne hennes her hun hva hvor hvordan hvorfor
+ha hadde ham han hans har hele helt henne hennes her hun hva hvor hvordan
 hvorfor
 i ifølge igjen ikke ingen inn
 ja jeg
-kamp kampen kan kl klart kom komme kommer kontakt kort kroner kunne kveld kvinner
+kamp kampen kan kl klart kom komme kommer kontakt kort kroner kunne kveld
 kvinner
 la laget land landet langt leder ligger like litt løpet lørdag
-man mandag mange mannen mars med meg mellom men mener menn mennesker mens mer millioner minutter mot msci mye må mål måtte 
+man mandag mange mannen mars med meg mellom men mener menn mennesker mens mer
 millioner minutter mot msci mye må mål måtte
 ned neste noe noen nok norge norsk norske ntb ny nye nå når
@ -34,9 +38,12 @@ personer plass poeng politidistrikt politiet president prosent på
 regjeringen runde rundt russland
-sa saken samme sammen samtidig satt se seg seks selv senere september ser sett siden sier sin sine siste sitt skal skriver skulle slik som sted stedet stor store står sverige svært så søndag
+sa saken samme sammen samtidig satt se seg seks selv senere september ser sett
 siden sier sin sine siste sitt skal skriver skulle slik som sted stedet stor
 store står sverige svært så søndag
-ta tatt tid tidligere til tilbake tillegg tirsdag to tok torsdag tre tror tyskland
+ta tatt tid tidligere til tilbake tillegg tirsdag to tok torsdag tre tror
 tyskland
 under usa ut uten utenfor
@ -45,5 +52,4 @@ vant var ved veldig vi videre viktig vil ville viser vår være vært
 å år
 ønsker
 """.split())
--- a/spacy/nb/tokenizer_exceptions.py
+++ b/spacy/nb/tokenizer_exceptions.py
@ -1,175 +1,38 @@
 # encoding: utf8
 # Norwegian bokmaål
 from __future__ import unicode_literals
-from ..symbols import *
+from ..symbols import ORTH, LEMMA
 from ..language_data import PRON_LEMMA
-TOKENIZER_EXCEPTIONS = {
+_exc = {}
    "jan.": [
        {ORTH: "jan.", LEMMA: "januar"}
    ],
    "feb.": [
        {ORTH: "feb.", LEMMA: "februar"}
    ],
    "jul.": [
        {ORTH: "jul.", LEMMA: "juli"}
    ]
 }
-ORTH_ONLY = ["adm.dir.",
+for exc_data in [
-    "a.m.",
+    {ORTH: "jan.", LEMMA: "januar"},
-    "Aq.",
+    {ORTH: "feb.", LEMMA: "februar"},
-    "b.c.",
+    {ORTH: "jul.", LEMMA: "juli"}]:
-    "bl.a.",
+    _exc[exc_data[ORTH]] = [dict(exc_data)]
-    "bla.",
+
-    "bm.",
+
-    "bto.",
+for orth in [
-    "ca.",
+    "adm.dir.", "a.m.", "Aq.", "b.c.", "bl.a.", "bla.", "bm.", "bto.", "ca.",
-    "cand.mag.",
+    "cand.mag.", "c.c.", "co.", "d.d.", "dept.", "d.m.", "dr.philos.", "dvs.",
-    "c.c.",
+    "d.y.", "E. coli", "eg.", "ekskl.", "e.Kr.", "el.", "e.l.", "et.", "etg.",
-    "co.",
+    "ev.", "evt.", "f.", "f.eks.", "fhv.", "fk.", "f.Kr.", "f.o.m.", "foreg.",
-    "d.d.",
+    "fork.", "fv.", "fvt.", "g.", "gt.", "gl.", "gno.", "gnr.", "grl.", "hhv.",
-    "dept.",
+    "hoh.", "hr.", "h.r.adv.", "ifb.", "ifm.", "iht.", "inkl.", "istf.", "jf.",
-    "d.m.",
+    "jr.", "jun.", "kfr.", "kgl.res.", "kl.", "komm.", "kst.", "lø.", "ma.",
-    "dr.philos.",
+    "mag.art.", "m.a.o.", "md.", "mfl.", "mill.", "min.", "m.m.", "mnd.",
-    "dvs.",
+    "moh.", "Mr.", "muh.", "mv.", "mva.", "ndf.", "no.", "nov.", "nr.", "nto.",
-    "d.y.",
+    "nyno.", "n.å.", "o.a.", "off.", "ofl.", "okt.", "o.l.", "on.", "op.",
-    "E. coli",
+    "osv.", "ovf.", "p.", "p.a.", "Pb.", "pga.", "ph.d.", "pkt.", "p.m.", "pr.",
-    "eg.",
+    "pst.", "p.t.", "red.anm.", "ref.", "res.", "res.kap.", "resp.", "rv.",
-    "ekskl.",
+    "s.", "s.d.", "sen.", "sep.", "siviling.", "sms.", "spm.", "sr.", "sst.",
-    "e.Kr.",
+    "st.", "stip.", "stk.", "st.meld.", "st.prp.", "stud.", "s.u.", "sv.",
-    "el.",
+    "sø.", "s.å.", "såk.", "temp.", "ti.", "tils.", "tilsv.", "tl;dr", "tlf.",
-    "e.l.",
+    "to.", "t.o.m.", "ult.", "utg.", "v.", "vedk.", "vedr.", "vg.", "vgs.",
-    "et.",
+    "vha.", "vit.ass.", "vn.", "vol.", "vs.", "vsa.", "årg.", "årh."]:
-    "etg.",
+    _exc[orth] = [{ORTH: orth}]
-    "ev.",
+
-    "evt.",
+
-    "f.",
+TOKENIZER_EXCEPTIONS = dict(_exc)
    "f.eks.",
    "fhv.",
    "fk.",
    "f.Kr.",
    "f.o.m.",
    "foreg.",
    "fork.",
    "fv.",
    "fvt.",
    "g.",
    "gt.",
    "gl.",
    "gno.",
    "gnr.",
    "grl.",
    "hhv.",
    "hoh.",
    "hr.",
    "h.r.adv.",
    "ifb.",
    "ifm.",
    "iht.",
    "inkl.",
    "istf.",
    "jf.",
    "jr.",
    "jun.",
    "kfr.",
    "kgl.res.",
    "kl.",
    "komm.",
    "kst.",
    "lø.",
    "ma.",
    "mag.art.",
    "m.a.o.",
    "md.",
    "mfl.",
    "mill.",
    "min.",
    "m.m.",
    "mnd.",
    "moh.",
    "Mr.",
    "muh.",
    "mv.",
    "mva.",
    "ndf.",
    "no.",
    "nov.",
    "nr.",
    "nto.",
    "nyno.",
    "n.å.",
    "o.a.",
    "off.",
    "ofl.",
    "okt.",
    "o.l.",
    "on.",
    "op.",
    "osv.",
    "ovf.",
    "p.",
    "p.a.",
    "Pb.",
    "pga.",
    "ph.d.",
    "pkt.",
    "p.m.",
    "pr.",
    "pst.",
    "p.t.",
    "red.anm.",
    "ref.",
    "res.",
    "res.kap.",
    "resp.",
    "rv.",
    "s.",
    "s.d.",
    "sen.",
    "sep.",
    "siviling.",
    "sms.",
    "spm.",
    "sr.",
    "sst.",
    "st.",
    "stip.",
    "stk.",
    "st.meld.",
    "st.prp.",
    "stud.",
    "s.u.",
    "sv.",
    "sø.",
    "s.å.",
    "såk.",
    "temp.",
    "ti.",
    "tils.",
    "tilsv.",
    "tl;dr",
    "tlf.",
    "to.",
    "t.o.m.",
    "ult.",
    "utg.",
    "v.",
    "vedk.",
    "vedr.",
    "vg.",
    "vgs.",
    "vha.",
    "vit.ass.",
    "vn.",
    "vol.",
    "vs.",
    "vsa.",
    "årg.",
    "årh."
 ]