Reorganise Norwegian language data

This commit is contained in:
ines 2017-05-08 15:51:22 +02:00
parent 5edbc725d8
commit 04ef5025bd
4 changed files with 77 additions and 210 deletions

View File

@ -1,28 +1,26 @@
# encoding: utf8 # coding: utf8
from __future__ import unicode_literals, print_function from __future__ import unicode_literals
from os import path from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
from .stop_words import STOP_WORDS
from .morph_rules import MORPH_RULES
from ..language_data import BASE_EXCEPTIONS
from ..language import Language from ..language import Language
from ..attrs import LANG from ..attrs import LANG
from ..util import update_exc
# Import language-specific data
from .language_data import *
# create Language subclass
class Norwegian(Language): class Norwegian(Language):
lang = 'nb' # ISO code lang = 'nb'
class Defaults(Language.Defaults): class Defaults(Language.Defaults):
lex_attr_getters = dict(Language.Defaults.lex_attr_getters) lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
lex_attr_getters[LANG] = lambda text: 'nb' lex_attr_getters[LANG] = lambda text: 'nb'
# override defaults tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
tokenizer_exceptions = TOKENIZER_EXCEPTIONS stop_words = set(STOP_WORDS)
#tag_map = TAG_MAP morph_rules = dict(MORPH_RULES)
stop_words = STOP_WORDS
EXPORT = Norwegian __all__ = ['Norwegian']

View File

@ -1,9 +1,9 @@
# encoding: utf8 # encoding: utf8
# norwegian bokmål
from __future__ import unicode_literals from __future__ import unicode_literals
from ..symbols import * from ..symbols import LEMMA
from ..language_data import PRON_LEMMA from ..deprecated import PRON_LEMMA
# Used the table of pronouns at https://no.wiktionary.org/wiki/Tillegg:Pronomen_i_norsk # Used the table of pronouns at https://no.wiktionary.org/wiki/Tillegg:Pronomen_i_norsk

View File

@ -10,21 +10,25 @@ da dag de del dem den denne der dermed det dette disse drept du
eller en enn er et ett etter eller en enn er et ett etter
fem fikk fire fjor flere folk for fortsatt fotball fra fram frankrike fredag funnet får fått før først første fem fikk fire fjor flere folk for fortsatt fotball fra fram frankrike fredag
funnet får fått før først første
gang gi gikk gjennom gjorde gjort gjør gjøre god godt grunn går gang gi gikk gjennom gjorde gjort gjør gjøre god godt grunn går
ha hadde ham han hans har hele helt henne hennes her hun hva hvor hvordan hvorfor ha hadde ham han hans har hele helt henne hennes her hun hva hvor hvordan
hvorfor
i ifølge igjen ikke ingen inn i ifølge igjen ikke ingen inn
ja jeg ja jeg
kamp kampen kan kl klart kom komme kommer kontakt kort kroner kunne kveld kvinner kamp kampen kan kl klart kom komme kommer kontakt kort kroner kunne kveld
kvinner
la laget land landet langt leder ligger like litt løpet lørdag la laget land landet langt leder ligger like litt løpet lørdag
man mandag mange mannen mars med meg mellom men mener menn mennesker mens mer millioner minutter mot msci mye mål måtte man mandag mange mannen mars med meg mellom men mener menn mennesker mens mer
millioner minutter mot msci mye mål måtte
ned neste noe noen nok norge norsk norske ntb ny nye når ned neste noe noen nok norge norsk norske ntb ny nye når
@ -34,9 +38,12 @@ personer plass poeng politidistrikt politiet president prosent på
regjeringen runde rundt russland regjeringen runde rundt russland
sa saken samme sammen samtidig satt se seg seks selv senere september ser sett siden sier sin sine siste sitt skal skriver skulle slik som sted stedet stor store står sverige svært søndag sa saken samme sammen samtidig satt se seg seks selv senere september ser sett
siden sier sin sine siste sitt skal skriver skulle slik som sted stedet stor
store står sverige svært søndag
ta tatt tid tidligere til tilbake tillegg tirsdag to tok torsdag tre tror tyskland ta tatt tid tidligere til tilbake tillegg tirsdag to tok torsdag tre tror
tyskland
under usa ut uten utenfor under usa ut uten utenfor
@ -45,5 +52,4 @@ vant var ved veldig vi videre viktig vil ville viser vår være vært
å år å år
ønsker ønsker
""".split()) """.split())

View File

@ -1,175 +1,38 @@
# encoding: utf8 # encoding: utf8
# Norwegian bokmaål
from __future__ import unicode_literals from __future__ import unicode_literals
from ..symbols import * from ..symbols import ORTH, LEMMA
from ..language_data import PRON_LEMMA
TOKENIZER_EXCEPTIONS = { _exc = {}
"jan.": [
{ORTH: "jan.", LEMMA: "januar"}
],
"feb.": [
{ORTH: "feb.", LEMMA: "februar"}
],
"jul.": [
{ORTH: "jul.", LEMMA: "juli"}
]
}
ORTH_ONLY = ["adm.dir.", for exc_data in [
"a.m.", {ORTH: "jan.", LEMMA: "januar"},
"Aq.", {ORTH: "feb.", LEMMA: "februar"},
"b.c.", {ORTH: "jul.", LEMMA: "juli"}]:
"bl.a.", _exc[exc_data[ORTH]] = [dict(exc_data)]
"bla.",
"bm.",
"bto.", for orth in [
"ca.", "adm.dir.", "a.m.", "Aq.", "b.c.", "bl.a.", "bla.", "bm.", "bto.", "ca.",
"cand.mag.", "cand.mag.", "c.c.", "co.", "d.d.", "dept.", "d.m.", "dr.philos.", "dvs.",
"c.c.", "d.y.", "E. coli", "eg.", "ekskl.", "e.Kr.", "el.", "e.l.", "et.", "etg.",
"co.", "ev.", "evt.", "f.", "f.eks.", "fhv.", "fk.", "f.Kr.", "f.o.m.", "foreg.",
"d.d.", "fork.", "fv.", "fvt.", "g.", "gt.", "gl.", "gno.", "gnr.", "grl.", "hhv.",
"dept.", "hoh.", "hr.", "h.r.adv.", "ifb.", "ifm.", "iht.", "inkl.", "istf.", "jf.",
"d.m.", "jr.", "jun.", "kfr.", "kgl.res.", "kl.", "komm.", "kst.", "lø.", "ma.",
"dr.philos.", "mag.art.", "m.a.o.", "md.", "mfl.", "mill.", "min.", "m.m.", "mnd.",
"dvs.", "moh.", "Mr.", "muh.", "mv.", "mva.", "ndf.", "no.", "nov.", "nr.", "nto.",
"d.y.", "nyno.", "n.å.", "o.a.", "off.", "ofl.", "okt.", "o.l.", "on.", "op.",
"E. coli", "osv.", "ovf.", "p.", "p.a.", "Pb.", "pga.", "ph.d.", "pkt.", "p.m.", "pr.",
"eg.", "pst.", "p.t.", "red.anm.", "ref.", "res.", "res.kap.", "resp.", "rv.",
"ekskl.", "s.", "s.d.", "sen.", "sep.", "siviling.", "sms.", "spm.", "sr.", "sst.",
"e.Kr.", "st.", "stip.", "stk.", "st.meld.", "st.prp.", "stud.", "s.u.", "sv.",
"el.", "sø.", "s.å.", "såk.", "temp.", "ti.", "tils.", "tilsv.", "tl;dr", "tlf.",
"e.l.", "to.", "t.o.m.", "ult.", "utg.", "v.", "vedk.", "vedr.", "vg.", "vgs.",
"et.", "vha.", "vit.ass.", "vn.", "vol.", "vs.", "vsa.", "årg.", "årh."]:
"etg.", _exc[orth] = [{ORTH: orth}]
"ev.",
"evt.",
"f.", TOKENIZER_EXCEPTIONS = dict(_exc)
"f.eks.",
"fhv.",
"fk.",
"f.Kr.",
"f.o.m.",
"foreg.",
"fork.",
"fv.",
"fvt.",
"g.",
"gt.",
"gl.",
"gno.",
"gnr.",
"grl.",
"hhv.",
"hoh.",
"hr.",
"h.r.adv.",
"ifb.",
"ifm.",
"iht.",
"inkl.",
"istf.",
"jf.",
"jr.",
"jun.",
"kfr.",
"kgl.res.",
"kl.",
"komm.",
"kst.",
"lø.",
"ma.",
"mag.art.",
"m.a.o.",
"md.",
"mfl.",
"mill.",
"min.",
"m.m.",
"mnd.",
"moh.",
"Mr.",
"muh.",
"mv.",
"mva.",
"ndf.",
"no.",
"nov.",
"nr.",
"nto.",
"nyno.",
"n.å.",
"o.a.",
"off.",
"ofl.",
"okt.",
"o.l.",
"on.",
"op.",
"osv.",
"ovf.",
"p.",
"p.a.",
"Pb.",
"pga.",
"ph.d.",
"pkt.",
"p.m.",
"pr.",
"pst.",
"p.t.",
"red.anm.",
"ref.",
"res.",
"res.kap.",
"resp.",
"rv.",
"s.",
"s.d.",
"sen.",
"sep.",
"siviling.",
"sms.",
"spm.",
"sr.",
"sst.",
"st.",
"stip.",
"stk.",
"st.meld.",
"st.prp.",
"stud.",
"s.u.",
"sv.",
"sø.",
"s.å.",
"såk.",
"temp.",
"ti.",
"tils.",
"tilsv.",
"tl;dr",
"tlf.",
"to.",
"t.o.m.",
"ult.",
"utg.",
"v.",
"vedk.",
"vedr.",
"vg.",
"vgs.",
"vha.",
"vit.ass.",
"vn.",
"vol.",
"vs.",
"vsa.",
"årg.",
"årh."
]