spaCy/lang_data/de/specials.json
Wolfgang Seeker eae35e9b27 add tokenizer files for German, add/change code to train German pos tagger
- add files to specify rules for German tokenization
- change generate_specials.py to generate from an external file (abbrev.de.tab)
- copy gazetteer.json from lang_data/en/

- init_model.py
	- change doc freq threshold to 0
- add train_german_tagger.py
	- expects conll09-formatted input
2016-02-18 13:24:20 +01:00

1483 lines
19 KiB
JSON

{
"''": [
{
"F": "''"
}
],
"'S": [
{
"F": "'S",
"L": "es"
}
],
"'n": [
{
"F": "'n",
"L": "ein"
}
],
"'ne": [
{
"F": "'ne",
"L": "eine"
}
],
"'nen": [
{
"F": "'nen",
"L": "einen"
}
],
"'s": [
{
"F": "'s",
"L": "es"
}
],
"(:": [
{
"F": "(:"
}
],
"(=": [
{
"F": "(="
}
],
"(^_^)": [
{
"F": "(^_^)"
}
],
"-_-": [
{
"F": "-_-"
}
],
"-__-": [
{
"F": "-__-"
}
],
":')": [
{
"F": ":')"
}
],
":(": [
{
"F": ":("
}
],
":((": [
{
"F": ":(("
}
],
":(((": [
{
"F": ":((("
}
],
":)": [
{
"F": ":)"
}
],
":))": [
{
"F": ":))"
}
],
":-)": [
{
"F": ":-)"
}
],
":-/": [
{
"F": ":-/"
}
],
":-P": [
{
"F": ":-P"
}
],
":/": [
{
"F": ":/"
}
],
":0": [
{
"F": ":0"
}
],
":3": [
{
"F": ":3"
}
],
":>": [
{
"F": ":>"
}
],
":O": [
{
"F": ":O"
}
],
":P": [
{
"F": ":P"
}
],
":Y": [
{
"F": ":Y"
}
],
":]": [
{
"F": ":]"
}
],
":p": [
{
"F": ":p"
}
],
";(": [
{
"F": ";("
}
],
";)": [
{
"F": ";)"
}
],
";-)": [
{
"F": ";-)"
}
],
";-p": [
{
"F": ";-p"
}
],
";D": [
{
"F": ";D"
}
],
";p": [
{
"F": ";p"
}
],
"<3": [
{
"F": "<3"
}
],
"<33": [
{
"F": "<33"
}
],
"<333": [
{
"F": "<333"
}
],
"<space>": [
{
"F": "SP"
}
],
"=)": [
{
"F": "=)"
}
],
"=3": [
{
"F": "=3"
}
],
"=D": [
{
"F": "=D"
}
],
"=[[": [
{
"F": "=[["
}
],
"=]": [
{
"F": "=]"
}
],
"A.C.": [
{
"F": "A.C."
}
],
"A.D.": [
{
"F": "A.D."
}
],
"A.G.": [
{
"F": "A.G."
}
],
"Abb.": [
{
"F": "Abb."
}
],
"Abk.": [
{
"F": "Abk."
}
],
"Abs.": [
{
"F": "Abs."
}
],
"Abt.": [
{
"F": "Abt."
}
],
"Apr.": [
{
"F": "Apr."
}
],
"Aug.": [
{
"F": "Aug."
}
],
"B.A.": [
{
"F": "B.A."
}
],
"B.Sc.": [
{
"F": "B.Sc."
}
],
"Bd.": [
{
"F": "Bd."
}
],
"Betr.": [
{
"F": "Betr."
}
],
"Bf.": [
{
"F": "Bf."
}
],
"Bhf.": [
{
"F": "Bhf."
}
],
"Biol.": [
{
"F": "Biol."
}
],
"Bsp.": [
{
"F": "Bsp."
}
],
"Chr.": [
{
"F": "Chr."
}
],
"Cie.": [
{
"F": "Cie."
}
],
"Co.": [
{
"F": "Co."
}
],
"D.C.": [
{
"F": "D.C."
}
],
"Dez.": [
{
"F": "Dez."
}
],
"Di.": [
{
"F": "Di."
}
],
"Dipl.": [
{
"F": "Dipl."
}
],
"Dipl.-Ing.": [
{
"F": "Dipl.-Ing."
}
],
"Do.": [
{
"F": "Do."
}
],
"Dr.": [
{
"F": "Dr."
}
],
"Fa.": [
{
"F": "Fa."
}
],
"Fam.": [
{
"F": "Fam."
}
],
"Feb.": [
{
"F": "Feb."
}
],
"Fr.": [
{
"F": "Fr."
}
],
"Frl.": [
{
"F": "Frl."
}
],
"G.m.b.H.": [
{
"F": "G.m.b.H."
}
],
"Gebr.": [
{
"F": "Gebr."
}
],
"Hbf.": [
{
"F": "Hbf."
}
],
"Hg.": [
{
"F": "Hg."
}
],
"Hr.": [
{
"F": "Hr."
}
],
"Hrgs.": [
{
"F": "Hrgs."
}
],
"Hrn.": [
{
"F": "Hrn."
}
],
"Hrsg.": [
{
"F": "Hrsg."
}
],
"Ing.": [
{
"F": "Ing."
}
],
"Jan.": [
{
"F": "Jan."
}
],
"Jh.": [
{
"F": "Jh."
}
],
"Jhd.": [
{
"F": "Jhd."
}
],
"Jr.": [
{
"F": "Jr."
}
],
"Jul.": [
{
"F": "Jul."
}
],
"Jun.": [
{
"F": "Jun."
}
],
"K.O.": [
{
"F": "K.O."
}
],
"L.A.": [
{
"F": "L.A."
}
],
"M.A.": [
{
"F": "M.A."
}
],
"M.Sc.": [
{
"F": "M.Sc."
}
],
"Mi.": [
{
"F": "Mi."
}
],
"Mio.": [
{
"F": "Mio."
}
],
"Mo.": [
{
"F": "Mo."
}
],
"Mr.": [
{
"F": "Mr."
}
],
"Mrd.": [
{
"F": "Mrd."
}
],
"Mrz.": [
{
"F": "Mrz."
}
],
"MwSt.": [
{
"F": "MwSt."
}
],
"M\u00e4r.": [
{
"F": "M\u00e4r."
}
],
"N.Y.": [
{
"F": "N.Y."
}
],
"N.Y.C.": [
{
"F": "N.Y.C."
}
],
"Nov.": [
{
"F": "Nov."
}
],
"Nr.": [
{
"F": "Nr."
}
],
"O.K.": [
{
"F": "O.K."
}
],
"Okt.": [
{
"F": "Okt."
}
],
"Orig.": [
{
"F": "Orig."
}
],
"P.S.": [
{
"F": "P.S."
}
],
"Pkt.": [
{
"F": "Pkt."
}
],
"Prof.": [
{
"F": "Prof."
}
],
"R.I.P.": [
{
"F": "R.I.P."
}
],
"Red.": [
{
"F": "Red."
}
],
"S'": [
{
"F": "S'",
"L": "sie"
}
],
"Sa.": [
{
"F": "Sa."
}
],
"Sep.": [
{
"F": "Sep."
}
],
"Sept.": [
{
"F": "Sept."
}
],
"So.": [
{
"F": "So."
}
],
"St.": [
{
"F": "St."
}
],
"Std.": [
{
"F": "Std."
}
],
"Str.": [
{
"F": "Str."
}
],
"Tel.": [
{
"F": "Tel."
}
],
"Tsd.": [
{
"F": "Tsd."
}
],
"U.S.": [
{
"F": "U.S."
}
],
"U.S.A.": [
{
"F": "U.S.A."
}
],
"U.S.S.": [
{
"F": "U.S.S."
}
],
"Univ.": [
{
"F": "Univ."
}
],
"V_V": [
{
"F": "V_V"
}
],
"Vol.": [
{
"F": "Vol."
}
],
"\\\")": [
{
"F": "\\\")"
}
],
"\\n": [
{
"F": "\\n",
"L": "<nl>",
"pos": "SP"
}
],
"\\t": [
{
"F": "\\t",
"L": "<tab>",
"pos": "SP"
}
],
"^_^": [
{
"F": "^_^"
}
],
"a.": [
{
"F": "a."
}
],
"a.D.": [
{
"F": "a.D."
}
],
"a.M.": [
{
"F": "a.M."
}
],
"a.Z.": [
{
"F": "a.Z."
}
],
"abzgl.": [
{
"F": "abzgl."
}
],
"adv.": [
{
"F": "adv."
}
],
"al.": [
{
"F": "al."
}
],
"allg.": [
{
"F": "allg."
}
],
"auf'm": [
{
"F": "auf",
"L": "auf"
},
{
"F": "'m",
"L": "dem"
}
],
"b.": [
{
"F": "b."
}
],
"betr.": [
{
"F": "betr."
}
],
"biol.": [
{
"F": "biol."
}
],
"bspw.": [
{
"F": "bspw."
}
],
"bzgl.": [
{
"F": "bzgl."
}
],
"bzw.": [
{
"F": "bzw."
}
],
"c.": [
{
"F": "c."
}
],
"ca.": [
{
"F": "ca."
}
],
"co.": [
{
"F": "co."
}
],
"d.": [
{
"F": "d."
}
],
"d.h.": [
{
"F": "d.h."
}
],
"dgl.": [
{
"F": "dgl."
}
],
"du's": [
{
"F": "du",
"L": "du"
},
{
"F": "'s",
"L": "es"
}
],
"e.": [
{
"F": "e."
}
],
"e.V.": [
{
"F": "e.V."
}
],
"e.g.": [
{
"F": "e.g."
}
],
"ebd.": [
{
"F": "ebd."
}
],
"ehem.": [
{
"F": "ehem."
}
],
"eigtl.": [
{
"F": "eigtl."
}
],
"engl.": [
{
"F": "engl."
}
],
"entspr.": [
{
"F": "entspr."
}
],
"er's": [
{
"F": "er",
"L": "er"
},
{
"F": "'s",
"L": "es"
}
],
"erm.": [
{
"F": "erm."
}
],
"etc.": [
{
"F": "etc."
}
],
"ev.": [
{
"F": "ev."
}
],
"evtl.": [
{
"F": "evtl."
}
],
"f.": [
{
"F": "f."
}
],
"frz.": [
{
"F": "frz."
}
],
"g.": [
{
"F": "g."
}
],
"geb.": [
{
"F": "geb."
}
],
"gegr.": [
{
"F": "gegr."
}
],
"gem.": [
{
"F": "gem."
}
],
"ggf.": [
{
"F": "ggf."
}
],
"ggfs.": [
{
"F": "ggfs."
}
],
"gg\u00fc.": [
{
"F": "gg\u00fc."
}
],
"h.": [
{
"F": "h."
}
],
"h.c.": [
{
"F": "h.c."
}
],
"hinter'm": [
{
"F": "hinter",
"L": "hinter"
},
{
"F": "'m",
"L": "dem"
}
],
"hrsg.": [
{
"F": "hrsg."
}
],
"i.": [
{
"F": "i."
}
],
"i.A.": [
{
"F": "i.A."
}
],
"i.G.": [
{
"F": "i.G."
}
],
"i.O.": [
{
"F": "i.O."
}
],
"i.Tr.": [
{
"F": "i.Tr."
}
],
"i.V.": [
{
"F": "i.V."
}
],
"i.d.R.": [
{
"F": "i.d.R."
}
],
"i.e.": [
{
"F": "i.e."
}
],
"ich's": [
{
"F": "ich",
"L": "ich"
},
{
"F": "'s",
"L": "es"
}
],
"ihr's": [
{
"F": "ihr",
"L": "ihr"
},
{
"F": "'s",
"L": "es"
}
],
"incl.": [
{
"F": "incl."
}
],
"inkl.": [
{
"F": "inkl."
}
],
"insb.": [
{
"F": "insb."
}
],
"j.": [
{
"F": "j."
}
],
"jr.": [
{
"F": "jr."
}
],
"jun.": [
{
"F": "jun."
}
],
"jur.": [
{
"F": "jur."
}
],
"k.": [
{
"F": "k."
}
],
"kath.": [
{
"F": "kath."
}
],
"l.": [
{
"F": "l."
}
],
"lat.": [
{
"F": "lat."
}
],
"lt.": [
{
"F": "lt."
}
],
"m.": [
{
"F": "m."
}
],
"m.E.": [
{
"F": "m.E."
}
],
"m.M.": [
{
"F": "m.M."
}
],
"max.": [
{
"F": "max."
}
],
"min.": [
{
"F": "min."
}
],
"mind.": [
{
"F": "mind."
}
],
"mtl.": [
{
"F": "mtl."
}
],
"n.": [
{
"F": "n."
}
],
"n.Chr.": [
{
"F": "n.Chr."
}
],
"nat.": [
{
"F": "nat."
}
],
"o.": [
{
"F": "o."
}
],
"o.O": [
{
"F": "o.O"
}
],
"o.a.": [
{
"F": "o.a."
}
],
"o.g.": [
{
"F": "o.g."
}
],
"o.k.": [
{
"F": "o.k."
}
],
"o.\u00c4.": [
{
"F": "o.\u00c4."
}
],
"o.\u00e4.": [
{
"F": "o.\u00e4."
}
],
"o_O": [
{
"F": "o_O"
}
],
"o_o": [
{
"F": "o_o"
}
],
"orig.": [
{
"F": "orig."
}
],
"p.": [
{
"F": "p."
}
],
"p.a.": [
{
"F": "p.a."
}
],
"p.s.": [
{
"F": "p.s."
}
],
"pers.": [
{
"F": "pers."
}
],
"phil.": [
{
"F": "phil."
}
],
"q.": [
{
"F": "q."
}
],
"q.e.d.": [
{
"F": "q.e.d."
}
],
"r.": [
{
"F": "r."
}
],
"rer.": [
{
"F": "rer."
}
],
"r\u00f6m.": [
{
"F": "r\u00f6m."
}
],
"s'": [
{
"F": "s'",
"L": "sie"
}
],
"s.": [
{
"F": "s."
}
],
"s.o.": [
{
"F": "s.o."
}
],
"sen.": [
{
"F": "sen."
}
],
"sie's": [
{
"F": "sie",
"L": "sie"
},
{
"F": "'s",
"L": "es"
}
],
"sog.": [
{
"F": "sog."
}
],
"std.": [
{
"F": "std."
}
],
"stellv.": [
{
"F": "stellv."
}
],
"t.": [
{
"F": "t."
}
],
"t\u00e4gl.": [
{
"F": "t\u00e4gl."
}
],
"u.": [
{
"F": "u."
}
],
"u.U.": [
{
"F": "u.U."
}
],
"u.a.": [
{
"F": "u.a."
}
],
"u.s.w.": [
{
"F": "u.s.w."
}
],
"u.v.m.": [
{
"F": "u.v.m."
}
],
"unter'm": [
{
"F": "unter",
"L": "unter"
},
{
"F": "'m",
"L": "dem"
}
],
"usf.": [
{
"F": "usf."
}
],
"usw.": [
{
"F": "usw."
}
],
"uvm.": [
{
"F": "uvm."
}
],
"v.": [
{
"F": "v."
}
],
"v.Chr.": [
{
"F": "v.Chr."
}
],
"v.a.": [
{
"F": "v.a."
}
],
"v.l.n.r.": [
{
"F": "v.l.n.r."
}
],
"vgl.": [
{
"F": "vgl."
}
],
"vllt.": [
{
"F": "vllt."
}
],
"vlt.": [
{
"F": "vlt."
}
],
"vor'm": [
{
"F": "vor",
"L": "vor"
},
{
"F": "'m",
"L": "dem"
}
],
"vs.": [
{
"F": "vs."
}
],
"w.": [
{
"F": "w."
}
],
"wir's": [
{
"F": "wir",
"L": "wir"
},
{
"F": "'s",
"L": "es"
}
],
"wiss.": [
{
"F": "wiss."
}
],
"x.": [
{
"F": "x."
}
],
"xD": [
{
"F": "xD"
}
],
"xDD": [
{
"F": "xDD"
}
],
"y.": [
{
"F": "y."
}
],
"z.": [
{
"F": "z."
}
],
"z.B.": [
{
"F": "z.B."
}
],
"z.Bsp.": [
{
"F": "z.Bsp."
}
],
"z.T.": [
{
"F": "z.T."
}
],
"z.Z.": [
{
"F": "z.Z."
}
],
"z.Zt.": [
{
"F": "z.Zt."
}
],
"z.b.": [
{
"F": "z.b."
}
],
"zzgl.": [
{
"F": "zzgl."
}
],
"\u00e4.": [
{
"F": "\u00e4."
}
],
"\u00f6.": [
{
"F": "\u00f6."
}
],
"\u00f6sterr.": [
{
"F": "\u00f6sterr."
}
],
"\u00fc.": [
{
"F": "\u00fc."
}
],
"\u00fcber'm": [
{
"F": "\u00fcber",
"L": "\u00fcber"
},
{
"F": "'m",
"L": "dem"
}
]
}