spaCy/spacy/lang/nl/tokenizer_exceptions.py

341 lines
21 KiB
Python
Raw Normal View History

# coding: utf8
from __future__ import unicode_literals
2019-04-09 12:40:19 +03:00
from ...symbols import ORTH
# Extensive list of both common and uncommon dutch abbreviations copied from
# github.com/diasks2/pragmatic_segmenter, a Ruby library for rule-based
# sentence boundary detection (MIT, Copyright 2015 Kevin S. Dias).
# Source file: https://github.com/diasks2/pragmatic_segmenter/blob/master/lib/pragmatic_segmenter/languages/dutch.rb
# (Last commit: 4d1477b)
# Main purpose of such an extensive list: considerably improved sentence
# segmentation.
# Note: This list has been copied over largely as-is. Some of the abbreviations
# are extremely domain-specific. Tokenizer performance may benefit from some
# slight pruning, although no performance regression has been observed so far.
2019-04-09 12:40:19 +03:00
# fmt: off
abbrevs = ['a.2d.', 'a.a.', 'a.a.j.b.', 'a.f.t.', 'a.g.j.b.',
'a.h.v.', 'a.h.w.', 'a.hosp.', 'a.i.', 'a.j.b.', 'a.j.t.',
'a.m.', 'a.m.r.', 'a.p.m.', 'a.p.r.', 'a.p.t.', 'a.s.',
'a.t.d.f.', 'a.u.b.', 'a.v.a.', 'a.w.', 'aanbev.',
'aanbev.comm.', 'aant.', 'aanv.st.', 'aanw.', 'vnw.',
'aanw.vnw.', 'abd.', 'abm.', 'abs.', 'acc.act.',
'acc.bedr.m.', 'acc.bedr.t.', 'achterv.', 'act.dr.',
'act.dr.fam.', 'act.fisc.', 'act.soc.', 'adm.akk.',
'adm.besl.', 'adm.lex.', 'adm.onderr.', 'adm.ov.', 'adv.',
'adv.', 'gen.', 'adv.bl.', 'afd.', 'afl.', 'aggl.verord.',
'agr.', 'al.', 'alg.', 'alg.richts.', 'amén.', 'ann.dr.',
'ann.dr.lg.', 'ann.dr.sc.pol.', 'ann.ét.eur.',
'ann.fac.dr.lg.', 'ann.jur.créd.',
'ann.jur.créd.règl.coll.', 'ann.not.', 'ann.parl.',
'ann.prat.comm.', 'app.', 'arb.', 'aud.', 'arbbl.',
'arbh.', 'arbit.besl.', 'arbrb.', 'arr.', 'arr.cass.',
'arr.r.v.st.', 'arr.verbr.', 'arrondrb.', 'art.', 'artw.',
'aud.', 'b.', 'b.', 'b.&w.', 'b.a.', 'b.a.s.', 'b.b.o.',
'b.best.dep.', 'b.br.ex.', 'b.coll.fr.gem.comm.',
'b.coll.vl.gem.comm.', 'b.d.cult.r.', 'b.d.gem.ex.',
'b.d.gem.reg.', 'b.dep.', 'b.e.b.', 'b.f.r.',
'b.fr.gem.ex.', 'b.fr.gem.reg.', 'b.i.h.', 'b.inl.j.d.',
'b.inl.s.reg.', 'b.j.', 'b.l.', 'b.o.z.', 'b.prov.r.',
'b.r.h.', 'b.s.', 'b.sr.', 'b.stb.', 'b.t.i.r.',
'b.t.s.z.', 'b.t.w.rev.', 'b.v.',
'b.ver.coll.gem.gem.comm.', 'b.verg.r.b.', 'b.versl.',
'b.vl.ex.', 'b.voorl.reg.', 'b.w.', 'b.w.gew.ex.',
'b.z.d.g.', 'b.z.v.', 'bab.', 'bedr.org.', 'begins.',
'beheersov.', 'bekendm.comm.', 'bel.', 'bel.besch.',
'bel.w.p.', 'beleidsov.', 'belg.', 'grondw.', 'ber.',
'ber.w.', 'besch.', 'besl.', 'beslagr.', 'bestuurswet.',
'bet.', 'betr.', 'betr.', 'vnw.', 'bevest.', 'bew.',
'bijbl.', 'ind.', 'eig.', 'bijbl.n.bijdr.', 'bijl.',
'bijv.', 'bijw.', 'bijz.decr.', 'bin.b.', 'bkh.', 'bl.',
'blz.', 'bm.', 'bn.', 'rh.', 'bnw.', 'bouwr.', 'br.parl.',
'bs.', 'bull.', 'bull.adm.pénit.', 'bull.ass.',
'bull.b.m.m.', 'bull.bel.', 'bull.best.strafinr.',
'bull.bmm.', 'bull.c.b.n.', 'bull.c.n.c.', 'bull.cbn.',
'bull.centr.arb.', 'bull.cnc.', 'bull.contr.',
'bull.doc.min.fin.', 'bull.f.e.b.', 'bull.feb.',
'bull.fisc.fin.r.', 'bull.i.u.m.',
'bull.inf.ass.secr.soc.', 'bull.inf.i.e.c.',
'bull.inf.i.n.a.m.i.', 'bull.inf.i.r.e.', 'bull.inf.iec.',
'bull.inf.inami.', 'bull.inf.ire.', 'bull.inst.arb.',
'bull.ium.', 'bull.jur.imm.', 'bull.lég.b.', 'bull.off.',
'bull.trim.b.dr.comp.', 'bull.us.', 'bull.v.b.o.',
'bull.vbo.', 'bv.', 'bw.', 'bxh.', 'byz.', 'c.', 'c.a.',
'c.a.-a.', 'c.a.b.g.', 'c.c.', 'c.c.i.', 'c.c.s.',
'c.conc.jur.', 'c.d.e.', 'c.d.p.k.', 'c.e.', 'c.ex.',
'c.f.', 'c.h.a.', 'c.i.f.', 'c.i.f.i.c.', 'c.j.', 'c.l.',
'c.n.', 'c.o.d.', 'c.p.', 'c.pr.civ.', 'c.q.', 'c.r.',
'c.r.a.', 'c.s.', 'c.s.a.', 'c.s.q.n.', 'c.v.', 'c.v.a.',
'c.v.o.', 'ca.', 'cadeaust.', 'cah.const.',
'cah.dr.europ.', 'cah.dr.immo.', 'cah.dr.jud.', 'cal.',
'2d.', 'cal.', '3e.', 'cal.', 'rprt.', 'cap.', 'carg.',
'cass.', 'cass.', 'verw.', 'cert.', 'cf.', 'ch.', 'chron.',
'chron.d.s.', 'chron.dr.not.', 'cie.', 'cie.',
'verz.schr.', 'cir.', 'circ.', 'circ.z.', 'cit.',
'cit.loc.', 'civ.', 'cl.et.b.', 'cmt.', 'co.',
'cognoss.v.', 'coll.', 'v.', 'b.', 'colp.w.', 'com.',
'com.', 'cas.', 'com.v.min.', 'comm.', 'comm.', 'v.',
'comm.bijz.ov.', 'comm.erf.', 'comm.fin.', 'comm.ger.',
'comm.handel.', 'comm.pers.', 'comm.pub.', 'comm.straf.',
'comm.v.', 'comm.venn.', 'comm.verz.', 'comm.voor.',
'comp.', 'compt.w.', 'computerr.', 'con.m.', 'concl.',
'concr.', 'conf.', 'confl.w.', 'confl.w.huwbetr.', 'cons.',
'conv.', 'coöp.', 'ver.', 'corr.', 'corr.bl.',
'cour.fisc.', 'cour.immo.', 'cridon.', 'crim.', 'cur.',
'cur.', 'crt.', 'curs.', 'd.', 'd.-g.', 'd.a.', 'd.a.v.',
'd.b.f.', 'd.c.', 'd.c.c.r.', 'd.d.', 'd.d.p.', 'd.e.t.',
'd.gem.r.', 'd.h.', 'd.h.z.', 'd.i.', 'd.i.t.', 'd.j.',
'd.l.r.', 'd.m.', 'd.m.v.', 'd.o.v.', 'd.parl.', 'd.w.z.',
'dact.', 'dat.', 'dbesch.', 'dbesl.', 'decr.', 'decr.d.',
'decr.fr.', 'decr.vl.', 'decr.w.', 'def.', 'dep.opv.',
'dep.rtl.', 'derg.', 'desp.', 'det.mag.', 'deurw.regl.',
'dez.', 'dgl.', 'dhr.', 'disp.', 'diss.', 'div.',
'div.act.', 'div.bel.', 'dl.', 'dln.', 'dnotz.', 'doc.',
'hist.', 'doc.jur.b.', 'doc.min.fin.', 'doc.parl.',
'doctr.', 'dpl.', 'dpl.besl.', 'dr.', 'dr.banc.fin.',
'dr.circ.', 'dr.inform.', 'dr.mr.', 'dr.pén.entr.',
'dr.q.m.', 'drs.', 'dtp.', 'dwz.', 'dyn.', 'e.', 'e.a.',
'e.b.', 'tek.mod.', 'e.c.', 'e.c.a.', 'e.d.', 'e.e.',
'e.e.a.', 'e.e.g.', 'e.g.', 'e.g.a.', 'e.h.a.', 'e.i.',
'e.j.', 'e.m.a.', 'e.n.a.c.', 'e.o.', 'e.p.c.', 'e.r.c.',
'e.r.f.', 'e.r.h.', 'e.r.o.', 'e.r.p.', 'e.r.v.',
'e.s.r.a.', 'e.s.t.', 'e.v.', 'e.v.a.', 'e.w.', 'e&o.e.',
'ec.pol.r.', 'econ.', 'ed.', 'ed(s).', 'eff.', 'eig.',
'eig.mag.', 'eil.', 'elektr.', 'enmb.', 'enz.', 'err.',
'etc.', 'etq.', 'eur.', 'parl.', 'eur.t.s.', 'ev.', 'evt.',
'ex.', 'ex.crim.', 'exec.', 'f.', 'f.a.o.', 'f.a.q.',
'f.a.s.', 'f.i.b.', 'f.j.f.', 'f.o.b.', 'f.o.r.', 'f.o.s.',
'f.o.t.', 'f.r.', 'f.supp.', 'f.suppl.', 'fa.', 'facs.',
'fasc.', 'fg.', 'fid.ber.', 'fig.', 'fin.verh.w.', 'fisc.',
'fisc.', 'tijdschr.', 'fisc.act.', 'fisc.koer.', 'fl.',
'form.', 'foro.', 'it.', 'fr.', 'fr.cult.r.', 'fr.gem.r.',
'fr.parl.', 'fra.', 'ft.', 'g.', 'g.a.', 'g.a.v.',
'g.a.w.v.', 'g.g.d.', 'g.m.t.', 'g.o.', 'g.omt.e.', 'g.p.',
'g.s.', 'g.v.', 'g.w.w.', 'geb.', 'gebr.', 'gebrs.',
'gec.', 'gec.decr.', 'ged.', 'ged.st.', 'gedipl.',
'gedr.st.', 'geh.', 'gem.', 'gem.', 'gem.',
'gem.gem.comm.', 'gem.st.', 'gem.stem.', 'gem.w.',
'gemeensch.optr.', 'gemeensch.standp.', 'gemeensch.strat.',
'gemeent.', 'gemeent.b.', 'gemeent.regl.',
'gemeent.verord.', 'geol.', 'geopp.', 'gepubl.',
'ger.deurw.', 'ger.w.', 'gerekw.', 'gereq.', 'gesch.',
'get.', 'getr.', 'gev.m.', 'gev.maatr.', 'gew.', 'ghert.',
'gir.eff.verk.', 'gk.', 'gr.', 'gramm.', 'grat.w.',
'grootb.w.', 'grs.', 'grvm.', 'grw.', 'gst.', 'gw.',
'h.a.', 'h.a.v.o.', 'h.b.o.', 'h.e.a.o.', 'h.e.g.a.',
'h.e.geb.', 'h.e.gestr.', 'h.l.', 'h.m.', 'h.o.', 'h.r.',
'h.t.l.', 'h.t.m.', 'h.w.geb.', 'hand.', 'handelsn.w.',
'handelspr.', 'handelsr.w.', 'handelsreg.w.', 'handv.',
'harv.l.rev.', 'hc.', 'herald.', 'hert.', 'herz.',
'hfdst.', 'hfst.', 'hgrw.', 'hhr.', 'hist.', 'hooggel.',
'hoogl.', 'hosp.', 'hpw.', 'hr.', 'hr.', 'ms.', 'hr.ms.',
'hregw.', 'hrg.', 'hst.', 'huis.just.', 'huisv.w.',
'huurbl.', 'hv.vn.', 'hw.', 'hyp.w.', 'i.b.s.', 'i.c.',
'i.c.m.h.', 'i.e.', 'i.f.', 'i.f.p.', 'i.g.v.', 'i.h.',
'i.h.a.', 'i.h.b.', 'i.l.pr.', 'i.o.', 'i.p.o.', 'i.p.r.',
'i.p.v.', 'i.pl.v.', 'i.r.d.i.', 'i.s.m.', 'i.t.t.',
'i.v.', 'i.v.m.', 'i.v.s.', 'i.w.tr.', 'i.z.', 'ib.',
'ibid.', 'icip-ing.cons.', 'iem.', 'indic.soc.', 'indiv.',
'inf.', 'inf.i.d.a.c.', 'inf.idac.', 'inf.r.i.z.i.v.',
'inf.riziv.', 'inf.soc.secr.', 'ing.', 'ing.', 'cons.',
'ing.cons.', 'inst.', 'int.', 'int.', 'rechtsh.',
'strafz.', 'interm.', 'intern.fisc.act.',
'intern.vervoerr.', 'inv.', 'inv.', 'f.', 'inv.w.',
'inv.wet.', 'invord.w.', 'inz.', 'ir.', 'irspr.', 'iwtr.',
'j.', 'j.-cl.', 'j.c.b.', 'j.c.e.', 'j.c.fl.', 'j.c.j.',
'j.c.p.', 'j.d.e.', 'j.d.f.', 'j.d.s.c.', 'j.dr.jeun.',
'j.j.d.', 'j.j.p.', 'j.j.pol.', 'j.l.', 'j.l.m.b.',
'j.l.o.', 'j.p.a.', 'j.r.s.', 'j.t.', 'j.t.d.e.',
'j.t.dr.eur.', 'j.t.o.', 'j.t.t.', 'jaarl.', 'jb.hand.',
'jb.kred.', 'jb.kred.c.s.', 'jb.l.r.b.', 'jb.lrb.',
'jb.markt.', 'jb.mens.', 'jb.t.r.d.', 'jb.trd.',
'jeugdrb.', 'jeugdwerkg.w.', 'jg.', 'jis.', 'jl.',
'journ.jur.', 'journ.prat.dr.fisc.fin.', 'journ.proc.',
'jrg.', 'jur.', 'jur.comm.fl.', 'jur.dr.soc.b.l.n.',
'jur.f.p.e.', 'jur.fpe.', 'jur.niv.', 'jur.trav.brux.',
'jurambt.', 'jv.cass.', 'jv.h.r.j.', 'jv.hrj.', 'jw.',
'k.', 'k.', 'k.b.', 'k.g.', 'k.k.', 'k.m.b.o.', 'k.o.o.',
'k.v.k.', 'k.v.v.v.', 'kadasterw.', 'kaderb.', 'kador.',
'kbo-nr.', 'kg.', 'kh.', 'kiesw.', 'kind.bes.v.', 'kkr.',
'koopv.', 'kr.', 'krankz.w.', 'ksbel.', 'kt.', 'ktg.',
'ktr.', 'kvdm.', 'kw.r.', 'kymr.', 'kzr.', 'kzw.', 'l.',
'l.b.', 'l.b.o.', 'l.bas.', 'l.c.', 'l.gew.', 'l.j.',
'l.k.', 'l.l.', 'l.o.', 'l.r.b.', 'l.u.v.i.', 'l.v.r.',
'l.v.w.', 'l.w.', "l'exp.-compt.b..", 'lexp.-compt.b.',
'landinr.w.', 'landscrt.', 'lat.', 'law.ed.', 'lett.',
'levensverz.', 'lgrs.', 'lidw.', 'limb.rechtsl.', 'lit.',
'litt.', 'liw.', 'liwet.', 'lk.', 'll.', 'll.(l.)l.r.',
'loonw.', 'losbl.', 'ltd.', 'luchtv.', 'luchtv.w.', 'm.',
'm.', 'not.', 'm.a.v.o.', 'm.a.w.', 'm.b.', 'm.b.o.',
'm.b.r.', 'm.b.t.', 'm.d.g.o.', 'm.e.a.o.', 'm.e.r.',
'm.h.', 'm.h.d.', 'm.i.v.', 'm.j.t.', 'm.k.', 'm.m.',
'm.m.a.', 'm.m.h.h.', 'm.m.v.', 'm.n.', 'm.not.fisc.',
'm.nt.', 'm.o.', 'm.r.', 'm.s.a.', 'm.u.p.', 'm.v.a.',
'm.v.h.n.', 'm.v.t.', 'm.z.', 'maatr.teboekgest.luchtv.',
'maced.', 'mand.', 'max.', 'mbl.not.', 'me.', 'med.',
'med.', 'v.b.o.', 'med.b.u.f.r.', 'med.bufr.', 'med.vbo.',
'meerv.', 'meetbr.w.', 'mém.adm.', 'mgr.', 'mgrs.', 'mhd.',
'mi.verantw.', 'mil.', 'mil.bed.', 'mil.ger.', 'min.',
'min.', 'aanbev.', 'min.', 'circ.', 'min.', 'fin.',
'min.j.omz.', 'min.just.circ.', 'mitt.', 'mnd.', 'mod.',
'mon.', 'mouv.comm.', 'mr.', 'ms.', 'muz.', 'mv.', 'n.',
'chr.', 'n.a.', 'n.a.g.', 'n.a.v.', 'n.b.', 'n.c.',
'n.chr.', 'n.d.', 'n.d.r.', 'n.e.a.', 'n.g.', 'n.h.b.c.',
'n.j.', 'n.j.b.', 'n.j.w.', 'n.l.', 'n.m.', 'n.m.m.',
'n.n.', 'n.n.b.', 'n.n.g.', 'n.n.k.', 'n.o.m.', 'n.o.t.k.',
'n.rapp.', 'n.tijd.pol.', 'n.v.', 'n.v.d.r.', 'n.v.d.v.',
'n.v.o.b.', 'n.v.t.', 'nat.besch.w.', 'nat.omb.',
'nat.pers.', 'ned.cult.r.', 'neg.verkl.', 'nhd.', 'wisk.',
'njcm-bull.', 'nl.', 'nnd.', 'no.', 'not.fisc.m.',
'not.w.', 'not.wet.', 'nr.', 'nrs.', 'nste.', 'nt.',
'numism.', 'o.', 'o.a.', 'o.b.', 'o.c.', 'o.g.', 'o.g.v.',
'o.i.', 'o.i.d.', 'o.m.', 'o.o.', 'o.o.d.', 'o.o.v.',
'o.p.', 'o.r.', 'o.regl.', 'o.s.', 'o.t.s.', 'o.t.t.',
'o.t.t.t.', 'o.t.t.z.', 'o.tk.t.', 'o.v.t.', 'o.v.t.t.',
'o.v.tk.t.', 'o.v.v.', 'ob.', 'obsv.', 'octr.',
'octr.gem.regl.', 'octr.regl.', 'oe.', 'off.pol.', 'ofra.',
'ohd.', 'omb.', 'omnil.', 'omz.', 'on.ww.', 'onderr.',
'onfrank.', 'onteig.w.', 'ontw.', 'b.w.', 'onuitg.',
'onz.', 'oorl.w.', 'op.cit.', 'opin.pa.', 'opm.', 'or.',
'ord.br.', 'ord.gem.', 'ors.', 'orth.', 'os.', 'osm.',
'ov.', 'ov.w.i.', 'ov.w.ii.', 'ov.ww.', 'overg.w.',
'overw.', 'ovkst.', 'oz.', 'p.', 'p.a.', 'p.a.o.',
'p.b.o.', 'p.e.', 'p.g.', 'p.j.', 'p.m.', 'p.m.a.', 'p.o.',
'p.o.j.t.', 'p.p.', 'p.v.', 'p.v.s.', 'pachtw.', 'pag.',
'pan.', 'pand.b.', 'pand.pér.', 'parl.gesch.',
'parl.gesch.', 'inv.', 'parl.st.', 'part.arb.', 'pas.',
'pasin.', 'pat.', 'pb.c.', 'pb.l.', 'pens.',
'pensioenverz.', 'per.ber.i.b.r.', 'per.ber.ibr.', 'pers.',
'st.', 'pft.', 'pk.', 'pktg.', 'plv.', 'po.', 'pol.',
'pol.off.', 'pol.r.', 'pol.w.', 'postbankw.', 'postw.',
'pp.', 'pr.', 'preadv.', 'pres.', 'prf.', 'prft.', 'prg.',
'prijz.w.', 'proc.', 'procesregl.', 'prof.', 'prot.',
'prov.', 'prov.b.', 'prov.instr.h.m.g.', 'prov.regl.',
'prov.verord.', 'prov.w.', 'publ.', 'pun.', 'pw.',
'q.b.d.', 'q.e.d.', 'q.q.', 'q.r.', 'r.', 'r.a.b.g.',
'r.a.c.e.', 'r.a.j.b.', 'r.b.d.c.', 'r.b.d.i.', 'r.b.s.s.',
'r.c.', 'r.c.b.', 'r.c.d.c.', 'r.c.j.b.', 'r.c.s.j.',
'r.cass.', 'r.d.c.', 'r.d.i.', 'r.d.i.d.c.', 'r.d.j.b.',
'r.d.j.p.', 'r.d.p.c.', 'r.d.s.', 'r.d.t.i.', 'r.e.',
'r.f.s.v.p.', 'r.g.a.r.', 'r.g.c.f.', 'r.g.d.c.', 'r.g.f.',
'r.g.z.', 'r.h.a.', 'r.i.c.', 'r.i.d.a.', 'r.i.e.j.',
'r.i.n.', 'r.i.s.a.', 'r.j.d.a.', 'r.j.i.', 'r.k.', 'r.l.',
'r.l.g.b.', 'r.med.', 'r.med.rechtspr.', 'r.n.b.', 'r.o.',
'r.ov.', 'r.p.', 'r.p.d.b.', 'r.p.o.t.', 'r.p.r.j.',
'r.p.s.', 'r.r.d.', 'r.r.s.', 'r.s.', 'r.s.v.p.',
'r.stvb.', 'r.t.d.f.', 'r.t.d.h.', 'r.t.l.',
'r.trim.dr.eur.', 'r.v.a.', 'r.verkb.', 'r.w.', 'r.w.d.',
'rap.ann.c.a.', 'rap.ann.c.c.', 'rap.ann.c.e.',
'rap.ann.c.s.j.', 'rap.ann.ca.', 'rap.ann.cass.',
'rap.ann.cc.', 'rap.ann.ce.', 'rap.ann.csj.', 'rapp.',
'rb.', 'rb.kh.', 'rdn.', 'rdnr.', 're.pers.', 'rec.',
'rec.c.i.j.', 'rec.c.j.c.e.', 'rec.cij.', 'rec.cjce.',
'rec.gén.enr.not.', 'rechtsk.t.', 'rechtspl.zeem.',
'rechtspr.arb.br.', 'rechtspr.b.f.e.', 'rechtspr.bfe.',
'rechtspr.soc.r.b.l.n.', 'recl.reg.', 'rect.', 'red.',
'reg.', 'reg.huiz.bew.', 'reg.w.', 'registr.w.', 'regl.',
'regl.', 'r.v.k.', 'regl.besl.', 'regl.onderr.',
'regl.r.t.', 'rep.', 'rép.fisc.', 'rép.not.', 'rep.r.j.',
'rep.rj.', 'req.', 'res.', 'resp.', 'rev.', 'rev.',
'comp.', 'rev.', 'trim.', 'civ.', 'rev.', 'trim.', 'comm.',
'rev.acc.trav.', 'rev.adm.', 'rev.b.compt.',
'rev.b.dr.const.', 'rev.b.dr.intern.', 'rev.b.séc.soc.',
'rev.banc.fin.', 'rev.comm.', 'rev.cons.prud.',
'rev.dr.b.', 'rev.dr.commun.', 'rev.dr.étr.',
'rev.dr.fam.', 'rev.dr.intern.comp.', 'rev.dr.mil.',
'rev.dr.min.', 'rev.dr.pén.', 'rev.dr.pén.mil.',
'rev.dr.rur.', 'rev.dr.u.l.b.', 'rev.dr.ulb.', 'rev.exp.',
'rev.faill.', 'rev.fisc.', 'rev.gd.', 'rev.hist.dr.',
'rev.i.p.c.', 'rev.ipc.', 'rev.not.b.',
'rev.prat.dr.comm.', 'rev.prat.not.b.', 'rev.prat.soc.',
'rev.rec.', 'rev.rw.', 'rev.trav.', 'rev.trim.d.h.',
'rev.trim.dr.fam.', 'rev.urb.', 'richtl.', 'riv.dir.int.',
'riv.dir.int.priv.proc.', 'rk.', 'rln.', 'roln.', 'rom.',
'rondz.', 'rov.', 'rtl.', 'rubr.', 'ruilv.wet.',
'rv.verdr.', 'rvkb.', 's.', 's.', 's.a.', 's.b.n.',
's.ct.', 's.d.', 's.e.c.', 's.e.et.o.', 's.e.w.',
's.exec.rept.', 's.hrg.', 's.j.b.', 's.l.', 's.l.e.a.',
's.l.n.d.', 's.p.a.', 's.s.', 's.t.', 's.t.b.', 's.v.',
's.v.p.', 'samenw.', 'sc.', 'sch.', 'scheidsr.uitspr.',
'schepel.besl.', 'secr.comm.', 'secr.gen.', 'sect.soc.',
'sess.', 'cas.', 'sir.', 'soc.', 'best.', 'soc.', 'handv.',
'soc.', 'verz.', 'soc.act.', 'soc.best.', 'soc.kron.',
'soc.r.', 'soc.sw.', 'soc.weg.', 'sofi-nr.', 'somm.',
'somm.ann.', 'sp.c.c.', 'sr.', 'ss.', 'st.doc.b.c.n.a.r.',
'st.doc.bcnar.', 'st.vw.', 'stagever.', 'stas.', 'stat.',
'stb.', 'stbl.', 'stcrt.', 'stud.dipl.', 'su.', 'subs.',
'subst.', 'succ.w.', 'suppl.', 'sv.', 'sw.', 't.', 't.a.',
't.a.a.', 't.a.n.', 't.a.p.', 't.a.s.n.', 't.a.v.',
't.a.v.w.', 't.aann.', 't.acc.', 't.agr.r.', 't.app.',
't.b.b.r.', 't.b.h.', 't.b.m.', 't.b.o.', 't.b.p.',
't.b.r.', 't.b.s.', 't.b.v.', 't.bankw.', 't.belg.not.',
't.desk.', 't.e.m.', 't.e.p.', 't.f.r.', 't.fam.',
't.fin.r.', 't.g.r.', 't.g.t.', 't.g.v.', 't.gem.',
't.gez.', 't.huur.', 't.i.n.', 't.j.k.', 't.l.l.',
't.l.v.', 't.m.', 't.m.r.', 't.m.w.', 't.mil.r.',
't.mil.strafr.', 't.not.', 't.o.', 't.o.r.b.', 't.o.v.',
't.ontv.', 't.p.r.', 't.pol.', 't.r.', 't.r.g.',
't.r.o.s.', 't.r.v.', 't.s.r.', 't.strafr.', 't.t.',
't.u.', 't.v.c.', 't.v.g.', 't.v.m.r.', 't.v.o.', 't.v.v.',
't.v.v.d.b.', 't.v.w.', 't.verz.', 't.vred.', 't.vreemd.',
't.w.', 't.w.k.', 't.w.v.', 't.w.v.r.', 't.wrr.', 't.z.',
't.z.t.', 't.z.v.', 'taalk.', 'tar.burg.z.', 'td.',
'techn.', 'telecomm.', 'toel.', 'toel.st.v.w.', 'toep.',
'toep.regl.', 'tom.', 'top.', 'trans.b.', 'transp.r.',
'trb.', 'trib.', 'trib.civ.', 'trib.gr.inst.', 'ts.',
'ts.', 'best.', 'ts.', 'verv.', 'turnh.rechtsl.', 'tvpol.',
'tvpr.', 'tvrechtsgesch.', 'tw.', 'u.', 'u.a.', 'u.a.r.',
'u.a.v.', 'u.c.', 'u.c.c.', 'u.g.', 'u.p.', 'u.s.',
'u.s.d.c.', 'uitdr.', 'uitl.w.', 'uitv.besch.div.b.',
'uitv.besl.', 'uitv.besl.', 'succ.w.', 'uitv.besl.bel.rv.',
'uitv.besl.l.b.', 'uitv.reg.', 'inv.w.', 'uitv.reg.bel.d.',
'uitv.reg.afd.verm.', 'uitv.reg.lb.', 'uitv.reg.succ.w.',
'univ.', 'univ.verkl.', 'v.', 'v.', 'chr.', 'v.a.',
'v.a.v.', 'v.c.', 'v.chr.', 'v.h.', 'v.huw.verm.', 'v.i.',
'v.i.o.', 'v.k.a.', 'v.m.', 'v.o.f.', 'v.o.n.',
'v.onderh.verpl.', 'v.p.', 'v.r.', 'v.s.o.', 'v.t.t.',
'v.t.t.t.', 'v.tk.t.', 'v.toep.r.vert.', 'v.v.b.',
'v.v.g.', 'v.v.t.', 'v.v.t.t.', 'v.v.tk.t.', 'v.w.b.',
'v.z.m.', 'vb.', 'vb.bo.', 'vbb.', 'vc.', 'vd.', 'veldw.',
'ver.k.', 'ver.verg.gem.', 'gem.comm.', 'verbr.', 'verd.',
'verdr.', 'verdr.v.', 'tek.mod.', 'verenw.', 'verg.',
'verg.fr.gem.', 'comm.', 'verkl.', 'verkl.herz.gw.',
'verl.', 'deelw.', 'vern.', 'verord.', 'vers.r.',
'versch.', 'versl.c.s.w.', 'versl.csw.', 'vert.', 'verw.',
'verz.', 'verz.w.', 'verz.wett.besl.',
'verz.wett.decr.besl.', 'vgl.', 'vid.', 'viss.w.',
'vl.parl.', 'vl.r.', 'vl.t.gez.', 'vl.w.reg.',
'vl.w.succ.', 'vlg.', 'vn.', 'vnl.', 'vnw.', 'vo.',
'vo.bl.', 'voegw.', 'vol.', 'volg.', 'volt.', 'deelw.',
'voorl.', 'voorz.', 'vord.w.', 'vorst.d.', 'vr.', 'vred.',
'vrg.', 'vnw.', 'vrijgrs.', 'vs.', 'vt.', 'vw.', 'vz.',
'vzngr.', 'vzr.', 'w.', 'w.a.', 'w.b.r.', 'w.c.h.',
'w.conf.huw.', 'w.conf.huwelijksb.', 'w.consum.kr.',
'w.f.r.', 'w.g.', 'w.gew.r.', 'w.ident.pl.', 'w.just.doc.',
'w.kh.', 'w.l.r.', 'w.l.v.', 'w.mil.straf.spr.', 'w.n.',
'w.not.ambt.', 'w.o.', 'w.o.d.huurcomm.', 'w.o.d.k.',
'w.openb.manif.', 'w.parl.', 'w.r.', 'w.reg.', 'w.succ.',
'w.u.b.', 'w.uitv.pl.verord.', 'w.v.', 'w.v.k.',
'w.v.m.s.', 'w.v.r.', 'w.v.w.', 'w.venn.', 'wac.', 'wd.',
'wetb.', 'n.v.h.', 'wgb.', 'winkelt.w.', 'wisk.',
'wka-verkl.', 'wnd.', 'won.w.', 'woningw.', 'woonr.w.',
'wrr.', 'wrr.ber.', 'wrsch.', 'ws.', 'wsch.', 'wsr.',
'wtvb.', 'ww.', 'x.d.', 'z.a.', 'z.g.', 'z.i.', 'z.j.',
'z.o.z.', 'z.p.', 'z.s.m.', 'zg.', 'zgn.', 'zn.', 'znw.',
'zr.', 'zr.', 'ms.', 'zr.ms.']
2019-04-09 12:40:19 +03:00
# fmt: on
_exc = {}
for orth in abbrevs:
_exc[orth] = [{ORTH: orth}]
uppered = orth.upper()
capsed = orth.capitalize()
for i in [uppered, capsed]:
_exc[i] = [{ORTH: i}]
TOKENIZER_EXCEPTIONS = _exc