Refactored language data structure

2025-09-17 01:22:37 +03:00 · 2016-12-20 22:28:20 +01:00 · 2016-12-20 22:28:20 +01:00 · 6add156075
commit 6add156075
parent 366b3f8685
9 changed files with 392 additions and 11201 deletions
--- a/spacy/hu/init.py
+++ b/spacy/hu/init.py
@ -1,6 +1,6 @@
 from __future__ import unicode_literals, print_function
-from . import language_data
+from .language_data import *
 from ..attrs import LANG
 from ..language import Language
@ -9,16 +9,14 @@ class Hungarian(Language):
    lang = 'hu'
    class Defaults(Language.Defaults):
-        tokenizer_exceptions = dict(language_data.TOKENIZER_EXCEPTIONS)
+        tokenizer_exceptions = dict(TOKENIZER_EXCEPTIONS)
        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
        lex_attr_getters[LANG] = lambda text: 'hu'
-        prefixes = tuple(language_data.TOKENIZER_PREFIXES)
+        prefixes = tuple(TOKENIZER_PREFIXES)
-        suffixes = tuple(language_data.TOKENIZER_SUFFIXES)
+        suffixes = tuple(TOKENIZER_SUFFIXES)
-        infixes = tuple(language_data.TOKENIZER_INFIXES)
+        infixes = tuple(TOKENIZER_INFIXES)
-        tag_map = dict(language_data.TAG_MAP)
+        stop_words = set(STOP_WORDS)
        stop_words = set(language_data.STOP_WORDS)
--- a/spacy/hu/data/corrdic.txt
+++ b/spacy/hu/data/corrdic.txt
--- a/spacy/hu/data/tokenizer/abbreviations_magyarlanc-hu.txt
+++ b/spacy/hu/data/tokenizer/abbreviations_magyarlanc-hu.txt
@ -1,225 +0,0 @@
 dj.
 co.
 ltd.
 corp.
 plc.
 inc.
 cos.
 a.
 an.
 á.
 ált.
 ápr.
 aug.
 b.
 Be.
 BE.
 bek.
 Bek.
 BEK.
 bp.
 br.
 bt.
 btk.
 Btk.
 BTK.
 ca.
 cs.
 csüt.
 ctv.
 d.
 de.
 dec.
 dk.
 dny.
 dr.
 du.
 dzs.
 e.
 é.
 ék.
 em.
 ény.
 érk.
 ev.
 évf.
 f.
 febr.
 fej.
 felv.
 ford.
 fszla.
 fszt.
 g.
 gimn.
 gr.
 gy.
 h.
 hg.
 hiv.
 honv.
 hrsz.
 hsz.
 htb.
 í.
 i.e.
 i.sz.
 id.
 ifj. 
 ig.
 igh.
 ill.
 ind.
 isk.
 izr.
 j.
 jan.
 jegyz.
 júl.
 jún.
 k.
 kb.
 ker.
 Ker.
 KER.
 KFT.
 Kft.
 kft.
 kht.
 kk.
 kkt.
 köv.
 kp.
 Kr.
 Kr.e.
 Kr.u.
 krt.
 Krt.
 KRT.
 l.
 luth.
 m.
 máj.
 márc.
 mb.
 megh.
 min.
 mlle.
 mme.
 mr.
 mrs.
 ms.
 n.
 nb.
 nov.
 ny.
 nyrt.
 nyug.
 o.
 ó.
 okl.
 okt.
 olv.
 ov.
 ovh.
 ö.
 ő.
 özv.
 p.
 pf.
 pl.
 pp.
 ptk.
 pu.
 q.
 r.
 ref.
 rkp.
 röv.
 rt.
 s.
 sgt.
 st.
 stb.
 sz.
 szept.
 szerk.
 szjt.
 szt.
 szolg.
 Szolg.
 SZOLG.
 szül.
 t.
 tel.
 Tel.
 TEL.
 tc.
 ti.
 tkp.
 törv.
 tvr.
 ty.
 u.
 ú.
 ua.
 ui.
 úm.
 ún.
 uo.
 ü.
 ű.
 vö.
 vsz.
 w.
 y.
 z.
 zrt.
 zs.
 dr.
 Dr.
 DR.
 csc.
 CSC.
 Csc.
 PHD.
 phd.
 PhD.
 PH.D.
 ph.d.
 Ph.D
 ph.d
 m.sc.
 M.Sc.
 M.SC.
 MSC.
 msc.
 MSc.
 m.a.
 M.A.
 MA.
 ma.
 m.s.
 M.S.
 b.a.
 B.Sc.
 B.CS.
 b.sc.
 bsc.
 BSC.
 BSc.
 b.s.
 B.S.
 s.b.
 S.B.
 rer.
 Rer.
 nat.
 Nat.
 Dipl.
 dipl.
 Inform.
 inform.
 Proc.
 proc.
--- a/spacy/hu/data/tokenizer/abbreviations_orig-hu.txt
+++ b/spacy/hu/data/tokenizer/abbreviations_orig-hu.txt
@ -1,158 +0,0 @@
 # Ez a huntoken eredeti roviditeses fajlja, utf8-ban (M.I.)
 # Az sbdabbrev adatállománya, amely fordítás során kerül feldolgozásra
 # tartalma a gyakoribb rövidítések, amelyek pontra végzõdnek
 # (pont nélkül is megadhatunk ,,rövidítéseket'', pl. a ,,PhotoMaxGO!''
 # beírásával a PhotoMaxGO! nem lesz mondatzáró, még ha utána szóközzel,
 # vagy újsorral elválasztva nagybetûs szó következik.)
 #
 # A kisbetûvel kezdõdõ rövidítések nagy kezdõbetûvel is felismerésre kerülnek.
 #
 # L. még A magyar helyesírás szabályai 282. pontja
 #
 # Amelyek gyakrabban mondatzárók, mint pl. a ,,stb.'', nem kerülnek befordításra
 # stb.
 # fej.
 # De.
 a.
 c.
 á. é.
 f. é.
 m. é.
 # áll.
 ált.
 m.
 a. m.
 i. m.
 ápr.
 aug.
 bek.
 Bp.
 br.
 bt.
 B. ú. é. k.
 Btk.
 Ctv.
 csüt.
 dec.
 dk.
 dny.
 # de.
 dr.
 du.
 ék.
 em.
 ény.
 érk.
 ev.
 évf.
 f.
 febr.
 felv.
 ford.
 fszla.
 fszt.
 gimn.
 gr.
 h.
 hg.
 hiv.
 honv.
 id.
 ifj.
 ig.
 igh.
 ill.
 ind.
 isk.
 i. sz.
 izr.
 jan.
 jegyz.
 júl.
 jún.
 kb.
 ker.
 kft.
 kk.
 K. m. f.
 i. sz.
 Kr. e.
 Kr. u.
 i. e.
 köv.
 Kr.
 krt.
 # máj.
 márc.
 mb.
 megh.
 Mlle.
 Mme.
 Mr.
 Mrs.
 Ms.
 NB.
 nov.
 ny.
 nyug.
 o.
 okl.
 okt.
 olv.
 özv.
 p.
 pl.
 Ptk.
 pu.
 ref.
 rkp.
 r. k.
 s. k.
 sz.
 szerk.
 rt.
 sgt.
 St.
 szept.
 szerk.
 Szt.
 # szül.
 t.
 tc.
 törv.
 tvr.
 u.
 ua.
 ui.
 úm.
 ún.
 uo.
 v.
 vö.
 vsz.
 Cs.
 Dzs.
 Gy.
 Ny.
 Sz.
 Ty.
 Zs.
 Szjt.
 pf.
 Pp.
 kht.
 kkt.
 cca.
 gr.
 hsz.
 htb.
 luth.
 megh.
 ov.
 ovh.
 röv.
 tc.
 tkp.
 hrsz.
 kp.
--- a/spacy/hu/language_data.py
+++ b/spacy/hu/language_data.py
@ -1,253 +1,24 @@
 # encoding: utf8
 from __future__ import unicode_literals
 import os
 import re
 import six
 from spacy.language_data import strings_to_exc, update_exc
 from .punctuations import *
 from .stop_words import STOP_WORDS
 from .tokenizer_exceptions import ABBREVIATIONS
 from .tokenizer_exceptions import OTHER_EXC
 from .. import language_data as base
-def _load_txt_data(*file_paths):
+STOP_WORDS = set(STOP_WORDS)
-    for path in file_paths:
+TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
-        with open(path) as f:
+TOKENIZER_PREFIXES = base.TOKENIZER_PREFIXES + TOKENIZER_PREFIXES
-            for line in f.readlines():
+TOKENIZER_SUFFIXES = TOKENIZER_SUFFIXES
-                if not line.strip().startswith("#"):
+TOKENIZER_INFIXES = TOKENIZER_INFIXES
                    yield line.strip()
 _MODULE_PATH = os.path.dirname(__file__)
 _ABBREVIATIONS_ORIG_PATH = _MODULE_PATH + "/data/tokenizer/abbreviations_orig-hu.txt"
 _ABBREVIATIONS_NYTUD_PATH = _MODULE_PATH + "/data/tokenizer/abbreviations_nytud-hu.txt"
 _STOPWORDS_PATH = _MODULE_PATH + "/data/stopwords.txt"
 STOP_WORDS = set(_load_txt_data(_STOPWORDS_PATH))
 HYPHENS = [six.unichr(cp) for cp in [173, 8211, 8212, 8213, 8722, 9472]]
-TOKENIZER_PREFIXES = r'''+ , " ( [ { * < $ £ “ ' `` ` # US$ C$ A$ a- ‘ .... ...'''.split()
+update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(OTHER_EXC))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ABBREVIATIONS))
-TOKENIZER_SUFFIXES = r'''
+__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS", "TOKENIZER_PREFIXES", "TOKENIZER_SUFFIXES", "TOKENIZER_INFIXES"]
 ,
 \"
 \)
 \]
 \}
 \*
 \!
 \?
 %
 \$
 >
 :
 ;
 '
 ”
 “
 «
 _
 ''
 ’
 ‘
 °
 €
 \.\.
 \.\.\.
 \.\.\.\.
 (?<=[a-züóőúéáűí)\]"'´«‘’%\)²“”+-])\.
 (?<=[a-züóőúéáűí)])-e
 \-\-
 ´
 (?<=[0-9])\.
 (?<=[0-9])km²
 (?<=[0-9])m²
 (?<=[0-9])cm²
 (?<=[0-9])mm²
 (?<=[0-9])km³
 (?<=[0-9])m³
 (?<=[0-9])cm³
 (?<=[0-9])mm³
 (?<=[0-9])ha
 (?<=[0-9])km
 (?<=[0-9])m
 (?<=[0-9])cm
 (?<=[0-9])mm
 (?<=[0-9])µm
 (?<=[0-9])nm
 (?<=[0-9])yd
 (?<=[0-9])in
 (?<=[0-9])ft
 (?<=[0-9])kg
 (?<=[0-9])g
 (?<=[0-9])mg
 (?<=[0-9])µg
 (?<=[0-9])t
 (?<=[0-9])lb
 (?<=[0-9])oz
 (?<=[0-9])m/s
 (?<=[0-9])km/h
 (?<=[0-9])mph
 (?<=[0-9])°C
 (?<=[0-9])°K
 (?<=[0-9])°F
 (?<=[0-9])hPa
 (?<=[0-9])Pa
 (?<=[0-9])mbar
 (?<=[0-9])mb
 (?<=[0-9])T
 (?<=[0-9])G
 (?<=[0-9])M
 (?<=[0-9])K
 (?<=[0-9])kb
 (?<=[0-9])\+
 '''.strip().split('\n')
 TOKENIZER_INFIXES = (r'''\.\.+ (?<=[a-züóőúéáűí])\.(?=[A-ZÜÓŐÚÉÁŰÍ]) (?<=[a-zA-ZüóőúéáűíÜÓŐÚÉÁŰÍ0-9])"(?=[\-a-zA-ZüóőúéáűíÜÓŐÚÉÁŰÍ]) '''
                     r'''(?<=[a-zA-ZüóőúéáűíÜÓŐÚÉÁŰÍ])--(?=[a-zA-ZüóőúéáűíÜÓŐÚÉÁŰÍ]) (?<=[0-9])[+\-\*/^](?=[0-9]) '''
                     r'''(?<=[a-zA-ZüóőúéáűíÜÓŐÚÉÁŰÍ]),(?=[a-zA-ZüóőúéáűíÜÓŐÚÉÁŰÍ])''').split()
 ABBREVIATIONS = {abbrev: [{"ORTH": abbrev}] for abbrev in
                 _load_txt_data(_ABBREVIATIONS_ORIG_PATH, _ABBREVIATIONS_NYTUD_PATH)}
 TOKENIZER_EXCEPTIONS = {
    "-e": [{"F": "-e"}],
    "vs.": [{"F": "vs."}],
    "''": [{"F": "''"}],
    "—": [{"F": "—", "L": "--", "pos": "$,"}],
    ":)": [{"F": ":)"}],
    "<3": [{"F": "<3"}],
    ";)": [{"F": ";)"}],
    "(:": [{"F": "(:"}],
    ":(": [{"F": ":("}],
    "-_-": [{"F": "-_-"}],
    "=)": [{"F": "=)"}],
    ":/": [{"F": ":/"}],
    ":>": [{"F": ":>"}],
    ";-)": [{"F": ";-)"}],
    ":Y": [{"F": ":Y"}],
    ":P": [{"F": ":P"}],
    ":-P": [{"F": ":-P"}],
    ":3": [{"F": ":3"}],
    "=3": [{"F": "=3"}],
    "xD": [{"F": "xD"}],
    "^_^": [{"F": "^_^"}],
    "=]": [{"F": "=]"}],
    "=D": [{"F": "=D"}],
    "<333": [{"F": "<333"}],
    ":))": [{"F": ":))"}],
    ":0": [{"F": ":0"}],
    "-__-": [{"F": "-__-"}],
    "xDD": [{"F": "xDD"}],
    "o_o": [{"F": "o_o"}],
    "o_O": [{"F": "o_O"}],
    "V_V": [{"F": "V_V"}],
    "=[[": [{"F": "=[["}],
    "<33": [{"F": "<33"}],
    ";p": [{"F": ";p"}],
    ";D": [{"F": ";D"}],
    ";-p": [{"F": ";-p"}],
    ";(": [{"F": ";("}],
    ":p": [{"F": ":p"}],
    ":]": [{"F": ":]"}],
    ":O": [{"F": ":O"}],
    ":-/": [{"F": ":-/"}],
    ":-)": [{"F": ":-)"}],
    ":(((": [{"F": ":((("}],
    ":((": [{"F": ":(("}],
    ":')": [{"F": ":')"}],
    "(^_^)": [{"F": "(^_^)"}],
    "(=": [{"F": "(="}],
    "o.O": [{"F": "o.O"}],
    "\")": [{"F": "\")"}],
    "a.": [{"F": "a."}],
    "b.": [{"F": "b."}],
    "c.": [{"F": "c."}],
    "d.": [{"F": "d."}],
    "e.": [{"F": "e."}],
    "f.": [{"F": "f."}],
    "g.": [{"F": "g."}],
    "h.": [{"F": "h."}],
    "i.": [{"F": "i."}],
    "j.": [{"F": "j."}],
    "k.": [{"F": "k."}],
    "l.": [{"F": "l."}],
    "m.": [{"F": "m."}],
    "n.": [{"F": "n."}],
    "o.": [{"F": "o."}],
    "p.": [{"F": "p."}],
    "q.": [{"F": "q."}],
    "r.": [{"F": "r."}],
    "s.": [{"F": "s."}],
    "t.": [{"F": "t."}],
    "u.": [{"F": "u."}],
    "v.": [{"F": "v."}],
    "w.": [{"F": "w."}],
    "x.": [{"F": "x."}],
    "y.": [{"F": "y."}],
    "z.": [{"F": "z."}],
 }
 TOKENIZER_EXCEPTIONS.update(ABBREVIATIONS)
 TAG_MAP = {
    "$(": {"pos": "PUNCT", "PunctType": "Brck"},
    "$,": {"pos": "PUNCT", "PunctType": "Comm"},
    "$.": {"pos": "PUNCT", "PunctType": "Peri"},
    "ADJA": {"pos": "ADJ"},
    "ADJD": {"pos": "ADJ", "Variant": "Short"},
    "ADV": {"pos": "ADV"},
    "APPO": {"pos": "ADP", "AdpType": "Post"},
    "APPR": {"pos": "ADP", "AdpType": "Prep"},
    "APPRART": {"pos": "ADP", "AdpType": "Prep", "PronType": "Art"},
    "APZR": {"pos": "ADP", "AdpType": "Circ"},
    "ART": {"pos": "DET", "PronType": "Art"},
    "CARD": {"pos": "NUM", "NumType": "Card"},
    "FM": {"pos": "X", "Foreign": "Yes"},
    "ITJ": {"pos": "INTJ"},
    "KOKOM": {"pos": "CONJ", "ConjType": "Comp"},
    "KON": {"pos": "CONJ"},
    "KOUI": {"pos": "SCONJ"},
    "KOUS": {"pos": "SCONJ"},
    "NE": {"pos": "PROPN"},
    "NNE": {"pos": "PROPN"},
    "NN": {"pos": "NOUN"},
    "PAV": {"pos": "ADV", "PronType": "Dem"},
    "PROAV": {"pos": "ADV", "PronType": "Dem"},
    "PDAT": {"pos": "DET", "PronType": "Dem"},
    "PDS": {"pos": "PRON", "PronType": "Dem"},
    "PIAT": {"pos": "DET", "PronType": "Ind,Neg,Tot"},
    "PIDAT": {"pos": "DET", "AdjType": "Pdt", "PronType": "Ind,Neg,Tot"},
    "PIS": {"pos": "PRON", "PronType": "Ind,Neg,Tot"},
    "PPER": {"pos": "PRON", "PronType": "Prs"},
    "PPOSAT": {"pos": "DET", "Poss": "Yes", "PronType": "Prs"},
    "PPOSS": {"pos": "PRON", "Poss": "Yes", "PronType": "Prs"},
    "PRELAT": {"pos": "DET", "PronType": "Rel"},
    "PRELS": {"pos": "PRON", "PronType": "Rel"},
    "PRF": {"pos": "PRON", "PronType": "Prs", "Reflex": "Yes"},
    "PTKA": {"pos": "PART"},
    "PTKANT": {"pos": "PART", "PartType": "Res"},
    "PTKNEG": {"pos": "PART", "Negative": "Neg"},
    "PTKVZ": {"pos": "PART", "PartType": "Vbp"},
    "PTKZU": {"pos": "PART", "PartType": "Inf"},
    "PWAT": {"pos": "DET", "PronType": "Int"},
    "PWAV": {"pos": "ADV", "PronType": "Int"},
    "PWS": {"pos": "PRON", "PronType": "Int"},
    "TRUNC": {"pos": "X", "Hyph": "Yes"},
    "VAFIN": {"pos": "AUX", "Mood": "Ind", "VerbForm": "Fin"},
    "VAIMP": {"pos": "AUX", "Mood": "Imp", "VerbForm": "Fin"},
    "VAINF": {"pos": "AUX", "VerbForm": "Inf"},
    "VAPP": {"pos": "AUX", "Aspect": "Perf", "VerbForm": "Part"},
    "VMFIN": {"pos": "VERB", "Mood": "Ind", "VerbForm": "Fin", "VerbType": "Mod"},
    "VMINF": {"pos": "VERB", "VerbForm": "Inf", "VerbType": "Mod"},
    "VMPP": {"pos": "VERB", "Aspect": "Perf", "VerbForm": "Part", "VerbType": "Mod"},
    "VVFIN": {"pos": "VERB", "Mood": "Ind", "VerbForm": "Fin"},
    "VVIMP": {"pos": "VERB", "Mood": "Imp", "VerbForm": "Fin"},
    "VVINF": {"pos": "VERB", "VerbForm": "Inf"},
    "VVIZU": {"pos": "VERB", "VerbForm": "Inf"},
    "VVPP": {"pos": "VERB", "Aspect": "Perf", "VerbForm": "Part"},
    "XY": {"pos": "X"},
    "SP": {"pos": "SPACE"}
 }
--- a/spacy/hu/punctuations.py
+++ b/spacy/hu/punctuations.py
@ -0,0 +1,91 @@
 TOKENIZER_PREFIXES = r'''
 +
 '''.strip().split('\n')
 TOKENIZER_SUFFIXES = r'''
 ,
 \"
 \)
 \]
 \}
 \*
 \!
 \?
 %
 \$
 >
 :
 ;
 '
 ”
 “
 «
 _
 ''
 ’
 ‘
 °
 €
 \.\.
 \.\.\.
 \.\.\.\.
 (?<=[a-züóőúéáűí)\]"'´«‘’%\)²“”+-])\.
 (?<=[a-züóőúéáűí)])-e
 \-\-
 ´
 (?<=[0-9])\+
 (?<=[a-z0-9)\]”"'%\)])\.
 (?<=[0-9])\.
 (?<=[0-9])km²
 (?<=[0-9])m²
 (?<=[0-9])cm²
 (?<=[0-9])mm²
 (?<=[0-9])km³
 (?<=[0-9])m³
 (?<=[0-9])cm³
 (?<=[0-9])mm³
 (?<=[0-9])ha
 (?<=[0-9])km
 (?<=[0-9])m
 (?<=[0-9])cm
 (?<=[0-9])mm
 (?<=[0-9])µm
 (?<=[0-9])nm
 (?<=[0-9])yd
 (?<=[0-9])in
 (?<=[0-9])ft
 (?<=[0-9])kg
 (?<=[0-9])g
 (?<=[0-9])mg
 (?<=[0-9])µg
 (?<=[0-9])t
 (?<=[0-9])lb
 (?<=[0-9])oz
 (?<=[0-9])m/s
 (?<=[0-9])km/h
 (?<=[0-9])mph
 (?<=[0-9])°C
 (?<=[0-9])°K
 (?<=[0-9])°F
 (?<=[0-9])hPa
 (?<=[0-9])Pa
 (?<=[0-9])mbar
 (?<=[0-9])mb
 (?<=[0-9])T
 (?<=[0-9])G
 (?<=[0-9])M
 (?<=[0-9])K
 (?<=[0-9])kb
 '''.strip().split('\n')
 TOKENIZER_INFIXES = r'''
 …
 \.\.+
 (?<=[a-züóőúéáűí])\.(?=[A-ZÜÓŐÚÉÁŰÍ])
 (?<=[a-zA-ZüóőúéáűíÜÓŐÚÉÁŰÍ0-9])"(?=[\-a-zA-ZüóőúéáűíÜÓŐÚÉÁŰÍ])
 (?<=[a-zA-ZüóőúéáűíÜÓŐÚÉÁŰÍ])--(?=[a-zA-ZüóőúéáűíÜÓŐÚÉÁŰÍ])
 (?<=[0-9])[+\-\*/^](?=[0-9])
 (?<=[a-zA-ZüóőúéáűíÜÓŐÚÉÁŰÍ]),(?=[a-zA-ZüóőúéáűíÜÓŐÚÉÁŰÍ])
 '''.strip().split('\n')
 __all__ = ["TOKENIZER_PREFIXES", "TOKENIZER_SUFFIXES", "TOKENIZER_INFIXES"]
--- a/spacy/hu/data/stopwords.txt
+++ b/spacy/hu/data/stopwords.txt
@ -1,4 +1,9 @@
-a
+# encoding: utf8
 from __future__ import unicode_literals
 STOP_WORDS = set("""
 a
 abban
 ahhoz
 ahogy
@ -217,3 +222,4 @@ voltunk
 újra
 ő
 őket
 """.split())
--- a/spacy/hu/data/tokenizer/abbreviations_nytud-hu.txt
+++ b/spacy/hu/data/tokenizer/abbreviations_nytud-hu.txt
@ -1,64 +1,160 @@
-# nytudos, roviditeseket tartalmazo fajl utf8-ra konvertalva (M.I.)
+from __future__ import unicode_literals
-Mlle.
+ABBREVIATIONS = """
 Mme.
 Ms.
 a.
 ac.
 a.C.
 adj.
 adm.
 á. é.
 ag.
 agit.
 AkH.
 alez.
 alk.
 ált.
 altbgy.
 a. m.
 ang.
 Aö.
-ápr.
+B.CS.
-arch.
+B.S.
-ásv.
+B.Sc.
-at.
+B.ú.é.k.
-aug.
+BE.
-b.
+BEK.
 BSC.
 BSc.
 BTK.
 Be.
-bek.
+Bek.
 belker.
 berend.
 Bfok.
 biz.
 bizt.
 Bk.
 bo.
 Bp.
 br.
 bt.
 Btét.
 Btk.
 Btke.
-B. ú. é. k.
+Btét.
-B.ú.é.k.
+CSC.
 c.
 Cal.
 cc.
 cca.
 cf.
 cif.
 Co.
 Colo.
 Comp.
 Copr.
 Ctv.
 cs.
 Cs.
 Csc.
 Csop.
-cső.
+Ctv.
 csüt.
 D.
 DR.
 Dipl.
 Dr.
 Dsz.
 Dzs.
 Fla.
 Főszerk.
 GM.
 Gy.
 HKsz.
 Hmvh.
 Inform.
 K.m.f.
 KER.
 KFT.
 KRT.
 Ker.
 Kft.
 Kong.
 Korm.
 Kr.
 Kr.e.
 Kr.u.
 Krt.
 M.A.
 M.S.
 M.SC.
 M.Sc.
 MA.
 MSC.
 MSc.
 Mass.
 Mlle.
 Mme.
 Mo.
 Mr.
 Mrs.
 Ms.
 Mt.
 N.N.
 NB.
 NBr.
 Nat.
 Nr.
 Ny.
 Nyh.
 Nyr.
 Op.
 P.H.
 P.S.
 PH.D.
 PHD.
 PROF.
 Ph.D
 PhD.
 Pp.
 Proc.
 Prof.
 Ptk.
 Rer.
 S.B.
 SZOLG.
 Salg.
 St.
 Sz.
 Szfv.
 Szjt.
 Szolg.
 Szt.
 Sztv.
 TEL.
 Tel.
 Ty.
 Tyr.
 Ui.
 Vcs.
 Vhr.
 X.Y.
 Zs.
 a.
 a.C.
 ac.
 adj.
 adm.
 ag.
 agit.
 alez.
 alk.
 altbgy.
 an.
 ang.
 arch.
 at.
 aug.
 b.
 b.a.
 b.s.
 b.sc.
 bek.
 belker.
 berend.
 biz.
 bizt.
 bo.
 bp.
 br.
 bsc.
 bt.
 btk.
 c.
 ca.
 cc.
 cca.
 cf.
 cif.
 co.
 corp.
 cos.
 cs.
 csc.
 csüt.
 cső.
 ctv.
 d.
 dbj.
 dd.
 ddr.
@ -66,58 +162,45 @@ de.
 dec.
 dikt.
 dipl.
 dj.
 dk.
 dny.
 dolg.
 dr.
 Dr.
 DR.
 Dsz.
 du.
-Dzs.
+dzs.
-é.
+e.
 ea.
 ed.
 eff.
 egyh.
 ék.
 ell.
 elv.
 elvt.
 em.
 eng.
 eny.
 ény.
 érk.
 Ész.
 et.
 etc.
 eü.
 ev.
 évf.
 ezr.
 eü.
 f.
-fam.
+f.h.
 f. é.
 f.é.
 fam.
 febr.
-felügy.
+fej.
 felv.
 felügy.
 ff.
 ffi.
 f.h.
 fhdgy.
 fil.
 fiz.
 Fla.
 fm.
 foglalk.
 ford.
 főig.
 főisk.
 Főszerk.
 főtörm.
 főv.
 fp.
 fr.
 frsz.
@ -125,19 +208,22 @@ fszla.
 fszt.
 ft.
 fuv.
 főig.
 főisk.
 főtörm.
 főv.
 g.
 gazd.
 gimn.
 gk.
 gkv.
 GM.
 gondn.
 gör.
 gr.
 grav.
 gy.
 Gy.
 gyak.
 gyártm.
 gör.
 h.
 hads.
 hallg.
@ -147,12 +233,9 @@ hds.
 hg.
 hiv.
 hk.
 HKsz.
 hm.
 Hmvh.
 ho.
 honv.
 hőm.
 hp.
 hr.
 hrsz.
@ -160,17 +243,18 @@ hsz.
 ht.
 htb.
 hv.
-iá.
+hőm.
 id.
 i. e.
 i.e.
 i.sz.
 id.
 ifj.
 ig.
 igh.
 ill.
 i. m.
 imp.
 inc.
 ind.
 inform.
 inic.
 int.
 io.
@ -179,9 +263,8 @@ ir.
 irod.
 isk.
 ism.
 i. sz.
 i.sz.
 izr.
 iá.
 j.
 jan.
 jav.
@ -191,32 +274,35 @@ jkv.
 jogh.
 jogt.
 jr.
 jvb.
 júl.
 jún.
 jvb.
 k.
 karb.
 kat.
 kb.
 kcs.
 kd.
 képv.
 ker.
 kf.
 kft.
 kht.
 kir.
 kirend.
 kísérl.
 kisip.
 kiv.
 kk.
 kkt.
 klin.
-K. m. f.
+kp.
-K.m.f.
+krt.
-Kong.
+kt.
-Korm.
+ktsg.
 kult.
 kv.
 kve.
 képv.
 kísérl.
 kóth.
 könyvt.
 körz.
@ -225,19 +311,7 @@ közj.
 közl.
 közp.
 közt.
 kp.
 Kr.
 Kr. e.
 Kr.e.
 krt.
 Kr. u.
 Kr.u.
 kt.
 ktsg.
 kult.
 kü.
 kv.
 kve.
 l.
 lat.
 ld.
@ -246,32 +320,39 @@ lg.
 lgv.
 loc.
 lt.
 ltd.
 ltp.
 luth.
 m.
-má.
+m.a.
-márc.
+m.s.
-Mass.
+m.sc.
 ma.
 mat.
 mb.
 m. é.
 mé.
 med.
 megh.
 mélt.
 met.
 mf.
 mfszt.
 min.
 miss.
 mjr.
 mjv.
 mk.
 mlle.
 mme.
 mn.
 Mo.
 mozg.
-Mr.
+mr.
-Mrs.
+mrs.
-Mt.
+ms.
 msc.
 má.
 máj.
 márc.
 mé.
 mélt.
 mü.
 műh.
 műsz.
@ -280,87 +361,76 @@ művez.
 n.
 nagyker.
 nagys.
-NB.
+nat.
-NBr.
+nb.
 neg.
 nk.
 N.N.
 nov.
 Nr.
 nu.
 ny.
 Ny.
 Nyh.
 nyilv.
-Nyr.
+nyrt.
 nyug.
 o.
 obj.
 okl.
 okt.
 olv.
 Op.
 orsz.
 ort.
 ov.
 ovh.
 őrgy.
 őrpk.
 őrv.
 össz.
 ötk.
 özv.
 p.
 pf.
 pg.
-P.H.
+ph.d
 ph.d.
 phd.
 pk.
 pl.
 plb.
 plc.
 pld.
 plur.
 pol.
 polg.
 poz.
 pp.
-Pp.
+proc.
 prof.
 Prof.
 PROF.
 prot.
 P.S.
 pság.
-Ptk.
+ptk.
 pu.
 pü.
 q.
 r.
 r.k.
 rac.
 rad.
 red.
 ref.
 reg.
 rer.
 rev.
 rf.
 r. k.
 r.k.
 rkp.
 rkt.
 röv.
 rt.
 rtg.
 röv.
 s.
 s.b.
 s.k.
 sa.
 Salg.
 sel.
 sgt.
 s. k.
 s.k.
 sm.
 st.
 St.
 stat.
 stb.
 strat.
 sz.
 Sz.
 szakm.
 szaksz.
 szakszerv.
@ -369,17 +439,16 @@ szds.
 szept.
 szerk.
 szf.
 Szfv.
 szimf.
-Szjt.
+szjt.
 szkv.
 szla.
 szn.
 szolg.
-szöv.
+szt.
 Szt.
 Sztv.
 szubj.
 szöv.
 szül.
 t.
 tanm.
 tb.
@ -387,36 +456,78 @@ tbk.
 tc.
 techn.
 tek.
 tel.
 tf.
 tgk.
 ti.
 tip.
 tisztv.
 titks.
 tk.
 tkp.
 tny.
 törv.
 tp.
 tszf.
 tszk.
 tszkv.
 tü.
 tv.
 tvr.
-Ty.
+ty.
-Tyr.
+törv.
 tü.
 u.
 ua.
 ui.
 Ui.
 Új-Z.
 ÚjZ.
 úm.
 ún.
 unit.
 uo.
 út.
 uv.
 v.
 vas.
 vb.
 vegy.
 vh.
 vhol.
 vill.
 vizsg.
 vk.
 vkf.
 vkny.
 vm.
 vol.
 vs.
 vsz.
 vv.
 vál.
 vízv.
 vö.
 w.
 y.
 z.
 zrt.
 zs.
 Ész.
 Új-Z.
 ÚjZ.
 á.
 ált.
 ápr.
 ásv.
 é.
 ék.
 ény.
 érk.
 évf.
 í.
 ó.
 ö.
 össz.
 ötk.
 özv.
 ú.
 úm.
 ún.
 út.
 ü.
 üag.
 üd.
 üdv.
@ -424,26 +535,14 @@ uv.
 ümk.
 ütk.
 üv.
-v.
+ő.
-vál.
+ű.
-vas.
+őrgy.
-vb.
+őrpk.
-Vcs.
+őrv.
-vegy.
+""".strip().split()
-vh.
+
-vhol.
+OTHER_EXC = """
-Vhr.
+''
-vill.
+-e
-vízv.
+""".strip().split()
 vizsg.
 vk.
 vkf.
 vkny.
 vm.
 vol.
 vö.
 vs.
 vsz.
 vv.
 X.Y.
 Zs.
--- a/spacy/tests/hu/tokenizer/test_default_token_hyphen.txt
+++ b/spacy/tests/hu/tokenizer/test_default_token_hyphen.txt
@ -67,8 +67,9 @@ OUT: <s><w>Ez</w><ws> </ws><c>(</c><w>lakik</w><c>)</c><w>-e</w><c>?</c></s>
    OUT: <s><w>A</w><ws> </ws><w>macska-</w><c>/</c><w>kutyavilag</w><ws> </ws><w>van</w><c>.</c></s>
 %-, §-
-IN : A §-sal.
+# TODO: spaCy cannot handle such cases
-OUT: <s><w>A</w><ws> </ws><w>§-sal</w><c>.</c></s>
+# IN : A §-sal.
 # OUT: <s><w>A</w><ws> </ws><w>§-sal</w><c>.</c></s>
 IN : A %-sal.
 OUT: <s><w>A</w><ws> </ws><w>%-sal</w><c>.</c></s>