Added Hungarian resource files.

This commit is contained in:
Gyorgy Orosz 2016-12-08 12:06:36 +01:00
parent 5b00039955
commit 90d22db023
5 changed files with 11228 additions and 0 deletions

10392
spacy/hu/data/corrdic.txt Normal file

File diff suppressed because it is too large Load Diff

View File

@ -0,0 +1,225 @@
dj.
co.
ltd.
corp.
plc.
inc.
cos.
a.
an.
á.
ált.
ápr.
aug.
b.
Be.
BE.
bek.
Bek.
BEK.
bp.
br.
bt.
btk.
Btk.
BTK.
ca.
cs.
csüt.
ctv.
d.
de.
dec.
dk.
dny.
dr.
du.
dzs.
e.
é.
ék.
em.
ény.
érk.
ev.
évf.
f.
febr.
fej.
felv.
ford.
fszla.
fszt.
g.
gimn.
gr.
gy.
h.
hg.
hiv.
honv.
hrsz.
hsz.
htb.
í.
i.e.
i.sz.
id.
ifj.
ig.
igh.
ill.
ind.
isk.
izr.
j.
jan.
jegyz.
júl.
jún.
k.
kb.
ker.
Ker.
KER.
KFT.
Kft.
kft.
kht.
kk.
kkt.
köv.
kp.
Kr.
Kr.e.
Kr.u.
krt.
Krt.
KRT.
l.
luth.
m.
máj.
márc.
mb.
megh.
min.
mlle.
mme.
mr.
mrs.
ms.
n.
nb.
nov.
ny.
nyrt.
nyug.
o.
ó.
okl.
okt.
olv.
ov.
ovh.
ö.
ő.
özv.
p.
pf.
pl.
pp.
ptk.
pu.
q.
r.
ref.
rkp.
röv.
rt.
s.
sgt.
st.
stb.
sz.
szept.
szerk.
szjt.
szt.
szolg.
Szolg.
SZOLG.
szül.
t.
tel.
Tel.
TEL.
tc.
ti.
tkp.
törv.
tvr.
ty.
u.
ú.
ua.
ui.
úm.
ún.
uo.
ü.
ű.
vö.
vsz.
w.
y.
z.
zrt.
zs.
dr.
Dr.
DR.
csc.
CSC.
Csc.
PHD.
phd.
PhD.
PH.D.
ph.d.
Ph.D
ph.d
m.sc.
M.Sc.
M.SC.
MSC.
msc.
MSc.
m.a.
M.A.
MA.
ma.
m.s.
M.S.
b.a.
B.Sc.
B.CS.
b.sc.
bsc.
BSC.
BSc.
b.s.
B.S.
s.b.
S.B.
rer.
Rer.
nat.
Nat.
Dipl.
dipl.
Inform.
inform.
Proc.
proc.

View File

@ -0,0 +1,449 @@
# nytudos, roviditeseket tartalmazo fajl utf8-ra konvertalva (M.I.)
Mlle.
Mme.
Ms.
a.
ac.
a.C.
adj.
adm.
á. é.
ag.
agit.
AkH.
alez.
alk.
ált.
altbgy.
a. m.
ang.
Aö.
ápr.
arch.
ásv.
at.
aug.
b.
Be.
bek.
belker.
berend.
Bfok.
biz.
bizt.
Bk.
bo.
Bp.
br.
bt.
Btét.
Btk.
Btke.
B. ú. é. k.
B.ú.é.k.
c.
Cal.
cc.
cca.
cf.
cif.
Co.
Colo.
Comp.
Copr.
Ctv.
cs.
Cs.
Csop.
cső.
csüt.
D.
dbj.
dd.
ddr.
de.
dec.
dikt.
dipl.
dk.
dny.
dolg.
dr.
Dr.
DR.
Dsz.
du.
Dzs.
é.
ea.
ed.
eff.
egyh.
ék.
ell.
elv.
elvt.
em.
eng.
eny.
ény.
érk.
Ész.
et.
etc.
eü.
ev.
évf.
ezr.
f.
fam.
f. é.
f.é.
febr.
felügy.
felv.
ff.
ffi.
f.h.
fhdgy.
fil.
fiz.
Fla.
fm.
foglalk.
ford.
főig.
főisk.
Főszerk.
főtörm.
főv.
fp.
fr.
frsz.
fszla.
fszt.
ft.
fuv.
gazd.
gimn.
gk.
gkv.
GM.
gondn.
gör.
gr.
grav.
gy.
Gy.
gyak.
gyártm.
h.
hads.
hallg.
hdm.
hdp.
hds.
hg.
hiv.
hk.
HKsz.
hm.
Hmvh.
ho.
honv.
hőm.
hp.
hr.
hrsz.
hsz.
ht.
htb.
hv.
iá.
id.
i. e.
i.e.
ifj.
ig.
igh.
ill.
i. m.
imp.
ind.
inic.
int.
io.
ip.
ir.
irod.
isk.
ism.
i. sz.
i.sz.
izr.
j.
jan.
jav.
jegyz.
jjv.
jkv.
jogh.
jogt.
jr.
júl.
jún.
jvb.
k.
karb.
kat.
kb.
kcs.
kd.
képv.
ker.
kf.
kft.
kht.
kir.
kirend.
kísérl.
kisip.
kiv.
kk.
kkt.
klin.
K. m. f.
K.m.f.
Kong.
Korm.
kóth.
könyvt.
körz.
köv.
közj.
közl.
közp.
közt.
kp.
Kr.
Kr. e.
Kr.e.
krt.
Kr. u.
Kr.u.
kt.
ktsg.
kult.
kü.
kv.
kve.
l.
lat.
ld.
legs.
lg.
lgv.
loc.
lt.
ltp.
luth.
m.
má.
márc.
Mass.
mat.
mb.
m. é.
mé.
med.
megh.
mélt.
met.
mf.
mfszt.
miss.
mjr.
mjv.
mk.
mn.
Mo.
mozg.
Mr.
Mrs.
Mt.
mü.
műh.
műsz.
műv.
művez.
n.
nagyker.
nagys.
NB.
NBr.
neg.
nk.
N.N.
nov.
Nr.
nu.
ny.
Ny.
Nyh.
nyilv.
Nyr.
nyug.
o.
obj.
okl.
okt.
olv.
Op.
orsz.
ort.
ov.
ovh.
őrgy.
őrpk.
őrv.
össz.
ötk.
özv.
p.
pf.
pg.
P.H.
pk.
pl.
plb.
pld.
plur.
pol.
polg.
poz.
pp.
Pp.
prof.
Prof.
PROF.
prot.
P.S.
pság.
Ptk.
pu.
pü.
r.
rac.
rad.
red.
ref.
reg.
rev.
rf.
r. k.
r.k.
rkp.
rkt.
röv.
rt.
rtg.
sa.
Salg.
sel.
sgt.
s. k.
s.k.
sm.
st.
St.
stat.
strat.
sz.
Sz.
szakm.
szaksz.
szakszerv.
szd.
szds.
szept.
szerk.
szf.
Szfv.
szimf.
Szjt.
szkv.
szla.
szn.
szolg.
szöv.
Szt.
Sztv.
szubj.
t.
tanm.
tb.
tbk.
tc.
techn.
tek.
tf.
tgk.
tip.
tisztv.
titks.
tk.
tkp.
tny.
törv.
tp.
tszf.
tszk.
tszkv.
tü.
tv.
tvr.
Ty.
Tyr.
u.
ua.
ui.
Ui.
Új-Z.
ÚjZ.
úm.
ún.
unit.
uo.
út.
uv.
üag.
üd.
üdv.
üe.
ümk.
ütk.
üv.
v.
vál.
vas.
vb.
Vcs.
vegy.
vh.
vhol.
Vhr.
vill.
vízv.
vizsg.
vk.
vkf.
vkny.
vm.
vol.
vö.
vs.
vsz.
vv.
X.Y.
Zs.

View File

@ -0,0 +1,158 @@
# Ez a huntoken eredeti roviditeses fajlja, utf8-ban (M.I.)
# Az sbdabbrev adatállománya, amely fordítás során kerül feldolgozásra
# tartalma a gyakoribb rövidítések, amelyek pontra végzõdnek
# (pont nélkül is megadhatunk ,,rövidítéseket'', pl. a ,,PhotoMaxGO!''
# beírásával a PhotoMaxGO! nem lesz mondatzáró, még ha utána szóközzel,
# vagy újsorral elválasztva nagybetûs szó következik.)
#
# A kisbetûvel kezdõdõ rövidítések nagy kezdõbetûvel is felismerésre kerülnek.
#
# L. még A magyar helyesírás szabályai 282. pontja
#
# Amelyek gyakrabban mondatzárók, mint pl. a ,,stb.'', nem kerülnek befordításra
# stb.
# fej.
# De.
a.
c.
á. é.
f. é.
m. é.
# áll.
ált.
m.
a. m.
i. m.
ápr.
aug.
bek.
Bp.
br.
bt.
B. ú. é. k.
Btk.
Ctv.
csüt.
dec.
dk.
dny.
# de.
dr.
du.
ék.
em.
ény.
érk.
ev.
évf.
f.
febr.
felv.
ford.
fszla.
fszt.
gimn.
gr.
h.
hg.
hiv.
honv.
id.
ifj.
ig.
igh.
ill.
ind.
isk.
i. sz.
izr.
jan.
jegyz.
júl.
jún.
kb.
ker.
kft.
kk.
K. m. f.
i. sz.
Kr. e.
Kr. u.
i. e.
köv.
Kr.
krt.
# máj.
márc.
mb.
megh.
Mlle.
Mme.
Mr.
Mrs.
Ms.
NB.
nov.
ny.
nyug.
o.
okl.
okt.
olv.
özv.
p.
pl.
Ptk.
pu.
ref.
rkp.
r. k.
s. k.
sz.
szerk.
rt.
sgt.
St.
szept.
szerk.
Szt.
# szül.
t.
tc.
törv.
tvr.
u.
ua.
ui.
úm.
ún.
uo.
v.
vö.
vsz.
Cs.
Dzs.
Gy.
Ny.
Sz.
Ty.
Zs.
Szjt.
pf.
Pp.
kht.
kkt.
cca.
gr.
hsz.
htb.
luth.
megh.
ov.
ovh.
röv.
tc.
tkp.
hrsz.
kp.

View File

@ -4,6 +4,8 @@ from __future__ import unicode_literals
import os
import re
import six
def _load_txt_data(*file_paths):
for path in file_paths:
@ -20,6 +22,8 @@ _STOPWORDS_PATH = _MODULE_PATH + "/data/stopwords.txt"
STOP_WORDS = set(_load_txt_data(_STOPWORDS_PATH))
HYPHENS = [six.unichr(cp) for cp in [173, 8211, 8212, 8213, 8722, 9472]]
TOKENIZER_PREFIXES = map(re.escape, r'''
,
"