mirror of
https://github.com/explosion/spaCy.git
synced 2025-05-03 15:23:41 +03:00
Added Hungarian resource files.
This commit is contained in:
parent
5b00039955
commit
90d22db023
10392
spacy/hu/data/corrdic.txt
Normal file
10392
spacy/hu/data/corrdic.txt
Normal file
File diff suppressed because it is too large
Load Diff
225
spacy/hu/data/tokenizer/abbreviations_magyarlanc-hu.txt
Normal file
225
spacy/hu/data/tokenizer/abbreviations_magyarlanc-hu.txt
Normal file
|
@ -0,0 +1,225 @@
|
||||||
|
dj.
|
||||||
|
co.
|
||||||
|
ltd.
|
||||||
|
corp.
|
||||||
|
plc.
|
||||||
|
inc.
|
||||||
|
cos.
|
||||||
|
a.
|
||||||
|
an.
|
||||||
|
á.
|
||||||
|
ált.
|
||||||
|
ápr.
|
||||||
|
aug.
|
||||||
|
b.
|
||||||
|
Be.
|
||||||
|
BE.
|
||||||
|
bek.
|
||||||
|
Bek.
|
||||||
|
BEK.
|
||||||
|
bp.
|
||||||
|
br.
|
||||||
|
bt.
|
||||||
|
btk.
|
||||||
|
Btk.
|
||||||
|
BTK.
|
||||||
|
ca.
|
||||||
|
cs.
|
||||||
|
csüt.
|
||||||
|
ctv.
|
||||||
|
d.
|
||||||
|
de.
|
||||||
|
dec.
|
||||||
|
dk.
|
||||||
|
dny.
|
||||||
|
dr.
|
||||||
|
du.
|
||||||
|
dzs.
|
||||||
|
e.
|
||||||
|
é.
|
||||||
|
ék.
|
||||||
|
em.
|
||||||
|
ény.
|
||||||
|
érk.
|
||||||
|
ev.
|
||||||
|
évf.
|
||||||
|
f.
|
||||||
|
febr.
|
||||||
|
fej.
|
||||||
|
felv.
|
||||||
|
ford.
|
||||||
|
fszla.
|
||||||
|
fszt.
|
||||||
|
g.
|
||||||
|
gimn.
|
||||||
|
gr.
|
||||||
|
gy.
|
||||||
|
h.
|
||||||
|
hg.
|
||||||
|
hiv.
|
||||||
|
honv.
|
||||||
|
hrsz.
|
||||||
|
hsz.
|
||||||
|
htb.
|
||||||
|
í.
|
||||||
|
i.e.
|
||||||
|
i.sz.
|
||||||
|
id.
|
||||||
|
ifj.
|
||||||
|
ig.
|
||||||
|
igh.
|
||||||
|
ill.
|
||||||
|
ind.
|
||||||
|
isk.
|
||||||
|
izr.
|
||||||
|
j.
|
||||||
|
jan.
|
||||||
|
jegyz.
|
||||||
|
júl.
|
||||||
|
jún.
|
||||||
|
k.
|
||||||
|
kb.
|
||||||
|
ker.
|
||||||
|
Ker.
|
||||||
|
KER.
|
||||||
|
KFT.
|
||||||
|
Kft.
|
||||||
|
kft.
|
||||||
|
kht.
|
||||||
|
kk.
|
||||||
|
kkt.
|
||||||
|
köv.
|
||||||
|
kp.
|
||||||
|
Kr.
|
||||||
|
Kr.e.
|
||||||
|
Kr.u.
|
||||||
|
krt.
|
||||||
|
Krt.
|
||||||
|
KRT.
|
||||||
|
l.
|
||||||
|
luth.
|
||||||
|
m.
|
||||||
|
máj.
|
||||||
|
márc.
|
||||||
|
mb.
|
||||||
|
megh.
|
||||||
|
min.
|
||||||
|
mlle.
|
||||||
|
mme.
|
||||||
|
mr.
|
||||||
|
mrs.
|
||||||
|
ms.
|
||||||
|
n.
|
||||||
|
nb.
|
||||||
|
nov.
|
||||||
|
ny.
|
||||||
|
nyrt.
|
||||||
|
nyug.
|
||||||
|
o.
|
||||||
|
ó.
|
||||||
|
okl.
|
||||||
|
okt.
|
||||||
|
olv.
|
||||||
|
ov.
|
||||||
|
ovh.
|
||||||
|
ö.
|
||||||
|
ő.
|
||||||
|
özv.
|
||||||
|
p.
|
||||||
|
pf.
|
||||||
|
pl.
|
||||||
|
pp.
|
||||||
|
ptk.
|
||||||
|
pu.
|
||||||
|
q.
|
||||||
|
r.
|
||||||
|
ref.
|
||||||
|
rkp.
|
||||||
|
röv.
|
||||||
|
rt.
|
||||||
|
s.
|
||||||
|
sgt.
|
||||||
|
st.
|
||||||
|
stb.
|
||||||
|
sz.
|
||||||
|
szept.
|
||||||
|
szerk.
|
||||||
|
szjt.
|
||||||
|
szt.
|
||||||
|
szolg.
|
||||||
|
Szolg.
|
||||||
|
SZOLG.
|
||||||
|
szül.
|
||||||
|
t.
|
||||||
|
tel.
|
||||||
|
Tel.
|
||||||
|
TEL.
|
||||||
|
tc.
|
||||||
|
ti.
|
||||||
|
tkp.
|
||||||
|
törv.
|
||||||
|
tvr.
|
||||||
|
ty.
|
||||||
|
u.
|
||||||
|
ú.
|
||||||
|
ua.
|
||||||
|
ui.
|
||||||
|
úm.
|
||||||
|
ún.
|
||||||
|
uo.
|
||||||
|
ü.
|
||||||
|
ű.
|
||||||
|
vö.
|
||||||
|
vsz.
|
||||||
|
w.
|
||||||
|
y.
|
||||||
|
z.
|
||||||
|
zrt.
|
||||||
|
zs.
|
||||||
|
|
||||||
|
dr.
|
||||||
|
Dr.
|
||||||
|
DR.
|
||||||
|
csc.
|
||||||
|
CSC.
|
||||||
|
Csc.
|
||||||
|
PHD.
|
||||||
|
phd.
|
||||||
|
PhD.
|
||||||
|
PH.D.
|
||||||
|
ph.d.
|
||||||
|
Ph.D
|
||||||
|
ph.d
|
||||||
|
m.sc.
|
||||||
|
M.Sc.
|
||||||
|
M.SC.
|
||||||
|
MSC.
|
||||||
|
msc.
|
||||||
|
MSc.
|
||||||
|
m.a.
|
||||||
|
M.A.
|
||||||
|
MA.
|
||||||
|
ma.
|
||||||
|
m.s.
|
||||||
|
M.S.
|
||||||
|
b.a.
|
||||||
|
B.Sc.
|
||||||
|
B.CS.
|
||||||
|
b.sc.
|
||||||
|
bsc.
|
||||||
|
BSC.
|
||||||
|
BSc.
|
||||||
|
b.s.
|
||||||
|
B.S.
|
||||||
|
s.b.
|
||||||
|
S.B.
|
||||||
|
rer.
|
||||||
|
Rer.
|
||||||
|
nat.
|
||||||
|
Nat.
|
||||||
|
Dipl.
|
||||||
|
dipl.
|
||||||
|
Inform.
|
||||||
|
inform.
|
||||||
|
Proc.
|
||||||
|
proc.
|
449
spacy/hu/data/tokenizer/abbreviations_nytud-hu.txt
Normal file
449
spacy/hu/data/tokenizer/abbreviations_nytud-hu.txt
Normal file
|
@ -0,0 +1,449 @@
|
||||||
|
# nytudos, roviditeseket tartalmazo fajl utf8-ra konvertalva (M.I.)
|
||||||
|
|
||||||
|
Mlle.
|
||||||
|
Mme.
|
||||||
|
Ms.
|
||||||
|
a.
|
||||||
|
ac.
|
||||||
|
a.C.
|
||||||
|
adj.
|
||||||
|
adm.
|
||||||
|
á. é.
|
||||||
|
ag.
|
||||||
|
agit.
|
||||||
|
AkH.
|
||||||
|
alez.
|
||||||
|
alk.
|
||||||
|
ált.
|
||||||
|
altbgy.
|
||||||
|
a. m.
|
||||||
|
ang.
|
||||||
|
Aö.
|
||||||
|
ápr.
|
||||||
|
arch.
|
||||||
|
ásv.
|
||||||
|
at.
|
||||||
|
aug.
|
||||||
|
b.
|
||||||
|
Be.
|
||||||
|
bek.
|
||||||
|
belker.
|
||||||
|
berend.
|
||||||
|
Bfok.
|
||||||
|
biz.
|
||||||
|
bizt.
|
||||||
|
Bk.
|
||||||
|
bo.
|
||||||
|
Bp.
|
||||||
|
br.
|
||||||
|
bt.
|
||||||
|
Btét.
|
||||||
|
Btk.
|
||||||
|
Btke.
|
||||||
|
B. ú. é. k.
|
||||||
|
B.ú.é.k.
|
||||||
|
c.
|
||||||
|
Cal.
|
||||||
|
cc.
|
||||||
|
cca.
|
||||||
|
cf.
|
||||||
|
cif.
|
||||||
|
Co.
|
||||||
|
Colo.
|
||||||
|
Comp.
|
||||||
|
Copr.
|
||||||
|
Ctv.
|
||||||
|
cs.
|
||||||
|
Cs.
|
||||||
|
Csop.
|
||||||
|
cső.
|
||||||
|
csüt.
|
||||||
|
D.
|
||||||
|
dbj.
|
||||||
|
dd.
|
||||||
|
ddr.
|
||||||
|
de.
|
||||||
|
dec.
|
||||||
|
dikt.
|
||||||
|
dipl.
|
||||||
|
dk.
|
||||||
|
dny.
|
||||||
|
dolg.
|
||||||
|
dr.
|
||||||
|
Dr.
|
||||||
|
DR.
|
||||||
|
Dsz.
|
||||||
|
du.
|
||||||
|
Dzs.
|
||||||
|
é.
|
||||||
|
ea.
|
||||||
|
ed.
|
||||||
|
eff.
|
||||||
|
egyh.
|
||||||
|
ék.
|
||||||
|
ell.
|
||||||
|
elv.
|
||||||
|
elvt.
|
||||||
|
em.
|
||||||
|
eng.
|
||||||
|
eny.
|
||||||
|
ény.
|
||||||
|
érk.
|
||||||
|
Ész.
|
||||||
|
et.
|
||||||
|
etc.
|
||||||
|
eü.
|
||||||
|
ev.
|
||||||
|
évf.
|
||||||
|
ezr.
|
||||||
|
f.
|
||||||
|
fam.
|
||||||
|
f. é.
|
||||||
|
f.é.
|
||||||
|
febr.
|
||||||
|
felügy.
|
||||||
|
felv.
|
||||||
|
ff.
|
||||||
|
ffi.
|
||||||
|
f.h.
|
||||||
|
fhdgy.
|
||||||
|
fil.
|
||||||
|
fiz.
|
||||||
|
Fla.
|
||||||
|
fm.
|
||||||
|
foglalk.
|
||||||
|
ford.
|
||||||
|
főig.
|
||||||
|
főisk.
|
||||||
|
Főszerk.
|
||||||
|
főtörm.
|
||||||
|
főv.
|
||||||
|
fp.
|
||||||
|
fr.
|
||||||
|
frsz.
|
||||||
|
fszla.
|
||||||
|
fszt.
|
||||||
|
ft.
|
||||||
|
fuv.
|
||||||
|
gazd.
|
||||||
|
gimn.
|
||||||
|
gk.
|
||||||
|
gkv.
|
||||||
|
GM.
|
||||||
|
gondn.
|
||||||
|
gör.
|
||||||
|
gr.
|
||||||
|
grav.
|
||||||
|
gy.
|
||||||
|
Gy.
|
||||||
|
gyak.
|
||||||
|
gyártm.
|
||||||
|
h.
|
||||||
|
hads.
|
||||||
|
hallg.
|
||||||
|
hdm.
|
||||||
|
hdp.
|
||||||
|
hds.
|
||||||
|
hg.
|
||||||
|
hiv.
|
||||||
|
hk.
|
||||||
|
HKsz.
|
||||||
|
hm.
|
||||||
|
Hmvh.
|
||||||
|
ho.
|
||||||
|
honv.
|
||||||
|
hőm.
|
||||||
|
hp.
|
||||||
|
hr.
|
||||||
|
hrsz.
|
||||||
|
hsz.
|
||||||
|
ht.
|
||||||
|
htb.
|
||||||
|
hv.
|
||||||
|
iá.
|
||||||
|
id.
|
||||||
|
i. e.
|
||||||
|
i.e.
|
||||||
|
ifj.
|
||||||
|
ig.
|
||||||
|
igh.
|
||||||
|
ill.
|
||||||
|
i. m.
|
||||||
|
imp.
|
||||||
|
ind.
|
||||||
|
inic.
|
||||||
|
int.
|
||||||
|
io.
|
||||||
|
ip.
|
||||||
|
ir.
|
||||||
|
irod.
|
||||||
|
isk.
|
||||||
|
ism.
|
||||||
|
i. sz.
|
||||||
|
i.sz.
|
||||||
|
izr.
|
||||||
|
j.
|
||||||
|
jan.
|
||||||
|
jav.
|
||||||
|
jegyz.
|
||||||
|
jjv.
|
||||||
|
jkv.
|
||||||
|
jogh.
|
||||||
|
jogt.
|
||||||
|
jr.
|
||||||
|
júl.
|
||||||
|
jún.
|
||||||
|
jvb.
|
||||||
|
k.
|
||||||
|
karb.
|
||||||
|
kat.
|
||||||
|
kb.
|
||||||
|
kcs.
|
||||||
|
kd.
|
||||||
|
képv.
|
||||||
|
ker.
|
||||||
|
kf.
|
||||||
|
kft.
|
||||||
|
kht.
|
||||||
|
kir.
|
||||||
|
kirend.
|
||||||
|
kísérl.
|
||||||
|
kisip.
|
||||||
|
kiv.
|
||||||
|
kk.
|
||||||
|
kkt.
|
||||||
|
klin.
|
||||||
|
K. m. f.
|
||||||
|
K.m.f.
|
||||||
|
Kong.
|
||||||
|
Korm.
|
||||||
|
kóth.
|
||||||
|
könyvt.
|
||||||
|
körz.
|
||||||
|
köv.
|
||||||
|
közj.
|
||||||
|
közl.
|
||||||
|
közp.
|
||||||
|
közt.
|
||||||
|
kp.
|
||||||
|
Kr.
|
||||||
|
Kr. e.
|
||||||
|
Kr.e.
|
||||||
|
krt.
|
||||||
|
Kr. u.
|
||||||
|
Kr.u.
|
||||||
|
kt.
|
||||||
|
ktsg.
|
||||||
|
kult.
|
||||||
|
kü.
|
||||||
|
kv.
|
||||||
|
kve.
|
||||||
|
l.
|
||||||
|
lat.
|
||||||
|
ld.
|
||||||
|
legs.
|
||||||
|
lg.
|
||||||
|
lgv.
|
||||||
|
loc.
|
||||||
|
lt.
|
||||||
|
ltp.
|
||||||
|
luth.
|
||||||
|
m.
|
||||||
|
má.
|
||||||
|
márc.
|
||||||
|
Mass.
|
||||||
|
mat.
|
||||||
|
mb.
|
||||||
|
m. é.
|
||||||
|
mé.
|
||||||
|
med.
|
||||||
|
megh.
|
||||||
|
mélt.
|
||||||
|
met.
|
||||||
|
mf.
|
||||||
|
mfszt.
|
||||||
|
miss.
|
||||||
|
mjr.
|
||||||
|
mjv.
|
||||||
|
mk.
|
||||||
|
mn.
|
||||||
|
Mo.
|
||||||
|
mozg.
|
||||||
|
Mr.
|
||||||
|
Mrs.
|
||||||
|
Mt.
|
||||||
|
mü.
|
||||||
|
műh.
|
||||||
|
műsz.
|
||||||
|
műv.
|
||||||
|
művez.
|
||||||
|
n.
|
||||||
|
nagyker.
|
||||||
|
nagys.
|
||||||
|
NB.
|
||||||
|
NBr.
|
||||||
|
neg.
|
||||||
|
nk.
|
||||||
|
N.N.
|
||||||
|
nov.
|
||||||
|
Nr.
|
||||||
|
nu.
|
||||||
|
ny.
|
||||||
|
Ny.
|
||||||
|
Nyh.
|
||||||
|
nyilv.
|
||||||
|
Nyr.
|
||||||
|
nyug.
|
||||||
|
o.
|
||||||
|
obj.
|
||||||
|
okl.
|
||||||
|
okt.
|
||||||
|
olv.
|
||||||
|
Op.
|
||||||
|
orsz.
|
||||||
|
ort.
|
||||||
|
ov.
|
||||||
|
ovh.
|
||||||
|
őrgy.
|
||||||
|
őrpk.
|
||||||
|
őrv.
|
||||||
|
össz.
|
||||||
|
ötk.
|
||||||
|
özv.
|
||||||
|
p.
|
||||||
|
pf.
|
||||||
|
pg.
|
||||||
|
P.H.
|
||||||
|
pk.
|
||||||
|
pl.
|
||||||
|
plb.
|
||||||
|
pld.
|
||||||
|
plur.
|
||||||
|
pol.
|
||||||
|
polg.
|
||||||
|
poz.
|
||||||
|
pp.
|
||||||
|
Pp.
|
||||||
|
prof.
|
||||||
|
Prof.
|
||||||
|
PROF.
|
||||||
|
prot.
|
||||||
|
P.S.
|
||||||
|
pság.
|
||||||
|
Ptk.
|
||||||
|
pu.
|
||||||
|
pü.
|
||||||
|
r.
|
||||||
|
rac.
|
||||||
|
rad.
|
||||||
|
red.
|
||||||
|
ref.
|
||||||
|
reg.
|
||||||
|
rev.
|
||||||
|
rf.
|
||||||
|
r. k.
|
||||||
|
r.k.
|
||||||
|
rkp.
|
||||||
|
rkt.
|
||||||
|
röv.
|
||||||
|
rt.
|
||||||
|
rtg.
|
||||||
|
sa.
|
||||||
|
Salg.
|
||||||
|
sel.
|
||||||
|
sgt.
|
||||||
|
s. k.
|
||||||
|
s.k.
|
||||||
|
sm.
|
||||||
|
st.
|
||||||
|
St.
|
||||||
|
stat.
|
||||||
|
strat.
|
||||||
|
sz.
|
||||||
|
Sz.
|
||||||
|
szakm.
|
||||||
|
szaksz.
|
||||||
|
szakszerv.
|
||||||
|
szd.
|
||||||
|
szds.
|
||||||
|
szept.
|
||||||
|
szerk.
|
||||||
|
szf.
|
||||||
|
Szfv.
|
||||||
|
szimf.
|
||||||
|
Szjt.
|
||||||
|
szkv.
|
||||||
|
szla.
|
||||||
|
szn.
|
||||||
|
szolg.
|
||||||
|
szöv.
|
||||||
|
Szt.
|
||||||
|
Sztv.
|
||||||
|
szubj.
|
||||||
|
t.
|
||||||
|
tanm.
|
||||||
|
tb.
|
||||||
|
tbk.
|
||||||
|
tc.
|
||||||
|
techn.
|
||||||
|
tek.
|
||||||
|
tf.
|
||||||
|
tgk.
|
||||||
|
tip.
|
||||||
|
tisztv.
|
||||||
|
titks.
|
||||||
|
tk.
|
||||||
|
tkp.
|
||||||
|
tny.
|
||||||
|
törv.
|
||||||
|
tp.
|
||||||
|
tszf.
|
||||||
|
tszk.
|
||||||
|
tszkv.
|
||||||
|
tü.
|
||||||
|
tv.
|
||||||
|
tvr.
|
||||||
|
Ty.
|
||||||
|
Tyr.
|
||||||
|
u.
|
||||||
|
ua.
|
||||||
|
ui.
|
||||||
|
Ui.
|
||||||
|
Új-Z.
|
||||||
|
ÚjZ.
|
||||||
|
úm.
|
||||||
|
ún.
|
||||||
|
unit.
|
||||||
|
uo.
|
||||||
|
út.
|
||||||
|
uv.
|
||||||
|
üag.
|
||||||
|
üd.
|
||||||
|
üdv.
|
||||||
|
üe.
|
||||||
|
ümk.
|
||||||
|
ütk.
|
||||||
|
üv.
|
||||||
|
v.
|
||||||
|
vál.
|
||||||
|
vas.
|
||||||
|
vb.
|
||||||
|
Vcs.
|
||||||
|
vegy.
|
||||||
|
vh.
|
||||||
|
vhol.
|
||||||
|
Vhr.
|
||||||
|
vill.
|
||||||
|
vízv.
|
||||||
|
vizsg.
|
||||||
|
vk.
|
||||||
|
vkf.
|
||||||
|
vkny.
|
||||||
|
vm.
|
||||||
|
vol.
|
||||||
|
vö.
|
||||||
|
vs.
|
||||||
|
vsz.
|
||||||
|
vv.
|
||||||
|
X.Y.
|
||||||
|
Zs.
|
158
spacy/hu/data/tokenizer/abbreviations_orig-hu.txt
Normal file
158
spacy/hu/data/tokenizer/abbreviations_orig-hu.txt
Normal file
|
@ -0,0 +1,158 @@
|
||||||
|
# Ez a huntoken eredeti roviditeses fajlja, utf8-ban (M.I.)
|
||||||
|
|
||||||
|
# Az sbdabbrev adatállománya, amely fordítás során kerül feldolgozásra
|
||||||
|
# tartalma a gyakoribb rövidítések, amelyek pontra végzõdnek
|
||||||
|
# (pont nélkül is megadhatunk ,,rövidítéseket'', pl. a ,,PhotoMaxGO!''
|
||||||
|
# beírásával a PhotoMaxGO! nem lesz mondatzáró, még ha utána szóközzel,
|
||||||
|
# vagy újsorral elválasztva nagybetûs szó következik.)
|
||||||
|
#
|
||||||
|
# A kisbetûvel kezdõdõ rövidítések nagy kezdõbetûvel is felismerésre kerülnek.
|
||||||
|
#
|
||||||
|
# L. még A magyar helyesírás szabályai 282. pontja
|
||||||
|
#
|
||||||
|
# Amelyek gyakrabban mondatzárók, mint pl. a ,,stb.'', nem kerülnek befordításra
|
||||||
|
# stb.
|
||||||
|
# fej.
|
||||||
|
# De.
|
||||||
|
a.
|
||||||
|
c.
|
||||||
|
á. é.
|
||||||
|
f. é.
|
||||||
|
m. é.
|
||||||
|
# áll.
|
||||||
|
ált.
|
||||||
|
m.
|
||||||
|
a. m.
|
||||||
|
i. m.
|
||||||
|
ápr.
|
||||||
|
aug.
|
||||||
|
bek.
|
||||||
|
Bp.
|
||||||
|
br.
|
||||||
|
bt.
|
||||||
|
B. ú. é. k.
|
||||||
|
Btk.
|
||||||
|
Ctv.
|
||||||
|
csüt.
|
||||||
|
dec.
|
||||||
|
dk.
|
||||||
|
dny.
|
||||||
|
# de.
|
||||||
|
dr.
|
||||||
|
du.
|
||||||
|
ék.
|
||||||
|
em.
|
||||||
|
ény.
|
||||||
|
érk.
|
||||||
|
ev.
|
||||||
|
évf.
|
||||||
|
f.
|
||||||
|
febr.
|
||||||
|
felv.
|
||||||
|
ford.
|
||||||
|
fszla.
|
||||||
|
fszt.
|
||||||
|
gimn.
|
||||||
|
gr.
|
||||||
|
h.
|
||||||
|
hg.
|
||||||
|
hiv.
|
||||||
|
honv.
|
||||||
|
id.
|
||||||
|
ifj.
|
||||||
|
ig.
|
||||||
|
igh.
|
||||||
|
ill.
|
||||||
|
ind.
|
||||||
|
isk.
|
||||||
|
i. sz.
|
||||||
|
izr.
|
||||||
|
jan.
|
||||||
|
jegyz.
|
||||||
|
júl.
|
||||||
|
jún.
|
||||||
|
kb.
|
||||||
|
ker.
|
||||||
|
kft.
|
||||||
|
kk.
|
||||||
|
K. m. f.
|
||||||
|
i. sz.
|
||||||
|
Kr. e.
|
||||||
|
Kr. u.
|
||||||
|
i. e.
|
||||||
|
köv.
|
||||||
|
Kr.
|
||||||
|
krt.
|
||||||
|
# máj.
|
||||||
|
márc.
|
||||||
|
mb.
|
||||||
|
megh.
|
||||||
|
Mlle.
|
||||||
|
Mme.
|
||||||
|
Mr.
|
||||||
|
Mrs.
|
||||||
|
Ms.
|
||||||
|
NB.
|
||||||
|
nov.
|
||||||
|
ny.
|
||||||
|
nyug.
|
||||||
|
o.
|
||||||
|
okl.
|
||||||
|
okt.
|
||||||
|
olv.
|
||||||
|
özv.
|
||||||
|
p.
|
||||||
|
pl.
|
||||||
|
Ptk.
|
||||||
|
pu.
|
||||||
|
ref.
|
||||||
|
rkp.
|
||||||
|
r. k.
|
||||||
|
s. k.
|
||||||
|
sz.
|
||||||
|
szerk.
|
||||||
|
rt.
|
||||||
|
sgt.
|
||||||
|
St.
|
||||||
|
szept.
|
||||||
|
szerk.
|
||||||
|
Szt.
|
||||||
|
# szül.
|
||||||
|
t.
|
||||||
|
tc.
|
||||||
|
törv.
|
||||||
|
tvr.
|
||||||
|
u.
|
||||||
|
ua.
|
||||||
|
ui.
|
||||||
|
úm.
|
||||||
|
ún.
|
||||||
|
uo.
|
||||||
|
v.
|
||||||
|
vö.
|
||||||
|
vsz.
|
||||||
|
Cs.
|
||||||
|
Dzs.
|
||||||
|
Gy.
|
||||||
|
Ny.
|
||||||
|
Sz.
|
||||||
|
Ty.
|
||||||
|
Zs.
|
||||||
|
Szjt.
|
||||||
|
pf.
|
||||||
|
Pp.
|
||||||
|
kht.
|
||||||
|
kkt.
|
||||||
|
cca.
|
||||||
|
gr.
|
||||||
|
hsz.
|
||||||
|
htb.
|
||||||
|
luth.
|
||||||
|
megh.
|
||||||
|
ov.
|
||||||
|
ovh.
|
||||||
|
röv.
|
||||||
|
tc.
|
||||||
|
tkp.
|
||||||
|
hrsz.
|
||||||
|
kp.
|
|
@ -4,6 +4,8 @@ from __future__ import unicode_literals
|
||||||
import os
|
import os
|
||||||
import re
|
import re
|
||||||
|
|
||||||
|
import six
|
||||||
|
|
||||||
|
|
||||||
def _load_txt_data(*file_paths):
|
def _load_txt_data(*file_paths):
|
||||||
for path in file_paths:
|
for path in file_paths:
|
||||||
|
@ -20,6 +22,8 @@ _STOPWORDS_PATH = _MODULE_PATH + "/data/stopwords.txt"
|
||||||
|
|
||||||
STOP_WORDS = set(_load_txt_data(_STOPWORDS_PATH))
|
STOP_WORDS = set(_load_txt_data(_STOPWORDS_PATH))
|
||||||
|
|
||||||
|
HYPHENS = [six.unichr(cp) for cp in [173, 8211, 8212, 8213, 8722, 9472]]
|
||||||
|
|
||||||
TOKENIZER_PREFIXES = map(re.escape, r'''
|
TOKENIZER_PREFIXES = map(re.escape, r'''
|
||||||
,
|
,
|
||||||
"
|
"
|
||||||
|
|
Loading…
Reference in New Issue
Block a user