Merge branch 'hu_tokenizer' of github.com:oroszgy/spaCy into hu_tokenizer

This commit is contained in:
Gyorgy Orosz 2016-12-26 22:39:17 +01:00
commit ef8f3103f2

View File

@ -3,223 +3,62 @@ from __future__ import unicode_literals
STOP_WORDS = set(""" STOP_WORDS = set("""
a a abban ahhoz ahogy ahol aki akik akkor akár alatt amely amelyek amelyekben
abban amelyeket amelyet amelynek ami amikor amit amolyan amíg annak arra arról az
ahhoz azok azon azonban azt aztán azután azzal azért
ahogy
ahol be belül benne bár
aki
akik cikk cikkek cikkeket csak
akkor
akár
alatt
amely
amelyek
amelyekben
amelyeket
amelyet
amelynek
ami
amikor
amit
amolyan
amíg
annak
arra
arról
az
azok
azon
azonban
azt
aztán
azután
azzal
azért
be
belül
benne
bár
cikk
cikkek
cikkeket
csak
de de
e
ebben e ebben eddig egy egyes egyetlen egyik egyre egyéb egész ehhez ekkor el ellen
eddig elo eloször elott elso elég előtt emilyen ennek erre ez ezek ezen ezt ezzel
egy
egyes
egyetlen
egyik
egyre
egyéb
egész
ehhez
ekkor
el
ellen
elo
eloször
elott
elso
elég
előtt
emilyen
ennek
erre
ez
ezek
ezen
ezt
ezzel
ezért ezért
fel
felé fel felé
ha
hanem ha hanem hiszen hogy hogyan hát
hiszen
hogy ide igen ill ill. illetve ilyen ilyenkor inkább is ismét ison itt
hogyan
hát jobban jól
ide
igen kell kellett keressünk keresztül ki kívül között közül
ill
ill. le legalább legyen lehet lehetett lenne lenni lesz lett
illetve
ilyen ma maga magát majd meg mellett mely melyek mert mi miatt mikor milyen minden
ilyenkor mindenki mindent mindig mint mintha mit mivel miért mondta most már más másik
inkább még míg
is
ismét nagy nagyobb nagyon ne nekem neki nem nincs néha néhány nélkül
ison
itt o oda ok oket olyan ott
jobban
pedig persze például
jól
kell
kellett
keressünk
keresztül
ki
kívül
között
közül
le
legalább
legyen
lehet
lehetett
lenne
lenni
lesz
lett
ma
maga
magát
majd
meg
mellett
mely
melyek
mert
mi
miatt
mikor
milyen
minden
mindenki
mindent
mindig
mint
mintha
mit
mivel
miért
mondta
most
már
más
másik
még
míg
nagy
nagyobb
nagyon
ne
nekem
neki
nem
nincs
néha
néhány
nélkül
o
oda
ok
oket
olyan
ott
pedig
persze
például
s
saját s saját sem semmi sok sokat sokkal stb. szemben szerint szinte számára szét
sem
semmi talán te tehát teljes ti tovább továbbá több túl ugyanis
sok
sokat utolsó után utána
sokkal
stb. vagy vagyis vagyok valaki valami valamint való van vannak vele vissza viszont
szemben volna volt voltak voltam voltunk
szerint
szinte által általában át
számára
szét én éppen és
talán
te
tehát
teljes
ti
tovább
továbbá
több
túl
ugyanis
utolsó
után
utána
vagy
vagyis
vagyok
valaki
valami
valamint
való
van
vannak
vele
vissza
viszont
volna
volt
voltak
voltam
voltunk
által
általában
át
én
éppen
és
így így
ön
össze ön össze
úgy
új úgy új újabb újra
újabb
újra ő őket
ő
őket
""".split()) """.split())