mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-14 21:57:15 +03:00
83 lines
2.5 KiB
Plaintext
83 lines
2.5 KiB
Plaintext
# TOKEN hyphen
|
|
|
|
-nak, -nek es ehhez hasonlok
|
|
IN : Egy -nak, -jaiért, -magyar, bel- van.
|
|
OUT: <s><w>Egy</w><ws> </ws><w>-nak</w><c>,</c><ws> </ws><w>-jaiért</w><c>,</c><ws> </ws><w>-magyar</w><c>,</c><ws> </ws><w>bel-</w><ws> </ws><w>van</w><c>.</c></s>
|
|
IN : Egy -nak.
|
|
OUT: <s><w>Egy</w><ws> </ws><w>-nak</w><c>.</c></s>
|
|
IN : Egy bel-.
|
|
OUT: <s><w>Egy</w><ws> </ws><w>bel-</w><c>.</c></s>
|
|
IN : Dinnye-domb-.
|
|
OUT: <s><w>Dinnye-domb-</w><c>.</c></s>
|
|
|
|
kulonvalt '-e'
|
|
IN : Ezen -e elcsatangolt.
|
|
OUT: <s><w>Ezen</w><ws> </ws><w>-e</w><ws> </ws><w>elcsatangolt</w><c>.</c></s>
|
|
|
|
-e levagasa, zarojel nelkul
|
|
IN : Lakik-e
|
|
OUT: <s><w>Lakik</w><w>-e</w></s>
|
|
IN : Lakik-e?
|
|
OUT: <s><w>Lakik</w><w>-e</w><c>?</c></s>
|
|
IN : Lakik-e.
|
|
OUT: <s><w>Lakik</w><w>-e</w><c>.</c></s>
|
|
IN : Lakik-e...
|
|
OUT: <s><w>Lakik</w><w>-e</w><c>...</c></s>
|
|
IN : Lakik-e... van.
|
|
OUT: <s><w>Lakik</w><w>-e</w><c>...</c><ws> </ws><w>van</w><c>.</c></s>
|
|
IN : Lakik-e van?
|
|
OUT: <s><w>Lakik</w><w>-e</w><ws> </ws><w>van</w><c>?</c></s>
|
|
|
|
# TODO: adapt spacy to handle such brackets
|
|
zarojeles mondatkozi valtozatok
|
|
#IN : (La)kik-e van?
|
|
#OUT: <s><w>(La)kik</w><w>-e</w><ws> </ws><w>van</w><c>?</c></s>
|
|
#IN : L(a)kik-e van?
|
|
#OUT: <s><w>L(a)kik</w><w>-e</w><ws> </ws><w>van</w><c>?</c></s>
|
|
#IN : Lak(ik)-e van?
|
|
#OUT: <s><w>Lak(ik)</w><w>-e</w><ws> </ws><w>van</w><c>?</c></s>
|
|
|
|
# TODO: adapt spacy to handle such brackets
|
|
zarojeles mondatvegi valtozatok
|
|
#IN : (La)kik-e.
|
|
#OUT: <s><w>(La)kik</w><w>-e</w><c>.</c></s>
|
|
#IN : L(a)kik-e.
|
|
#OUT: <s><w>L(a)kik</w><w>-e</w><c>.</c></s>
|
|
#IN : Lak(ik)-e.
|
|
#OUT: <s><w>Lak(ik)</w><w>-e</w><c>.</c></s>
|
|
|
|
kontroll
|
|
IN : Lakik-elem van?
|
|
OUT: <s><w>Lakik-elem</w><ws> </ws><w>van</w><c>?</c></s>
|
|
IN : Van lakik-elem.
|
|
OUT: <s><w>Van</w><ws> </ws><w>lakik-elem</w><c>.</c></s>
|
|
IN : A 7-es busz?
|
|
OUT: <s><w>A</w><ws> </ws><w>7-es</w><ws> </ws><w>busz</w><c>?</c></s>
|
|
IN : A 7-es?
|
|
OUT: <s><w>A</w><ws> </ws><w>7-es</w><c>?</c></s>
|
|
IN : A 7-es.
|
|
OUT: <s><w>A</w><ws> </ws><w>7-es</w><c>.</c></s>
|
|
|
|
problemas eset, megengedjuk # TODO: works erroundously in HunToken, but OK in spacy
|
|
IN : Ez (lakik)-e?
|
|
OUT: <s><w>Ez</w><ws> </ws><c>(</c><w>lakik</w><c>)</c><w>-e</w><c>?</c></s>
|
|
|
|
TODO: macska-/kutyavilag
|
|
IN : A macska-/kutyavilag van.
|
|
OUT: <s><w>A</w><ws> </ws><w>macska-</w><c>/</c><w>kutyavilag</w><ws> </ws><w>van</w><c>.</c></s>
|
|
|
|
%-, §-
|
|
# TODO: spaCy cannot handle such cases
|
|
# IN : A §-sal.
|
|
# OUT: <s><w>A</w><ws> </ws><w>§-sal</w><c>.</c></s>
|
|
IN : A %-sal.
|
|
OUT: <s><w>A</w><ws> </ws><w>%-sal</w><c>.</c></s>
|
|
|
|
tobb kotojel
|
|
IN : A CD-ROM-okrol.
|
|
OUT: <s><w>A</w><ws> </ws><w>CD-ROM-okrol</w><c>.</c></s>
|
|
|
|
|
|
|
|
|