spaCy/spacy/tests/hu/tokenizer/test_default_token_hyphen.txt
2016-12-20 22:28:20 +01:00

83 lines
2.5 KiB
Plaintext

# TOKEN hyphen
-nak, -nek es ehhez hasonlok
IN : Egy -nak, -jaiért, -magyar, bel- van.
OUT: <s><w>Egy</w><ws> </ws><w>-nak</w><c>,</c><ws> </ws><w>-jaiért</w><c>,</c><ws> </ws><w>-magyar</w><c>,</c><ws> </ws><w>bel-</w><ws> </ws><w>van</w><c>.</c></s>
IN : Egy -nak.
OUT: <s><w>Egy</w><ws> </ws><w>-nak</w><c>.</c></s>
IN : Egy bel-.
OUT: <s><w>Egy</w><ws> </ws><w>bel-</w><c>.</c></s>
IN : Dinnye-domb-.
OUT: <s><w>Dinnye-domb-</w><c>.</c></s>
kulonvalt '-e'
IN : Ezen -e elcsatangolt.
OUT: <s><w>Ezen</w><ws> </ws><w>-e</w><ws> </ws><w>elcsatangolt</w><c>.</c></s>
-e levagasa, zarojel nelkul
IN : Lakik-e
OUT: <s><w>Lakik</w><w>-e</w></s>
IN : Lakik-e?
OUT: <s><w>Lakik</w><w>-e</w><c>?</c></s>
IN : Lakik-e.
OUT: <s><w>Lakik</w><w>-e</w><c>.</c></s>
IN : Lakik-e...
OUT: <s><w>Lakik</w><w>-e</w><c>...</c></s>
IN : Lakik-e... van.
OUT: <s><w>Lakik</w><w>-e</w><c>...</c><ws> </ws><w>van</w><c>.</c></s>
IN : Lakik-e van?
OUT: <s><w>Lakik</w><w>-e</w><ws> </ws><w>van</w><c>?</c></s>
# TODO: adapt spacy to handle such brackets
zarojeles mondatkozi valtozatok
#IN : (La)kik-e van?
#OUT: <s><w>(La)kik</w><w>-e</w><ws> </ws><w>van</w><c>?</c></s>
#IN : L(a)kik-e van?
#OUT: <s><w>L(a)kik</w><w>-e</w><ws> </ws><w>van</w><c>?</c></s>
#IN : Lak(ik)-e van?
#OUT: <s><w>Lak(ik)</w><w>-e</w><ws> </ws><w>van</w><c>?</c></s>
# TODO: adapt spacy to handle such brackets
zarojeles mondatvegi valtozatok
#IN : (La)kik-e.
#OUT: <s><w>(La)kik</w><w>-e</w><c>.</c></s>
#IN : L(a)kik-e.
#OUT: <s><w>L(a)kik</w><w>-e</w><c>.</c></s>
#IN : Lak(ik)-e.
#OUT: <s><w>Lak(ik)</w><w>-e</w><c>.</c></s>
kontroll
IN : Lakik-elem van?
OUT: <s><w>Lakik-elem</w><ws> </ws><w>van</w><c>?</c></s>
IN : Van lakik-elem.
OUT: <s><w>Van</w><ws> </ws><w>lakik-elem</w><c>.</c></s>
IN : A 7-es busz?
OUT: <s><w>A</w><ws> </ws><w>7-es</w><ws> </ws><w>busz</w><c>?</c></s>
IN : A 7-es?
OUT: <s><w>A</w><ws> </ws><w>7-es</w><c>?</c></s>
IN : A 7-es.
OUT: <s><w>A</w><ws> </ws><w>7-es</w><c>.</c></s>
problemas eset, megengedjuk # TODO: works erroundously in HunToken, but OK in spacy
IN : Ez (lakik)-e?
OUT: <s><w>Ez</w><ws> </ws><c>(</c><w>lakik</w><c>)</c><w>-e</w><c>?</c></s>
TODO: macska-/kutyavilag
IN : A macska-/kutyavilag van.
OUT: <s><w>A</w><ws> </ws><w>macska-</w><c>/</c><w>kutyavilag</w><ws> </ws><w>van</w><c>.</c></s>
%-, §-
# TODO: spaCy cannot handle such cases
# IN : A §-sal.
# OUT: <s><w>A</w><ws> </ws><w>§-sal</w><c>.</c></s>
IN : A %-sal.
OUT: <s><w>A</w><ws> </ws><w>%-sal</w><c>.</c></s>
tobb kotojel
IN : A CD-ROM-okrol.
OUT: <s><w>A</w><ws> </ws><w>CD-ROM-okrol</w><c>.</c></s>