diff --git a/spacy/hu/punctuations.py b/spacy/hu/punctuations.py index 89e68a979..284f65fd7 100644 --- a/spacy/hu/punctuations.py +++ b/spacy/hu/punctuations.py @@ -32,7 +32,7 @@ _ \-\- ´ (?<=[0-9])\+ -(?<=[a-z0-9üóőúéáűí]\)\]”"'%\)§)\. +(?<=[a-z0-9üóőúéáűí][\)\]”"'%\)§/])\. (?<=[0-9])km² (?<=[0-9])m² (?<=[0-9])cm² diff --git a/spacy/tests/hu/tokenizer/test_default_token_it.txt b/spacy/tests/hu/tokenizer/test_default_token_it.txt new file mode 100644 index 000000000..f5a464547 --- /dev/null +++ b/spacy/tests/hu/tokenizer/test_default_token_it.txt @@ -0,0 +1,233 @@ +# TOKEN it + +tartomanynevek +IN : .edu, .hu. +OUT: .edu, .hu. + +url-ek +IN : red-stars.com. +OUT: red-stars.com. +IN : www.valami.com. +OUT: www.valami.com. + +url-ek toldalekolva +IN : www.valami.com-ról. +OUT: www.valami.com-ról. +IN : www.valami.comról. +OUT: www.valami.comról. + +osszetettebb url-ek +IN : A https://www.valami.com/index.html van. +OUT: A https://www.valami.com/index.html van. +IN : A http://142.42.1.1/ van. +OUT: A http://142.42.1.1/ van. +IN : A http://142.42.1.1/. +OUT: A http://142.42.1.1/. +IN : A http://example.com/. +OUT: A http://example.com/. +IN : A http://example.com/ van. +OUT: A http://example.com/ van. +IN : A http://foo.com/blah_(wikipedia)#cite-1. +OUT: A http://foo.com/blah_(wikipedia)#cite-1. +IN : A http://foo.com/blah_(wikipedia)#cite-1 van. +OUT: A http://foo.com/blah_(wikipedia)#cite-1 van. +IN : A http://foo.com/blah_(wikipedia). +OUT: A http://foo.com/blah_(wikipedia). +IN : A http://foo.com/blah_(wikipedia) van. +OUT: A http://foo.com/blah_(wikipedia) van. +IN : A http://www.example.com/wpstyle/?bar=baz&inga=42&quux. +OUT: A http://www.example.com/wpstyle/?bar=baz&inga=42&quux. +IN : A http://www.example.com/wpstyle/?bar=baz&inga=42&quux van. +OUT: A http://www.example.com/wpstyle/?bar=baz&inga=42&quux van. +IN : A http://example.com:8080. +OUT: A http://example.com:8080. +IN : A http://example.com:8080 van. +OUT: A http://example.com:8080 van. +IN : A http://foo.bar/?q=Test%20URL-encoded%20stuff. +OUT: A http://foo.bar/?q=Test%20URL-encoded%20stuff. +IN : A http://foo.bar/?q=Test%20URL-encoded%20stuff van. +OUT: A http://foo.bar/?q=Test%20URL-encoded%20stuff van. +# url with more '=' +IN : A www.kereso.elte.hu/nev=kiss,jozsef%kar=jog%tagozat=nappali. +OUT: A www.kereso.elte.hu/nev=kiss,jozsef%kar=jog%tagozat=nappali. +IN : A www.kereso.elte.hu/nev=kiss,jozsef%kar=jog%tagozat=nappali van. +OUT: A www.kereso.elte.hu/nev=kiss,jozsef%kar=jog%tagozat=nappali van. + +email +IN : A foo.bar@baz.com van. +OUT: A foo.bar@baz.com van. +IN : A foo.bar@baz.com. +OUT: A foo.bar@baz.com. +IN : A foo.bar@baz.com-nak van. +OUT: A foo.bar@baz.com-nak van. +IN : A foo.bar@baz.com-nak. +OUT: A foo.bar@baz.com-nak. +IN : A foo.bar@baz.comnak van. +OUT: A foo.bar@baz.comnak van. +IN : A foo.bar@baz.comnak. +OUT: A foo.bar@baz.comnak. +IN : A mailto:foo.bar@baz.com van. +OUT: A mailto:foo.bar@baz.com van. +IN : A mailto:foo.bar@baz.com. +OUT: A mailto:foo.bar@baz.com. +IN : A mailto:foo.bar@baz.com-nak van. +OUT: A mailto:foo.bar@baz.com-nak van. +IN : A mailto:foo.bar@baz.com-nak. +OUT: A mailto:foo.bar@baz.com-nak. +IN : A mailto:foo.bar@baz.comnak van. +OUT: A mailto:foo.bar@baz.comnak van. +IN : A mailto:foo.bar@baz.comnak. +OUT: A mailto:foo.bar@baz.comnak. + +windows halozati szolgaltatas (vagy mi) +IN : Az ADMIN$ van. +OUT: Az ADMIN$ van. +IN : Az ADMIN$. +OUT: Az ADMIN$. +IN : Az ADMIN$-nak van. +OUT: Az ADMIN$-nak van. +IN : Az ADMIN$-nak. +OUT: Az ADMIN$-nak. + +legfelso tartomanynevek +IN : A .edu, .hu vannak. +OUT: A .edu, .hu vannak. +IN : A .edu, .hu. +OUT: A .edu, .hu. + +slash, backslash +IN : A / van. +OUT: A / van. +IN : A \ van. +OUT: A \ van. + +windows path +IN : C:, \ es c:\ van. +OUT: C:, \ es c:\ van. +IN : A \\test\test$\TEST.xls van. +OUT: A \\test\test$\TEST.xls van. +IN : A \\server\share\folder\myfile.txt van. +OUT: A \\server\share\folder\myfile.txt van. +IN : A \\server\share\myfile.txt van. +OUT: A \\server\share\myfile.txt van. +IN : A \\123.123.123.123\share\folder\myfile.txt van. +OUT: A \\123.123.123.123\share\folder\myfile.txt van. +IN : A c:\folder\myfile.txt van. +OUT: A c:\folder\myfile.txt van. +IN : A c:\folder\myfile.txt-ben van. +OUT: A c:\folder\myfile.txt-ben van. +IN : A c:\folder\myfileWithoutExtension van. +OUT: A c:\folder\myfileWithoutExtension van. +IN : A c:\folder\myfile.txt. +OUT: A c:\folder\myfile.txt. +IN : A c:\folder\myfile.txt-ben. +OUT: A c:\folder\myfile.txt-ben. + +unix path +IN : A ./ van. +OUT: A ./ van. +IN : A ../ van. +OUT: A ../ van. +IN : A ./valami1/valami2/ van. +OUT: A ./valami1/valami2/ van. +IN : A /valami/valami.txt van. +OUT: A /valami/valami.txt van. +IN : A /valami/valami.txt-ben van. +OUT: A /valami/valami.txt-ben van. +IN : A /valami/valami.txt. +OUT: A /valami/valami.txt. +IN : A /valami/valami.txt-ben. +OUT: A /valami/valami.txt-ben. + +Huntokenes tesztek vegyesen +1. +IN : A C:\DINNYE\MACSKA.JPG van. +OUT: A C:\DINNYE\MACSKA.JPG van. +IN : A C:\DINNYE\MACSKA.JPG-ben van. +OUT: A C:\DINNYE\MACSKA.JPG-ben van. +IN : A C:\DINNYE\MACSKA.JPG. +OUT: A C:\DINNYE\MACSKA.JPG. +IN : A C:\DINNYE\MACSKA.JPG-ben. +OUT: A C:\DINNYE\MACSKA.JPG-ben. +2. +IN : A \\SZERVER\SZOLGALTATAS$ van. +OUT: A \\SZERVER\SZOLGALTATAS$ van. +IN : A \\SZERVER\SZOLGALTATAS$-ben van. +OUT: A \\SZERVER\SZOLGALTATAS$-ben van. +IN : A \\SZERVER\SZOLGALTATAS$. +OUT: A \\SZERVER\SZOLGALTATAS$. +IN : A \\SZERVER\SZOLGALTATAS$-ben. +OUT: A \\SZERVER\SZOLGALTATAS$-ben. +3. +IN : A /etc/.././home/ van. +OUT: A /etc/.././home/ van. +IN : A /etc/.././home/-ben van. +OUT: A /etc/.././home/-ben van. +IN : A /etc/.././home/. +OUT: A /etc/.././home/. +IN : A /etc/.././home/-ben. +OUT: A /etc/.././home/-ben. +4. +IN : A *.doc van. +OUT: A *.doc van. +IN : A *.doc-ben van. +OUT: A *.doc-ben van. +IN : A *.doc. +OUT: A *.doc. +IN : A *.doc-ben. +OUT: A *.doc-ben. +5. +IN : A *.* van. +OUT: A *.* van. +IN : A *.*-ben van. +OUT: A *.*-ben van. +IN : A *.*. +OUT: A *.*. +IN : A *.*-ben. +OUT: A *.*-ben. +6. +IN : A .bmp.zip van. +OUT: A .bmp.zip van. +IN : A .bmp.zip-ben van. +OUT: A .bmp.zip-ben van. +IN : A .bmp.zip. +OUT: A .bmp.zip. +IN : A .bmp.zip-ben. +OUT: A .bmp.zip-ben. + + +fajlnevek +IN : A teszt.txt van. +OUT: A teszt.txt van. +IN : A teszt.txt-ben van. +OUT: A teszt.txt-ben van. +IN : A teszt.txt. +OUT: A teszt.txt. +IN : A teszt.txt-ben. +OUT: A teszt.txt-ben. +IN : A .txt van. +OUT: A .txt van. + + + MINTA + IN : A van. + OUT: A van. + IN : A -ben van. + OUT: A -ben van. + IN : A . + OUT: A . + IN : A -ben. + OUT: A -ben. + + + + + + + + + + + + + diff --git a/spacy/tests/hu/tokenizer/test_default_token_misc.txt b/spacy/tests/hu/tokenizer/test_default_token_misc.txt new file mode 100644 index 000000000..3c876148f --- /dev/null +++ b/spacy/tests/hu/tokenizer/test_default_token_misc.txt @@ -0,0 +1,22 @@ +# TOKEN misc + + TODO: html entities + IN : Molière-rol van. + OUT: Molière-rol van. + + +&-t tartalmazo nagybatus szavak +IN : AT&T van. +OUT: AT&T van. + + + zarojeles mondatkozi valtozatok + IN : (La)kik-e van? + OUT: (La)kik-e van? + IN : L(a)kik-e van? + OUT: L(a)kik-e van? + IN : Lak(ik)-e van? + OUT: Lak(ik)-e van? + + + diff --git a/spacy/tests/hu/tokenizer/test_tokenizer.py b/spacy/tests/hu/tokenizer/test_tokenizer.py index 4b6283ea1..0d4689226 100644 --- a/spacy/tests/hu/tokenizer/test_tokenizer.py +++ b/spacy/tests/hu/tokenizer/test_tokenizer.py @@ -58,9 +58,11 @@ _DOTS_CASES = list(TokenizerTestCase.read_from_file(_MODULE_PATH + "/test_defaul _HYPHEN_CASES = list(TokenizerTestCase.read_from_file(_MODULE_PATH + "/test_default_token_hyphen.txt")) _QUOTE_CASES = list(TokenizerTestCase.read_from_file(_MODULE_PATH + "/test_default_token_quote.txt")) _NUMBER_CASES = list(TokenizerTestCase.read_from_file(_MODULE_PATH + "/test_default_token_numbers.txt")) -ALL_TESTCASES = _DOTS_CASES + _HYPHEN_CASES + _QUOTE_CASES + _NUMBER_CASES -ALL_TESTCASES = _NUMBER_CASES -# ALL_TESTCASES = [TokenizerTestCase("A 1:20:36.7.", "A 1:20:36.7.".split())] +_MISC_CASES = list(TokenizerTestCase.read_from_file(_MODULE_PATH + "/test_default_token_misc.txt")) +_IT_CASES = list(TokenizerTestCase.read_from_file(_MODULE_PATH + "/test_default_token_it.txt")) + +# TODO: Until this get fixed we cannot really test the urls: https://github.com/explosion/spaCy/issues/344 +ALL_TESTCASES = _DOTS_CASES + _HYPHEN_CASES + _QUOTE_CASES + _NUMBER_CASES + _MISC_CASES # + _IT_CASES @pytest.fixture(scope="session")