spaCy/spacy/tests/serialize/test_serialize_tokenizer.py

# coding: utf-8
from __future__ import unicode_literals

from ...util import get_lang_class
from ..util import make_tempdir, assert_packed_msg_equal

import pytest


def load_tokenizer(b):
    tok = get_lang_class('en').Defaults.create_tokenizer()
    tok.from_bytes(b)
    return tok


@pytest.mark.skip(reason="Currently unreliable across platforms")
@pytest.mark.parametrize('text', ["I💜you", "they’re", "“hello”"])
def test_serialize_tokenizer_roundtrip_bytes(en_tokenizer, text):
    tokenizer = en_tokenizer
    new_tokenizer = load_tokenizer(tokenizer.to_bytes())
    assert_packed_msg_equal(new_tokenizer.to_bytes(), tokenizer.to_bytes())
    assert new_tokenizer.to_bytes() == tokenizer.to_bytes()
    doc1 = tokenizer(text)
    doc2 = new_tokenizer(text)
    assert [token.text for token in doc1] == [token.text for token in doc2]


@pytest.mark.skip(reason="Currently unreliable across platforms")
def test_serialize_tokenizer_roundtrip_disk(en_tokenizer):
    tokenizer = en_tokenizer
    with make_tempdir() as d:
        file_path = d / 'tokenizer'
        tokenizer.to_disk(file_path)
        tokenizer_d = en_tokenizer.from_disk(file_path)
        assert tokenizer.to_bytes() == tokenizer_d.to_bytes()
-												Add serializer tests for tokenizer

											
										
										
											2017-06-03 14:26:34 +03:00
+								# coding: utf-8
 								from __future__ import unicode_literals
-												Update serialization tests for tokenizer

											
										
										
											2017-06-03 18:05:28 +03:00
+								from ...util import get_lang_class
 								from ..util import make_tempdir, assert_packed_msg_equal
-												Add serializer tests for tokenizer

											
										
										
											2017-06-03 14:26:34 +03:00
 								import pytest
-												Update serialization tests for tokenizer

											
										
										
											2017-06-03 18:05:28 +03:00
+								def load_tokenizer(b):
 								    tok = get_lang_class('en').Defaults.create_tokenizer()
 								    tok.from_bytes(b)
 								    return tok
-												Tidy up tokenizer test

											
										
										
											2018-07-06 13:40:28 +03:00
+								@pytest.mark.skip(reason="Currently unreliable across platforms")
-												Update serialization tests for tokenizer

											
										
										
											2017-06-03 18:05:28 +03:00
+								@pytest.mark.parametrize('text', ["I💜you", "they’re", "“hello”"])
-												Add serializer tests for tokenizer

											
										
										
											2017-06-03 14:26:34 +03:00
+								def test_serialize_tokenizer_roundtrip_bytes(en_tokenizer, text):
-												Update serialization tests for tokenizer

											
										
										
											2017-06-03 18:05:28 +03:00
+								    tokenizer = en_tokenizer
 								    new_tokenizer = load_tokenizer(tokenizer.to_bytes())
 								    assert_packed_msg_equal(new_tokenizer.to_bytes(), tokenizer.to_bytes())
-												Tidy up tokenizer test

											
										
										
											2018-07-06 13:40:28 +03:00
+								    assert new_tokenizer.to_bytes() == tokenizer.to_bytes()
-												Update serialization tests for tokenizer

											
										
										
											2017-06-03 18:05:28 +03:00
+								    doc1 = tokenizer(text)
-												Add serializer tests for tokenizer

											
										
										
											2017-06-03 14:26:34 +03:00
+								    doc2 = new_tokenizer(text)
 								    assert [token.text for token in doc1] == [token.text for token in doc2]
-												Tidy up tokenizer test

											
										
										
											2018-07-06 13:40:28 +03:00
+								@pytest.mark.skip(reason="Currently unreliable across platforms")
-												Add serializer tests for tokenizer

											
										
										
											2017-06-03 14:26:34 +03:00
+								def test_serialize_tokenizer_roundtrip_disk(en_tokenizer):
 								    tokenizer = en_tokenizer
 								    with make_tempdir() as d:
 								        file_path = d / 'tokenizer'
 								        tokenizer.to_disk(file_path)
 								        tokenizer_d = en_tokenizer.from_disk(file_path)
 								        assert tokenizer.to_bytes() == tokenizer_d.to_bytes()