spaCy/spacy/tests/conftest.py

# coding: utf-8
from __future__ import unicode_literals

from io import StringIO, BytesIO
from pathlib import Path
import pytest

from .util import load_test_model
from ..tokens import Doc
from ..strings import StringStore
from .. import util


_languages = ['bn', 'da', 'de', 'en', 'es', 'fi', 'fr', 'he', 'hu', 'id',
              'it', 'nb', 'nl', 'pl', 'pt', 'sv', 'th','xx']
_models = {'en': ['en_core_web_sm'],
           'de': ['de_core_news_md'],
           'fr': ['fr_depvec_web_lg'],
           'xx': ['xx_ent_web_md']}


# only used for tests that require loading the models
# in all other cases, use specific instances

@pytest.fixture(params=_models['en'])
def EN(request):
    return load_test_model(request.param)


@pytest.fixture(params=_models['de'])
def DE(request):
    return load_test_model(request.param)


@pytest.fixture(params=_models['fr'])
def FR(request):
    return load_test_model(request.param)


#@pytest.fixture(params=_languages)
#def tokenizer(request):
    #lang = util.get_lang_class(request.param)
    #return lang.Defaults.create_tokenizer()

@pytest.fixture
def tokenizer():
    return util.get_lang_class('xx').Defaults.create_tokenizer()


@pytest.fixture
def en_tokenizer():
    return util.get_lang_class('en').Defaults.create_tokenizer()


@pytest.fixture
def en_vocab():
    return util.get_lang_class('en').Defaults.create_vocab()


@pytest.fixture
def en_parser():
    return util.get_lang_class('en').Defaults.create_parser()


@pytest.fixture
def es_tokenizer():
    return util.get_lang_class('es').Defaults.create_tokenizer()


@pytest.fixture
def de_tokenizer():
    return util.get_lang_class('de').Defaults.create_tokenizer()


@pytest.fixture
def fr_tokenizer():
    return util.get_lang_class('fr').Defaults.create_tokenizer()


@pytest.fixture
def hu_tokenizer():
    return util.get_lang_class('hu').Defaults.create_tokenizer()


@pytest.fixture
def fi_tokenizer():
    return util.get_lang_class('fi').Defaults.create_tokenizer()

@pytest.fixture
def id_tokenizer():
    return util.get_lang_class('id').Defaults.create_tokenizer()

@pytest.fixture
def sv_tokenizer():
    return util.get_lang_class('sv').Defaults.create_tokenizer()


@pytest.fixture
def bn_tokenizer():
    return util.get_lang_class('bn').Defaults.create_tokenizer()


@pytest.fixture
def he_tokenizer():
    return util.get_lang_class('he').Defaults.create_tokenizer()

@pytest.fixture
def nb_tokenizer():
    return util.get_lang_class('nb').Defaults.create_tokenizer()

@pytest.fixture
def th_tokenizer():
    pythainlp = pytest.importorskip("pythainlp")
    return util.get_lang_class('th').Defaults.create_tokenizer()


@pytest.fixture
def stringstore():
    return StringStore()


@pytest.fixture
def en_entityrecognizer():
     return util.get_lang_class('en').Defaults.create_entity()


@pytest.fixture
def text_file():
    return StringIO()

@pytest.fixture
def text_file_b():
    return BytesIO()


def pytest_addoption(parser):
    parser.addoption("--models", action="store_true",
        help="include tests that require full models")
    parser.addoption("--vectors", action="store_true",
        help="include word vectors tests")
    parser.addoption("--slow", action="store_true",
        help="include slow tests")

    for lang in _languages + ['all']:
        parser.addoption("--%s" % lang, action="store_true", help="Use %s models" % lang)


def pytest_runtest_setup(item):
    for opt in ['models', 'vectors', 'slow']:
        if opt in item.keywords and not item.config.getoption("--%s" % opt):
            pytest.skip("need --%s option to run" % opt)

    # Check if test is marked with models and has arguments set, i.e. specific
    # language. If so, skip test if flag not set.
    if item.get_marker('models'):
        for arg in item.get_marker('models').args:
            if not item.config.getoption("--%s" % arg) and not item.config.getoption("--all"):
                pytest.skip("need --%s or --all option to run" % arg)
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`# coding: utf-8`
			`from __future__ import unicode_literals`
* Add conftest.py to tests/, to allow session-global pipeline. This allows much faster tests. 2015-06-07 18:53:14 +03:00
Add text_file_b fixture using BytesIO 2017-01-13 04:23:50 +03:00			`from io import StringIO, BytesIO`
Add path fixture for spaCy data path 2017-01-13 01:38:47 +03:00			`from pathlib import Path`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`import pytest`

Update model fixtures and reorganise tests 2017-05-29 23:14:31 +03:00			`from .util import load_test_model`
			`from ..tokens import Doc`
			`from ..strings import StringStore`
			`from .. import util`

Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00
added indonesian lang test 2017-08-20 08:17:14 +03:00			`_languages = ['bn', 'da', 'de', 'en', 'es', 'fi', 'fr', 'he', 'hu', 'id',`
add thai in spacy2 2017-09-26 17:36:27 +03:00			`'it', 'nb', 'nl', 'pl', 'pt', 'sv', 'th','xx']`
Fix loader for EN tests 2017-09-04 16:19:18 +03:00			`_models = {'en': ['en_core_web_sm'],`
Update model fixtures and reorganise tests 2017-05-29 23:14:31 +03:00			`'de': ['de_core_news_md'],`
			`'fr': ['fr_depvec_web_lg'],`
			`'xx': ['xx_ent_web_md']}`


			`# only used for tests that require loading the models`
			`# in all other cases, use specific instances`

Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture(params=_models['en'])`
Update model fixtures and reorganise tests 2017-05-29 23:14:31 +03:00			`def EN(request):`
			`return load_test_model(request.param)`


Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture(params=_models['de'])`
Update model fixtures and reorganise tests 2017-05-29 23:14:31 +03:00			`def DE(request):`
			`return load_test_model(request.param)`


Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture(params=_models['fr'])`
Update model fixtures and reorganise tests 2017-05-29 23:14:31 +03:00			`def FR(request):`
			`return load_test_model(request.param)`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00

Update tests 2017-06-05 03:26:13 +03:00			`#@pytest.fixture(params=_languages)`
			`#def tokenizer(request):`
			`#lang = util.get_lang_class(request.param)`
			`#return lang.Defaults.create_tokenizer()`

			`@pytest.fixture`
			`def tokenizer():`
			`return util.get_lang_class('xx').Defaults.create_tokenizer()`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00

Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`def en_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('en').Defaults.create_tokenizer()`
* Add conftest.py to tests/, to allow session-global pipeline. This allows much faster tests. 2015-06-07 18:53:14 +03:00
Add .blank() method to Parser. Start housing default dep labels and entity types within the Defaults class. 2016-09-26 12:57:54 +03:00
Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`def en_vocab():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('en').Defaults.create_vocab()`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00

Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture`
Add en_parser fixture 2017-01-11 23:29:59 +03:00			`def en_parser():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('en').Defaults.create_parser()`
Update conftest to lazy load languages 2017-05-09 01:02:21 +03:00
Add en_parser fixture 2017-01-11 23:29:59 +03:00
Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture`
feature(model): Add support for creating the Spanish model, including rich tagset, configuration, and basich tests 2017-04-06 19:48:45 +03:00			`def es_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('es').Defaults.create_tokenizer()`
feature(model): Add support for creating the Spanish model, including rich tagset, configuration, and basich tests 2017-04-06 19:48:45 +03:00
Add en_parser fixture 2017-01-11 23:29:59 +03:00
Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`def de_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('de').Defaults.create_tokenizer()`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00

Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture`
Add fr tokenization unit tests 2017-01-24 12:55:02 +03:00			`def fr_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('fr').Defaults.create_tokenizer()`
Add fr tokenization unit tests 2017-01-24 12:55:02 +03:00

Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`def hu_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('hu').Defaults.create_tokenizer()`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00
Adjust formatting 2017-01-12 18:49:19 +03:00
Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture`
[finnish] Add initial tests for tokenizer 2017-02-04 14:47:29 +03:00			`def fi_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('fi').Defaults.create_tokenizer()`
[finnish] Add initial tests for tokenizer 2017-02-04 14:47:29 +03:00
added indonesian lang test 2017-08-20 08:17:14 +03:00			`@pytest.fixture`
			`def id_tokenizer():`
			`return util.get_lang_class('id').Defaults.create_tokenizer()`
[finnish] Add initial tests for tokenizer 2017-02-04 14:47:29 +03:00
Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture`
[issue 805] Add regression test and the required fixture 2017-02-04 17:21:34 +03:00			`def sv_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('sv').Defaults.create_tokenizer()`
[issue 805] Add regression test and the required fixture 2017-02-04 17:21:34 +03:00

Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture`
add tests for Bengali 2017-03-05 04:11:26 +03:00			`def bn_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('bn').Defaults.create_tokenizer()`
add tests for Bengali 2017-03-05 04:11:26 +03:00
feature(model): Add support for creating the Spanish model, including rich tagset, configuration, and basich tests 2017-04-06 19:48:45 +03:00
Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture`
add hebrew tokenizer 2017-03-24 18:27:44 +03:00			`def he_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('he').Defaults.create_tokenizer()`
add hebrew tokenizer 2017-03-24 18:27:44 +03:00
Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture`
Hooked up tokenizer tests 2017-04-27 00:21:41 +03:00			`def nb_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('nb').Defaults.create_tokenizer()`
Update conftest to lazy load languages 2017-05-09 01:02:21 +03:00
add thai in spacy2 2017-09-26 17:36:27 +03:00			`@pytest.fixture`
			`def th_tokenizer():`
fix thai test 2017-09-26 19:54:15 +03:00			`pythainlp = pytest.importorskip("pythainlp")`
add thai in spacy2 2017-09-26 17:36:27 +03:00			`return util.get_lang_class('th').Defaults.create_tokenizer()`

add hebrew tokenizer 2017-03-24 18:27:44 +03:00
Add fixture for StringStore 2017-01-12 17:05:40 +03:00			`@pytest.fixture`
			`def stringstore():`
			`return StringStore()`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00
Adjust formatting 2017-01-12 18:49:19 +03:00
Update tests 2017-06-05 03:09:27 +03:00			`@pytest.fixture`
Add fixture for entity recognizer 2017-01-12 23:56:32 +03:00			`def en_entityrecognizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('en').Defaults.create_entity()`
Add fixture for entity recognizer 2017-01-12 23:56:32 +03:00

Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`@pytest.fixture`
			`def text_file():`
			`return StringIO()`

Add text_file_b fixture using BytesIO 2017-01-13 04:23:50 +03:00			`@pytest.fixture`
			`def text_file_b():`
			`return BytesIO()`

Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00
* Add flags to pytest to tests requiring models, vectors or slow functions to be toggled. 2015-07-23 02:19:03 +03:00			`def pytest_addoption(parser):`
			`parser.addoption("--models", action="store_true",`
			`help="include tests that require full models")`
			`parser.addoption("--vectors", action="store_true",`
			`help="include word vectors tests")`
			`parser.addoption("--slow", action="store_true",`
			`help="include slow tests")`

Check for arguments of model markers to specify models to test Lets user set --models --en for only English models 2017-05-29 23:10:16 +03:00			`for lang in _languages + ['all']:`
			`parser.addoption("--%s" % lang, action="store_true", help="Use %s models" % lang)`

* Add flags to pytest to tests requiring models, vectors or slow functions to be toggled. 2015-07-23 02:19:03 +03:00
			`def pytest_runtest_setup(item):`
			`for opt in ['models', 'vectors', 'slow']:`
			`if opt in item.keywords and not item.config.getoption("--%s" % opt):`
			`pytest.skip("need --%s option to run" % opt)`
Check for arguments of model markers to specify models to test Lets user set --models --en for only English models 2017-05-29 23:10:16 +03:00
			`# Check if test is marked with models and has arguments set, i.e. specific`
			`# language. If so, skip test if flag not set.`
			`if item.get_marker('models'):`
			`for arg in item.get_marker('models').args:`
			`if not item.config.getoption("--%s" % arg) and not item.config.getoption("--all"):`
Update tests 2017-06-05 03:09:27 +03:00			`pytest.skip("need --%s or --all option to run" % arg)`