spaCy/spacy/tests/conftest.py

# coding: utf-8
from __future__ import unicode_literals

from ..tokens import Doc
from ..strings import StringStore
from ..lemmatizer import Lemmatizer
from ..attrs import ORTH, TAG, HEAD, DEP
from .. import util

from io import StringIO, BytesIO
from pathlib import Path
import pytest


_languages = ['bn', 'da', 'de', 'en', 'es', 'fi', 'fr', 'he', 'hu', 'it', 'nb',
              'nl', 'pl', 'pt', 'sv']


@pytest.fixture(params=_languages)
def tokenizer(request):
    lang = util.get_lang_class(request.param)
    return lang.Defaults.create_tokenizer()


@pytest.fixture
def en_tokenizer():
    return util.get_lang_class('en').Defaults.create_tokenizer()


@pytest.fixture
def en_vocab():
    return util.get_lang_class('en').Defaults.create_vocab()


@pytest.fixture
def en_parser():
    return util.get_lang_class('en').Defaults.create_parser()


@pytest.fixture
def es_tokenizer():
    return util.get_lang_class('es').Defaults.create_tokenizer()


@pytest.fixture
def de_tokenizer():
    return util.get_lang_class('de').Defaults.create_tokenizer()


@pytest.fixture(scope='module')
def fr_tokenizer():
    return util.get_lang_class('fr').Defaults.create_tokenizer()


@pytest.fixture
def hu_tokenizer():
    return util.get_lang_class('hu').Defaults.create_tokenizer()


@pytest.fixture
def fi_tokenizer():
    return util.get_lang_class('fi').Defaults.create_tokenizer()


@pytest.fixture
def sv_tokenizer():
    return util.get_lang_class('sv').Defaults.create_tokenizer()


@pytest.fixture
def bn_tokenizer():
    return util.get_lang_class('bn').Defaults.create_tokenizer()


@pytest.fixture
def he_tokenizer():
    return util.get_lang_class('he').Defaults.create_tokenizer()

@pytest.fixture
def nb_tokenizer():
    return util.get_lang_class('nb').Defaults.create_tokenizer()


@pytest.fixture
def stringstore():
    return StringStore()


@pytest.fixture
def en_entityrecognizer():
     return util.get_lang_class('en').Defaults.create_entity()


@pytest.fixture
def lemmatizer():
    return util.get_lang_class('en').Defaults.create_lemmatizer()


@pytest.fixture
def text_file():
    return StringIO()

@pytest.fixture
def text_file_b():
    return BytesIO()


# only used for tests that require loading the models
# in all other cases, use specific instances
@pytest.fixture(scope="session")
def EN():
    return English()


@pytest.fixture(scope="session")
def DE():
    return German()

@pytest.fixture(scope="session")
def FR():
    return French()


def pytest_addoption(parser):
    parser.addoption("--models", action="store_true",
        help="include tests that require full models")
    parser.addoption("--vectors", action="store_true",
        help="include word vectors tests")
    parser.addoption("--slow", action="store_true",
        help="include slow tests")

    for lang in _languages + ['all']:
        parser.addoption("--%s" % lang, action="store_true", help="Use %s models" % lang)


def pytest_runtest_setup(item):
    for opt in ['models', 'vectors', 'slow']:
        if opt in item.keywords and not item.config.getoption("--%s" % opt):
            pytest.skip("need --%s option to run" % opt)

    # Check if test is marked with models and has arguments set, i.e. specific
    # language. If so, skip test if flag not set.
    if item.get_marker('models'):
        for arg in item.get_marker('models').args:
            if not item.config.getoption("--%s" % arg) and not item.config.getoption("--all"):
                pytest.skip()
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`# coding: utf-8`
			`from __future__ import unicode_literals`
* Add conftest.py to tests/, to allow session-global pipeline. This allows much faster tests. 2015-06-07 18:53:14 +03:00
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`from ..tokens import Doc`
Add fixture for StringStore 2017-01-12 17:05:40 +03:00			`from ..strings import StringStore`
Add Lemmatizer fixture 2017-01-13 01:38:55 +03:00			`from ..lemmatizer import Lemmatizer`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`from ..attrs import ORTH, TAG, HEAD, DEP`
Update conftest to lazy load languages 2017-05-09 01:02:21 +03:00			`from .. import util`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00
Add text_file_b fixture using BytesIO 2017-01-13 04:23:50 +03:00			`from io import StringIO, BytesIO`
Add path fixture for spaCy data path 2017-01-13 01:38:47 +03:00			`from pathlib import Path`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`import pytest`


Update languages list in conftest 2017-05-13 16:37:54 +03:00			`_languages = ['bn', 'da', 'de', 'en', 'es', 'fi', 'fr', 'he', 'hu', 'it', 'nb',`
			`'nl', 'pl', 'pt', 'sv']`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00

Update conftest to lazy load languages 2017-05-09 01:02:21 +03:00			`@pytest.fixture(params=_languages)`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`def tokenizer(request):`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`lang = util.get_lang_class(request.param)`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`return lang.Defaults.create_tokenizer()`


			`@pytest.fixture`
			`def en_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('en').Defaults.create_tokenizer()`
* Add conftest.py to tests/, to allow session-global pipeline. This allows much faster tests. 2015-06-07 18:53:14 +03:00
Add .blank() method to Parser. Start housing default dep labels and entity types within the Defaults class. 2016-09-26 12:57:54 +03:00
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`@pytest.fixture`
			`def en_vocab():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('en').Defaults.create_vocab()`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00

Add en_parser fixture 2017-01-11 23:29:59 +03:00			`@pytest.fixture`
			`def en_parser():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('en').Defaults.create_parser()`
Update conftest to lazy load languages 2017-05-09 01:02:21 +03:00
Add en_parser fixture 2017-01-11 23:29:59 +03:00
feature(model): Add support for creating the Spanish model, including rich tagset, configuration, and basich tests 2017-04-06 19:48:45 +03:00			`@pytest.fixture`
			`def es_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('es').Defaults.create_tokenizer()`
feature(model): Add support for creating the Spanish model, including rich tagset, configuration, and basich tests 2017-04-06 19:48:45 +03:00
Add en_parser fixture 2017-01-11 23:29:59 +03:00
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`@pytest.fixture`
			`def de_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('de').Defaults.create_tokenizer()`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00

Revert "Revert "Merge pull request #818 from raphael0202/tokenizer_exceptions"" This reverts commit f02a2f9322969a637ee2445efd7d1901d2a0d09a. 2017-02-10 15:17:05 +03:00			`@pytest.fixture(scope='module')`
Add fr tokenization unit tests 2017-01-24 12:55:02 +03:00			`def fr_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('fr').Defaults.create_tokenizer()`
Add fr tokenization unit tests 2017-01-24 12:55:02 +03:00

Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`@pytest.fixture`
			`def hu_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('hu').Defaults.create_tokenizer()`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00
Adjust formatting 2017-01-12 18:49:19 +03:00
[finnish] Add initial tests for tokenizer 2017-02-04 14:47:29 +03:00			`@pytest.fixture`
			`def fi_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('fi').Defaults.create_tokenizer()`
[finnish] Add initial tests for tokenizer 2017-02-04 14:47:29 +03:00

[issue 805] Add regression test and the required fixture 2017-02-04 17:21:34 +03:00			`@pytest.fixture`
			`def sv_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('sv').Defaults.create_tokenizer()`
[issue 805] Add regression test and the required fixture 2017-02-04 17:21:34 +03:00

add hebrew tokenizer 2017-03-24 18:27:44 +03:00			`@pytest.fixture`
add tests for Bengali 2017-03-05 04:11:26 +03:00			`def bn_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('bn').Defaults.create_tokenizer()`
add tests for Bengali 2017-03-05 04:11:26 +03:00
feature(model): Add support for creating the Spanish model, including rich tagset, configuration, and basich tests 2017-04-06 19:48:45 +03:00
			`@pytest.fixture`
add hebrew tokenizer 2017-03-24 18:27:44 +03:00			`def he_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('he').Defaults.create_tokenizer()`
add hebrew tokenizer 2017-03-24 18:27:44 +03:00
Hooked up tokenizer tests 2017-04-27 00:21:41 +03:00			`@pytest.fixture`
			`def nb_tokenizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('nb').Defaults.create_tokenizer()`
Update conftest to lazy load languages 2017-05-09 01:02:21 +03:00
add hebrew tokenizer 2017-03-24 18:27:44 +03:00
Add fixture for StringStore 2017-01-12 17:05:40 +03:00			`@pytest.fixture`
			`def stringstore():`
			`return StringStore()`
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00
Adjust formatting 2017-01-12 18:49:19 +03:00
Add fixture for entity recognizer 2017-01-12 23:56:32 +03:00			`@pytest.fixture`
			`def en_entityrecognizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('en').Defaults.create_entity()`
Add fixture for entity recognizer 2017-01-12 23:56:32 +03:00

Add Lemmatizer fixture 2017-01-13 01:38:55 +03:00			`@pytest.fixture`
Fix tests 2017-03-17 03:48:00 +03:00			`def lemmatizer():`
Merge load_lang_class and get_lang_class 2017-05-14 02:31:10 +03:00			`return util.get_lang_class('en').Defaults.create_lemmatizer()`
Add Lemmatizer fixture 2017-01-13 01:38:55 +03:00

Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00			`@pytest.fixture`
			`def text_file():`
			`return StringIO()`

Add text_file_b fixture using BytesIO 2017-01-13 04:23:50 +03:00			`@pytest.fixture`
			`def text_file_b():`
			`return BytesIO()`

Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00
Update comments on EN and DE fixtures 2017-01-13 00:03:07 +03:00			`# only used for tests that require loading the models`
			`# in all other cases, use specific instances`
* Add conftest.py to tests/, to allow session-global pipeline. This allows much faster tests. 2015-06-07 18:53:14 +03:00			`@pytest.fixture(scope="session")`
			`def EN():`
Set default path in EN/DE tests. 2016-10-17 02:52:49 +03:00			`return English()`
add model sanity test 2016-05-03 13:51:47 +03:00
Merge conftests into one cohesive file 2017-01-11 15:56:32 +03:00
reformulate noun chunk tests for English 2016-05-03 15:24:35 +03:00			`@pytest.fixture(scope="session")`
add model sanity test 2016-05-03 13:51:47 +03:00			`def DE():`
Set default path in EN/DE tests. 2016-10-17 02:52:49 +03:00			`return German()`
* Add flags to pytest to tests requiring models, vectors or slow functions to be toggled. 2015-07-23 02:19:03 +03:00
correcting tokenizer exception. Adding tests for lemmatization 2017-04-27 12:52:14 +03:00			`@pytest.fixture(scope="session")`
			`def FR():`
			`return French()`

* Add flags to pytest to tests requiring models, vectors or slow functions to be toggled. 2015-07-23 02:19:03 +03:00
			`def pytest_addoption(parser):`
			`parser.addoption("--models", action="store_true",`
			`help="include tests that require full models")`
			`parser.addoption("--vectors", action="store_true",`
			`help="include word vectors tests")`
			`parser.addoption("--slow", action="store_true",`
			`help="include slow tests")`

Check for arguments of model markers to specify models to test Lets user set --models --en for only English models 2017-05-29 23:10:16 +03:00			`for lang in _languages + ['all']:`
			`parser.addoption("--%s" % lang, action="store_true", help="Use %s models" % lang)`

* Add flags to pytest to tests requiring models, vectors or slow functions to be toggled. 2015-07-23 02:19:03 +03:00
			`def pytest_runtest_setup(item):`
			`for opt in ['models', 'vectors', 'slow']:`
			`if opt in item.keywords and not item.config.getoption("--%s" % opt):`
			`pytest.skip("need --%s option to run" % opt)`
Check for arguments of model markers to specify models to test Lets user set --models --en for only English models 2017-05-29 23:10:16 +03:00
			`# Check if test is marked with models and has arguments set, i.e. specific`
			`# language. If so, skip test if flag not set.`
			`if item.get_marker('models'):`
			`for arg in item.get_marker('models').args:`
			`if not item.config.getoption("--%s" % arg) and not item.config.getoption("--all"):`
			`pytest.skip()`