untangle data_path/via

2025-10-25 13:11:03 +03:00 · 2016-01-16 12:23:45 +01:00 · 2016-01-16 12:23:45 +01:00 · 235f094534
commit 235f094534
parent 6d1a3af343
12 changed files with 51 additions and 58 deletions
--- a/spacy/en/download.py
+++ b/spacy/en/download.py
@ -6,6 +6,8 @@ import shutil
 import plac
 import sputnik
 from sputnik.package_list import (PackageNotFoundException,
                                  CompatiblePackageNotFoundException)
 from .. import about
@ -22,28 +24,21 @@ def migrate(path):
            os.unlink(os.path.join(path, filename))
 def link(package, path):
    if os.path.exists(path):
        if os.path.isdir(path):
            shutil.rmtree(path)
        else:
            os.unlink(path)
    if not hasattr(os, 'symlink'):  # not supported by win+py27
        shutil.copytree(package.dir_path('data'), path)
    else:
        os.symlink(package.dir_path('data'), path)
@plac.annotations(
    force=("Force overwrite", "flag", "f", bool),
 )
 def main(data_size='all', force=False):
    path = os.path.dirname(os.path.abspath(__file__))
    if force:
        sputnik.purge(about.__name__, about.__version__)
    try:
        sputnik.package(about.__name__, about.__version__, about.__default_model__)
        print("Model already installed. Please run 'python -m "
              "spacy.en.download --force' to reinstall.", file=sys.stderr)
        sys.exit(1)
    except PackageNotFoundException, CompatiblePackageNotFoundException:
        pass
    package = sputnik.install(about.__name__, about.__version__, about.__default_model__)
    try:
@ -54,7 +49,7 @@ def main(data_size='all', force=False):
        sys.exit(1)
    # FIXME clean up old-style packages
-    migrate(path)
+    migrate(os.path.dirname(os.path.abspath(__file__)))
    print("Model successfully installed.", file=sys.stderr)
--- a/spacy/language.py
+++ b/spacy/language.py
@ -155,7 +155,6 @@ class Language(object):
            return Parser.from_dir(data_dir, vocab.strings, BiluoPushDown)
    def __init__(self,
        via=None,
        data_dir=None,
        vocab=None,
        tokenizer=None,
@ -172,9 +171,9 @@ class Language(object):
           1) by calling a Language subclass
             - spacy.en.English()
-           2) by calling a Language subclass with via (previously: data_dir)
+           2) by calling a Language subclass with data_dir
             - spacy.en.English('my/model/root')
-             - spacy.en.English(via='my/model/root')
+             - spacy.en.English(data_dir='my/model/root')
           3) by package name
             - spacy.load('en_default')
@ -185,15 +184,11 @@ class Language(object):
             - spacy.load('en_default==1.0.0', via='/my/package/root')
        """
        if data_dir is not None and via is None:
            warn("Use of data_dir is deprecated, use via instead.", DeprecationWarning)
            via = data_dir
        if package is None:
-            if via is None:
+            if data_dir is None:
                package = util.get_package_by_name()
            else:
-                package = util.get_package(via)
+                package = util.get_package(data_dir)
        if load_vectors is not True:
            warn("load_vectors is deprecated", DeprecationWarning)
--- a/spacy/matcher.pyx
+++ b/spacy/matcher.pyx
@ -170,8 +170,8 @@ cdef class Matcher:
    cdef object _patterns
    @classmethod
-    def load(cls, via, Vocab vocab):
+    def load(cls, data_dir, Vocab vocab):
-        return cls.from_package(get_package(via), vocab=vocab)
+        return cls.from_package(get_package(data_dir), vocab=vocab)
    @classmethod
    def from_package(cls, package, Vocab vocab):
--- a/spacy/tagger.pyx
+++ b/spacy/tagger.pyx
@ -148,8 +148,8 @@ cdef class Tagger:
        return cls(vocab, model)
    @classmethod
-    def load(cls, via, vocab):
+    def load(cls, data_dir, vocab):
-        return cls.from_package(get_package(via), vocab=vocab)
+        return cls.from_package(get_package(data_dir), vocab=vocab)
    @classmethod
    def from_package(cls, pkg, vocab):
--- a/spacy/tests/conftest.py
+++ b/spacy/tests/conftest.py
@ -7,11 +7,11 @@ import os
@pytest.fixture(scope="session")
 def EN():
    if os.environ.get('SPACY_DATA'):
-        data_path = os.environ.get('SPACY_DATA')
+        data_dir = os.environ.get('SPACY_DATA')
    else:
-        data_path = None
+        data_dir = None
-    print("Load EN from %s" % data_path)
+    print("Load EN from %s" % data_dir)
-    return English(data_dir=data_path)
+    return English(data_dir=data_dir)
 def pytest_addoption(parser):
--- a/spacy/tests/serialize/test_packer.py
+++ b/spacy/tests/serialize/test_packer.py
@ -13,6 +13,7 @@ from spacy.tokenizer import Tokenizer
 from os import path
 import os
 from spacy import util
 from spacy.attrs import ORTH, SPACY, TAG, DEP, HEAD
 from spacy.serialize.packer import Packer
@ -21,11 +22,13 @@ from spacy.serialize.bits import BitArray
@pytest.fixture
 def vocab():
-    if os.environ.get('SPACY_DATA'):
+    data_dir = os.environ.get('SPACY_DATA')
-        data_path = os.environ.get('SPACY_DATA')
+    if data_dir is None:
        package = util.get_package_by_name()
    else:
-        data_path = None
+        package = util.get_package(data_dir)
-    vocab = English.default_vocab(package=data_path)
+
    vocab = English.default_vocab(package=package)
    lex = vocab['dog']
    assert vocab[vocab.strings['dog']].orth_ == 'dog'
    lex  = vocab['the']
--- a/spacy/tests/tagger/test_lemmatizer.py
+++ b/spacy/tests/tagger/test_lemmatizer.py
@ -5,23 +5,23 @@ import io
 import pickle
 from spacy.lemmatizer import Lemmatizer, read_index, read_exc
-from spacy.util import get_package
+from spacy import util
 import pytest
@pytest.fixture
 def package():
-    if os.environ.get('SPACY_DATA'):
+    data_dir = os.environ.get('SPACY_DATA')
-        data_path = os.environ.get('SPACY_DATA')
+    if data_dir is None:
        return util.get_package_by_name()
    else:
-        data_path = None
+        return util.get_package(data_dir)
    return get_package(data_path=data_path)
@pytest.fixture
 def lemmatizer(package):
-    return Lemmatizer.load(package)
+    return Lemmatizer.from_package(package)
 def test_read_index(package):
--- a/spacy/tests/website/conftest.py
+++ b/spacy/tests/website/conftest.py
@ -7,10 +7,10 @@ import os
 def nlp():
    from spacy.en import English
    if os.environ.get('SPACY_DATA'):
-        data_path = os.environ.get('SPACY_DATA')
+        data_dir = os.environ.get('SPACY_DATA')
    else:
-        data_path = None
+        data_dir = None
-    return English(data_dir=data_path)
+    return English(data_dir=data_dir)
@pytest.fixture()
--- a/spacy/tests/website/test_home.py
+++ b/spacy/tests/website/test_home.py
@ -11,13 +11,13 @@ def token(doc):
 def test_load_resources_and_process_text():
    if os.environ.get('SPACY_DATA'):
-        data_path = os.environ.get('SPACY_DATA')
+        data_dir = os.environ.get('SPACY_DATA')
    else:
-        data_path = None
+        data_dir = None
-    print("Load EN from %s" % data_path)
+    print("Load EN from %s" % data_dir)
    from spacy.en import English
-    nlp = English(data_dir=data_path)
+    nlp = English(data_dir=data_dir)
    doc = nlp('Hello, world. Here are two sentences.')
--- a/spacy/tokenizer.pyx
+++ b/spacy/tokenizer.pyx
@ -42,8 +42,8 @@ cdef class Tokenizer:
        return (self.__class__, args, None, None)
    @classmethod
-    def load(cls, via, Vocab vocab):
+    def load(cls, data_dir, Vocab vocab):
-        return cls.from_package(get_package(via), vocab=vocab)
+        return cls.from_package(get_package(data_dir), vocab=vocab)
    @classmethod
    def from_package(cls, package, Vocab vocab):
--- a/spacy/util.py
+++ b/spacy/util.py
@ -14,10 +14,10 @@ from . import about
 from .attrs import TAG, HEAD, DEP, ENT_IOB, ENT_TYPE
-def get_package():
+def get_package(data_dir):
-    if not isinstance(via, six.string_types):
+    if not isinstance(data_dir, six.string_types):
-        raise RuntimeError('via must be a string')
+        raise RuntimeError('data_dir must be a string')
-    return DirPackage(via)
+    return DirPackage(data_dir)
 def get_package_by_name(name=None, via=None):
--- a/spacy/vocab.pyx
+++ b/spacy/vocab.pyx
@ -48,8 +48,8 @@ cdef class Vocab:
    '''A map container for a language's LexemeC structs.
    '''
    @classmethod
-    def load(cls, via, get_lex_attr=None):
+    def load(cls, data_dir, get_lex_attr=None):
-        return cls.from_package(get_package(via), get_lex_attr=get_lex_attr)
+        return cls.from_package(get_package(data_dir), get_lex_attr=get_lex_attr)
    @classmethod
    def from_package(cls, package, get_lex_attr=None):