spaCy/spacy/__init__.py

import pathlib

from .util import set_lang_class, get_lang_class
from .about import __version__

from . import en
from . import de
from . import zh
from . import es
from . import it
from . import fr
from . import pt
from . import nl


try:
    basestring
except NameError:
    basestring = str


set_lang_class(en.English.lang, en.English)
set_lang_class(de.German.lang, de.German)
set_lang_class(es.Spanish.lang, es.Spanish)
set_lang_class(pt.Portuguese.lang, pt.Portuguese)
set_lang_class(fr.French.lang, fr.French)
set_lang_class(it.Italian.lang, it.Italian)
set_lang_class(zh.Chinese.lang, zh.Chinese)
set_lang_class(nl.Dutch.lang, nl.Dutch)


def load(name, **overrides):
    target_name, target_version = util.split_data_name(name)
    data_path = overrides.get('path', util.get_data_path())
    if target_name == 'en' and 'add_vectors' not in overrides:
        if 'vectors' in overrides:
            vec_path = util.match_best_version(overrides['vectors'], None, data_path)
            if vec_path is None:
                raise IOError(
                    'Could not load data pack %s from %s' % (overrides['vectors'], data_path))

        else:
            vec_path = util.match_best_version('en_glove_cc_300_1m_vectors', None, data_path)
        if vec_path is not None:
            vec_path = vec_path / 'vocab' / 'vec.bin'
            overrides['add_vectors'] = lambda vocab: vocab.load_vectors_from_bin_loc(vec_path)
    path = util.match_best_version(target_name, target_version, data_path)
    cls = get_lang_class(target_name)
    return cls(path=path, **overrides)
Mostly finished loading refactoring. Design is in place, but doesn't work yet. 2016-09-24 16:42:01 +03:00			`import pathlib`

			`from .util import set_lang_class, get_lang_class`
Fix #608 -- __version__ should be available at the base of the package. 2016-11-04 23:21:02 +03:00			`from .about import __version__`
refactored data_dir->via, add zip_safe, add spacy.load() 2016-01-15 20:01:02 +03:00
avoid polluting spacy namespace with lang classes 2016-04-12 17:31:16 +03:00			`from . import en`
			`from . import de`
* Register Chinese language in spacy/__init__.py 2016-04-24 19:45:16 +03:00			`from . import zh`
Link languages in __init__.py 2016-11-02 22:05:14 +03:00			`from . import es`
			`from . import it`
Add import fr 2016-11-02 22:48:29 +03:00			`from . import fr`
Link languages in __init__.py 2016-11-02 22:05:14 +03:00			`from . import pt`
Added nl module for dutch 2016-11-24 18:39:49 +03:00			`from . import nl`
refactored data_dir->via, add zip_safe, add spacy.load() 2016-01-15 20:01:02 +03:00
first idea for supporting multiple langs in download script 2016-03-24 13:19:43 +03:00
Python 3 compatible basestring 2016-09-24 23:09:21 +03:00			`try:`
Whitespace 2016-09-24 23:17:01 +03:00			`basestring`
Python 3 compatible basestring 2016-09-24 23:09:21 +03:00			`except NameError:`
Whitespace 2016-09-24 23:17:01 +03:00			`basestring = str`
Python 3 compatible basestring 2016-09-24 23:09:21 +03:00

avoid polluting spacy namespace with lang classes 2016-04-12 17:31:16 +03:00			`set_lang_class(en.English.lang, en.English)`
			`set_lang_class(de.German.lang, de.German)`
Link languages in __init__.py 2016-11-02 22:05:14 +03:00			`set_lang_class(es.Spanish.lang, es.Spanish)`
			`set_lang_class(pt.Portuguese.lang, pt.Portuguese)`
			`set_lang_class(fr.French.lang, fr.French)`
			`set_lang_class(it.Italian.lang, it.Italian)`
* Register Chinese language in spacy/__init__.py 2016-04-24 19:45:16 +03:00			`set_lang_class(zh.Chinese.lang, zh.Chinese)`
Added language Dutch to init file 2016-11-29 18:42:05 +03:00			`set_lang_class(nl.Dutch.lang, nl.Dutch)`
add lang registration facility 2016-03-25 20:54:45 +03:00

Fix spacy.load 2016-10-18 20:23:31 +03:00			`def load(name, **overrides):`
Add spacy.blank() method, that doesn't load data. Don't try to load data if path is falsey 2016-09-26 12:07:46 +03:00			`target_name, target_version = util.split_data_name(name)`
Fix loading of GloVe vectors, to address Issue #541 2016-10-20 19:27:48 +03:00			`data_path = overrides.get('path', util.get_data_path())`
			`if target_name == 'en' and 'add_vectors' not in overrides:`
			`if 'vectors' in overrides:`
			`vec_path = util.match_best_version(overrides['vectors'], None, data_path)`
Added nl module for dutch 2016-11-24 18:39:49 +03:00			`if vec_path is None:`
Fix loading of GloVe vectors, to address Issue #541 2016-10-20 19:27:48 +03:00			`raise IOError(`
			`'Could not load data pack %s from %s' % (overrides['vectors'], data_path))`

			`else:`
			`vec_path = util.match_best_version('en_glove_cc_300_1m_vectors', None, data_path)`
			`if vec_path is not None:`
			`vec_path = vec_path / 'vocab' / 'vec.bin'`
			`overrides['add_vectors'] = lambda vocab: vocab.load_vectors_from_bin_loc(vec_path)`
			`path = util.match_best_version(target_name, target_version, data_path)`
Finish refactoring data loading 2016-09-24 21:26:17 +03:00			`cls = get_lang_class(target_name)`
Fix spacy.load 2016-10-18 20:23:31 +03:00			`return cls(path=path, **overrides)`