spaCy/spacy/en/__init__.py

# encoding: utf8
from __future__ import unicode_literals, print_function

from os import path

from ..language import Language
from . import language_data
from .. import util
from ..lemmatizer import Lemmatizer
from ..vocab import Vocab
from ..tokenizer import Tokenizer
from ..attrs import LANG

from ..language_data import update_exc
from ..language_data import strings_to_exc
from ..language_data import expand_exc
from ..language_data import EMOTICONS

from .language_data import ORTH_ONLY
from .language_data import get_time_exc


TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
TAG_MAP = dict(language_data.TAG_MAP)
STOP_WORDS = set(language_data.STOP_WORDS)


update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1)))
update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’"))


class English(Language):
    lang = 'en'

    class Defaults(Language.Defaults):
        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
        lex_attr_getters[LANG] = lambda text: 'en'

        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
        prefixes = TOKENIZER_PREFIXES
        suffixes = TOKENIZER_SUFFIXES
        infixes = TOKENIZER_INFIXES
        tag_map = TAG_MAP
        stop_words = STOP_WORDS
-												Add encoding declaration

											
										
										
											2016-12-17 14:25:44 +03:00
+								# encoding: utf8
-												* Use language base class

											
										
										
											2015-08-25 16:37:30 +03:00
+								from __future__ import unicode_literals, print_function
-												* Begin refactor

											
										
										
											2015-07-07 15:00:07 +03:00
-												* Use language base class

											
										
										
											2015-08-25 16:37:30 +03:00
+								from os import path
-												* Tmp

											
										
										
											2014-12-24 09:42:00 +03:00
-												* Use language base class

											
										
										
											2015-08-25 16:37:30 +03:00
+								from ..language import Language
-												Refactor so that the tokenizer data is read from Python data, rather than from disk

											
										
										
											2016-09-25 15:49:53 +03:00
+								from . import language_data
 								from .. import util
 								from ..lemmatizer import Lemmatizer
 								from ..vocab import Vocab
 								from ..tokenizer import Tokenizer
-												Add LANG attribute to English and German

											
										
										
											2016-10-18 19:52:48 +03:00
+								from ..attrs import LANG
-												Reorganize exceptions for English and German

											
										
										
											2016-12-08 15:58:32 +03:00
-												Move update_exc to global language data utils

											
										
										
											2016-12-17 14:29:02 +03:00
+								from ..language_data import update_exc
-												Move shared functions and constants to global language data

											
										
										
											2016-12-17 14:32:48 +03:00
+								from ..language_data import strings_to_exc
-												Expand tokenizer exceptions with unicode apostrophe (fixes #685)

											
										
										
											2016-12-17 14:34:08 +03:00
+								from ..language_data import expand_exc
-												Reorganize exceptions for English and German

											
										
										
											2016-12-08 15:58:32 +03:00
+								from ..language_data import EMOTICONS
-												Fix formatting

											
										
										
											2016-12-17 14:33:09 +03:00
-												Reorganize exceptions for English and German

											
										
										
											2016-12-08 15:58:32 +03:00
+								from .language_data import ORTH_ONLY
 								from .language_data import get_time_exc
 								TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
 								TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
 								TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
 								TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
 								TAG_MAP = dict(language_data.TAG_MAP)
 								STOP_WORDS = set(language_data.STOP_WORDS)
 								update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
 								update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 								update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1)))
-												Expand tokenizer exceptions with unicode apostrophe (fixes #685)

											
										
										
											2016-12-17 14:34:08 +03:00
+								update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’"))
-												* Add English stop words

											
										
										
											2015-09-14 10:48:51 +03:00
-												* Restore the LOCAL_DATA_DIR global in spacy/en/__init__.py, although this is now deprecated

											
										
										
											2016-01-19 04:54:56 +03:00
-												* Use language base class

											
										
										
											2015-08-25 16:37:30 +03:00
+								class English(Language):
-												* Fix pickle problems

											
										
										
											2015-12-28 18:54:03 +03:00
+								    lang = 'en'
-												strip data/ from package, friendlier Language invocation, make data_dir backward/forward-compatible

											
										
										
											2015-12-18 11:52:55 +03:00
-												Finish refactoring data loading

											
										
										
											2016-09-24 21:26:17 +03:00
+								    class Defaults(Language.Defaults):
 								        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-												Add LANG attribute to English and German

											
										
										
											2016-10-18 19:52:48 +03:00
+								        lex_attr_getters[LANG] = lambda text: 'en'
-												Finish refactoring data loading

											
										
										
											2016-09-24 21:26:17 +03:00
-												Reorganize exceptions for English and German

											
										
										
											2016-12-08 15:58:32 +03:00
+								        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
 								        prefixes = TOKENIZER_PREFIXES
 								        suffixes = TOKENIZER_SUFFIXES
 								        infixes = TOKENIZER_INFIXES
 								        tag_map = TAG_MAP
 								        stop_words = STOP_WORDS