spaCy/spacy/en/__init__.py

from __future__ import unicode_literals
from os import path
import re

from .. import orth
from ..vocab import Vocab
from ..tokenizer import Tokenizer
from ..syntax.arc_eager import ArcEager
from ..syntax.ner import BiluoPushDown
from ..syntax.parser import ParserFactory

from ..tokens import Doc
from ..multi_words import RegexMerger

from .pos import EnPosTagger
from .pos import POS_TAGS
from .attrs import get_flags
from . import regexes

from ..util import read_lang_data


def get_lex_props(string):
    return {
        'flags': get_flags(string),
        'length': len(string),
        'orth': string,
        'lower': string.lower(),
        'norm': string,
        'shape': orth.word_shape(string),
        'prefix': string[0],
        'suffix': string[-3:],
        'cluster': 0,
        'prob': -22,
        'sentiment': 0
    }

if_model_present = -1
LOCAL_DATA_DIR = path.join(path.dirname(__file__), 'data')


class English(object):
    """The English NLP pipeline.

    Example:

        Load data from default directory:

            >>> nlp = English()
            >>> nlp = English(data_dir=u'')

        Load data from specified directory:
    
            >>> nlp = English(data_dir=u'path/to/data_directory')

        Disable (and avoid loading) parts of the processing pipeline:

            >>> nlp = English(vectors=False, parser=False, tagger=False, entity=False)
        
        Start with nothing loaded:

            >>> nlp = English(data_dir=None)
    """
    ParserTransitionSystem = ArcEager
    EntityTransitionSystem = BiluoPushDown

    def __init__(self,
      data_dir=LOCAL_DATA_DIR,
      Tokenizer=Tokenizer.from_dir,
      Tagger=EnPosTagger,
      Parser=ParserFactory(ParserTransitionSystem),
      Entity=ParserFactory(EntityTransitionSystem),
      Packer=None,
      load_vectors=True
    ):
        
        self._data_dir = data_dir
        
        self.vocab = Vocab(data_dir=path.join(data_dir, 'vocab') if data_dir else None,
                           get_lex_props=get_lex_props, load_vectors=load_vectors,
                           pos_tags=POS_TAGS)
        if Tagger is True:
            Tagger = EnPosTagger
        if Parser is True:
            transition_system = self.ParserTransitionSystem
            Parser = lambda s, d: parser.Parser(s, d, transition_system)
        if Entity is True:
            transition_system = self.EntityTransitionSystem
            Entity = lambda s, d: parser.Parser(s, d, transition_system)

        self.tokenizer = Tokenizer(self.vocab, path.join(data_dir, 'tokenizer'))
        
        if Tagger:
            self.tagger = Tagger(self.vocab.strings, data_dir)
        else:
            self.tagger = None
        if Parser:
            self.parser = Parser(self.vocab.strings, path.join(data_dir, 'deps'))
        else:
            self.parser = None
        if Entity:
            self.entity = Entity(self.vocab.strings, path.join(data_dir, 'ner'))
        else:
            self.entity = None
        if Packer:
            self.packer = Packer(self.vocab, data_dir)
        else:
            self.packer = None
        self.mwe_merger = RegexMerger([
            ('IN', 'O', regexes.MW_PREPOSITIONS_RE),
            ('CD', 'TIME', regexes.TIME_RE),
            ('NNP', 'DATE', regexes.DAYS_RE),
            ('CD', 'MONEY', regexes.MONEY_RE)])

    def __call__(self, text, tag=True, parse=True, entity=True, merge_mwes=False):
        """Apply the pipeline to some text.  The text can span multiple sentences,
        and can contain arbtrary whitespace.  Alignment into the original string
        is preserved.
        
        Args:
            text (unicode): The text to be processed.

        Returns:
            tokens (spacy.tokens.Doc):

        >>> from spacy.en import English
        >>> nlp = English()
        >>> tokens = nlp('An example sentence. Another example sentence.')
        >>> tokens[0].orth_, tokens[0].head.tag_
        ('An', 'NN')
        """
        tokens = self.tokenizer(text)
        if self.tagger and tag:
            self.tagger(tokens)
        if self.parser and parse:
            self.parser(tokens)
        if self.entity and entity:
            self.entity(tokens)
        if merge_mwes and self.mwe_merger is not None:
            self.mwe_merger(tokens)
        return tokens

    @property
    def tags(self):
        """List of part-of-speech tag names."""
        return self.tagger.tag_names
* Work on train 2014-12-21 23:25:43 +03:00			`from __future__ import unicode_literals`
			`from os import path`
* Work on word vectors, and other stuff 2015-01-17 08:21:17 +03:00			`import re`
* Work on train 2014-12-21 23:25:43 +03:00
* Tmp commit. Refactoring to create a Python Lexeme class. 2015-01-12 02:26:22 +03:00			`from .. import orth`
* Work on train 2014-12-21 23:25:43 +03:00			`from ..vocab import Vocab`
			`from ..tokenizer import Tokenizer`
* Specify parser transition system in language 2015-02-22 08:32:33 +03:00			`from ..syntax.arc_eager import ArcEager`
* Prepare English class for NER 2015-03-09 02:04:00 +03:00			`from ..syntax.ner import BiluoPushDown`
* Refactor __init__ for simplicity. Allow parse=True, tag=True etc flags to be passed at top-level. Do not lazy-load parser. 2015-07-08 13:35:29 +03:00			`from ..syntax.parser import ParserFactory`

* Rename Tokens to Doc 2015-07-08 19:53:00 +03:00			`from ..tokens import Doc`
* Add support for units to English.__init__, by loading and applying regular expressions 2015-04-07 05:02:32 +03:00			`from ..multi_words import RegexMerger`

* Work on train 2014-12-21 23:25:43 +03:00			`from .pos import EnPosTagger`
* POS tagger training working after reorg 2014-12-22 00:54:47 +03:00			`from .pos import POS_TAGS`
* Work on train 2014-12-21 23:25:43 +03:00			`from .attrs import get_flags`
* Add support for units to English.__init__, by loading and applying regular expressions 2015-04-07 05:02:32 +03:00			`from . import regexes`
* Work on train 2014-12-21 23:25:43 +03:00
* Work on word vectors, and other stuff 2015-01-17 08:21:17 +03:00			`from ..util import read_lang_data`


* Work on train 2014-12-21 23:25:43 +03:00			`def get_lex_props(string):`
* Tests passing after refactor. API has obvious warts, particularly in Token and Lexeme 2015-01-14 16:33:16 +03:00			`return {`
			`'flags': get_flags(string),`
			`'length': len(string),`
* Rename sic to orth 2015-01-22 18:08:25 +03:00			`'orth': string,`
* Rename NORM1 and NORM2 attrs to lower and norm 2015-01-23 22:17:03 +03:00			`'lower': string.lower(),`
			`'norm': string,`
* Tests passing after refactor. API has obvious warts, particularly in Token and Lexeme 2015-01-14 16:33:16 +03:00			`'shape': orth.word_shape(string),`
			`'prefix': string[0],`
			`'suffix': string[-3:],`
			`'cluster': 0,`
* Ensure unseen words are given low log probability 2015-07-12 02:31:09 +03:00			`'prob': -22,`
* Tests passing after refactor. API has obvious warts, particularly in Token and Lexeme 2015-01-14 16:33:16 +03:00			`'sentiment': 0`
			`}`

* Refactor __init__ for simplicity. Allow parse=True, tag=True etc flags to be passed at top-level. Do not lazy-load parser. 2015-07-08 13:35:29 +03:00			`if_model_present = -1`
* Restore merge_mwe in English class 2015-07-08 20:34:55 +03:00			`LOCAL_DATA_DIR = path.join(path.dirname(__file__), 'data')`
* Add docstring to English class 2015-01-26 18:45:21 +03:00
* Tests passing after refactor. API has obvious warts, particularly in Token and Lexeme 2015-01-14 16:33:16 +03:00
* Work on train 2014-12-21 23:25:43 +03:00			`class English(object):`
* Upd docstrings 2014-12-27 10:45:16 +03:00			`"""The English NLP pipeline.`

* Begin refactor 2015-07-07 15:00:07 +03:00			`Example:`

			`Load data from default directory:`

			`>>> nlp = English()`
			`>>> nlp = English(data_dir=u'')`

			`Load data from specified directory:`

			`>>> nlp = English(data_dir=u'path/to/data_directory')`

			`Disable (and avoid loading) parts of the processing pipeline:`

			`>>> nlp = English(vectors=False, parser=False, tagger=False, entity=False)`

			`Start with nothing loaded:`

			`>>> nlp = English(data_dir=None)`
* Upd docstrings 2014-12-27 10:45:16 +03:00			`"""`
* Specify parser transition system in language 2015-02-22 08:32:33 +03:00			`ParserTransitionSystem = ArcEager`
* Prepare English class for NER 2015-03-09 02:04:00 +03:00			`EntityTransitionSystem = BiluoPushDown`
* Specify parser transition system in language 2015-02-22 08:32:33 +03:00
* Refactor __init__ for simplicity. Allow parse=True, tag=True etc flags to be passed at top-level. Do not lazy-load parser. 2015-07-08 13:35:29 +03:00			`def __init__(self,`
* Restore merge_mwe in English class 2015-07-08 20:35:30 +03:00			`data_dir=LOCAL_DATA_DIR,`
* Refactor __init__ for simplicity. Allow parse=True, tag=True etc flags to be passed at top-level. Do not lazy-load parser. 2015-07-08 13:35:29 +03:00			`Tokenizer=Tokenizer.from_dir,`
			`Tagger=EnPosTagger,`
			`Parser=ParserFactory(ParserTransitionSystem),`
			`Entity=ParserFactory(EntityTransitionSystem),`
* Major refactor of serialization. Nearly complete now. 2015-07-17 02:19:29 +03:00			`Packer=None,`
* Refactor __init__ for simplicity. Allow parse=True, tag=True etc flags to be passed at top-level. Do not lazy-load parser. 2015-07-08 13:35:29 +03:00			`load_vectors=True`
			`):`

* Work on refactoring default arguments to English.__init__ 2015-07-07 16:53:25 +03:00			`self._data_dir = data_dir`

* Tmp. Working on refactor. Compiles, must hook up lexical feats. 2015-01-13 16:03:48 +03:00			`self.vocab = Vocab(data_dir=path.join(data_dir, 'vocab') if data_dir else None,`
* Refactor __init__ for simplicity. Allow parse=True, tag=True etc flags to be passed at top-level. Do not lazy-load parser. 2015-07-08 13:35:29 +03:00			`get_lex_props=get_lex_props, load_vectors=load_vectors,`
* Work on refactoring default arguments to English.__init__ 2015-07-07 16:53:25 +03:00			`pos_tags=POS_TAGS)`
* Begin refactor 2015-07-07 15:00:07 +03:00			`if Tagger is True:`
* Work on refactoring default arguments to English.__init__ 2015-07-07 16:53:25 +03:00			`Tagger = EnPosTagger`
* Begin refactor 2015-07-07 15:00:07 +03:00			`if Parser is True:`
			`transition_system = self.ParserTransitionSystem`
* Work on refactoring default arguments to English.__init__ 2015-07-07 16:53:25 +03:00			`Parser = lambda s, d: parser.Parser(s, d, transition_system)`
* Begin refactor 2015-07-07 15:00:07 +03:00			`if Entity is True:`
			`transition_system = self.EntityTransitionSystem`
			`Entity = lambda s, d: parser.Parser(s, d, transition_system)`

* Refactor __init__ for simplicity. Allow parse=True, tag=True etc flags to be passed at top-level. Do not lazy-load parser. 2015-07-08 13:35:29 +03:00			`self.tokenizer = Tokenizer(self.vocab, path.join(data_dir, 'tokenizer'))`

* Work on refactoring default arguments to English.__init__ 2015-07-07 16:53:25 +03:00			`if Tagger:`
			`self.tagger = Tagger(self.vocab.strings, data_dir)`
			`else:`
			`self.tagger = None`
			`if Parser:`
			`self.parser = Parser(self.vocab.strings, path.join(data_dir, 'deps'))`
			`else:`
			`self.parser = None`
			`if Entity:`
			`self.entity = Entity(self.vocab.strings, path.join(data_dir, 'ner'))`
			`else:`
			`self.entity = None`
* Major refactor of serialization. Nearly complete now. 2015-07-17 02:19:29 +03:00			`if Packer:`
			`self.packer = Packer(self.vocab, data_dir)`
* Add 'bitter' property for serializer in English class 2015-07-16 18:47:53 +03:00			`else:`
* Major refactor of serialization. Nearly complete now. 2015-07-17 02:19:29 +03:00			`self.packer = None`
* Add support for units to English.__init__, by loading and applying regular expressions 2015-04-07 05:02:32 +03:00			`self.mwe_merger = RegexMerger([`
			`('IN', 'O', regexes.MW_PREPOSITIONS_RE),`
			`('CD', 'TIME', regexes.TIME_RE),`
			`('NNP', 'DATE', regexes.DAYS_RE),`
			`('CD', 'MONEY', regexes.MONEY_RE)])`
* Prepare English class for NER 2015-03-09 02:04:00 +03:00
* Restore merge_mwe in English class 2015-07-08 20:34:55 +03:00			`def __call__(self, text, tag=True, parse=True, entity=True, merge_mwes=False):`
* Add docstring to English class 2015-01-26 18:45:21 +03:00			`"""Apply the pipeline to some text. The text can span multiple sentences,`
			`and can contain arbtrary whitespace. Alignment into the original string`
* Refactor __init__ for simplicity. Allow parse=True, tag=True etc flags to be passed at top-level. Do not lazy-load parser. 2015-07-08 13:35:29 +03:00			`is preserved.`

* Upd docstrings 2014-12-27 10:45:16 +03:00			`Args:`
			`text (unicode): The text to be processed.`

			`Returns:`
* Fix mention of Tokens in docstring 2015-07-08 19:56:27 +03:00			`tokens (spacy.tokens.Doc):`
* Add docstring to English class 2015-01-26 18:45:21 +03:00
			`>>> from spacy.en import English`
			`>>> nlp = English()`
			`>>> tokens = nlp('An example sentence. Another example sentence.')`
			`>>> tokens[0].orth_, tokens[0].head.tag_`
			`('An', 'NN')`
* Upd docstrings 2014-12-27 10:45:16 +03:00			`"""`
* Work on word vectors, and other stuff 2015-01-17 08:21:17 +03:00			`tokens = self.tokenizer(text)`
* Refactor __init__ for simplicity. Allow parse=True, tag=True etc flags to be passed at top-level. Do not lazy-load parser. 2015-07-08 13:35:29 +03:00			`if self.tagger and tag:`
* Tests passing except for morphology/lemmatization stuff 2014-12-23 03:40:32 +03:00			`self.tagger(tokens)`
* Refactor __init__ for simplicity. Allow parse=True, tag=True etc flags to be passed at top-level. Do not lazy-load parser. 2015-07-08 13:35:29 +03:00			`if self.parser and parse:`
* Work on word vectors, and other stuff 2015-01-17 08:21:17 +03:00			`self.parser(tokens)`
* Refactor __init__ for simplicity. Allow parse=True, tag=True etc flags to be passed at top-level. Do not lazy-load parser. 2015-07-08 13:35:29 +03:00			`if self.entity and entity:`
* Prepare English class for NER 2015-03-09 02:04:00 +03:00			`self.entity(tokens)`
* Restore merge_mwe in English class 2015-07-08 20:34:55 +03:00			`if merge_mwes and self.mwe_merger is not None:`
			`self.mwe_merger(tokens)`
* Work on train 2014-12-21 23:25:43 +03:00			`return tokens`
* Tmp 2014-12-24 09:42:00 +03:00
			`@property`
			`def tags(self):`
* Upd docstrings 2014-12-27 10:45:16 +03:00			`"""List of part-of-speech tag names."""`
* Refactor _ml.Model, and finish implementing HastyModel so far not worthwhile. 2014-12-31 11:40:59 +03:00			`return self.tagger.tag_names`