spaCy/spacy/morphology.pyx

from os import path
from .lemmatizer import Lemmatizer

try:
    import ujson as json
except ImportError:
    import json

from .parts_of_speech import UNIV_POS_NAMES
from .parts_of_speech cimport ADJ, VERB, NOUN, PUNCT


cdef class Morphology:
    def __init__(self, StringStore string_store, tag_map, lemmatizer):
        self.mem = Pool()
        self.strings = string_store
        self.lemmatizer = lemmatizer
        self.n_tags = len(tag_map) + 1
        self.tag_names = tuple(sorted(tag_map.keys()))
        self.reverse_index = {}
        
        self.rich_tags = <RichTagC*>self.mem.alloc(self.n_tags, sizeof(RichTagC))
        for i, (tag_str, props) in enumerate(sorted(tag_map.items())):
            self.rich_tags[i].id = i
            self.rich_tags[i].name = self.strings[tag_str]
            self.rich_tags[i].morph = 0
            self.rich_tags[i].pos = UNIV_POS_NAMES[props['pos'].upper()]
            self.reverse_index[self.rich_tags[i].name] = i
        self._cache = PreshMapArray(self.n_tags)

    cdef int assign_tag(self, TokenC* token, tag) except -1:
        cdef int tag_id
        if isinstance(tag, basestring):
            tag_id = self.reverse_index[self.strings[tag]]
        else:
            tag_id = tag
        analysis = <MorphAnalysisC*>self._cache.get(tag_id, token.lex.orth)
        if analysis is NULL:
            analysis = <MorphAnalysisC*>self.mem.alloc(1, sizeof(MorphAnalysisC))
            analysis.tag = self.rich_tags[tag_id]
            analysis.lemma = self.lemmatize(analysis.tag.pos, token.lex.orth)
            self._cache.set(tag_id, token.lex.orth, analysis)
        token.lemma = analysis.lemma
        token.pos = analysis.tag.pos
        token.tag = analysis.tag.name
        token.morph = analysis.tag.morph

    cdef int assign_feature(self, uint64_t* morph, feature, value) except -1:
        pass

    def load_morph_exceptions(self, dict exc):
        # Map (form, pos) to (lemma, rich tag)
        cdef unicode pos_str
        cdef unicode form_str
        cdef unicode lemma_str
        cdef dict entries
        cdef dict props
        cdef int lemma
        cdef attr_t orth
        cdef attr_t tag_id
        cdef int pos
        cdef RichTagC rich_tag
        for tag_str, entries in exc.items():
            tag = self.strings[tag_str]
            tag_id = self.reverse_index[tag] 
            rich_tag = self.rich_tags[tag_id]
            for form_str, props in entries.items():
                cached = <MorphAnalysisC*>self.mem.alloc(1, sizeof(MorphAnalysisC))
                cached.tag = rich_tag
                orth = self.strings[form_str]
                for name_str, value_str in props.items():
                    if name_str == 'L':
                        cached.lemma = self.strings[value_str]
                    else:
                        self.assign_feature(&cached.tag.morph, name_str, value_str)
                if cached.lemma == 0:
                    cached.lemma = self.lemmatize(rich_tag.pos, orth)
                self._cache.set(tag_id, orth, <void*>cached)

    def lemmatize(self, const univ_pos_t pos, attr_t orth):
        if self.lemmatizer is None:
            return orth
        cdef unicode py_string = self.strings[orth]
        if pos != NOUN and pos != VERB and pos != ADJ and pos != PUNCT:
            return orth
        cdef set lemma_strings
        cdef unicode lemma_string
        lemma_strings = self.lemmatizer(py_string, pos)
        lemma_string = sorted(lemma_strings)[0]
        lemma = self.strings[lemma_string]
        return lemma
* Hack Morphology class towards usability 2015-08-26 20:17:21 +03:00			`from os import path`
* Tagger training now working. Still need to test load/save of model. Morphology still broken. 2015-08-27 10:16:11 +03:00			`from .lemmatizer import Lemmatizer`
* Move morphological analysis into its own module, morphology.pyx 2014-12-09 13:16:17 +03:00
* Hack Morphology class towards usability 2015-08-26 20:17:21 +03:00			`try:`
			`import ujson as json`
			`except ImportError:`
			`import json`
* Improve efficiency of tagger, and improve morphological processing 2014-12-09 17:02:04 +03:00
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`from .parts_of_speech import UNIV_POS_NAMES`
* Allow punctuation to be lemmatized 2015-10-09 11:02:42 +03:00			`from .parts_of_speech cimport ADJ, VERB, NOUN, PUNCT`
* Work on new morphology organization 2015-08-28 00:11:51 +03:00

* Hack Morphology class towards usability 2015-08-26 20:17:21 +03:00			`cdef class Morphology:`
* More work on language independent parsing 2015-08-28 04:44:54 +03:00			`def __init__(self, StringStore string_store, tag_map, lemmatizer):`
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`self.mem = Pool()`
			`self.strings = string_store`
* Tagger training now working. Still need to test load/save of model. Morphology still broken. 2015-08-27 10:16:11 +03:00			`self.lemmatizer = lemmatizer`
* More work on language independent parsing 2015-08-28 04:44:54 +03:00			`self.n_tags = len(tag_map) + 1`
* Hack Morphology class towards usability 2015-08-26 20:17:21 +03:00			`self.tag_names = tuple(sorted(tag_map.keys()))`
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`self.reverse_index = {}`
* More work on language independent parsing 2015-08-28 04:44:54 +03:00
			`self.rich_tags = <RichTagC*>self.mem.alloc(self.n_tags, sizeof(RichTagC))`
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`for i, (tag_str, props) in enumerate(sorted(tag_map.items())):`
			`self.rich_tags[i].id = i`
			`self.rich_tags[i].name = self.strings[tag_str]`
			`self.rich_tags[i].morph = 0`
* Set POS tag in morphology 2015-09-09 15:30:24 +03:00			`self.rich_tags[i].pos = UNIV_POS_NAMES[props['pos'].upper()]`
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`self.reverse_index[self.rich_tags[i].name] = i`
			`self._cache = PreshMapArray(self.n_tags)`
* Hack Morphology class towards usability 2015-08-26 20:17:21 +03:00
* Work on new morphology organization 2015-08-28 00:11:51 +03:00			`cdef int assign_tag(self, TokenC* token, tag) except -1:`
* More work on language independent parsing 2015-08-28 04:44:54 +03:00			`cdef int tag_id`
			`if isinstance(tag, basestring):`
* Clean up unnecessary try/except block 2015-10-08 06:34:11 +03:00			`tag_id = self.reverse_index[self.strings[tag]]`
* More work on language independent parsing 2015-08-28 04:44:54 +03:00			`else:`
			`tag_id = tag`
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`analysis = <MorphAnalysisC*>self._cache.get(tag_id, token.lex.orth)`
* Work on new morphology organization 2015-08-28 00:11:51 +03:00			`if analysis is NULL:`
			`analysis = <MorphAnalysisC*>self.mem.alloc(1, sizeof(MorphAnalysisC))`
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`analysis.tag = self.rich_tags[tag_id]`
* More work on language independent parsing 2015-08-28 04:44:54 +03:00			`analysis.lemma = self.lemmatize(analysis.tag.pos, token.lex.orth)`
* Save morphological analyses in a cache 2015-09-08 16:39:24 +03:00			`self._cache.set(tag_id, token.lex.orth, analysis)`
* Work on new morphology organization 2015-08-28 00:11:51 +03:00			`token.lemma = analysis.lemma`
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`token.pos = analysis.tag.pos`
			`token.tag = analysis.tag.name`
			`token.morph = analysis.tag.morph`
* Hack Morphology class towards usability 2015-08-26 20:17:21 +03:00
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`cdef int assign_feature(self, uint64_t* morph, feature, value) except -1:`
* Hack Morphology class towards usability 2015-08-26 20:17:21 +03:00			`pass`

			`def load_morph_exceptions(self, dict exc):`
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`# Map (form, pos) to (lemma, rich tag)`
* Work on new morphology organization 2015-08-28 00:11:51 +03:00			`cdef unicode pos_str`
			`cdef unicode form_str`
			`cdef unicode lemma_str`
			`cdef dict entries`
			`cdef dict props`
			`cdef int lemma`
			`cdef attr_t orth`
* Fix morphology loading 2015-09-10 15:52:23 +03:00			`cdef attr_t tag_id`
* Work on new morphology organization 2015-08-28 00:11:51 +03:00			`cdef int pos`
* Fix morphology loading 2015-09-10 15:52:23 +03:00			`cdef RichTagC rich_tag`
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`for tag_str, entries in exc.items():`
			`tag = self.strings[tag_str]`
* Fix morphology loading 2015-09-10 15:52:23 +03:00			`tag_id = self.reverse_index[tag]`
			`rich_tag = self.rich_tags[tag_id]`
* Work on new morphology organization 2015-08-28 00:11:51 +03:00			`for form_str, props in entries.items():`
			`cached = <MorphAnalysisC*>self.mem.alloc(1, sizeof(MorphAnalysisC))`
* Fix morphology loading 2015-09-10 15:52:23 +03:00			`cached.tag = rich_tag`
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`orth = self.strings[form_str]`
			`for name_str, value_str in props.items():`
			`if name_str == 'L':`
			`cached.lemma = self.strings[value_str]`
			`else:`
			`self.assign_feature(&cached.tag.morph, name_str, value_str)`
			`if cached.lemma == 0:`
			`cached.lemma = self.lemmatize(rich_tag.pos, orth)`
* Fix morphology loading 2015-09-10 15:52:23 +03:00			`self._cache.set(tag_id, orth, <void*>cached)`
* Hack Morphology class towards usability 2015-08-26 20:17:21 +03:00
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`def lemmatize(self, const univ_pos_t pos, attr_t orth):`
			`if self.lemmatizer is None:`
			`return orth`
			`cdef unicode py_string = self.strings[orth]`
* Allow punctuation to be lemmatized 2015-10-09 11:02:42 +03:00			`if pos != NOUN and pos != VERB and pos != ADJ and pos != PUNCT:`
* More work on language-generic parsing 2015-08-28 03:02:33 +03:00			`return orth`
			`cdef set lemma_strings`
			`cdef unicode lemma_string`
			`lemma_strings = self.lemmatizer(py_string, pos)`
			`lemma_string = sorted(lemma_strings)[0]`
			`lemma = self.strings[lemma_string]`
			`return lemma`