spaCy/spacy/lexeme.pyx

from cpython.ref cimport Py_INCREF
from cymem.cymem cimport Pool


cdef LexemeC* lexeme_init(Pool mem, size_t i, unicode string, double prob,
                          size_t cluster, list views, set flags):
    cdef LexemeC* lexeme = <LexemeC*>mem.alloc(1, sizeof(LexemeC))
    lexeme.i = i
    lexeme.cluster = cluster
    lexeme.prob = prob
    lexeme.string = intern_and_encode(string, &lexeme.length)
    lexeme.views = <char**>mem.alloc(len(views), sizeof(char*))
    cdef size_t length = 0
    for i, string in enumerate(views):
        lexeme.views[i] = intern_and_encode(string, &length)

    for active_flag in flags:
        lexeme.flags |= (1 << active_flag)
    return lexeme


cdef char* intern_and_encode(unicode string, size_t* length):
    cdef bytes byte_string = string.encode('utf8')
    cdef bytes utf8_string = intern(byte_string)
    Py_INCREF(utf8_string)
    length[0] = len(utf8_string)
    return <char*>utf8_string


cdef bint lexeme_check_flag(LexemeC* lexeme, size_t flag_id):
    return lexeme.flags & (1 << flag_id)


cdef unicode lexeme_string_view(LexemeC* lexeme, size_t view_id):
    cdef bytes byte_string = lexeme.views[view_id]
    return byte_string.decode('utf8')


cdef dict lexeme_pack(LexemeC* lexeme):
    cdef dict packed = {}
    packed['i'] = lexeme.i
    packed['length'] = lexeme.length
    packed['prob'] = lexeme.prob
    packed['cluster'] = lexeme.cluster
    packed['string'] = lexeme.string.decode('utf8')
    packed['views'] = []
    cdef size_t i = 0
    while lexeme.views[i] != NULL:
        packed['views'].append(lexeme.views[i].decode('utf8'))
        i += 1
    packed['flags'] = lexeme.flags
    return packed


cdef int lexeme_unpack(LexemeC* lex, dict p) except -1:
    cdef size_t length
    lex.i = p['i']
    lex.length = p['length']
    lex.prob = p['prob']
    lex.cluster = p['cluster']
    lex.string = intern_and_encode(p['string'], &length)
    for i, view in enumerate(p['views']):
        lex.views[i] = intern_and_encode(view, &length)
    lex.flags = p['flags']
* Upd Tokens to use vector, with bounds checking. 2014-09-15 05:22:40 +04:00			`from cpython.ref cimport Py_INCREF`
* Switch from own memory class to cymem, in pip 2014-09-18 01:09:24 +04:00			`from cymem.cymem cimport Pool`
* Upd Tokens to use vector, with bounds checking. 2014-09-15 05:22:40 +04:00
* Restoring Lexeme-as-struct 2014-09-10 22:41:37 +04:00
* Add i attribute to lexeme, giving lexemes sequential IDs. 2014-10-09 06:50:05 +04:00			`cdef LexemeC* lexeme_init(Pool mem, size_t i, unicode string, double prob,`
			`size_t cluster, list views, set flags):`
* Switch to using a Python ref counted gateway to malloc/free, to prevent memory leaks 2014-09-17 22:02:26 +04:00			`cdef LexemeC* lexeme = <LexemeC*>mem.alloc(1, sizeof(LexemeC))`
* Add i attribute to lexeme, giving lexemes sequential IDs. 2014-10-09 06:50:05 +04:00			`lexeme.i = i`
* Restoring Lexeme-as-struct 2014-09-10 22:41:37 +04:00			`lexeme.cluster = cluster`
			`lexeme.prob = prob`
* Move EnglishTokens stuff to Tokens 2014-09-15 03:31:44 +04:00			`lexeme.string = intern_and_encode(string, &lexeme.length)`
* Switch to using a Python ref counted gateway to malloc/free, to prevent memory leaks 2014-09-17 22:02:26 +04:00			`lexeme.views = <char*>mem.alloc(len(views), sizeof(char))`
* Move EnglishTokens stuff to Tokens 2014-09-15 03:31:44 +04:00			`cdef size_t length = 0`
* Restoring Lexeme-as-struct 2014-09-10 22:41:37 +04:00			`for i, string in enumerate(views):`
* Move EnglishTokens stuff to Tokens 2014-09-15 03:31:44 +04:00			`lexeme.views[i] = intern_and_encode(string, &length)`
* Restoring Lexeme-as-struct 2014-09-10 22:41:37 +04:00
			`for active_flag in flags:`
			`lexeme.flags \|= (1 << active_flag)`
			`return lexeme`


* Move EnglishTokens stuff to Tokens 2014-09-15 03:31:44 +04:00			`cdef char* intern_and_encode(unicode string, size_t* length):`
* Fiddle with the way strings are interned in lexeme 2014-09-15 08:34:45 +04:00			`cdef bytes byte_string = string.encode('utf8')`
			`cdef bytes utf8_string = intern(byte_string)`
* Upd Tokens to use vector, with bounds checking. 2014-09-15 05:22:40 +04:00			`Py_INCREF(utf8_string)`
* Move EnglishTokens stuff to Tokens 2014-09-15 03:31:44 +04:00			`length[0] = len(utf8_string)`
* Restoring Lexeme-as-struct 2014-09-10 22:41:37 +04:00			`return <char*>utf8_string`


			`cdef bint lexeme_check_flag(LexemeC* lexeme, size_t flag_id):`
			`return lexeme.flags & (1 << flag_id)`


			`cdef unicode lexeme_string_view(LexemeC* lexeme, size_t view_id):`
			`cdef bytes byte_string = lexeme.views[view_id]`
			`return byte_string.decode('utf8')`
* Add serialize/deserialize functions for lexeme, transport to/from python dict. 2014-10-09 07:10:46 +04:00

			`cdef dict lexeme_pack(LexemeC* lexeme):`
			`cdef dict packed = {}`
			`packed['i'] = lexeme.i`
			`packed['length'] = lexeme.length`
			`packed['prob'] = lexeme.prob`
			`packed['cluster'] = lexeme.cluster`
			`packed['string'] = lexeme.string.decode('utf8')`
			`packed['views'] = []`
			`cdef size_t i = 0`
			`while lexeme.views[i] != NULL:`
			`packed['views'].append(lexeme.views[i].decode('utf8'))`
			`i += 1`
			`packed['flags'] = lexeme.flags`
			`return packed`


			`cdef int lexeme_unpack(LexemeC* lex, dict p) except -1:`
			`cdef size_t length`
			`lex.i = p['i']`
			`lex.length = p['length']`
			`lex.prob = p['prob']`
			`lex.cluster = p['cluster']`
			`lex.string = intern_and_encode(p['string'], &length)`
			`for i, view in enumerate(p['views']):`
			`lex.views[i] = intern_and_encode(view, &length)`
			`lex.flags = p['flags']`