spaCy/spacy/tests/tokens/test_noun_chunks.py

import numpy as np

from spacy.attrs import HEAD, DEP
from spacy.symbols import nsubj, dobj, punct, amod, nmod, conj, cc, root
from spacy.en import English


def test_not_nested():
    nlp = English(parser=False)
    sent = u'''Peter has chronic command and control issues'''.strip()
    tokens = nlp(sent)
    tokens.from_array(
        [HEAD, DEP],
        np.asarray(
            [
                [1, nsubj],
                [0, root],
                [4, amod],
                [3, nmod],
                [-1, cc],
                [-2, conj],
                [-5, dobj]
            ], dtype='int32'))
    for chunk in tokens.noun_chunks:
        print(chunk.text)
    word_occurred = {}
    for chunk in tokens.noun_chunks:
        for word in chunk:
            word_occurred.setdefault(word.text, 0)
            word_occurred[word.text] += 1
    for word, freq in word_occurred.items():
        assert freq == 1, (word, [chunk.text for chunk in tokens.noun_chunks])
* Add test for Issue #203: noun chunks should be flat, but sometimes are nested 2016-01-16 19:41:25 +03:00			`import numpy as np`

			`from spacy.attrs import HEAD, DEP`
			`from spacy.symbols import nsubj, dobj, punct, amod, nmod, conj, cc, root`
			`from spacy.en import English`



			`def test_not_nested():`
			`nlp = English(parser=False)`
			`sent = u'''Peter has chronic command and control issues'''.strip()`
			`tokens = nlp(sent)`
			`tokens.from_array(`
			`[HEAD, DEP],`
			`np.asarray(`
			`[`
			`[1, nsubj],`
			`[0, root],`
			`[4, amod],`
			`[3, nmod],`
			`[-1, cc],`
			`[-2, conj],`
			`[-5, dobj]`
			`], dtype='int32'))`
* Add test for Issue #203: nested noun chunks. 2016-01-16 20:02:30 +03:00			`for chunk in tokens.noun_chunks:`
			`print(chunk.text)`
* Add test for Issue #203: noun chunks should be flat, but sometimes are nested 2016-01-16 19:41:25 +03:00			`word_occurred = {}`
			`for chunk in tokens.noun_chunks:`
			`for word in chunk:`
			`word_occurred.setdefault(word.text, 0)`
			`word_occurred[word.text] += 1`
			`for word, freq in word_occurred.items():`
			`assert freq == 1, (word, [chunk.text for chunk in tokens.noun_chunks])`