spaCy/spacy/tests/lang/fi/test_noun_chunks.py

import pytest
from spacy.tokens import Doc


FI_NP_TEST_EXAMPLES = [
    (
        "Kaksi tyttöä potkii punaista palloa",
        ["NUM", "NOUN", "VERB", "ADJ", "NOUN"],
        ["nummod", "nsubj", "ROOT", "amod", "obj"],
        [1, 1, 0, 1, -2],
        ["Kaksi tyttöä", "punaista palloa"],
    ),
    (
        "Erittäin vaarallinen leijona karkasi kiertävän sirkuksen eläintenkesyttäjältä",
        ["ADV", "ADJ", "NOUN", "VERB", "ADJ", "NOUN", "NOUN"],
        ["advmod", "amod", "nsubj", "ROOT", "amod", "nmod:poss", "obl"],
        [1, 1, 1, 0, 1, 1, -3],
        ["Erittäin vaarallinen leijona", "kiertävän sirkuksen eläintenkesyttäjältä"],
    ),
    (
        "Leijona raidallisine tassuineen piileksii Porin kaupungin lähellä",
        ["NOUN", "ADJ", "NOUN", "VERB", "PROPN", "NOUN", "ADP"],
        ["nsubj", "amod", "nmod", "ROOT", "nmod:poss", "obl", "case"],
        [3, 1, -2, 0, 1, -2, -1],
        ["Leijona raidallisine tassuineen", "Porin kaupungin"],
    ),
    (
        "Lounaalla nautittiin salaattia, maukasta kanaa ja raikasta vettä",
        ["NOUN", "VERB", "NOUN", "PUNCT", "ADJ", "NOUN", "CCONJ", "ADJ", "NOUN"],
        ["obl", "ROOT", "obj", "punct", "amod", "conj", "cc", "amod", "conj"],
        [1, 0, -1, 2, 1, -3, 2, 1, -6],
        ["Lounaalla", "salaattia", "maukasta kanaa", "raikasta vettä"],
    ),
    (
        "Minua houkuttaa maalle muuttaminen talven jälkeen",
        ["PRON", "VERB", "NOUN", "NOUN", "NOUN", "ADP"],
        ["obj", "ROOT", "nmod", "nsubj", "obl", "case"],
        [1, 0, 1, -2, -3, -1],
        ["maalle muuttaminen", "talven"],
    ),
    (
        "Päivän kohokohta oli vierailu museossa kummilasten kanssa",
        ["NOUN", "NOUN", "AUX", "NOUN", "NOUN", "NOUN", "ADP"],
        ["nmod:poss", "nsubj:cop", "cop", "ROOT", "nmod", "obl", "case"],
        [1, 2, 1, 0, -1, -2, -1],
        ["Päivän kohokohta", "vierailu museossa", "kummilasten"],
    ),
    (
        "Yrittäjät maksoivat tuomioistuimen määräämät korvaukset",
        ["NOUN", "VERB", "NOUN", "VERB", "NOUN"],
        ["nsubj", "ROOT", "nsubj", "acl", "obj"],
        [1, 0, 1, 1, -3],
        ["Yrittäjät", "tuomioistuimen", "korvaukset"],
    ),
    (
        "Julkisoikeudelliset tai niihin rinnastettavat saatavat ovat suoraan ulosottokelpoisia",
        ["ADJ", "CCONJ", "PRON", "VERB", "NOUN", "AUX", "ADV", "NOUN"],
        ["amod", "cc", "obl", "acl", "nsubj:cop", "cop", "advmod", "ROOT"],
        [4, 3, 1, 1, 3, 2, 1, 0],
        ["Julkisoikeudelliset tai niihin rinnastettavat saatavat", "ulosottokelpoisia"],
    ),
    (
        "Se oli ala-arvoista käytöstä kaikilta oppilailta, myös valvojaoppilailta",
        ["PRON", "AUX", "ADJ", "NOUN", "PRON", "NOUN", "PUNCT", "ADV", "NOUN"],
        ["nsubj:cop", "cop", "amod", "ROOT", "det", "nmod", "punct", "advmod", "appos"],
        [3, 2, 1, 0, 1, -2, 2, 1, -3],
        ["ala-arvoista käytöstä kaikilta oppilailta", "valvojaoppilailta"],
    ),
    (
        "Isä souti veneellä, jonka hän oli vuokrannut",
        ["NOUN", "VERB", "NOUN", "PUNCT", "PRON", "PRON", "AUX", "VERB"],
        ["nsubj", "ROOT", "obl", "punct", "obj", "nsubj", "aux", "acl:relcl"],
        [1, 0, -1, 4, 3, 2, 1, -5],
        ["Isä", "veneellä"],
    ),
    (
        "Kirja, jonka poimin hyllystä, kertoo norsuista",
        ["NOUN", "PUNCT", "PRON", "VERB", "NOUN", "PUNCT", "VERB", "NOUN"],
        ["nsubj", "punct", "obj", "acl:relcl", "obl", "punct", "ROOT", "obl"],
        [6, 2, 1, -3, -1, 1, 0, -1],
        ["Kirja", "hyllystä", "norsuista"],
    ),
    (
        "Huomenna on päivä, jota olemme odottaneet",
        ["NOUN", "AUX", "NOUN", "PUNCT", "PRON", "AUX", "VERB"],
        ["ROOT", "cop", "nsubj:cop", "punct", "obj", "aux", "acl:relcl"],
        [0, -1, -2, 3, 2, 1, -4],
        ["Huomenna", "päivä"],
    ),
    (
        "Liikkuvuuden lisääminen on yksi korkeakoulutuksen keskeisistä kehittämiskohteista",
        ["NOUN", "NOUN", "AUX", "PRON", "NOUN", "ADJ", "NOUN"],
        ["nmod:gobj", "nsubj:cop", "cop", "ROOT", "nmod:poss", "amod", "nmod"],
        [1, 2, 1, 0, 2, 1, -3],
        [
            "Liikkuvuuden lisääminen",
            "korkeakoulutuksen keskeisistä kehittämiskohteista",
        ],
    ),
    (
        "Kaupalliset palvelut jätetään yksityisten palveluntarjoajien tarjottavaksi",
        ["ADJ", "NOUN", "VERB", "ADJ", "NOUN", "NOUN"],
        ["amod", "obj", "ROOT", "amod", "nmod:gsubj", "obl"],
        [1, 1, 0, 1, 1, -3],
        ["Kaupalliset palvelut", "yksityisten palveluntarjoajien tarjottavaksi"],
    ),
    (
        "New York tunnetaan kaupunkina, joka ei koskaan nuku",
        ["PROPN", "PROPN", "VERB", "NOUN", "PUNCT", "PRON", "AUX", "ADV", "VERB"],
        ["obj", "flat:name", "ROOT", "obl", "punct", "nsubj", "aux", "advmod", "acl:relcl"],
        [2, -1, 0, -1, 4, 3, 2, 1, -5],
        ["New York", "kaupunkina"],
    ),
    (
        "Loput vihjeet saat herra Möttöseltä",
        ["NOUN", "NOUN", "VERB", "NOUN", "PROPN"],
        ["compound:nn", "obj", "ROOT", "compound:nn", "obj"],
        [1, 1, 0, 1, -2],
        ["Loput vihjeet", "herra Möttöseltä"],
    ),
    (
        "mahdollisuus tukea muita päivystysyksiköitä",
        ["NOUN", "VERB", "PRON", "NOUN"],
        ["ROOT", "acl", "det", "obj"],
        [0, -1, 1, -2],
        ["mahdollisuus", "päivystysyksiköitä"],
    ),
    (
        "sairaanhoitopiirit harjoittavat leikkaustoimintaa alueellaan useammassa sairaalassa",
        ["NOUN", "VERB", "NOUN", "NOUN", "ADJ", "NOUN"],
        ["nsubj", "ROOT", "obj", "obl", "amod", "obl"],
        [1, 0, -1, -1, 1, -3],
        ["sairaanhoitopiirit", "leikkaustoimintaa", "alueellaan", "useammassa sairaalassa"],
    ),
    (
        "Lain mukaan varhaiskasvatus on suunnitelmallista toimintaa",
        ["NOUN", "ADP", "NOUN", "AUX", "ADJ", "NOUN"],
        ["obl", "case", "nsubj:cop", "cop", "amod", "ROOT"],
        [5, -1, 3, 2, 1, 0],
        ["Lain", "varhaiskasvatus", "suunnitelmallista toimintaa"],
    ),
]


def test_noun_chunks_is_parsed(fi_tokenizer):
    """Test that noun_chunks raises Value Error for 'fi' language if Doc is not parsed.
    To check this test, we're constructing a Doc
    with a new Vocab here and forcing is_parsed to 'False'
    to make sure the noun chunks don't run.
    """
    doc = fi_tokenizer("Tämä on testi")
    with pytest.raises(ValueError):
        list(doc.noun_chunks)


@pytest.mark.parametrize(
    "text,pos,deps,heads,expected_noun_chunks", FI_NP_TEST_EXAMPLES
)
def test_fi_noun_chunks(fi_tokenizer, text, pos, deps, heads, expected_noun_chunks):
    tokens = fi_tokenizer(text)

    assert len(heads) == len(pos)
    doc = Doc(
        tokens.vocab,
        words=[t.text for t in tokens],
        heads=[head + i for i, head in enumerate(heads)],
        deps=deps,
        pos=pos,
    )

    noun_chunks = list(doc.noun_chunks)
    assert len(noun_chunks) == len(expected_noun_chunks)
    for i, np in enumerate(noun_chunks):
        assert np.text == expected_noun_chunks[i]
Add a noun chunker for Finnish (#10214) with test cases 2022-02-08 10:44:11 +03:00			`import pytest`
			`from spacy.tokens import Doc`


			`FI_NP_TEST_EXAMPLES = [`
			`(`
			`"Kaksi tyttöä potkii punaista palloa",`
			`["NUM", "NOUN", "VERB", "ADJ", "NOUN"],`
			`["nummod", "nsubj", "ROOT", "amod", "obj"],`
			`[1, 1, 0, 1, -2],`
			`["Kaksi tyttöä", "punaista palloa"],`
			`),`
			`(`
			`"Erittäin vaarallinen leijona karkasi kiertävän sirkuksen eläintenkesyttäjältä",`
			`["ADV", "ADJ", "NOUN", "VERB", "ADJ", "NOUN", "NOUN"],`
			`["advmod", "amod", "nsubj", "ROOT", "amod", "nmod:poss", "obl"],`
			`[1, 1, 1, 0, 1, 1, -3],`
			`["Erittäin vaarallinen leijona", "kiertävän sirkuksen eläintenkesyttäjältä"],`
			`),`
			`(`
			`"Leijona raidallisine tassuineen piileksii Porin kaupungin lähellä",`
			`["NOUN", "ADJ", "NOUN", "VERB", "PROPN", "NOUN", "ADP"],`
			`["nsubj", "amod", "nmod", "ROOT", "nmod:poss", "obl", "case"],`
			`[3, 1, -2, 0, 1, -2, -1],`
			`["Leijona raidallisine tassuineen", "Porin kaupungin"],`
			`),`
			`(`
			`"Lounaalla nautittiin salaattia, maukasta kanaa ja raikasta vettä",`
			`["NOUN", "VERB", "NOUN", "PUNCT", "ADJ", "NOUN", "CCONJ", "ADJ", "NOUN"],`
			`["obl", "ROOT", "obj", "punct", "amod", "conj", "cc", "amod", "conj"],`
			`[1, 0, -1, 2, 1, -3, 2, 1, -6],`
			`["Lounaalla", "salaattia", "maukasta kanaa", "raikasta vettä"],`
			`),`
			`(`
			`"Minua houkuttaa maalle muuttaminen talven jälkeen",`
			`["PRON", "VERB", "NOUN", "NOUN", "NOUN", "ADP"],`
			`["obj", "ROOT", "nmod", "nsubj", "obl", "case"],`
			`[1, 0, 1, -2, -3, -1],`
			`["maalle muuttaminen", "talven"],`
			`),`
			`(`
			`"Päivän kohokohta oli vierailu museossa kummilasten kanssa",`
			`["NOUN", "NOUN", "AUX", "NOUN", "NOUN", "NOUN", "ADP"],`
			`["nmod:poss", "nsubj:cop", "cop", "ROOT", "nmod", "obl", "case"],`
			`[1, 2, 1, 0, -1, -2, -1],`
			`["Päivän kohokohta", "vierailu museossa", "kummilasten"],`
			`),`
			`(`
			`"Yrittäjät maksoivat tuomioistuimen määräämät korvaukset",`
			`["NOUN", "VERB", "NOUN", "VERB", "NOUN"],`
			`["nsubj", "ROOT", "nsubj", "acl", "obj"],`
			`[1, 0, 1, 1, -3],`
			`["Yrittäjät", "tuomioistuimen", "korvaukset"],`
			`),`
			`(`
			`"Julkisoikeudelliset tai niihin rinnastettavat saatavat ovat suoraan ulosottokelpoisia",`
			`["ADJ", "CCONJ", "PRON", "VERB", "NOUN", "AUX", "ADV", "NOUN"],`
			`["amod", "cc", "obl", "acl", "nsubj:cop", "cop", "advmod", "ROOT"],`
			`[4, 3, 1, 1, 3, 2, 1, 0],`
			`["Julkisoikeudelliset tai niihin rinnastettavat saatavat", "ulosottokelpoisia"],`
			`),`
			`(`
			`"Se oli ala-arvoista käytöstä kaikilta oppilailta, myös valvojaoppilailta",`
			`["PRON", "AUX", "ADJ", "NOUN", "PRON", "NOUN", "PUNCT", "ADV", "NOUN"],`
			`["nsubj:cop", "cop", "amod", "ROOT", "det", "nmod", "punct", "advmod", "appos"],`
			`[3, 2, 1, 0, 1, -2, 2, 1, -3],`
			`["ala-arvoista käytöstä kaikilta oppilailta", "valvojaoppilailta"],`
			`),`
			`(`
			`"Isä souti veneellä, jonka hän oli vuokrannut",`
			`["NOUN", "VERB", "NOUN", "PUNCT", "PRON", "PRON", "AUX", "VERB"],`
			`["nsubj", "ROOT", "obl", "punct", "obj", "nsubj", "aux", "acl:relcl"],`
			`[1, 0, -1, 4, 3, 2, 1, -5],`
			`["Isä", "veneellä"],`
			`),`
			`(`
			`"Kirja, jonka poimin hyllystä, kertoo norsuista",`
			`["NOUN", "PUNCT", "PRON", "VERB", "NOUN", "PUNCT", "VERB", "NOUN"],`
			`["nsubj", "punct", "obj", "acl:relcl", "obl", "punct", "ROOT", "obl"],`
			`[6, 2, 1, -3, -1, 1, 0, -1],`
			`["Kirja", "hyllystä", "norsuista"],`
			`),`
			`(`
			`"Huomenna on päivä, jota olemme odottaneet",`
			`["NOUN", "AUX", "NOUN", "PUNCT", "PRON", "AUX", "VERB"],`
			`["ROOT", "cop", "nsubj:cop", "punct", "obj", "aux", "acl:relcl"],`
			`[0, -1, -2, 3, 2, 1, -4],`
			`["Huomenna", "päivä"],`
			`),`
			`(`
			`"Liikkuvuuden lisääminen on yksi korkeakoulutuksen keskeisistä kehittämiskohteista",`
			`["NOUN", "NOUN", "AUX", "PRON", "NOUN", "ADJ", "NOUN"],`
			`["nmod:gobj", "nsubj:cop", "cop", "ROOT", "nmod:poss", "amod", "nmod"],`
			`[1, 2, 1, 0, 2, 1, -3],`
			`[`
			`"Liikkuvuuden lisääminen",`
			`"korkeakoulutuksen keskeisistä kehittämiskohteista",`
			`],`
			`),`
			`(`
			`"Kaupalliset palvelut jätetään yksityisten palveluntarjoajien tarjottavaksi",`
			`["ADJ", "NOUN", "VERB", "ADJ", "NOUN", "NOUN"],`
			`["amod", "obj", "ROOT", "amod", "nmod:gsubj", "obl"],`
			`[1, 1, 0, 1, 1, -3],`
			`["Kaupalliset palvelut", "yksityisten palveluntarjoajien tarjottavaksi"],`
			`),`
			`(`
			`"New York tunnetaan kaupunkina, joka ei koskaan nuku",`
			`["PROPN", "PROPN", "VERB", "NOUN", "PUNCT", "PRON", "AUX", "ADV", "VERB"],`
			`["obj", "flat:name", "ROOT", "obl", "punct", "nsubj", "aux", "advmod", "acl:relcl"],`
			`[2, -1, 0, -1, 4, 3, 2, 1, -5],`
			`["New York", "kaupunkina"],`
			`),`
			`(`
			`"Loput vihjeet saat herra Möttöseltä",`
			`["NOUN", "NOUN", "VERB", "NOUN", "PROPN"],`
			`["compound:nn", "obj", "ROOT", "compound:nn", "obj"],`
			`[1, 1, 0, 1, -2],`
			`["Loput vihjeet", "herra Möttöseltä"],`
			`),`
			`(`
			`"mahdollisuus tukea muita päivystysyksiköitä",`
			`["NOUN", "VERB", "PRON", "NOUN"],`
			`["ROOT", "acl", "det", "obj"],`
			`[0, -1, 1, -2],`
			`["mahdollisuus", "päivystysyksiköitä"],`
			`),`
			`(`
			`"sairaanhoitopiirit harjoittavat leikkaustoimintaa alueellaan useammassa sairaalassa",`
			`["NOUN", "VERB", "NOUN", "NOUN", "ADJ", "NOUN"],`
			`["nsubj", "ROOT", "obj", "obl", "amod", "obl"],`
			`[1, 0, -1, -1, 1, -3],`
			`["sairaanhoitopiirit", "leikkaustoimintaa", "alueellaan", "useammassa sairaalassa"],`
			`),`
			`(`
			`"Lain mukaan varhaiskasvatus on suunnitelmallista toimintaa",`
			`["NOUN", "ADP", "NOUN", "AUX", "ADJ", "NOUN"],`
			`["obl", "case", "nsubj:cop", "cop", "amod", "ROOT"],`
			`[5, -1, 3, 2, 1, 0],`
			`["Lain", "varhaiskasvatus", "suunnitelmallista toimintaa"],`
			`),`
			`]`


			`def test_noun_chunks_is_parsed(fi_tokenizer):`
			`"""Test that noun_chunks raises Value Error for 'fi' language if Doc is not parsed.`
			`To check this test, we're constructing a Doc`
			`with a new Vocab here and forcing is_parsed to 'False'`
			`to make sure the noun chunks don't run.`
			`"""`
			`doc = fi_tokenizer("Tämä on testi")`
			`with pytest.raises(ValueError):`
			`list(doc.noun_chunks)`


			`@pytest.mark.parametrize(`
			`"text,pos,deps,heads,expected_noun_chunks", FI_NP_TEST_EXAMPLES`
			`)`
			`def test_fi_noun_chunks(fi_tokenizer, text, pos, deps, heads, expected_noun_chunks):`
			`tokens = fi_tokenizer(text)`

			`assert len(heads) == len(pos)`
			`doc = Doc(`
			`tokens.vocab,`
			`words=[t.text for t in tokens],`
			`heads=[head + i for i, head in enumerate(heads)],`
			`deps=deps,`
			`pos=pos,`
			`)`

			`noun_chunks = list(doc.noun_chunks)`
			`assert len(noun_chunks) == len(expected_noun_chunks)`
			`for i, np in enumerate(noun_chunks):`
			`assert np.text == expected_noun_chunks[i]`