diff --git a/spacy/tests/lang/fo/test_tokenizer.py b/spacy/tests/lang/fo/test_tokenizer.py index d31aa100f..e61a62be5 100644 --- a/spacy/tests/lang/fo/test_tokenizer.py +++ b/spacy/tests/lang/fo/test_tokenizer.py @@ -1,70 +1,22 @@ import pytest # examples taken from Basic LAnguage Resource Kit 1.0 for Faroese (https://maltokni.fo/en/resources) licensed with CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) +# fmt: off FO_TOKEN_EXCEPTION_TESTS = [ ( "Eftir løgtingslóg um samsýning og eftirløn landsstýrismanna v.m., skulu løgmaður og landsstýrismenn vanliga siga frá sær størv í almennari tænastu ella privatum virkjum, samtøkum ella stovnum. ", [ - "Eftir", - "løgtingslóg", - "um", - "samsýning", - "og", - "eftirløn", - "landsstýrismanna", - "v.m.", - ",", - "skulu", - "løgmaður", - "og", - "landsstýrismenn", - "vanliga", - "siga", - "frá", - "sær", - "størv", - "í", - "almennari", - "tænastu", - "ella", - "privatum", - "virkjum", - ",", - "samtøkum", - "ella", - "stovnum", - ".", + "Eftir", "løgtingslóg", "um", "samsýning", "og", "eftirløn", "landsstýrismanna", "v.m.", ",", "skulu", "løgmaður", "og", "landsstýrismenn", "vanliga", "siga", "frá", "sær", "størv", "í", "almennari", "tænastu", "ella", "privatum", "virkjum", ",", "samtøkum", "ella", "stovnum", ".", ], ), ( "Sambandsflokkurin gongur aftur við 2,7 prosentum í mun til valið í 1994, tá flokkurin fekk undirtøku frá 23,4 prosent av veljarunum.", [ - "Sambandsflokkurin", - "gongur", - "aftur", - "við", - "2,7", - "prosentum", - "í", - "mun", - "til", - "valið", - "í", - "1994", - ",", - "tá", - "flokkurin", - "fekk", - "undirtøku", - "frá", - "23,4", - "prosent", - "av", - "veljarunum", - ".", + "Sambandsflokkurin", "gongur", "aftur", "við", "2,7", "prosentum", "í", "mun", "til", "valið", "í", "1994", ",", "tá", "flokkurin", "fekk", "undirtøku", "frá", "23,4", "prosent", "av", "veljarunum", ".", ], ), ] +# fmt: on @pytest.mark.parametrize("text,expected_tokens", FO_TOKEN_EXCEPTION_TESTS) diff --git a/spacy/tests/lang/nn/test_tokenizer.py b/spacy/tests/lang/nn/test_tokenizer.py index 9d607072e..74a6937bd 100644 --- a/spacy/tests/lang/nn/test_tokenizer.py +++ b/spacy/tests/lang/nn/test_tokenizer.py @@ -1,105 +1,34 @@ import pytest # examples taken from Omsetjingsminne frå Nynorsk pressekontor 2022 (https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-80/) +# fmt: off NN_TOKEN_EXCEPTION_TESTS = [ ( "Målet til direktoratet er at alle skal bli tilbydd jobb i politiet så raskt som mogleg i 2014.", [ - "Målet", - "til", - "direktoratet", - "er", - "at", - "alle", - "skal", - "bli", - "tilbydd", - "jobb", - "i", - "politiet", - "så", - "raskt", - "som", - "mogleg", - "i", - "2014", - ".", + "Målet", "til", "direktoratet", "er", "at", "alle", "skal", "bli", "tilbydd", "jobb", "i", "politiet", "så", "raskt", "som", "mogleg", "i", "2014", ".", ], ), ( "Han ønskjer ikkje at staten skal vere med på å finansiere slik undervisning, men dette er rektor på skulen ueinig i.", [ - "Han", - "ønskjer", - "ikkje", - "at", - "staten", - "skal", - "vere", - "med", - "på", - "å", - "finansiere", - "slik", - "undervisning", - ",", - "men", - "dette", - "er", - "rektor", - "på", - "skulen", - "ueinig", - "i", - ".", + "Han", "ønskjer", "ikkje", "at", "staten", "skal", "vere", "med", "på", "å", "finansiere", "slik", "undervisning", ",", "men", "dette", "er", "rektor", "på", "skulen", "ueinig", "i", ".", ], ), ( "Ifølgje China Daily vart det 8.848 meter høge fjellet flytta 3 centimeter sørvestover under jordskjelvet, som vart målt til 7,8.", [ - "Ifølgje", - "China", - "Daily", - "vart", - "det", - "8.848", - "meter", - "høge", - "fjellet", - "flytta", - "3", - "centimeter", - "sørvestover", - "under", - "jordskjelvet", - ",", - "som", - "vart", - "målt", - "til", - "7,8", - ".", + "Ifølgje", "China", "Daily", "vart", "det", "8.848", "meter", "høge", "fjellet", "flytta", "3", "centimeter", "sørvestover", "under", "jordskjelvet", ",", "som", "vart", "målt", "til", "7,8", ".", ], ), ( "Brukssesongen er frå nov. til mai, med ein topp i mars.", [ - "Brukssesongen", - "er", - "frå", - "nov.", - "til", - "mai", - ",", - "med", - "ein", - "topp", - "i", - "mars", - ".", + "Brukssesongen", "er", "frå", "nov.", "til", "mai", ",", "med", "ein", "topp", "i", "mars", ".", ], ), ] +# fmt: on @pytest.mark.parametrize("text,expected_tokens", NN_TOKEN_EXCEPTION_TESTS)