From 6e280657275f37bcb4cfeb4ab09809332ebf2f07 Mon Sep 17 00:00:00 2001
From: Lise Brinck <lise.brinck@vitecsoftware.com>
Date: Tue, 7 Nov 2023 14:33:29 +0100
Subject: [PATCH] add unittests for fo and nn and fix bug in nn

---
 spacy/lang/nn/__init__.py             |  2 +-
 spacy/tests/lang/fo/test_tokenizer.py | 19 +++++++++++++++++++
 spacy/tests/lang/nn/test_tokenizer.py | 27 +++++++++++++++++++++++++++
 3 files changed, 47 insertions(+), 1 deletion(-)
 create mode 100644 spacy/tests/lang/fo/test_tokenizer.py
 create mode 100644 spacy/tests/lang/nn/test_tokenizer.py

diff --git a/spacy/lang/nn/__init__.py b/spacy/lang/nn/__init__.py
index 18a8b76cd..eb1258b0d 100644
--- a/spacy/lang/nn/__init__.py
+++ b/spacy/lang/nn/__init__.py
@@ -19,4 +19,4 @@ class NorwegianNynorsk(Language):
     Defaults = NorwegianNynorskDefaults
 
 
-__all__ = ["Norwegian"]
+__all__ = ["NorwegianNynorsk"]
diff --git a/spacy/tests/lang/fo/test_tokenizer.py b/spacy/tests/lang/fo/test_tokenizer.py
new file mode 100644
index 000000000..d1041c072
--- /dev/null
+++ b/spacy/tests/lang/fo/test_tokenizer.py
@@ -0,0 +1,19 @@
+import pytest
+
+FO_TOKEN_EXCEPTION_TESTS = [
+    (
+        "Eftir løgtingslóg um samsýning og eftirløn landsstýrismanna v.m., skulu løgmaður og landsstýrismenn vanliga siga frá sær størv í almennari tænastu ella privatum virkjum, samtøkum ella stovnum. ",
+        ["Eftir", "løgtingslóg", "um", "samsýning", "og", "eftirløn", "landsstýrismanna", "v.m.", ",", "skulu", "løgmaður", "og", "landsstýrismenn", "vanliga", "siga", "frá", "sær", "størv", "í", "almennari", "tænastu", "ella", "privatum", "virkjum", ",", "samtøkum", "ella", "stovnum", "."],
+    ),
+    (
+        "Sambandsflokkurin gongur aftur við 2,7 prosentum í mun til valið í 1994, tá flokkurin fekk undirtøku frá 23,4 prosent av veljarunum.",
+        ["Sambandsflokkurin", "gongur", "aftur", "við", "2,7", "prosentum", "í", "mun", "til", "valið", "í", "1994", ",", "tá", "flokkurin", "fekk", "undirtøku", "frá", "23,4", "prosent", "av", "veljarunum", "."],
+    ),
+]
+
+
+@pytest.mark.parametrize("text,expected_tokens", FO_TOKEN_EXCEPTION_TESTS)
+def test_fo_tokenizer_handles_exception_cases(fo_tokenizer, text, expected_tokens):
+    tokens = fo_tokenizer(text)
+    token_list = [token.text for token in tokens if not token.is_space]
+    assert expected_tokens == token_list
diff --git a/spacy/tests/lang/nn/test_tokenizer.py b/spacy/tests/lang/nn/test_tokenizer.py
new file mode 100644
index 000000000..e68bf0f81
--- /dev/null
+++ b/spacy/tests/lang/nn/test_tokenizer.py
@@ -0,0 +1,27 @@
+import pytest
+
+NN_TOKEN_EXCEPTION_TESTS = [
+    (
+        "Målet til direktoratet er at alle skal bli tilbydd jobb i politiet så raskt som mogleg i 2014.",
+        ["Målet", "til", "direktoratet", "er", "at", "alle", "skal", "bli", "tilbydd", "jobb", "i", "politiet", "så", "raskt", "som", "mogleg", "i", "2014", "."],
+    ),
+    (
+        "Han ønskjer ikkje at staten skal vere med på å finansiere slik undervisning, men dette er rektor på skulen ueinig i.",
+        ["Han", "ønskjer", "ikkje", "at", "staten", "skal", "vere", "med", "på", "å", "finansiere", "slik", "undervisning", ",", "men", "dette", "er", "rektor", "på", "skulen", "ueinig", "i", "."],
+    ),
+    (
+        "Ifølgje China Daily vart det 8.848 meter høge fjellet flytta 3 centimeter sørvestover under jordskjelvet, som vart målt til 7,8.",
+        ["Ifølgje", "China", "Daily", "vart", "det", "8.848", "meter", "høge", "fjellet", "flytta", "3", "centimeter", "sørvestover", "under", "jordskjelvet", ",", "som", "vart", "målt", "til", "7,8", "."],
+    ),
+    (
+        "Brukssesongen er frå nov. til mai, med ein topp i mars.",
+        ["Brukssesongen", "er", "frå", "nov.", "til", "mai", ",", "med", "ein", "topp", "i", "mars", "."],
+    )
+]
+
+
+@pytest.mark.parametrize("text,expected_tokens", NN_TOKEN_EXCEPTION_TESTS)
+def test_nn_tokenizer_handles_exception_cases(nn_tokenizer, text, expected_tokens):
+    tokens = nn_tokenizer(text)
+    token_list = [token.text for token in tokens if not token.is_space]
+    assert expected_tokens == token_list