Add some basic tests for Danish

2025-09-18 01:52:37 +03:00 · 2017-07-03 15:43:06 +02:00 · 2017-07-03 15:43:06 +02:00 · e840077601
commit e840077601
parent 23025d3b05
4 changed files with 45 additions and 0 deletions
--- a/spacy/tests/conftest.py
+++ b/spacy/tests/conftest.py
@ -105,6 +105,9 @@ def he_tokenizer():
 def nb_tokenizer():
    return util.get_lang_class('nb').Defaults.create_tokenizer()

+@pytest.fixture
+def da_tokenizer():
+    return util.get_lang_class('da').Defaults.create_tokenizer()

@pytest.fixture
 def stringstore():
--- a/spacy/tests/lang/da/init.py
+++ b/spacy/tests/lang/da/init.py
--- a/spacy/tests/lang/da/test_exceptions.py
+++ b/spacy/tests/lang/da/test_exceptions.py
@ -0,0 +1,15 @@
+# coding: utf-8
+from __future__ import unicode_literals
+
+import pytest
+
+@pytest.mark.parametrize('text', ["ca.", "m.a.o.", "Jan.", "Dec."])
+def test_da_tokenizer_handles_abbr(da_tokenizer, text):
+    tokens = da_tokenizer(text)
+    assert len(tokens) == 1
+
+def test_da_tokenizer_handles_exc_in_text(da_tokenizer):
+    text = "Det er bl.a. ikke meningen"
+    tokens = da_tokenizer(text)
+    assert len(tokens) == 5
+    assert tokens[2].text == "bl.a."
--- a/spacy/tests/lang/da/test_text.py
+++ b/spacy/tests/lang/da/test_text.py
@ -0,0 +1,27 @@
+# coding: utf-8
+"""Test that longer and mixed texts are tokenized correctly."""
+
+
+from __future__ import unicode_literals
+
+import pytest
+
+def test_da_tokenizer_handles_long_text(da_tokenizer):
+    text = """Der var så dejligt ude på landet. Det var sommer, kornet stod gult, havren grøn,
+høet var rejst i stakke nede i de grønne enge, og der gik storken på sine lange,
+røde ben og snakkede ægyptisk, for det sprog havde han lært af sin moder.
+
+Rundt om ager og eng var der store skove, og midt i skovene dybe søer; jo, der var rigtignok dejligt derude på landet!"""
+    tokens = da_tokenizer(text)
+    assert len(tokens) == 84
+
+@pytest.mark.parametrize('text,match', [
+    ('10', True), ('1', True), ('10.000', True), ('10.00', True),
+    ('999,0', True), ('en', True), ('treoghalvfemsindstyvende', True), ('hundrede', True),
+    ('hund', False), (',', False), ('1/2', True)])
+def test_lex_attrs_like_number(da_tokenizer, text, match):
+    tokens = da_tokenizer(text)
+    assert len(tokens) == 1
+    print(tokens[0])
+    assert tokens[0].like_num == match
+