From 44f4142ce4b402aac4af650a6b819bfe5b5edbde Mon Sep 17 00:00:00 2001 From: Sofie Van Landeghem Date: Sat, 22 Feb 2020 14:12:32 +0100 Subject: [PATCH] add two abbreviations and some additional unit tests (#5040) --- spacy/lang/fi/tokenizer_exceptions.py | 2 ++ spacy/tests/lang/fi/test_tokenizer.py | 27 ++++++++++++++++----------- 2 files changed, 18 insertions(+), 11 deletions(-) diff --git a/spacy/lang/fi/tokenizer_exceptions.py b/spacy/lang/fi/tokenizer_exceptions.py index 5469e345e..7cdc7cf11 100644 --- a/spacy/lang/fi/tokenizer_exceptions.py +++ b/spacy/lang/fi/tokenizer_exceptions.py @@ -14,6 +14,7 @@ for exc_data in [ {ORTH: "alv.", LEMMA: "arvonlisävero"}, {ORTH: "ark.", LEMMA: "arkisin"}, {ORTH: "as.", LEMMA: "asunto"}, + {ORTH: "eaa.", LEMMA: "ennen ajanlaskun alkua"}, {ORTH: "ed.", LEMMA: "edellinen"}, {ORTH: "esim.", LEMMA: "esimerkki"}, {ORTH: "huom.", LEMMA: "huomautus"}, @@ -27,6 +28,7 @@ for exc_data in [ {ORTH: "läh.", LEMMA: "lähettäjä"}, {ORTH: "miel.", LEMMA: "mieluummin"}, {ORTH: "milj.", LEMMA: "miljoona"}, + {ORTH: "Mm.", LEMMA: "muun muassa"}, {ORTH: "mm.", LEMMA: "muun muassa"}, {ORTH: "myöh.", LEMMA: "myöhempi"}, {ORTH: "n.", LEMMA: "noin"}, diff --git a/spacy/tests/lang/fi/test_tokenizer.py b/spacy/tests/lang/fi/test_tokenizer.py index aab063982..301b85d74 100644 --- a/spacy/tests/lang/fi/test_tokenizer.py +++ b/spacy/tests/lang/fi/test_tokenizer.py @@ -10,28 +10,33 @@ ABBREVIATION_TESTS = [ ["Hyvää", "uutta", "vuotta", "t.", "siht.", "Niemelä", "!"], ), ("Paino on n. 2.2 kg", ["Paino", "on", "n.", "2.2", "kg"]), + ( + "Vuonna 1 eaa. tapahtui kauheita.", + ["Vuonna", "1", "eaa.", "tapahtui", "kauheita", "."], + ), ] HYPHENATED_TESTS = [ ( - "1700-luvulle sijoittuva taide-elokuva", - ["1700-luvulle", "sijoittuva", "taide-elokuva"], + "1700-luvulle sijoittuva taide-elokuva Wikimedia-säätiön Varsinais-Suomen", + [ + "1700-luvulle", + "sijoittuva", + "taide-elokuva", + "Wikimedia-säätiön", + "Varsinais-Suomen", + ], ) ] ABBREVIATION_INFLECTION_TESTS = [ ( "VTT:ssa ennen v:ta 2010 suoritetut mittaukset", - ["VTT:ssa", "ennen", "v:ta", "2010", "suoritetut", "mittaukset"] + ["VTT:ssa", "ennen", "v:ta", "2010", "suoritetut", "mittaukset"], ), - ( - "ALV:n osuus on 24 %.", - ["ALV:n", "osuus", "on", "24", "%", "."] - ), - ( - "Hiihtäjä oli kilpailun 14:s.", - ["Hiihtäjä", "oli", "kilpailun", "14:s", "."] - ) + ("ALV:n osuus on 24 %.", ["ALV:n", "osuus", "on", "24", "%", "."]), + ("Hiihtäjä oli kilpailun 14:s.", ["Hiihtäjä", "oli", "kilpailun", "14:s", "."]), + ("EU:n toimesta tehtiin jotain.", ["EU:n", "toimesta", "tehtiin", "jotain", "."]), ]