add two abbreviations and some additional unit tests (#5040)

This commit is contained in:
Sofie Van Landeghem 2020-02-22 14:12:32 +01:00 committed by GitHub
parent 479bd8d09f
commit 44f4142ce4
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
2 changed files with 18 additions and 11 deletions

View File

@ -14,6 +14,7 @@ for exc_data in [
{ORTH: "alv.", LEMMA: "arvonlisävero"}, {ORTH: "alv.", LEMMA: "arvonlisävero"},
{ORTH: "ark.", LEMMA: "arkisin"}, {ORTH: "ark.", LEMMA: "arkisin"},
{ORTH: "as.", LEMMA: "asunto"}, {ORTH: "as.", LEMMA: "asunto"},
{ORTH: "eaa.", LEMMA: "ennen ajanlaskun alkua"},
{ORTH: "ed.", LEMMA: "edellinen"}, {ORTH: "ed.", LEMMA: "edellinen"},
{ORTH: "esim.", LEMMA: "esimerkki"}, {ORTH: "esim.", LEMMA: "esimerkki"},
{ORTH: "huom.", LEMMA: "huomautus"}, {ORTH: "huom.", LEMMA: "huomautus"},
@ -27,6 +28,7 @@ for exc_data in [
{ORTH: "läh.", LEMMA: "lähettäjä"}, {ORTH: "läh.", LEMMA: "lähettäjä"},
{ORTH: "miel.", LEMMA: "mieluummin"}, {ORTH: "miel.", LEMMA: "mieluummin"},
{ORTH: "milj.", LEMMA: "miljoona"}, {ORTH: "milj.", LEMMA: "miljoona"},
{ORTH: "Mm.", LEMMA: "muun muassa"},
{ORTH: "mm.", LEMMA: "muun muassa"}, {ORTH: "mm.", LEMMA: "muun muassa"},
{ORTH: "myöh.", LEMMA: "myöhempi"}, {ORTH: "myöh.", LEMMA: "myöhempi"},
{ORTH: "n.", LEMMA: "noin"}, {ORTH: "n.", LEMMA: "noin"},

View File

@ -10,28 +10,33 @@ ABBREVIATION_TESTS = [
["Hyvää", "uutta", "vuotta", "t.", "siht.", "Niemelä", "!"], ["Hyvää", "uutta", "vuotta", "t.", "siht.", "Niemelä", "!"],
), ),
("Paino on n. 2.2 kg", ["Paino", "on", "n.", "2.2", "kg"]), ("Paino on n. 2.2 kg", ["Paino", "on", "n.", "2.2", "kg"]),
(
"Vuonna 1 eaa. tapahtui kauheita.",
["Vuonna", "1", "eaa.", "tapahtui", "kauheita", "."],
),
] ]
HYPHENATED_TESTS = [ HYPHENATED_TESTS = [
( (
"1700-luvulle sijoittuva taide-elokuva", "1700-luvulle sijoittuva taide-elokuva Wikimedia-säätiön Varsinais-Suomen",
["1700-luvulle", "sijoittuva", "taide-elokuva"], [
"1700-luvulle",
"sijoittuva",
"taide-elokuva",
"Wikimedia-säätiön",
"Varsinais-Suomen",
],
) )
] ]
ABBREVIATION_INFLECTION_TESTS = [ ABBREVIATION_INFLECTION_TESTS = [
( (
"VTT:ssa ennen v:ta 2010 suoritetut mittaukset", "VTT:ssa ennen v:ta 2010 suoritetut mittaukset",
["VTT:ssa", "ennen", "v:ta", "2010", "suoritetut", "mittaukset"] ["VTT:ssa", "ennen", "v:ta", "2010", "suoritetut", "mittaukset"],
), ),
( ("ALV:n osuus on 24 %.", ["ALV:n", "osuus", "on", "24", "%", "."]),
"ALV:n osuus on 24 %.", ("Hiihtäjä oli kilpailun 14:s.", ["Hiihtäjä", "oli", "kilpailun", "14:s", "."]),
["ALV:n", "osuus", "on", "24", "%", "."] ("EU:n toimesta tehtiin jotain.", ["EU:n", "toimesta", "tehtiin", "jotain", "."]),
),
(
"Hiihtäjä oli kilpailun 14:s.",
["Hiihtäjä", "oli", "kilpailun", "14:s", "."]
)
] ]