From dfe27516d9faf9ef1b1f5d0c58d3576beb539769 Mon Sep 17 00:00:00 2001 From: Lise Date: Mon, 25 Mar 2024 15:36:11 +0100 Subject: [PATCH] extend abbreviations list in Faroese tokenizer exceptions (#13366) --- spacy/lang/fo/tokenizer_exceptions.py | 67 +++++++++++++++++++++++++++ 1 file changed, 67 insertions(+) diff --git a/spacy/lang/fo/tokenizer_exceptions.py b/spacy/lang/fo/tokenizer_exceptions.py index 856b72200..8b59c57f7 100644 --- a/spacy/lang/fo/tokenizer_exceptions.py +++ b/spacy/lang/fo/tokenizer_exceptions.py @@ -5,7 +5,9 @@ from ..tokenizer_exceptions import BASE_EXCEPTIONS _exc = {} for orth in [ + "Chr.", "apr.", + "atm.", "aug.", "avgr.", "árg.", @@ -15,21 +17,53 @@ for orth in [ "blaðkv.", "blm.", "blaðm.", + "blaðstj.", + "blkv.", + "blm.", "bls.", "blstj.", "blaðstj.", + "cand.", + "dagf.", "des.", + "dkr.", + "dr.", + "e.Kr.", "eint.", + "ex.", + "exam.", + "f.", + "f.Kr.", + "fa.", + "fam.", + "feb.", "febr.", + "ff.", + "fl.", + "form.", + "frí.", "fyrrv.", "góðk.", "h.m.", + "hósd.", "innt.", "jan.", + "kap.", + "kgl.", "kl.", + "kr.", + "leyg.", "m.a.", "mðr.", + "m.o.", + "m.ø.", + "mia.", + "mik.", + "min.", "mió.", + "mán.", + "mðr.", + "nov.", "nr.", "nto.", "nov.", @@ -43,12 +77,25 @@ for orth in [ "o.o.", "o.s.fr.", "o.tíl.", + "o.u.", "o.ø.", "okt.", "omf.", + "ph.d.", + "phil.", + "pr.", "pst.", "ritstj.", + "s.", + "sb.", "sbr.", + "sbrt.", + "sek.", + "sep.", + "sept.", + "serst.", + "smb.", + "smbr.", "sms.", "smst.", "smb.", @@ -58,14 +105,25 @@ for orth in [ "sept.", "spf.", "spsk.", + "stk.", + "sunnud.", + "t.", + "t.d.", "t.e.", + "t.o.v.", "t.s.", "t.s.s.", "tlf.", + "t.v.s", + "t.v.s.", "tel.", + "tils.", + "tlf.", "tsk.", "t.o.v.", "t.d.", + "tús.", + "týs.", "uml.", "ums.", "uppl.", @@ -75,13 +133,22 @@ for orth in [ "útl.", "útr.", "vanl.", + "upprfr.", "v.", "v.h.", + "v.m.", "v.ø.o.", + "vanl.", "viðm.", "viðv.", "vm.", "v.m.", + "á.Kr.", + "árg.", + "ávís.", + "útg.", + "útl.", + "útr.", ]: _exc[orth] = [{ORTH: orth}] capitalized = orth.capitalize()