Improvement of rules now title insentive and have same declaration format

2025-07-16 03:02:41 +03:00 · 2017-04-27 10:23:56 +02:00 · 2017-04-27 10:23:56 +02:00 · ad8129cb45
commit ad8129cb45
parent ed5f094451
1 changed files with 21 additions and 17 deletions
--- a/spacy/fr/tokenizer_exceptions.py
+++ b/spacy/fr/tokenizer_exceptions.py
@ -117,24 +117,28 @@ def get_tokenizer_exceptions():
    for verb, verb_lemma in (("a", "avoir"), ("est", "être"),
                             ("semble", "sembler"), ("indique", "indiquer"),
                             ("moque", "moquer"), ("passe", "passer")):
+        for orth in [verb,verb.title()]:
            for pronoun in ("elle", "il", "on"):
-            token = "{}-t-{}".format(verb, pronoun)
+                token = "{}-t-{}".format(orth, pronoun)
                VERBS[token] = [
-                {LEMMA: verb_lemma, ORTH: verb},
+                    {LEMMA: verb_lemma, ORTH: orth, TAG: "VERB"},
                    {LEMMA: "t", ORTH: "-t"},
                    {LEMMA: pronoun, ORTH: "-" + pronoun}
                ]

-    VERBS['est-ce'] = [
-        {LEMMA: 'être', ORTH: "est"},
+    for verb, verb_lemma in [("est","être")]:
+        for orth in [verb,verb.title()]:
+            token = "{}-ce".format(orth)
+            VERBS[token] = [
+                {LEMMA: verb_lemma, ORTH: orth, TAG: "VERB"},
                {LEMMA: 'ce', ORTH: '-ce'}
            ]

-    for pre, pre_lemma in (("qu'", "que"), ("Qu'", "Que"), ("n'", "ne"),
-                           ("N'", "Ne")):
-        VERBS['{}est-ce'.format(pre)] = [
-            {LEMMA: pre_lemma, ORTH: pre},
-            {LEMMA: 'être', ORTH: "est"},
+    for pre, pre_lemma in (("qu'", "que"), ("n'", "ne")):
+        for orth in [pre,pre.title()]:
+            VERBS['{}est-ce'.format(orth)] = [
+                {LEMMA: pre_lemma, ORTH: orth},
+                {LEMMA: 'être', ORTH: "est", TAG: "VERB"},
                {LEMMA: 'ce', ORTH: '-ce'}
            ]