Tidy up and auto-format

2025-09-26 22:16:46 +03:00 · 2019-04-09 11:40:19 +02:00 · 2019-04-09 11:40:19 +02:00 · 145c0b7e88
commit 145c0b7e88
parent 5f005adf61
7 changed files with 176 additions and 152 deletions
--- a/spacy/lang/en/stop_words.py
+++ b/spacy/lang/en/stop_words.py
@ -75,4 +75,3 @@ STOP_WORDS.update(contractions)
 for apostrophe in ["‘", "’"]:
    for stopword in contractions:
        STOP_WORDS.add(stopword.replace("'", apostrophe))
-
--- a/spacy/lang/id/tag_map.py
+++ b/spacy/lang/id/tag_map.py
@ -91,4 +91,5 @@ TAG_MAP = {
    "NPD+PS2": {POS: NOUN},
    "D--+PS2": {POS: ADV},
    "PP3+T--": {POS: PRON},
-	"X":      {POS: X}} 
+    "X": {POS: X},
+}
--- a/spacy/lang/nl/init.py
+++ b/spacy/lang/nl/init.py
@ -6,10 +6,7 @@ from .lex_attrs import LEX_ATTRS
 from .tag_map import TAG_MAP
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
 from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES
-
-from .lemmatizer import LOOKUP, LEMMA_EXC, LEMMA_INDEX, RULES
-from .lemmatizer.lemmatizer import DutchLemmatizer
-
+from .lemmatizer import LOOKUP, LEMMA_EXC, LEMMA_INDEX, RULES, DutchLemmatizer
 from ..tokenizer_exceptions import BASE_EXCEPTIONS
 from ..norm_exceptions import BASE_NORMS
 from ...language import Language
@ -21,9 +18,10 @@ class DutchDefaults(Language.Defaults):

    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
    lex_attr_getters.update(LEX_ATTRS)
-    lex_attr_getters[LANG] = lambda text: 'nl'
-    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM],
-                                         BASE_NORMS)
+    lex_attr_getters[LANG] = lambda text: "nl"
+    lex_attr_getters[NORM] = add_lookups(
+        Language.Defaults.lex_attr_getters[NORM], BASE_NORMS
+    )
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
    stop_words = STOP_WORDS
    tag_map = TAG_MAP
@ -36,15 +34,14 @@ class DutchDefaults(Language.Defaults):
        lemma_index = LEMMA_INDEX
        lemma_exc = LEMMA_EXC
        lemma_lookup = LOOKUP
-        return DutchLemmatizer(index=lemma_index,
-                               exceptions=lemma_exc,
-                               lookup=lemma_lookup,
-                               rules=rules)
+        return DutchLemmatizer(
+            index=lemma_index, exceptions=lemma_exc, lookup=lemma_lookup, rules=rules
+        )


 class Dutch(Language):
-    lang = 'nl'
+    lang = "nl"
    Defaults = DutchDefaults


-__all__ = ['Dutch']
+__all__ = ["Dutch"]
--- a/spacy/lang/nl/lemmatizer/init.py
+++ b/spacy/lang/nl/lemmatizer/init.py
@ -18,23 +18,26 @@ from ._adpositions import ADPOSITIONS
 from ._determiners import DETERMINERS

 from .lookup import LOOKUP
-
 from ._lemma_rules import RULES
-
 from .lemmatizer import DutchLemmatizer


-LEMMA_INDEX = {"adj": ADJECTIVES,
+LEMMA_INDEX = {
+    "adj": ADJECTIVES,
    "noun": NOUNS,
    "verb": VERBS,
    "adp": ADPOSITIONS,
-               "det": DETERMINERS}
+    "det": DETERMINERS,
+}

-LEMMA_EXC = {"adj": ADJECTIVES_IRREG,
+LEMMA_EXC = {
+    "adj": ADJECTIVES_IRREG,
    "adv": ADVERBS_IRREG,
    "adp": ADPOSITIONS_IRREG,
    "noun": NOUNS_IRREG,
    "verb": VERBS_IRREG,
    "det": DETERMINERS_IRREG,
-             "pron": PRONOUNS_IRREG}
+    "pron": PRONOUNS_IRREG,
+}

+__all__ = ["LOOKUP", "LEMMA_EXC", "LEMMA_INDEX", "RULES", "DutchLemmatizer"]
--- a/spacy/lang/nl/tokenizer_exceptions.py
+++ b/spacy/lang/nl/tokenizer_exceptions.py
@ -1,7 +1,7 @@
 # coding: utf8
 from __future__ import unicode_literals

-from ...symbols import ORTH, LEMMA, TAG, NORM, PRON_LEMMA
+from ...symbols import ORTH

 # Extensive list of both common and uncommon dutch abbreviations copied from
 # github.com/diasks2/pragmatic_segmenter, a Ruby library for rule-based
@ -16,7 +16,7 @@ from ...symbols import ORTH, LEMMA, TAG, NORM, PRON_LEMMA
 # are extremely domain-specific. Tokenizer performance may benefit from some
 # slight pruning, although no performance regression has been observed so far.

-
+# fmt: off
 abbrevs = ['a.2d.', 'a.a.', 'a.a.j.b.', 'a.f.t.', 'a.g.j.b.',
           'a.h.v.', 'a.h.w.', 'a.hosp.', 'a.i.', 'a.j.b.', 'a.j.t.',
           'a.m.', 'a.m.r.', 'a.p.m.', 'a.p.r.', 'a.p.t.', 'a.s.',
@ -326,7 +326,7 @@ abbrevs = ['a.2d.', 'a.a.', 'a.a.j.b.', 'a.f.t.', 'a.g.j.b.',
           'wtvb.', 'ww.', 'x.d.', 'z.a.', 'z.g.', 'z.i.', 'z.j.',
           'z.o.z.', 'z.p.', 'z.s.m.', 'zg.', 'zgn.', 'zn.', 'znw.',
           'zr.', 'zr.', 'ms.', 'zr.ms.']
-
+# fmt: on

 _exc = {}
 for orth in abbrevs:
--- a/spacy/lang/th/tokenizer_exceptions.py
+++ b/spacy/lang/th/tokenizer_exceptions.py
@ -44,11 +44,21 @@ _exc = {
    "ธอส.": [{ORTH: "ธอส.", LEMMA: "ธนาคารอาคารสงเคราะห์"}],
    "นย.": [{ORTH: "นย.", LEMMA: "นาวิกโยธิน"}],
    "ปตท.": [{ORTH: "ปตท.", LEMMA: "การปิโตรเลียมแห่งประเทศไทย"}],
-    "ป.ป.ช.": [{ORTH: "ป.ป.ช.", LEMMA: "คณะกรรมการป้องกันและปราบปรามการทุจริตและประพฤติมิชอบในวงราชการ"}],
+    "ป.ป.ช.": [
+        {
+            ORTH: "ป.ป.ช.",
+            LEMMA: "คณะกรรมการป้องกันและปราบปรามการทุจริตและประพฤติมิชอบในวงราชการ",
+        }
+    ],
    "ป.ป.ส.": [{ORTH: "ป.ป.ส.", LEMMA: "คณะกรรมการป้องกันและปราบปรามยาเสพติด"}],
    "บพร.": [{ORTH: "บพร.", LEMMA: "กรมการบินพลเรือน"}],
    "บย.": [{ORTH: "บย.", LEMMA: "กองบินยุทธการ"}],
-    "พสวท.": [{ORTH: "พสวท.", LEMMA: "โครงการพัฒนาและส่งเสริมผู้มีความรู้ความสามารถพิเศษทางวิทยาศาสตร์และเทคโนโลยี"}],
+    "พสวท.": [
+        {
+            ORTH: "พสวท.",
+            LEMMA: "โครงการพัฒนาและส่งเสริมผู้มีความรู้ความสามารถพิเศษทางวิทยาศาสตร์และเทคโนโลยี",
+        }
+    ],
    "มอก.": [{ORTH: "มอก.", LEMMA: "สำนักงานมาตรฐานผลิตภัณฑ์อุตสาหกรรม"}],
    "ยธ.": [{ORTH: "ยธ.", LEMMA: "กรมโยธาธิการ"}],
    "รพช.": [{ORTH: "รพช.", LEMMA: "สำนักงานเร่งรัดพัฒนาชนบท"}],
@ -71,11 +81,15 @@ _exc = {
    "สปช.": [{ORTH: "สปช.", LEMMA: "สำนักงานคณะกรรมการการประถมศึกษาแห่งชาติ"}],
    "สปอ.": [{ORTH: "สปอ.", LEMMA: "สำนักงานการประถมศึกษาอำเภอ"}],
    "สพช.": [{ORTH: "สพช.", LEMMA: "สำนักงานคณะกรรมการนโยบายพลังงานแห่งชาติ"}],
-    "สยช.": [{ORTH: "สยช.", LEMMA: "สำนักงานคณะกรรมการส่งเสริมและประสานงานเยาวชนแห่งชาติ"}],
+    "สยช.": [
+        {ORTH: "สยช.", LEMMA: "สำนักงานคณะกรรมการส่งเสริมและประสานงานเยาวชนแห่งชาติ"}
+    ],
    "สวช.": [{ORTH: "สวช.", LEMMA: "สำนักงานคณะกรรมการวัฒนธรรมแห่งชาติ"}],
    "สวท.": [{ORTH: "สวท.", LEMMA: "สถานีวิทยุกระจายเสียงแห่งประเทศไทย"}],
    "สวทช.": [{ORTH: "สวทช.", LEMMA: "สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ"}],
-    "สคช.": [{ORTH: "สคช.", LEMMA: "สำนักงานคณะกรรมการพัฒนาการเศรษฐกิจและสังคมแห่งชาติ"}],
+    "สคช.": [
+        {ORTH: "สคช.", LEMMA: "สำนักงานคณะกรรมการพัฒนาการเศรษฐกิจและสังคมแห่งชาติ"}
+    ],
    "สสว.": [{ORTH: "สสว.", LEMMA: "สำนักงานส่งเสริมวิสาหกิจขนาดกลางและขนาดย่อม"}],
    "สสส.": [{ORTH: "สสส.", LEMMA: "สำนักงานกองทุนสนับสนุนการสร้างเสริมสุขภาพ"}],
    "สสวท.": [{ORTH: "สสวท.", LEMMA: "สถาบันส่งเสริมการสอนวิทยาศาสตร์และเทคโนโลยี"}],
@ -133,10 +147,14 @@ _exc = {
    "ผญบ.": [{ORTH: "ผญบ.", LEMMA: "ผู้ใหญ่บ้าน"}],
    "ผบ.": [{ORTH: "ผบ.", LEMMA: "ผู้บังคับบัญชา"}],
    "ผบก.": [{ORTH: "ผบก.", LEMMA: "ผู้บังคับบัญชาการ (ตำรวจ)"}],
-    "ผบก.": [{ORTH: "ผบก.", LEMMA: "ผู้บังคับการ (ตำรวจ)"}],
    "ผบก.น.": [{ORTH: "ผบก.น.", LEMMA: "ผู้บังคับการตำรวจนครบาล"}],
    "ผบก.ป.": [{ORTH: "ผบก.ป.", LEMMA: "ผู้บังคับการตำรวจกองปราบปราม"}],
-    "ผบก.ปค.": [{ORTH: "ผบก.ปค.", LEMMA: "ผู้บังคับการ กองบังคับการปกครอง (โรงเรียนนายร้อยตำรวจ)"}],
+    "ผบก.ปค.": [
+        {
+            ORTH: "ผบก.ปค.",
+            LEMMA: "ผู้บังคับการ กองบังคับการปกครอง (โรงเรียนนายร้อยตำรวจ)",
+        }
+    ],
    "ผบก.ปม.": [{ORTH: "ผบก.ปม.", LEMMA: "ผู้บังคับการตำรวจป่าไม้"}],
    "ผบก.ภ.": [{ORTH: "ผบก.ภ.", LEMMA: "ผู้บังคับการตำรวจภูธร"}],
    "ผบช.": [{ORTH: "ผบช.", LEMMA: "ผู้บัญชาการ (ตำรวจ)"}],
@ -177,7 +195,6 @@ _exc = {
    "พล.อ.ต.": [{ORTH: "พล.อ.ต.", LEMMA: "พลอากาศตรี"}],
    "พล.อ.ท.": [{ORTH: "พล.อ.ท.", LEMMA: "พลอากาศโท"}],
    "พล.อ.อ.": [{ORTH: "พล.อ.อ.", LEMMA: "พลอากาศเอก"}],
-    "พ.อ.": [{ORTH: "พ.อ.", LEMMA: "พันเอก"}],
    "พ.อ.พิเศษ": [{ORTH: "พ.อ.พิเศษ", LEMMA: "พันเอกพิเศษ"}],
    "พ.อ.ต.": [{ORTH: "พ.อ.ต.", LEMMA: "พันจ่าอากาศตรี"}],
    "พ.อ.ท.": [{ORTH: "พ.อ.ท.", LEMMA: "พันจ่าอากาศโท"}],
@ -376,7 +393,12 @@ _exc = {
    "จก.": [{ORTH: "จก.", LEMMA: "จำกัด"}],
    "จขกท.": [{ORTH: "จขกท.", LEMMA: "เจ้าของกระทู้"}],
    "จนท.": [{ORTH: "จนท.", LEMMA: "เจ้าหน้าที่"}],
-    "จ.ป.ร.": [{ORTH: "จ.ป.ร.", LEMMA: "มหาจุฬาลงกรณ ปรมราชาธิราช (พระปรมาภิไธยในพระบาทสมเด็จพระจุลจอมเกล้าเจ้าอยู่หัว)"}],
+    "จ.ป.ร.": [
+        {
+            ORTH: "จ.ป.ร.",
+            LEMMA: "มหาจุฬาลงกรณ ปรมราชาธิราช (พระปรมาภิไธยในพระบาทสมเด็จพระจุลจอมเกล้าเจ้าอยู่หัว)",
+        }
+    ],
    "จ.ม.": [{ORTH: "จ.ม.", LEMMA: "จดหมาย"}],
    "จย.": [{ORTH: "จย.", LEMMA: "จักรยาน"}],
    "จยย.": [{ORTH: "จยย.", LEMMA: "จักรยานยนต์"}],
@ -387,7 +409,9 @@ _exc = {
    "น.ศ.": [{ORTH: "น.ศ.", LEMMA: "นักศึกษา"}],
    "น.ส.": [{ORTH: "น.ส.", LEMMA: "นางสาว"}],
    "น.ส.๓": [{ORTH: "น.ส.๓", LEMMA: "หนังสือรับรองการทำประโยชน์ในที่ดิน"}],
-    "น.ส.๓ ก.": [{ORTH: "น.ส.๓ ก", LEMMA: "หนังสือแสดงกรรมสิทธิ์ในที่ดิน (มีระวางกำหนด)"}],
+    "น.ส.๓ ก.": [
+        {ORTH: "น.ส.๓ ก", LEMMA: "หนังสือแสดงกรรมสิทธิ์ในที่ดิน (มีระวางกำหนด)"}
+    ],
    "นสพ.": [{ORTH: "นสพ.", LEMMA: "หนังสือพิมพ์"}],
    "บ.ก.": [{ORTH: "บ.ก.", LEMMA: "บรรณาธิการ"}],
    "บจก.": [{ORTH: "บจก.", LEMMA: "บริษัทจำกัด"}],
@ -410,7 +434,12 @@ _exc = {
    "พขร.": [{ORTH: "พขร.", LEMMA: "พนักงานขับรถ"}],
    "ภ.ง.ด.": [{ORTH: "ภ.ง.ด.", LEMMA: "ภาษีเงินได้"}],
    "ภ.ง.ด.๙": [{ORTH: "ภ.ง.ด.๙", LEMMA: "แบบแสดงรายการเสียภาษีเงินได้ของกรมสรรพากร"}],
-    "ภ.ป.ร.": [{ORTH: "ภ.ป.ร.", LEMMA: "ภูมิพลอดุยเดช ปรมราชาธิราช (พระปรมาภิไธยในพระบาทสมเด็จพระปรมินทรมหาภูมิพลอดุลยเดช)"}],
+    "ภ.ป.ร.": [
+        {
+            ORTH: "ภ.ป.ร.",
+            LEMMA: "ภูมิพลอดุยเดช ปรมราชาธิราช (พระปรมาภิไธยในพระบาทสมเด็จพระปรมินทรมหาภูมิพลอดุลยเดช)",
+        }
+    ],
    "ภ.พ.": [{ORTH: "ภ.พ.", LEMMA: "ภาษีมูลค่าเพิ่ม"}],
    "ร.": [{ORTH: "ร.", LEMMA: "รัชกาล"}],
    "ร.ง.": [{ORTH: "ร.ง.", LEMMA: "โรงงาน"}],
@ -438,7 +467,6 @@ _exc = {
    "เสธ.": [{ORTH: "เสธ.", LEMMA: "เสนาธิการ"}],
    "หจก.": [{ORTH: "หจก.", LEMMA: "ห้างหุ้นส่วนจำกัด"}],
    "ห.ร.ม.": [{ORTH: "ห.ร.ม.", LEMMA: "ตัวหารร่วมมาก"}],
-    
 }


--- a/spacy/tests/regression/test_issue3449.py
+++ b/spacy/tests/regression/test_issue3449.py
@ -6,20 +6,16 @@ import pytest
 from spacy.lang.en import English


-@pytest.mark.xfail(reason="Current default suffix rules avoid one upper-case letter before a dot.")
+@pytest.mark.xfail(reason="default suffix rules avoid one upper-case letter before dot")
 def test_issue3449():
    nlp = English()
-    nlp.add_pipe(nlp.create_pipe('sentencizer'))
-
+    nlp.add_pipe(nlp.create_pipe("sentencizer"))
    text1 = "He gave the ball to I. Do you want to go to the movies with I?"
    text2 = "He gave the ball to I.  Do you want to go to the movies with I?"
    text3 = "He gave the ball to I.\nDo you want to go to the movies with I?"
-
    t1 = nlp(text1)
    t2 = nlp(text2)
    t3 = nlp(text3)
-
-    assert t1[5].text == 'I'
-    assert t2[5].text == 'I'
-    assert t3[5].text == 'I'
-
+    assert t1[5].text == "I"
+    assert t2[5].text == "I"
+    assert t3[5].text == "I"