Move Defaults subclass to module scope (necessary for pickling)

2025-11-27 05:15:43 +03:00 · 2017-05-20 19:02:27 +02:00 · 2017-05-20 19:02:27 +02:00 · 924e8506de
commit 924e8506de
parent 27de0834b2
16 changed files with 187 additions and 158 deletions
--- a/spacy/lang/bn/init.py
+++ b/spacy/lang/bn/init.py
@ -13,21 +13,23 @@ from ...attrs import LANG
 from ...util import update_exc


+class BengaliDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'bn'
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
+    tag_map = TAG_MAP
+    stop_words = STOP_WORDS
+    lemma_rules = LEMMA_RULES
+
+    prefixes = tuple(TOKENIZER_PREFIXES)
+    suffixes = tuple(TOKENIZER_SUFFIXES)
+    infixes = tuple(TOKENIZER_INFIXES)
+
+
 class Bengali(Language):
    lang = 'bn'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'bn'
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-        tag_map = TAG_MAP
-        stop_words = STOP_WORDS
-        lemma_rules = LEMMA_RULES
-
-        prefixes = tuple(TOKENIZER_PREFIXES)
-        suffixes = tuple(TOKENIZER_SUFFIXES)
-        infixes = tuple(TOKENIZER_INFIXES)
+    Defaults = BengaliDefaults


 __all__ = ['Bengali']
--- a/spacy/lang/da/init.py
+++ b/spacy/lang/da/init.py
@ -10,15 +10,17 @@ from ...attrs import LANG
 from ...util import update_exc


+class DanishDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'da'
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
+    stop_words = set(STOP_WORDS)
+
+
 class Danish(Language):
    lang = 'da'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'da'
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-        stop_words = set(STOP_WORDS)
+    Defaults = DanishDefaults


 __all__ = ['Danish']
--- a/spacy/lang/de/init.py
+++ b/spacy/lang/de/init.py
@ -14,21 +14,23 @@ from ...attrs import LANG
 from ...util import update_exc


+class GermanDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'de'
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
+    tag_map = dict(TAG_MAP)
+    stop_words = set(STOP_WORDS)
+    syntax_iterators = dict(SYNTAX_ITERATORS)
+
+    @classmethod
+    def create_lemmatizer(cls, nlp=None):
+        return Lemmatizer(LOOKUP)
+
+
 class German(Language):
    lang = 'de'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'de'
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-        tag_map = dict(TAG_MAP)
-        stop_words = set(STOP_WORDS)
-        syntax_iterators = dict(SYNTAX_ITERATORS)
-
-        @classmethod
-        def create_lemmatizer(cls, nlp=None):
-            return Lemmatizer(LOOKUP)
+    Defaults = GermanDefaults


 __all__ = ['German']
--- a/spacy/lang/en/init.py
+++ b/spacy/lang/en/init.py
@ -15,22 +15,24 @@ from ...attrs import LANG
 from ...util import update_exc


+class EnglishDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'en'
+    lex_attr_getters.update(LEX_ATTRS)
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
+    tag_map = dict(TAG_MAP)
+    stop_words = set(STOP_WORDS)
+    morph_rules = dict(MORPH_RULES)
+    lemma_rules = dict(LEMMA_RULES)
+    lemma_index = dict(LEMMA_INDEX)
+    lemma_exc = dict(LEMMA_EXC)
+    sytax_iterators = dict(SYNTAX_ITERATORS)
+
+
 class English(Language):
    lang = 'en'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'en'
-        lex_attr_getters.update(LEX_ATTRS)
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-        tag_map = dict(TAG_MAP)
-        stop_words = set(STOP_WORDS)
-        morph_rules = dict(MORPH_RULES)
-        lemma_rules = dict(LEMMA_RULES)
-        lemma_index = dict(LEMMA_INDEX)
-        lemma_exc = dict(LEMMA_EXC)
-        sytax_iterators = dict(SYNTAX_ITERATORS)
+    Defaults = EnglishDefaults


 __all__ = ['English']
--- a/spacy/lang/es/init.py
+++ b/spacy/lang/es/init.py
@ -28,7 +28,7 @@ class SpanishDefaults(Language.Defaults):

 class Spanish(Language):
    lang = 'es'
-
    Defaults = SpanishDefaults

+
 __all__ = ['Spanish']
--- a/spacy/lang/fi/init.py
+++ b/spacy/lang/fi/init.py
@ -10,15 +10,17 @@ from ...attrs import LANG
 from ...util import update_exc


+class FinnishDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'fi'
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
+    stop_words = set(STOP_WORDS)
+
+
 class Finnish(Language):
    lang = 'fi'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'fi'
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-        stop_words = set(STOP_WORDS)
+    Defaults = FinnishDefaults


 __all__ = ['Finnish']
--- a/spacy/lang/fr/init.py
+++ b/spacy/lang/fr/init.py
@ -13,22 +13,24 @@ from ...attrs import LANG
 from ...util import update_exc


+class FrenchDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'fr'
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
+    stop_words = set(STOP_WORDS)
+    infixes = tuple(TOKENIZER_INFIXES)
+    suffixes = tuple(TOKENIZER_SUFFIXES)
+    token_match = TOKEN_MATCH
+
+    @classmethod
+    def create_lemmatizer(cls, nlp=None):
+        return Lemmatizer(LOOKUP)
+
+
 class French(Language):
    lang = 'fr'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'fr'
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-        stop_words = set(STOP_WORDS)
-        infixes = tuple(TOKENIZER_INFIXES)
-        suffixes = tuple(TOKENIZER_SUFFIXES)
-        token_match = TOKEN_MATCH
-
-        @classmethod
-        def create_lemmatizer(cls, nlp=None):
-            return Lemmatizer(LOOKUP)
+    Defaults = FrenchDefaults


 __all__ = ['French']
--- a/spacy/lang/he/init.py
+++ b/spacy/lang/he/init.py
@ -9,15 +9,17 @@ from ...attrs import LANG
 from ...util import update_exc


+class HebrewDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'he'
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
+    stop_words = set(STOP_WORDS)
+
+
 class Hebrew(Language):
    lang = 'he'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'he'
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
-        stop_words = set(STOP_WORDS)
+    Defaults = HebrewDefaults


 __all__ = ['Hebrew']
--- a/spacy/lang/hu/init.py
+++ b/spacy/lang/hu/init.py
@ -13,23 +13,25 @@ from ...attrs import LANG
 from ...util import update_exc


+class HungarianDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'hu'
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
+    stop_words = set(STOP_WORDS)
+    prefixes = tuple(TOKENIZER_PREFIXES)
+    suffixes = tuple(TOKENIZER_SUFFIXES)
+    infixes = tuple(TOKENIZER_INFIXES)
+    token_match = TOKEN_MATCH
+
+    @classmethod
+    def create_lemmatizer(cls, nlp=None):
+        return Lemmatizer(LOOKUP)
+
+
 class Hungarian(Language):
    lang = 'hu'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'hu'
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-        stop_words = set(STOP_WORDS)
-        prefixes = tuple(TOKENIZER_PREFIXES)
-        suffixes = tuple(TOKENIZER_SUFFIXES)
-        infixes = tuple(TOKENIZER_INFIXES)
-        token_match = TOKEN_MATCH
-
-        @classmethod
-        def create_lemmatizer(cls, nlp=None):
-            return Lemmatizer(LOOKUP)
+    Defaults = HungarianDefaults


 __all__ = ['Hungarian']
--- a/spacy/lang/it/init.py
+++ b/spacy/lang/it/init.py
@ -11,19 +11,21 @@ from ...attrs import LANG
 from ...util import update_exc


+class ItalianDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'it'
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
+    stop_words = set(STOP_WORDS)
+
+    @classmethod
+    def create_lemmatizer(cls, nlp=None):
+        return Lemmatizer(LOOKUP)
+
+
 class Italian(Language):
    lang = 'it'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'it'
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
-        stop_words = set(STOP_WORDS)
-
-        @classmethod
-        def create_lemmatizer(cls, nlp=None):
-            return Lemmatizer(LOOKUP)
+    Defaults = ItalianDefaults


 __all__ = ['Italian']
--- a/spacy/lang/nb/init.py
+++ b/spacy/lang/nb/init.py
@ -11,15 +11,17 @@ from ...attrs import LANG
 from ...util import update_exc


+class NorwegianDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'nb'
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
+    stop_words = set(STOP_WORDS)
+
+
 class Norwegian(Language):
    lang = 'nb'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'nb'
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-        stop_words = set(STOP_WORDS)
+    Defaults = NorwegianDefaults


 __all__ = ['Norwegian']
--- a/spacy/lang/nl/init.py
+++ b/spacy/lang/nl/init.py
@ -9,16 +9,17 @@ from ...attrs import LANG
 from ...util import update_exc


+class DutchDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'nl'
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
+    stop_words = set(STOP_WORDS)
+

 class Dutch(Language):
    lang = 'nl'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'nl'
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
-        stop_words = set(STOP_WORDS)
+    Defaults = DutchDefaults


 __all__ = ['Dutch']
--- a/spacy/lang/pl/init.py
+++ b/spacy/lang/pl/init.py
@ -9,15 +9,17 @@ from ...attrs import LANG
 from ...util import update_exc


+class PolishDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'pl'
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
+    stop_words = set(STOP_WORDS)
+
+
 class Polish(Language):
    lang = 'pl'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'pl'
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
-        stop_words = set(STOP_WORDS)
+    Defaults = PolishDefaults


 __all__ = ['Polish']
--- a/spacy/lang/pt/init.py
+++ b/spacy/lang/pt/init.py
@ -13,20 +13,22 @@ from ...attrs import LANG
 from ...util import update_exc


+class PortugueseDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'pt'
+    lex_attr_getters.update(LEX_ATTRS)
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
+    stop_words = set(STOP_WORDS)
+
+    @classmethod
+    def create_lemmatizer(cls, nlp=None):
+        return Lemmatizer(LOOKUP)
+
+
 class Portuguese(Language):
    lang = 'pt'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'pt'
-        lex_attr_getters.update(LEX_ATTRS)
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-        stop_words = set(STOP_WORDS)
-
-        @classmethod
-        def create_lemmatizer(cls, nlp=None):
-            return Lemmatizer(LOOKUP)
+    Defaults = PortugueseDefaults


 __all__ = ['Portuguese']
--- a/spacy/lang/sv/init.py
+++ b/spacy/lang/sv/init.py
@ -13,19 +13,21 @@ from ...attrs import LANG
 from ...util import update_exc


+class SwedishDefaults(Language.Defaults):
+    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters[LANG] = lambda text: 'sv'
+
+    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
+    stop_words = set(STOP_WORDS)
+
+    @classmethod
+    def create_lemmatizer(cls, nlp=None):
+        return Lemmatizer(LOOKUP)
+
+
 class Swedish(Language):
    lang = 'sv'
-
-    class Defaults(Language.Defaults):
-        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-        lex_attr_getters[LANG] = lambda text: 'sv'
-
-        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-        stop_words = set(STOP_WORDS)
-
-        @classmethod
-        def create_lemmatizer(cls, nlp=None):
-            return Lemmatizer(LOOKUP)
+    Defaults = SwedishDefaults


 __all__ = ['Swedish']
--- a/website/docs/usage/adding-languages.jade
+++ b/website/docs/usage/adding-languages.jade
@ -56,20 +56,22 @@ p
    from ...attrs import LANG
    from ...util import update_exc

+    # create Defaults class in the module scope (necessary for pickling!)
+    class XxxxxDefaults(Language.Defaults):
+        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+        lex_attr_getters[LANG] = lambda text: 'xx' # language ISO code
+
+        # optional: replace flags with custom functions, e.g. like_num()
+        lex_attr_getters.update(LEX_ATTRS)
+
+        # merge base exceptions and custom tokenizer exceptions
+        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
+        stop_words = set(STOP_WORDS)
+
+    # create actual Language class
    class Xxxxx(Language):
        lang = 'xx' # language ISO code
-
-        # override defaults
-        class Defaults(Language.Defaults):
-            lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
-            lex_attr_getters[LANG] = lambda text: 'xx' # language ISO code
-
-            # optional: replace flags with custom functions, e.g. like_num()
-            lex_attr_getters.update(LEX_ATTRS)
-
-            # merge base exceptions and custom tokenizer exceptions
-            tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-            stop_words = set(STOP_WORDS)
+        Defaults = XxxxxDefaults # override defaults

    # set default export – this allows the language class to be lazy-loaded
    __all__ = ['Xxxxx']