Don't make copies of language data components

2025-10-29 06:57:49 +03:00 · 2017-10-11 15:34:55 +02:00 · 2017-10-11 15:34:55 +02:00 · 8ce6f96180
commit 8ce6f96180
parent eac9e99086
17 changed files with 54 additions and 54 deletions
--- a/spacy/lang/bn/init.py
+++ b/spacy/lang/bn/init.py
@ -17,12 +17,12 @@ class BengaliDefaults(Language.Defaults):
    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
    lex_attr_getters[LANG] = lambda text: 'bn'
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-    tag_map = dict(TAG_MAP)
-    stop_words = set(STOP_WORDS)
-    lemma_rules = dict(LEMMA_RULES)
-    prefixes = tuple(TOKENIZER_PREFIXES)
-    suffixes = tuple(TOKENIZER_SUFFIXES)
-    infixes = tuple(TOKENIZER_INFIXES)
+    tag_map = TAG_MAP
+    stop_words = STOP_WORDS
+    lemma_rules = LEMMA_RULES
+    prefixes = TOKENIZER_PREFIXES
+    suffixes = TOKENIZER_SUFFIXES
+    infixes = TOKENIZER_INFIXES


 class Bengali(Language):
--- a/spacy/lang/da/init.py
+++ b/spacy/lang/da/init.py
@ -16,7 +16,7 @@ class DanishDefaults(Language.Defaults):
    lex_attr_getters[LANG] = lambda text: 'da'
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-    stop_words = set(STOP_WORDS)
+    stop_words = STOP_WORDS


 class Danish(Language):
--- a/spacy/lang/de/init.py
+++ b/spacy/lang/de/init.py
@ -22,11 +22,11 @@ class GermanDefaults(Language.Defaults):
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM],
                                         NORM_EXCEPTIONS, BASE_NORMS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-    infixes = tuple(TOKENIZER_INFIXES)
-    tag_map = dict(TAG_MAP)
-    stop_words = set(STOP_WORDS)
-    syntax_iterators = dict(SYNTAX_ITERATORS)
-    lemma_lookup = dict(LOOKUP)
+    infixes = TOKENIZER_INFIXES
+    tag_map = TAG_MAP
+    stop_words = STOP_WORDS
+    syntax_iterators = SYNTAX_ITERATORS
+    lemma_lookup = LOOKUP


 class German(Language):
--- a/spacy/lang/en/init.py
+++ b/spacy/lang/en/init.py
@ -24,14 +24,14 @@ class EnglishDefaults(Language.Defaults):
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM],
                                         BASE_NORMS, NORM_EXCEPTIONS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-    tag_map = dict(TAG_MAP)
-    stop_words = set(STOP_WORDS)
-    morph_rules = dict(MORPH_RULES)
-    lemma_rules = dict(LEMMA_RULES)
-    lemma_index = dict(LEMMA_INDEX)
-    lemma_exc = dict(LEMMA_EXC)
-    lemma_lookup = dict(LOOKUP)
-    syntax_iterators = dict(SYNTAX_ITERATORS)
+    tag_map = TAG_MAP
+    stop_words = STOP_WORDS
+    morph_rules = MORPH_RULES
+    lemma_rules = LEMMA_RULES
+    lemma_index = LEMMA_INDEX
+    lemma_exc = LEMMA_EXC
+    lemma_lookup = LOOKUP
+    syntax_iterators = SYNTAX_ITERATORS


 class English(Language):
--- a/spacy/lang/es/init.py
+++ b/spacy/lang/es/init.py
@ -19,10 +19,10 @@ class SpanishDefaults(Language.Defaults):
    lex_attr_getters[LANG] = lambda text: 'es'
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-    tag_map = dict(TAG_MAP)
-    stop_words = set(STOP_WORDS)
-    sytax_iterators = dict(SYNTAX_ITERATORS)
-    lemma_lookup = dict(LOOKUP)
+    tag_map = TAG_MAP
+    stop_words = STOP_WORDS
+    sytax_iterators = SYNTAX_ITERATORS
+    lemma_lookup = LOOKUP


 class Spanish(Language):
--- a/spacy/lang/fi/init.py
+++ b/spacy/lang/fi/init.py
@ -16,7 +16,7 @@ class FinnishDefaults(Language.Defaults):
    lex_attr_getters[LANG] = lambda text: 'fi'
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-    stop_words = set(STOP_WORDS)
+    stop_words = STOP_WORDS


 class Finnish(Language):
--- a/spacy/lang/fr/init.py
+++ b/spacy/lang/fr/init.py
@ -21,12 +21,12 @@ class FrenchDefaults(Language.Defaults):
    lex_attr_getters[LANG] = lambda text: 'fr'
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-    stop_words = set(STOP_WORDS)
-    infixes = tuple(TOKENIZER_INFIXES)
-    suffixes = tuple(TOKENIZER_SUFFIXES)
+    stop_words = STOP_WORDS
+    infixes = TOKENIZER_INFIXES
+    suffixes = TOKENIZER_SUFFIXES
    token_match = TOKEN_MATCH
-    syntax_iterators = dict(SYNTAX_ITERATORS)
-    lemma_lookup = dict(LOOKUP)
+    syntax_iterators = SYNTAX_ITERATORS
+    lemma_lookup = LOOKUP


 class French(Language):
--- a/spacy/lang/he/init.py
+++ b/spacy/lang/he/init.py
@ -13,7 +13,7 @@ class HebrewDefaults(Language.Defaults):
    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
    lex_attr_getters[LANG] = lambda text: 'he'
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
-    stop_words = set(STOP_WORDS)
+    stop_words = STOP_WORDS


 class Hebrew(Language):
--- a/spacy/lang/hu/init.py
+++ b/spacy/lang/hu/init.py
@ -18,12 +18,12 @@ class HungarianDefaults(Language.Defaults):
    lex_attr_getters[LANG] = lambda text: 'hu'
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-    stop_words = set(STOP_WORDS)
-    prefixes = tuple(TOKENIZER_PREFIXES)
-    suffixes = tuple(TOKENIZER_SUFFIXES)
-    infixes = tuple(TOKENIZER_INFIXES)
+    stop_words = STOP_WORDS
+    prefixes = TOKENIZER_PREFIXES
+    suffixes = TOKENIZER_SUFFIXES
+    infixes = TOKENIZER_INFIXES
    token_match = TOKEN_MATCH
-    lemma_lookup = dict(LOOKUP)
+    lemma_lookup = LOOKUP


 class Hungarian(Language):
--- a/spacy/lang/id/init.py
+++ b/spacy/lang/id/init.py
@ -20,12 +20,12 @@ class IndonesianDefaults(Language.Defaults):
    lex_attr_getters[LANG] = lambda text: 'id'
    lex_attr_getters.update(LEX_ATTRS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-    stop_words = set(STOP_WORDS)
-    prefixes = tuple(TOKENIZER_PREFIXES)
-    suffixes = tuple(TOKENIZER_SUFFIXES)
-    infixes = tuple(TOKENIZER_INFIXES)
-    syntax_iterators = dict(SYNTAX_ITERATORS)
-    lemma_lookup = dict(LOOKUP)
+    stop_words = STOP_WORDS
+    prefixes = TOKENIZER_PREFIXES
+    suffixes = TOKENIZER_SUFFIXES
+    infixes = TOKENIZER_INFIXES
+    syntax_iterators = SYNTAX_ITERATORS
+    lemma_lookup = LOOKUP


 class Indonesian(Language):
--- a/spacy/lang/it/init.py
+++ b/spacy/lang/it/init.py
@ -16,8 +16,8 @@ class ItalianDefaults(Language.Defaults):
    lex_attr_getters[LANG] = lambda text: 'it'
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
-    stop_words = set(STOP_WORDS)
-    lemma_lookup = dict(LOOKUP)
+    stop_words = STOP_WORDS
+    lemma_lookup = LOOKUP


 class Italian(Language):
--- a/spacy/lang/nb/init.py
+++ b/spacy/lang/nb/init.py
@ -17,7 +17,7 @@ class NorwegianDefaults(Language.Defaults):
    lex_attr_getters[LANG] = lambda text: 'nb'
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-    stop_words = set(STOP_WORDS)
+    stop_words = STOP_WORDS


 class Norwegian(Language):
--- a/spacy/lang/nl/init.py
+++ b/spacy/lang/nl/init.py
@ -17,7 +17,7 @@ class DutchDefaults(Language.Defaults):
    lex_attr_getters[LANG] = lambda text: 'nl'
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
-    stop_words = set(STOP_WORDS)
+    stop_words = STOP_WORDS


 class Dutch(Language):
--- a/spacy/lang/pl/init.py
+++ b/spacy/lang/pl/init.py
@ -16,7 +16,7 @@ class PolishDefaults(Language.Defaults):
    lex_attr_getters[LANG] = lambda text: 'pl'
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-    stop_words = set(STOP_WORDS)
+    stop_words = STOP_WORDS


 class Polish(Language):
--- a/spacy/lang/pt/init.py
+++ b/spacy/lang/pt/init.py
@ -19,8 +19,8 @@ class PortugueseDefaults(Language.Defaults):
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
    lex_attr_getters.update(LEX_ATTRS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-    stop_words = set(STOP_WORDS)
-    lemma_lookup = dict(LOOKUP)
+    stop_words = STOP_WORDS
+    lemma_lookup = LOOKUP


 class Portuguese(Language):
--- a/spacy/lang/sv/init.py
+++ b/spacy/lang/sv/init.py
@ -18,9 +18,9 @@ class SwedishDefaults(Language.Defaults):
    lex_attr_getters[LANG] = lambda text: 'sv'
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
-    stop_words = set(STOP_WORDS)
-    lemma_rules = dict(LEMMA_RULES)
-    lemma_lookup = dict(LOOKUP)
+    stop_words = STOP_WORDS
+    lemma_rules = LEMMA_RULES
+    lemma_lookup = LOOKUP


 class Swedish(Language):
--- a/spacy/lang/th/init.py
+++ b/spacy/lang/th/init.py
@ -17,8 +17,8 @@ class ThaiDefaults(Language.Defaults):
    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
    lex_attr_getters[LANG] = lambda text: 'th'
    tokenizer_exceptions = dict(TOKENIZER_EXCEPTIONS)
-    tag_map = dict(TAG_MAP)
-    stop_words = set(STOP_WORDS)
+    tag_map = TAG_MAP
+    stop_words = STOP_WORDS


 class Thai(Language):