Remove redundant language_data.py files in languages

Originally intended to collect all components of a language, but just made things messy. Now each component is in charge of exporting itself properly.
2025-10-20 18:54:21 +03:00 · 2017-05-08 15:55:29 +02:00 · 2017-05-08 15:55:29 +02:00 · 24606d364c
commit 24606d364c
parent a627d3e3b0
14 changed files with 0 additions and 323 deletions
--- a/spacy/bn/language_data.py
+++ b/spacy/bn/language_data.py
@ -1,27 +0,0 @@
 # coding: utf8
 from __future__ import unicode_literals
 from spacy.language_data import strings_to_exc, update_exc
 from .punctuation import *
 from .stop_words import STOP_WORDS
 from .tag_map import TAG_MAP as TAG_MAP_BN
 from .morph_rules import MORPH_RULES
 from .lemma_rules import LEMMA_RULES
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS as TOKENIZER_EXCEPTIONS_BN
 from .. import language_data as base
 STOP_WORDS = set(STOP_WORDS)
 TAG_MAP = base.TAG_MAP
 TAG_MAP.update(TAG_MAP_BN)
 TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS))
 TOKENIZER_EXCEPTIONS.update(TOKENIZER_EXCEPTIONS_BN)
 TOKENIZER_PREFIXES = TOKENIZER_PREFIXES
 TOKENIZER_SUFFIXES = TOKENIZER_SUFFIXES
 TOKENIZER_INFIXES = TOKENIZER_INFIXES
 __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS", "TAG_MAP", "MORPH_RULES", "LEMMA_RULES",
           "TOKENIZER_PREFIXES", "TOKENIZER_SUFFIXES", "TOKENIZER_INFIXES"]
--- a/spacy/de/language_data.py
+++ b/spacy/de/language_data.py
@ -1,22 +0,0 @@
 # coding: utf8
 from __future__ import unicode_literals
 from .. import language_data as base
 from ..language_data import update_exc, strings_to_exc
 from .tag_map import TAG_MAP
 from .stop_words import STOP_WORDS
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
 TAG_MAP = dict(TAG_MAP)
 STOP_WORDS = set(STOP_WORDS)
 TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
 __all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS"]
--- a/spacy/en/language_data.py
+++ b/spacy/en/language_data.py
@ -1,29 +0,0 @@
 # coding: utf8
 from __future__ import unicode_literals
 from .. import language_data as base
 from ..language_data import update_exc, strings_to_exc, expand_exc
 from ..symbols import ORTH, LEMMA
 from .tag_map import TAG_MAP
 from .word_sets import STOP_WORDS, NUM_WORDS
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
 from .morph_rules import MORPH_RULES
 from .lemmatizer import RULES as LEMMA_RULES
 from .lemmatizer import INDEX as LEMMA_INDEX
 from .lemmatizer import EXC as LEMMA_EXC
 TAG_MAP = dict(TAG_MAP)
 STOP_WORDS = set(STOP_WORDS)
 TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’"))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS))
 __all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS", "MORPH_RULES",
           "LEMMA_RULES", "LEMMA_INDEX", "LEMMA_EXC"]
--- a/spacy/es/language_data.py
+++ b/spacy/es/language_data.py
@ -1,55 +0,0 @@
 # coding: utf8
 from __future__ import unicode_literals
 from .. import language_data as base
 from ..language_data import update_exc, strings_to_exc
 from ..symbols import ORTH, LEMMA
 from .tag_map import TAG_MAP
 from .stop_words import STOP_WORDS
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
 def get_time_exc(hours):
    exc = {
        "12m.": [
            {ORTH: "12"},
            {ORTH: "m.", LEMMA: "p.m."}
        ]
    }
    for hour in hours:
        exc["%sa.m." % hour] = [
            {ORTH: hour},
            {ORTH: "a.m."}
        ]
        exc["%sp.m." % hour] = [
            {ORTH: hour},
            {ORTH: "p.m."}
        ]
        exc["%sam" % hour] = [
            {ORTH: hour},
            {ORTH: "am", LEMMA: "a.m."}
        ]
        exc["%spm" % hour] = [
            {ORTH: hour},
            {ORTH: "pm", LEMMA: "p.m."}
        ]
    return exc
 TAG_MAP = dict(TAG_MAP)
 STOP_WORDS = set(STOP_WORDS)
 TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(
    ['%d' % hour for hour in range(1, 12 + 1)]))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS))
 __all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS"]
--- a/spacy/fi/language_data.py
+++ b/spacy/fi/language_data.py
@ -1,17 +0,0 @@
 # coding: utf8
 from __future__ import unicode_literals
 from .. import language_data as base
 from ..language_data import update_exc, strings_to_exc
 from .stop_words import STOP_WORDS
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
 STOP_WORDS = set(STOP_WORDS)
 TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
 __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
--- a/spacy/fr/language_data.py
+++ b/spacy/fr/language_data.py
@ -1,11 +0,0 @@
 # coding: utf8
 from __future__ import unicode_literals
 from .stop_words import STOP_WORDS
 from .tokenizer_exceptions import get_tokenizer_exceptions, TOKEN_MATCH
 STOP_WORDS = set(STOP_WORDS)
 __all__ = ["STOP_WORDS", "get_tokenizer_exceptions", "TOKEN_MATCH"]
--- a/spacy/he/language_data.py
+++ b/spacy/he/language_data.py
@ -1,17 +0,0 @@
 # encoding: utf8
 from __future__ import unicode_literals
 from .. import language_data as base
 from ..language_data import update_exc, strings_to_exc
 from .stop_words import STOP_WORDS
 STOP_WORDS = set(STOP_WORDS)
 TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS))
 __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
--- a/spacy/hu/language_data.py
+++ b/spacy/hu/language_data.py
@ -1,22 +0,0 @@
 # coding: utf8
 from __future__ import unicode_literals
 from spacy.language_data import strings_to_exc, update_exc
 from .punctuation import *
 from .stop_words import STOP_WORDS
 from .tokenizer_exceptions import ABBREVIATIONS
 from .tokenizer_exceptions import OTHER_EXC
 from .. import language_data as base
 STOP_WORDS = set(STOP_WORDS)
 TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(OTHER_EXC))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ABBREVIATIONS))
 TOKENIZER_PREFIXES = TOKENIZER_PREFIXES
 TOKENIZER_SUFFIXES = TOKENIZER_SUFFIXES
 TOKENIZER_INFIXES = TOKENIZER_INFIXES
 __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS", "TOKENIZER_PREFIXES", "TOKENIZER_SUFFIXES", "TOKENIZER_INFIXES"]
--- a/spacy/it/language_data.py
+++ b/spacy/it/language_data.py
@ -1,17 +0,0 @@
 # coding: utf8
 from __future__ import unicode_literals
 from .. import language_data as base
 from ..language_data import update_exc, strings_to_exc
 from .stop_words import STOP_WORDS
 STOP_WORDS = set(STOP_WORDS)
 TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS))
 __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
--- a/spacy/ja/language_data.py
+++ b/spacy/ja/language_data.py
@ -1,23 +0,0 @@
 # encoding: utf8
 from __future__ import unicode_literals
 # import base language data
 from .. import language_data as base
 # import util functions
 from ..language_data import update_exc, strings_to_exc
 # import language-specific data from files
 from .tag_map import TAG_MAP
 from .stop_words import STOP_WORDS
 TAG_MAP = dict(TAG_MAP)
 STOP_WORDS = set(STOP_WORDS)
 # export
 __all__ = ["TAG_MAP", "STOP_WORDS"]
--- a/spacy/nb/language_data.py
+++ b/spacy/nb/language_data.py
@ -1,28 +0,0 @@
 # encoding: utf8
 from __future__ import unicode_literals
 # import base language data
 from .. import language_data as base
 # import util functions
 from ..language_data import update_exc, strings_to_exc, expand_exc
 # import language-specific data from files 
 #from .tag_map import TAG_MAP
 from .stop_words import STOP_WORDS
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
 from .morph_rules import MORPH_RULES
 TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
 #TAG_MAP = dict(TAG_MAP) 
 STOP_WORDS = set(STOP_WORDS)
 # customize tokenizer exceptions 
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’"))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
 # export 
 __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS", "MORPH_RULES"]
--- a/spacy/nl/language_data.py
+++ b/spacy/nl/language_data.py
@ -1,17 +0,0 @@
 # coding: utf8
 from __future__ import unicode_literals
 from .. import language_data as base
 from ..language_data import update_exc, strings_to_exc
 from .stop_words import STOP_WORDS
 STOP_WORDS = set(STOP_WORDS)
 TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS))
 __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
--- a/spacy/pt/language_data.py
+++ b/spacy/pt/language_data.py
@ -1,19 +0,0 @@
 # coding: utf8
 from __future__ import unicode_literals
 from .. import language_data as base
 from ..language_data import update_exc, strings_to_exc
 from .stop_words import STOP_WORDS
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
 STOP_WORDS = set(STOP_WORDS)
 TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
 __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
--- a/spacy/sv/language_data.py
+++ b/spacy/sv/language_data.py
@ -1,19 +0,0 @@
 # coding: utf8
 from __future__ import unicode_literals
 from .. import language_data as base
 from ..language_data import update_exc, strings_to_exc
 from .stop_words import STOP_WORDS
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
 STOP_WORDS = set(STOP_WORDS)
 TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS))
 __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]