Reorganise Bengali language data

2025-10-30 15:37:29 +03:00 · 2017-05-08 15:43:50 +02:00 · 2017-05-08 15:43:50 +02:00 · 7b3a983f96
commit 7b3a983f96
parent 607ba458e7
5 changed files with 40 additions and 12 deletions
--- a/spacy/bn/init.py
+++ b/spacy/bn/init.py
@ -1,10 +1,16 @@
 # coding: utf8
-from __future__ import unicode_literals, print_function
+from __future__ import unicode_literals
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
 from .punctuation import TOKENIZER_PREFIXES, TOKENIZER_SUFFIXES, TOKENIZER_INFIXES
 from .tag_map import TAG_MAP
 from .stop_words import STOP_WORDS
 from .lemmatizer import LEMMA_RULES
 from ..language_data import BASE_EXCEPTIONS
 from ..language import Language
 from ..attrs import LANG
-
+from ..util import update_exc
 from .language_data import *
 class Bengali(Language):
@ -14,7 +20,7 @@ class Bengali(Language):
        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
        lex_attr_getters[LANG] = lambda text: 'bn'
-        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
+        tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS)
        tag_map = TAG_MAP
        stop_words = STOP_WORDS
        lemma_rules = LEMMA_RULES
@ -23,4 +29,5 @@ class Bengali(Language):
        suffixes = tuple(TOKENIZER_SUFFIXES)
        infixes = tuple(TOKENIZER_INFIXES)
-EXPORT = Bengali
+
 __all__ = ['Bengali']
--- a/spacy/bn/lemma_rules.py
+++ b/spacy/bn/lemma_rules.py
--- a/spacy/bn/morph_rules.py
+++ b/spacy/bn/morph_rules.py
@ -1,8 +1,9 @@
 # coding: utf8
 from __future__ import unicode_literals
-from ..language_data import PRON_LEMMA
+from ..symbols import LEMMA
-from ..symbols import *
+from ..deprecated import PRON_LEMMA
 MORPH_RULES = {
    "PRP":  {
@ -51,5 +52,5 @@ MORPH_RULES = {
                    'Case': 'Nom'},
        'তাদের':   {LEMMA:  PRON_LEMMA, 'Number': 'Plur', 'Person': 'Three', 'PronType': 'Prs', 'Poss': 'Yes',
                    'Case': 'Nom'},
-    },
+    }
 }
--- a/spacy/bn/punctuation.py
+++ b/spacy/bn/punctuation.py
@ -1,8 +1,10 @@
 # coding: utf8
 from __future__ import unicode_literals
-from ..language_data.punctuation import ALPHA_LOWER, LIST_ELLIPSES, QUOTES, ALPHA_UPPER, LIST_QUOTES, UNITS, \
+from ..language_data.punctuation import ALPHA_LOWER, LIST_ELLIPSES, QUOTES
-    CURRENCY, LIST_PUNCT, ALPHA, _QUOTES
+from ..language_data.punctuation import ALPHA_UPPER, LIST_QUOTES, UNITS
 from ..language_data.punctuation import CURRENCY, LIST_PUNCT, ALPHA, _QUOTES
 CURRENCY_SYMBOLS = r"\$ ¢ £ € ¥ ฿ ৳"
@ -42,4 +44,3 @@ TOKENIZER_INFIXES = (
        r'(?<=[{a}])([{q}\)\]\(\[])(?=[\-{a}])'.format(a=ALPHA, q=_QUOTES.replace("'", "").strip().replace(" ", "")),
    ]
 )
 __all__ = ["TOKENIZER_PREFIXES", "TOKENIZER_SUFFIXES", "TOKENIZER_INFIXES"]
--- a/spacy/bn/tag_map.py
+++ b/spacy/bn/tag_map.py
@ -1,7 +1,8 @@
 # coding: utf8
 from __future__ import unicode_literals
-from ..symbols import *
+from ..symbols import POS, PUNCT, ADJ, CONJ, SCONJ, NUM, DET, ADV, ADP, X, VERB
 from ..symbols import CCONJ, NOUN, PROPN, PART, INTJ, SPACE, PRON, AUX, SYM
 TAG_MAP = {
@ -55,4 +56,22 @@ TAG_MAP = {
    "WP$":      {POS: ADJ, "Poss": "yes", "PronType": "int|rel"},
    "WRB":      {POS: ADV, "PronType": "int|rel"},
    "SP":       {POS: SPACE},
    "ADV":      {POS: ADV},
    "NOUN":     {POS: NOUN},
    "ADP":      {POS: ADP},
    "PRON":     {POS: PRON},
    "SCONJ":    {POS: SCONJ},
    "PROPN":    {POS: PROPN},
    "DET":      {POS: DET},
    "SYM":      {POS: SYM},
    "INTJ":     {POS: INTJ},
    "PUNCT":    {POS: PUNCT},
    "NUM":      {POS: NUM},
    "AUX":      {POS: AUX},
    "X":        {POS: X},
    "CONJ":     {POS: CONJ},
    "CCONJ":    {POS: CCONJ},
    "ADJ":      {POS: ADJ},
    "VERB":     {POS: VERB},
    "PART":     {POS: PART},
 }