Merge pull request #872 from banglakit/bn-improvements

[Bengali] basic tag map, morph, lemma rules and exceptions
2025-11-03 01:17:52 +03:00 · 2017-03-04 11:36:24 +01:00 · 2017-03-04 11:36:24 +01:00 · bb959692f5
commit bb959692f5
parent 33efe77392 8f3bfe9bfc
6 changed files with 229 additions and 1 deletions
--- a/spacy/bn/init.py
+++ b/spacy/bn/init.py
@ -15,7 +15,9 @@ class Bengali(Language):
        lex_attr_getters[LANG] = lambda text: 'bn'

        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
+        tag_map = TAG_MAP
        stop_words = STOP_WORDS
+        lemma_rules = LEMMA_RULES

        prefixes = tuple(TOKENIZER_PREFIXES)
        suffixes = tuple(TOKENIZER_SUFFIXES)
--- a/spacy/bn/language_data.py
+++ b/spacy/bn/language_data.py
@ -4,15 +4,24 @@ from __future__ import unicode_literals
 from spacy.language_data import strings_to_exc, update_exc
 from .punctuation import *
 from .stop_words import STOP_WORDS
+from .tag_map import TAG_MAP as TAG_MAP_BN
+from .morph_rules import MORPH_RULES
+from .lemma_rules import LEMMA_RULES
+from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS as TOKENIZER_EXCEPTIONS_BN
 from .. import language_data as base

 STOP_WORDS = set(STOP_WORDS)

+TAG_MAP = base.TAG_MAP
+TAG_MAP.update(TAG_MAP_BN)
+
 TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
 update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS))
+TOKENIZER_EXCEPTIONS.update(TOKENIZER_EXCEPTIONS_BN)

 TOKENIZER_PREFIXES = TOKENIZER_PREFIXES
 TOKENIZER_SUFFIXES = TOKENIZER_SUFFIXES
 TOKENIZER_INFIXES = TOKENIZER_INFIXES

-__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS", "TOKENIZER_PREFIXES", "TOKENIZER_SUFFIXES", "TOKENIZER_INFIXES"]
+__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS", "TAG_MAP", "MORPH_RULES", "LEMMA_RULES",
+           "TOKENIZER_PREFIXES", "TOKENIZER_SUFFIXES", "TOKENIZER_INFIXES"]
--- a/spacy/bn/lemma_rules.py
+++ b/spacy/bn/lemma_rules.py
@ -0,0 +1,68 @@
+# encoding: utf8
+from __future__ import unicode_literals
+
+# Source: উচ্চতর বাংলা ব্যাকরণ ও রচনা - অধ্যাপক নিরঞ্জন অধিকারী ও অধ্যাপক ড. সফিউদ্দিন আহমদ
+
+LEMMA_RULES = {
+    "noun": [
+        ["টা", ""],
+        ["টি", ""],
+        ["খান", ""],
+        ["খানা", ""],
+        ["খানি", ""],
+        ["গাছা", ""],
+        ["গাছি", ""],
+        ["ছড়া", ""],
+
+        ["কে", ""],
+        ["ে", ""],
+        ["তে", ""],
+
+        ["র", ""],
+        ["রা", ""],
+        ["রে", ""],
+        ["ের", ""],  # এর
+        ["েরা", ""],  # এরা
+        ["দের", ""],
+        ["দেরকে", ""],
+        ["গুলা", ""],
+        ["গুলো", ""],
+        ["গুলি", ""],
+
+        ["কুল", ""],
+        ["গণ", ""],
+        ["দল", ""],
+        ["পাল", ""],
+        ["পুঞ্জ", ""],
+        ["মণ্ডলী", ""],
+        ["মালা", ""],
+        ["রাজি", ""],
+        ["বৃন্দ", ""],
+        ["বর্গ", ""],
+        ["শ্রেণী", ""],
+        ["শ্রেনি", ""],
+        ["রাশি", ""],
+        ["সকল", ""],
+        ["মহল", ""],
+        ["াবলি", ""],  # আবলি
+
+        # Bengali digit representations
+        ["০", "0"],
+        ["১", "1"],
+        ["২", "2"],
+        ["৩", "3"],
+        ["৪", "4"],
+        ["৫", "5"],
+        ["৬", "6"],
+        ["৭", "7"],
+        ["৮", "8"],
+        ["৯", "9"],
+    ],
+
+    "punct": [
+        ["“", "\""],
+        ["”", "\""],
+        ["\u2018", "'"],
+        ["\u2019", "'"]
+    ]
+}
--- a/spacy/bn/morph_rules.py
+++ b/spacy/bn/morph_rules.py
@ -0,0 +1,55 @@
+# encoding: utf8
+from __future__ import unicode_literals
+
+from ..language_data import PRON_LEMMA
+from ..symbols import *
+
+MORPH_RULES = {
+    "PRP":  {
+        'ঐ':         {LEMMA: PRON_LEMMA, 'PronType': 'Dem'},
+        'আমাকে':     {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'Person': 'One', 'PronType': 'Prs', 'Case': 'Acc'},
+        'কি':        {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'Gender': 'Neut', 'PronType': 'Int', 'Case': 'Acc'},
+        'সে':        {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'Person': 'Three', 'PronType': 'Prs', 'Case': 'Nom'},
+        'কিসে':      {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'Gender': 'Neut', 'PronType': 'Int', 'Case': 'Acc'},
+        'কাদের':     {LEMMA: PRON_LEMMA, 'Number': 'Plur', 'PronType': 'Int', 'Case': 'Acc'},
+        'তাকে':      {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'Person': 'Three', 'PronType': 'Prs', 'Case': 'Acc'},
+        'স্বয়ং':     {LEMMA: PRON_LEMMA, 'Reflex': 'Yes', 'PronType': 'Ref'},
+        'কোনগুলো':   {LEMMA: PRON_LEMMA, 'Number': 'Plur', 'Gender': 'Neut', 'PronType': 'Int', 'Case': 'Acc'},
+        'তুমি':      {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'Person': 'Two', 'PronType': 'Prs', 'Case': 'Nom'},
+        'তাদেরকে':   {LEMMA: PRON_LEMMA, 'Number': 'Plur', 'Person': 'Three', 'PronType': 'Prs', 'Case': 'Acc'},
+        'আমরা':      {LEMMA: PRON_LEMMA, 'Number': 'Plur', 'Person': 'One ', 'PronType': 'Prs', 'Case': 'Nom'},
+        'যিনি':      {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'PronType': 'Rel', 'Case': 'Nom'},
+        'আমাদেরকে':  {LEMMA: PRON_LEMMA, 'Number': 'Plur', 'Person': 'One', 'PronType': 'Prs', 'Case': 'Acc'},
+        'কোন':       {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'PronType': 'Int', 'Case': 'Acc'},
+        'কারা':      {LEMMA: PRON_LEMMA, 'Number': 'Plur', 'PronType': 'Int', 'Case': 'Acc'},
+        'তোমাকে':    {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'Person': 'Two', 'PronType': 'Prs', 'Case': 'Acc'},
+        'খোদ':       {LEMMA: PRON_LEMMA, 'Reflex': 'Yes', 'PronType': 'Ref'},
+        'কে':        {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'PronType': 'Int', 'Case': 'Acc'},
+        'যারা':      {LEMMA: PRON_LEMMA, 'Number': 'Plur', 'PronType': 'Rel', 'Case': 'Nom'},
+        'যে':        {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'PronType': 'Rel', 'Case': 'Nom'},
+        'তোমরা':     {LEMMA: PRON_LEMMA, 'Number': 'Plur', 'Person': 'Two', 'PronType': 'Prs', 'Case': 'Nom'},
+        'তোমাদেরকে': {LEMMA: PRON_LEMMA, 'Number': 'Plur', 'Person': 'Two', 'PronType': 'Prs', 'Case': 'Acc'},
+        'আপন':       {LEMMA: PRON_LEMMA, 'Reflex': 'Yes', 'PronType': 'Ref'},
+        'এ':         {LEMMA: PRON_LEMMA, 'PronType': 'Dem'},
+        'নিজ':       {LEMMA: PRON_LEMMA, 'Reflex': 'Yes', 'PronType': 'Ref'},
+        'কার':       {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'PronType': 'Int', 'Case': 'Acc'},
+        'যা':        {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'Gender': 'Neut', 'PronType': 'Rel', 'Case': 'Nom'},
+        'তারা':      {LEMMA: PRON_LEMMA, 'Number': 'Plur', 'Person': 'Three', 'PronType': 'Prs', 'Case': 'Nom'},
+        'আমি':       {LEMMA: PRON_LEMMA, 'Number': 'Sing', 'Person': 'One', 'PronType': 'Prs', 'Case': 'Nom'}
+    },
+    "PRP$": {
+
+        'আমার':    {LEMMA:  PRON_LEMMA, 'Number': 'Sing', 'Person': 'One', 'PronType': 'Prs', 'Poss': 'Yes',
+                    'Case': 'Nom'},
+        'তার':     {LEMMA:  PRON_LEMMA, 'Number': 'Sing', 'Person': 'Three', 'PronType': 'Prs', 'Poss': 'Yes',
+                    'Case': 'Nom'},
+        'তোমাদের': {LEMMA:  PRON_LEMMA, 'Number': 'Plur', 'Person': 'Two', 'PronType': 'Prs', 'Poss': 'Yes',
+                    'Case': 'Nom'},
+        'আমাদের':  {LEMMA:  PRON_LEMMA, 'Number': 'Plur', 'Person': 'One', 'PronType': 'Prs', 'Poss': 'Yes',
+                    'Case': 'Nom'},
+        'তোমার':   {LEMMA:  PRON_LEMMA, 'Number': 'Sing', 'Person': 'Two', 'PronType': 'Prs', 'Poss': 'Yes',
+                    'Case': 'Nom'},
+        'তাদের':   {LEMMA:  PRON_LEMMA, 'Number': 'Plur', 'Person': 'Three', 'PronType': 'Prs', 'Poss': 'Yes',
+                    'Case': 'Nom'},
+    },
+}
--- a/spacy/bn/tag_map.py
+++ b/spacy/bn/tag_map.py
@ -0,0 +1,58 @@
+# encoding: utf8
+from __future__ import unicode_literals
+
+from ..symbols import *
+
+
+TAG_MAP = {
+    ".":        {POS: PUNCT, "PunctType": "peri"},
+    ",":        {POS: PUNCT, "PunctType": "comm"},
+    "-LRB-":    {POS: PUNCT, "PunctType": "brck", "PunctSide": "ini"},
+    "-RRB-":    {POS: PUNCT, "PunctType": "brck", "PunctSide": "fin"},
+    "``":       {POS: PUNCT, "PunctType": "quot", "PunctSide": "ini"},
+    "\"\"":     {POS: PUNCT, "PunctType": "quot", "PunctSide": "fin"},
+    "''":       {POS: PUNCT, "PunctType": "quot", "PunctSide": "fin"},
+    ":":        {POS: PUNCT},
+    "৳":        {POS: SYM, "Other": {"SymType": "currency"}},
+    "#":        {POS: SYM, "Other": {"SymType": "numbersign"}},
+    "AFX":      {POS: ADJ,  "Hyph": "yes"},
+    "CC":       {POS: CONJ, "ConjType": "coor"},
+    "CD":       {POS: NUM, "NumType": "card"},
+    "DT":       {POS: DET},
+    "EX":       {POS: ADV, "AdvType": "ex"},
+    "FW":       {POS: X, "Foreign": "yes"},
+    "HYPH":     {POS: PUNCT, "PunctType": "dash"},
+    "IN":       {POS: ADP},
+    "JJ":       {POS: ADJ, "Degree": "pos"},
+    "JJR":      {POS: ADJ, "Degree": "comp"},
+    "JJS":      {POS: ADJ, "Degree": "sup"},
+    "LS":       {POS: PUNCT, "NumType": "ord"},
+    "MD":       {POS: VERB, "VerbType": "mod"},
+    "NIL":      {POS: ""},
+    "NN":       {POS: NOUN, "Number": "sing"},
+    "NNP":      {POS: PROPN, "NounType": "prop", "Number": "sing"},
+    "NNPS":     {POS: PROPN, "NounType": "prop", "Number": "plur"},
+    "NNS":      {POS: NOUN, "Number": "plur"},
+    "PDT":      {POS: ADJ, "AdjType": "pdt", "PronType": "prn"},
+    "POS":      {POS: PART, "Poss": "yes"},
+    "PRP":      {POS: PRON, "PronType": "prs"},
+    "PRP$":     {POS: ADJ, "PronType": "prs", "Poss": "yes"},
+    "RB":       {POS: ADV, "Degree": "pos"},
+    "RBR":      {POS: ADV, "Degree": "comp"},
+    "RBS":      {POS: ADV, "Degree": "sup"},
+    "RP":       {POS: PART},
+    "SYM":      {POS: SYM},
+    "TO":       {POS: PART, "PartType": "inf", "VerbForm": "inf"},
+    "UH":       {POS: INTJ},
+    "VB":       {POS: VERB, "VerbForm": "inf"},
+    "VBD":      {POS: VERB, "VerbForm": "fin", "Tense": "past"},
+    "VBG":      {POS: VERB, "VerbForm": "part", "Tense": "pres", "Aspect": "prog"},
+    "VBN":      {POS: VERB, "VerbForm": "part", "Tense": "past", "Aspect": "perf"},
+    "VBP":      {POS: VERB, "VerbForm": "fin", "Tense": "pres"},
+    "VBZ":      {POS: VERB, "VerbForm": "fin", "Tense": "pres", "Number": "sing", "Person": 3},
+    "WDT":      {POS: ADJ, "PronType": "int|rel"},
+    "WP":       {POS: NOUN, "PronType": "int|rel"},
+    "WP$":      {POS: ADJ, "Poss": "yes", "PronType": "int|rel"},
+    "WRB":      {POS: ADV, "PronType": "int|rel"},
+    "SP":       {POS: SPACE},
+}
--- a/spacy/bn/tokenizer_exceptions.py
+++ b/spacy/bn/tokenizer_exceptions.py
@ -0,0 +1,36 @@
+# coding=utf-8
+from __future__ import unicode_literals
+
+from ..symbols import *
+
+TOKENIZER_EXCEPTIONS = {}
+
+ABBREVIATIONS = {
+    "ডঃ": [
+        {ORTH: "ডঃ", LEMMA: "ডক্টর"},
+    ],
+    "ডাঃ": [
+        {ORTH: "ডাঃ", LEMMA: "ডাক্তার"},
+    ],
+    "ড.": [
+        {ORTH: "ড.", LEMMA: "ডক্টর"},
+    ],
+    "ডা.": [
+        {ORTH: "ডা.", LEMMA: "ডাক্তার"},
+    ],
+    "মোঃ": [
+        {ORTH: "মোঃ", LEMMA: "মোহাম্মদ"},
+    ],
+    "মো.": [
+        {ORTH: "মো.", LEMMA: "মোহাম্মদ"},
+    ],
+    "সে.": [
+        {ORTH: "সে.", LEMMA: "সেলসিয়াস"},
+    ],
+    "কি.মি": [
+        {ORTH: "কি.মি", LEMMA: "কিলোমিটার"},
+        {ORTH: "কি.মি.", LEMMA: "কিলোমিটার"},
+    ],
+}
+
+TOKENIZER_EXCEPTIONS.update(ABBREVIATIONS)