spaCy/spacy/lang/bn/lemmatizer.py

# coding: utf8
from __future__ import unicode_literals

# Source: উচ্চতর বাংলা ব্যাকরণ ও রচনা - অধ্যাপক নিরঞ্জন অধিকারী ও অধ্যাপক ড. সফিউদ্দিন আহমদ

LEMMA_RULES = {
    "noun": [
        ["টা", ""],
        ["টি", ""],
        ["খান", ""],
        ["খানা", ""],
        ["খানি", ""],
        ["গাছা", ""],
        ["গাছি", ""],
        ["ছড়া", ""],

        ["কে", ""],
        ["ে", ""],
        ["তে", ""],

        ["র", ""],
        ["রা", ""],
        ["রে", ""],
        ["ের", ""],  # এর
        ["েরা", ""],  # এরা
        ["দের", ""],
        ["দেরকে", ""],
        ["গুলা", ""],
        ["গুলো", ""],
        ["গুলি", ""],

        ["কুল", ""],
        ["গণ", ""],
        ["দল", ""],
        ["পাল", ""],
        ["পুঞ্জ", ""],
        ["মণ্ডলী", ""],
        ["মালা", ""],
        ["রাজি", ""],
        ["বৃন্দ", ""],
        ["বর্গ", ""],
        ["শ্রেণী", ""],
        ["শ্রেনি", ""],
        ["রাশি", ""],
        ["সকল", ""],
        ["মহল", ""],
        ["াবলি", ""],  # আবলি

        # Bengali digit representations
        ["০", "0"],
        ["১", "1"],
        ["২", "2"],
        ["৩", "3"],
        ["৪", "4"],
        ["৫", "5"],
        ["৬", "6"],
        ["৭", "7"],
        ["৮", "8"],
        ["৯", "9"],
    ],

    "punct": [
        ["“", "\""],
        ["”", "\""],
        ["\u2018", "'"],
        ["\u2019", "'"]
    ]
}