mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-10 19:57:17 +03:00
add basic Bengali support
This commit is contained in:
parent
cc9b2b74e3
commit
5a4fc09576
1
setup.py
1
setup.py
|
@ -32,6 +32,7 @@ PACKAGES = [
|
||||||
'spacy.nl',
|
'spacy.nl',
|
||||||
'spacy.sv',
|
'spacy.sv',
|
||||||
'spacy.fi',
|
'spacy.fi',
|
||||||
|
'spacy.bn',
|
||||||
'spacy.language_data',
|
'spacy.language_data',
|
||||||
'spacy.serialize',
|
'spacy.serialize',
|
||||||
'spacy.syntax',
|
'spacy.syntax',
|
||||||
|
|
|
@ -14,6 +14,7 @@ from . import pt
|
||||||
from . import nl
|
from . import nl
|
||||||
from . import sv
|
from . import sv
|
||||||
from . import fi
|
from . import fi
|
||||||
|
from . import bn
|
||||||
|
|
||||||
try:
|
try:
|
||||||
basestring
|
basestring
|
||||||
|
@ -32,6 +33,7 @@ set_lang_class(zh.Chinese.lang, zh.Chinese)
|
||||||
set_lang_class(nl.Dutch.lang, nl.Dutch)
|
set_lang_class(nl.Dutch.lang, nl.Dutch)
|
||||||
set_lang_class(sv.Swedish.lang, sv.Swedish)
|
set_lang_class(sv.Swedish.lang, sv.Swedish)
|
||||||
set_lang_class(fi.Finnish.lang, fi.Finnish)
|
set_lang_class(fi.Finnish.lang, fi.Finnish)
|
||||||
|
set_lang_class(bn.Bengali.lang, bn.Bengali)
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
18
spacy/bn/__init__.py
Normal file
18
spacy/bn/__init__.py
Normal file
|
@ -0,0 +1,18 @@
|
||||||
|
# encoding: utf8
|
||||||
|
from __future__ import unicode_literals, print_function
|
||||||
|
|
||||||
|
from ..language import Language
|
||||||
|
from ..attrs import LANG
|
||||||
|
|
||||||
|
from .language_data import *
|
||||||
|
|
||||||
|
|
||||||
|
class Bengali(Language):
|
||||||
|
lang = 'bn'
|
||||||
|
|
||||||
|
class Defaults(Language.Defaults):
|
||||||
|
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||||
|
lex_attr_getters[LANG] = lambda text: 'bn'
|
||||||
|
|
||||||
|
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||||
|
stop_words = STOP_WORDS
|
17
spacy/bn/language_data.py
Normal file
17
spacy/bn/language_data.py
Normal file
|
@ -0,0 +1,17 @@
|
||||||
|
# encoding: utf8
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
from .. import language_data as base
|
||||||
|
from ..language_data import update_exc, strings_to_exc
|
||||||
|
|
||||||
|
from .stop_words import STOP_WORDS
|
||||||
|
|
||||||
|
|
||||||
|
STOP_WORDS = set(STOP_WORDS)
|
||||||
|
|
||||||
|
|
||||||
|
TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
|
||||||
|
update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS))
|
||||||
|
|
||||||
|
|
||||||
|
__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
|
32
spacy/bn/stop_words.py
Normal file
32
spacy/bn/stop_words.py
Normal file
|
@ -0,0 +1,32 @@
|
||||||
|
# encoding: utf8
|
||||||
|
from __future__ import unicode_literals
|
||||||
|
|
||||||
|
|
||||||
|
STOP_WORDS = set("""
|
||||||
|
অতএব অথচ অথবা অনুযায়ী অনেক অনেকে অনেকেই অন্তত অন্য অবধি অবশ্য অর্থাত
|
||||||
|
আই আগামী আগে আগেই আছে আজ আদ্যভাগে আপনার আপনি আবার আমরা আমাকে আমাদের আমার আমি আর আরও
|
||||||
|
ই ইত্যাদি ইহা উচিত উনি উপর উপরে
|
||||||
|
এ এঁদের এঁরা এই এক একই একজন একটা একটি একবার একে এখন এখনও এখানে এখানেই এটা এটাই এটি এত এতটাই এতে এদের এবং এবার এমন এমনকী এর এরা এল এস এসে
|
||||||
|
ঐ
|
||||||
|
ও ওঁদের ওঁর ওঁরা ওই ওকে ওখানে ওদের ওর ওরা
|
||||||
|
কখনও কত কথা কবে কয়েক কয়েকটি করছে করছেন করতে করবে করবেন করলে করলেন করা করাই করায় করার করি করিতে করিয়া করিয়ে করে করেই করেছিলেন করেছে করেছেন করেন কাউকে কাছ কাছে কাজ কাজে কারও কারণ কি কিংবা কিছু কিছুই কিন্তু কী কে কেউ কেউই কেন কোন কোনও কোনো ক্ষেত্রে
|
||||||
|
খুব
|
||||||
|
গিয়ে গিয়েছে গুলি গেছে গেল গেলে গোটা
|
||||||
|
চলে চান চায় চেয়ে
|
||||||
|
ছাড়া ছাড়াও ছিল ছিলেন
|
||||||
|
জন জনকে জনের জন্য জন্যওজে জানতে জানা জানানো জানায় জানিয়ে জানিয়েছে জে
|
||||||
|
টি ঠিক তখন তত তথা তবু তবে তা তাঁকে তাঁদের তাঁর তাঁরা তাঁাহারা তাই তাও তাকে তাতে তাদের তার তারপর তারা তারৈ তাহলে তাহা তাহাতে তাহার তিনঐ তিনি তিনিও তুমি তুলে তেমন তো তোমার
|
||||||
|
থাকবে থাকবেন থাকা থাকায় থাকে থাকেন থেকে থেকেই থেকেও
|
||||||
|
দিকে দিতে দিয়ে দিয়েছে দিয়েছেন দিলেন দিয়ে দু দুটি দুটো দেওয়া দেওয়ার দেখতে দেখা দেখে দেন দেয় দেশের দ্বারা
|
||||||
|
ধরা ধরে
|
||||||
|
নয় না নাই নাকি নাগাদ নানা নিজে নিজেই নিজেদের নিজের নিতে নিয়ে নিয়ে নেই নেওয়া নেওয়ার নয়
|
||||||
|
পক্ষে পর পরে পরেই পরেও পর্যন্ত পাওয়া পারি পারে পারেন পেয়ে প্রতি প্রভৃতি প্রায়
|
||||||
|
ফলে ফিরে ফের
|
||||||
|
বছর বদলে বরং বলতে বলল বললেন বলা বলে বলেছেন বলেন বসে বহু বা বাদে বার বিনা বিভিন্ন বিশেষ বিষয়টি বেশ ব্যবহার ব্যাপারে
|
||||||
|
ভাবে ভাবেই
|
||||||
|
মত মতো মতোই মধ্যভাগে মধ্যে মধ্যেই মধ্যেও মনে মাত্র মাধ্যমে মানুষ মানুষের মোট মোটেই
|
||||||
|
যখন যত যতটা যথেষ্ট যদি যদিও যা যাঁর যাঁরা যাওয়া যাওয়ার যাকে যাচ্ছে যাতে যাদের যান যাবে যায় যার যারা যায় যিনি যে যেখানে যেতে যেন যেমন
|
||||||
|
রকম রয়েছে রাখা রেখে
|
||||||
|
শুধু শুরু সঙ্গে সঙ্গেও সব সবার সমস্ত সম্প্রতি সময় সহ সহিত সাথে সুতরাং সে সেই সেখান সেখানে সেটা সেটাই সেটাও সেটি স্পষ্ট স্বয়ং
|
||||||
|
হইতে হইবে হইয়া হওয়া হওয়ায় হওয়ার হচ্ছে হত হতে হতেই হন হবে হবেন হয় হয়তো হয়নি হয়ে হয়েই হয়েছিল হয়েছে হয়েছেন হল হলে হলেই হলেও হলো হিসাবে হিসেবে হৈলে হোক হয় হয়ে হয়েছে
|
||||||
|
""".split())
|
Loading…
Reference in New Issue
Block a user