mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-15 06:09:01 +03:00
eddeb36c96
<!--- Provide a general summary of your changes in the title. --> ## Description - [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files. - [x] Update flake8 config to exclude very large files (lemmatization tables etc.) - [x] Update code to be compatible with flake8 rules - [x] Fix various small bugs, inconsistencies and messy stuff in the language data - [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means) Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results. At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information. ### Types of change enhancement, code style ## Checklist <!--- Before you submit the PR, go over this checklist and make sure you can tick off all the boxes. [] -> [x] --> - [x] I have submitted the spaCy Contributor Agreement. - [x] I ran the tests, and all new and existing tests passed. - [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
517 lines
4.7 KiB
Python
517 lines
4.7 KiB
Python
# encoding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
# Source: collected from different resource on internet
|
|
STOP_WORDS = set(
|
|
"""
|
|
ثھی
|
|
خو
|
|
گی
|
|
اپٌے
|
|
گئے
|
|
ثہت
|
|
طرف
|
|
ہوبری
|
|
پبئے
|
|
اپٌب
|
|
دوضری
|
|
گیب
|
|
کت
|
|
گب
|
|
ثھی
|
|
ضے
|
|
ہر
|
|
پر
|
|
اش
|
|
دی
|
|
گے
|
|
لگیں
|
|
ہے
|
|
ثعذ
|
|
ضکتے
|
|
تھی
|
|
اى
|
|
دیب
|
|
لئے
|
|
والے
|
|
یہ
|
|
ثدبئے
|
|
ضکتی
|
|
تھب
|
|
اًذر
|
|
رریعے
|
|
لگی
|
|
ہوبرا
|
|
ہوًے
|
|
ثبہر
|
|
ضکتب
|
|
ًہیں
|
|
تو
|
|
اور
|
|
رہب
|
|
لگے
|
|
ہوضکتب
|
|
ہوں
|
|
کب
|
|
ہوبرے
|
|
توبم
|
|
کیب
|
|
ایطے
|
|
رہی
|
|
هگر
|
|
ہوضکتی
|
|
ہیں
|
|
کریں
|
|
ہو
|
|
تک
|
|
کی
|
|
ایک
|
|
رہے
|
|
هیں
|
|
ہوضکتے
|
|
کیطے
|
|
ہوًب
|
|
تت
|
|
کہ
|
|
ہوا
|
|
آئے
|
|
ضبت
|
|
تھے
|
|
کیوں
|
|
ہو
|
|
تب
|
|
کے
|
|
پھر
|
|
ثغیر
|
|
خبر
|
|
ہے
|
|
رکھ
|
|
کی
|
|
طب
|
|
کوئی
|
|
رریعے
|
|
ثبرے
|
|
خب
|
|
اضطرذ
|
|
ثلکہ
|
|
خجکہ
|
|
رکھ
|
|
تب
|
|
کی
|
|
طرف
|
|
ثراں
|
|
خبر
|
|
رریعہ
|
|
اضکب
|
|
ثٌذ
|
|
خص
|
|
کی
|
|
لئے
|
|
توہیں
|
|
دوضرے
|
|
کررہی
|
|
اضکی
|
|
ثیچ
|
|
خوکہ
|
|
رکھتی
|
|
کیوًکہ
|
|
دوًوں
|
|
کر
|
|
رہے
|
|
خبر
|
|
ہی
|
|
ثرآں
|
|
اضکے
|
|
پچھلا
|
|
خیطب
|
|
رکھتے
|
|
کے
|
|
ثعذ
|
|
تو
|
|
ہی
|
|
دورى
|
|
کر
|
|
یہبں
|
|
آش
|
|
تھوڑا
|
|
چکے
|
|
زکویہ
|
|
دوضروں
|
|
ضکب
|
|
اوًچب
|
|
ثٌب
|
|
پل
|
|
تھوڑی
|
|
چلا
|
|
خبهوظ
|
|
دیتب
|
|
ضکٌب
|
|
اخبزت
|
|
اوًچبئی
|
|
ثٌبرہب
|
|
پوچھب
|
|
تھوڑے
|
|
چلو
|
|
ختن
|
|
دیتی
|
|
ضکی
|
|
اچھب
|
|
اوًچی
|
|
ثٌبرہی
|
|
پوچھتب
|
|
تیي
|
|
چلیں
|
|
در
|
|
دیتے
|
|
ضکے
|
|
اچھی
|
|
اوًچے
|
|
ثٌبرہے
|
|
پوچھتی
|
|
خبًب
|
|
چلے
|
|
درخبت
|
|
دیر
|
|
ضلطلہ
|
|
اچھے
|
|
اٹھبًب
|
|
ثٌبًب
|
|
پوچھتے
|
|
خبًتب
|
|
چھوٹب
|
|
درخہ
|
|
دیکھٌب
|
|
ضوچ
|
|
اختتبم
|
|
اہن
|
|
ثٌذ
|
|
پوچھٌب
|
|
خبًتی
|
|
چھوٹوں
|
|
درخے
|
|
دیکھو
|
|
ضوچب
|
|
ادھر
|
|
آئی
|
|
ثٌذکرًب
|
|
پوچھو
|
|
خبًتے
|
|
چھوٹی
|
|
درزقیقت
|
|
دیکھی
|
|
ضوچتب
|
|
ارد
|
|
آئے
|
|
ثٌذکرو
|
|
پوچھوں
|
|
خبًٌب
|
|
چھوٹے
|
|
درضت
|
|
دیکھیں
|
|
ضوچتی
|
|
اردگرد
|
|
آج
|
|
ثٌذی
|
|
پوچھیں
|
|
خططرذ
|
|
چھہ
|
|
دش
|
|
دیٌب
|
|
ضوچتے
|
|
ارکبى
|
|
آخر
|
|
ثڑا
|
|
پورا
|
|
خگہ
|
|
چیسیں
|
|
دفعہ
|
|
دے
|
|
ضوچٌب
|
|
اضتعوبل
|
|
آخر
|
|
پہلا
|
|
خگہوں
|
|
زبصل
|
|
دکھبئیں
|
|
راضتوں
|
|
ضوچو
|
|
اضتعوبلات
|
|
آدهی
|
|
ثڑی
|
|
پہلی
|
|
خگہیں
|
|
زبضر
|
|
دکھبتب
|
|
راضتہ
|
|
ضوچی
|
|
اغیب
|
|
آًب
|
|
ثڑے
|
|
پہلےضی
|
|
خلذی
|
|
زبل
|
|
دکھبتی
|
|
راضتے
|
|
ضوچیں
|
|
اطراف
|
|
آٹھ
|
|
ثھر
|
|
خٌبة
|
|
زبل
|
|
دکھبتے
|
|
رکي
|
|
ضیذھب
|
|
افراد
|
|
آیب
|
|
ثھرا
|
|
پہلے
|
|
خواى
|
|
زبلات
|
|
دکھبًب
|
|
رکھب
|
|
ضیذھی
|
|
اکثر
|
|
ثب
|
|
ہوا
|
|
پیع
|
|
خوًہی
|
|
زبلیہ
|
|
دکھبو
|
|
رکھی
|
|
ضیذھے
|
|
اکٹھب
|
|
ثھرپور
|
|
تبزٍ
|
|
خیطبکہ
|
|
زصوں
|
|
رکھے
|
|
ضیکٌڈ
|
|
اکٹھی
|
|
ثبری
|
|
ثہتر
|
|
تر
|
|
چبر
|
|
زصہ
|
|
دلچطپ
|
|
زیبدٍ
|
|
غبیذ
|
|
اکٹھے
|
|
ثبلا
|
|
ثہتری
|
|
ترتیت
|
|
چبہب
|
|
زصے
|
|
دلچطپی
|
|
ضبت
|
|
غخص
|
|
اکیلا
|
|
ثبلترتیت
|
|
ثہتریي
|
|
تریي
|
|
چبہٌب
|
|
زقبئق
|
|
دلچطپیبں
|
|
ضبدٍ
|
|
غذ
|
|
اکیلی
|
|
ثرش
|
|
پبش
|
|
تعذاد
|
|
چبہے
|
|
زقیتیں
|
|
هٌبضت
|
|
ضبرا
|
|
غروع
|
|
اکیلے
|
|
ثغیر
|
|
پبًب
|
|
چکب
|
|
زقیقت
|
|
دو
|
|
ضبرے
|
|
غروعبت
|
|
اگرچہ
|
|
ثلٌذ
|
|
پبًچ
|
|
تن
|
|
چکی
|
|
زکن
|
|
دور
|
|
ضبل
|
|
غے
|
|
الگ
|
|
پراًب
|
|
تٌہب
|
|
چکیں
|
|
دوضرا
|
|
ضبلوں
|
|
صبف
|
|
صسیر
|
|
قجیلہ
|
|
کوًطے
|
|
لازهی
|
|
هطئلے
|
|
ًیب
|
|
طریق
|
|
کرتی
|
|
کہتے
|
|
صفر
|
|
قطن
|
|
کھولا
|
|
لگتب
|
|
هطبئل
|
|
وار
|
|
طریقوں
|
|
کرتے
|
|
کہٌب
|
|
صورت
|
|
کئی
|
|
کھولٌب
|
|
لگتی
|
|
هطتعول
|
|
وار
|
|
طریقہ
|
|
کرتے
|
|
ہو
|
|
کہٌب
|
|
صورتسبل
|
|
کئے
|
|
کھولو
|
|
لگتے
|
|
هػتول
|
|
ٹھیک
|
|
طریقے
|
|
کرًب
|
|
کہو
|
|
صورتوں
|
|
کبفی
|
|
هطلق
|
|
ڈھوًڈا
|
|
طور
|
|
کرو
|
|
کہوں
|
|
صورتیں
|
|
کبم
|
|
کھولیں
|
|
لگی
|
|
هعلوم
|
|
ڈھوًڈلیب
|
|
طورپر
|
|
کریں
|
|
کہی
|
|
ضرور
|
|
کجھی
|
|
کھولے
|
|
لگے
|
|
هکول
|
|
ڈھوًڈًب
|
|
ظبہر
|
|
کرے
|
|
کہیں
|
|
ضرورت
|
|
کرا
|
|
کہب
|
|
لوجب
|
|
هلا
|
|
ڈھوًڈو
|
|
عذد
|
|
کل
|
|
کہیں
|
|
کرتب
|
|
کہتب
|
|
لوجی
|
|
هوکي
|
|
ڈھوًڈی
|
|
عظین
|
|
کن
|
|
کہے
|
|
ضروری
|
|
کرتبہوں
|
|
کہتی
|
|
لوجے
|
|
هوکٌبت
|
|
ڈھوًڈیں
|
|
علاقوں
|
|
کوتر
|
|
کیے
|
|
لوسبت
|
|
هوکٌہ
|
|
ہن
|
|
لے
|
|
ًبپطٌذ
|
|
ہورہے
|
|
علاقہ
|
|
کورا
|
|
کے
|
|
رریعے
|
|
لوسہ
|
|
هڑا
|
|
ہوئی
|
|
هتعلق
|
|
ًبگسیر
|
|
ہوگئی
|
|
علاقے
|
|
کوروں
|
|
گئی
|
|
لو
|
|
هڑًب
|
|
ہوئے
|
|
هسترم
|
|
ًطجت
|
|
ہو
|
|
گئے
|
|
علاوٍ
|
|
کورٍ
|
|
گرد
|
|
لوگ
|
|
هڑے
|
|
ہوتی
|
|
هسترهہ
|
|
ًقطہ
|
|
ہوگیب
|
|
کورے
|
|
گروپ
|
|
لوگوں
|
|
هہرثبى
|
|
ہوتے
|
|
هسطوش
|
|
ًکبلٌب
|
|
ہوًی
|
|
عووهی
|
|
کوطي
|
|
گروٍ
|
|
لڑکپي
|
|
هیرا
|
|
ہوچکب
|
|
هختلف
|
|
ًکتہ
|
|
ہی
|
|
فرد
|
|
کوى
|
|
گروہوں
|
|
لی
|
|
هیری
|
|
ہوچکی
|
|
هسیذ
|
|
فی
|
|
کوًطب
|
|
گٌتی
|
|
لیب
|
|
هیرے
|
|
ہوچکے
|
|
هطئلہ
|
|
ًوخواى
|
|
یقیٌی
|
|
قجل
|
|
کوًطی
|
|
لیٌب
|
|
ًئی
|
|
ہورہب
|
|
لیں
|
|
ًئے
|
|
ہورہی
|
|
ثبعث
|
|
ضت
|
|
""".split()
|
|
)
|