2018-06-19 11:17:53 +03:00
|
|
|
|
# encoding: utf8
|
|
|
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
|
|
|
|
# Tatar stopwords are from https://github.com/aliiae/stopwords-tt
|
|
|
|
|
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
|
STOP_WORDS = set(
|
|
|
|
|
"""алай алайса алар аларга аларда алардан аларны аларның аларча
|
2018-06-19 11:17:53 +03:00
|
|
|
|
алары аларын аларынга аларында аларыннан аларының алтмыш алтмышынчы алтмышынчыга
|
|
|
|
|
алтмышынчыда алтмышынчыдан алтмышынчылар алтмышынчыларга алтмышынчыларда
|
|
|
|
|
алтмышынчылардан алтмышынчыларны алтмышынчыларның алтмышынчыны алтмышынчының
|
|
|
|
|
алты алтылап алтынчы алтынчыга алтынчыда алтынчыдан алтынчылар алтынчыларга
|
|
|
|
|
алтынчыларда алтынчылардан алтынчыларны алтынчыларның алтынчыны алтынчының
|
|
|
|
|
алтышар анда андагы андай андый андыйга андыйда андыйдан андыйны андыйның аннан
|
|
|
|
|
ансы анча аны аныкы аныкын аныкынга аныкында аныкыннан аныкының анысы анысын
|
|
|
|
|
анысынга анысында анысыннан анысының аның аныңча аркылы ары аша аңа аңар аңарга
|
|
|
|
|
аңарда аңардагы аңардан
|
|
|
|
|
|
|
|
|
|
бар бара барлык барча барчасы барчасын барчасына барчасында барчасыннан
|
|
|
|
|
барчасының бары башка башкача белән без безгә бездә бездән безне безнең безнеңчә
|
|
|
|
|
белдерүенчә белән бер бергә беренче беренчегә беренчедә беренчедән беренчеләр
|
|
|
|
|
беренчеләргә беренчеләрдә беренчеләрдән беренчеләрне беренчеләрнең беренчене
|
|
|
|
|
беренченең беркайда беркайсы беркая беркаян беркем беркемгә беркемдә беркемне
|
|
|
|
|
беркемнең беркемнән берлән берни бернигә бернидә бернидән бернинди бернине
|
|
|
|
|
бернинең берничек берничә бернәрсә бернәрсәгә бернәрсәдә бернәрсәдән бернәрсәне
|
|
|
|
|
бернәрсәнең беррәттән берсе берсен берсенгә берсендә берсенең берсеннән берәр
|
|
|
|
|
берәрсе берәрсен берәрсендә берәрсенең берәрсеннән берәрсенә берәү бигрәк бик
|
|
|
|
|
бирле бит биш бишенче бишенчегә бишенчедә бишенчедән бишенчеләр бишенчеләргә
|
|
|
|
|
бишенчеләрдә бишенчеләрдән бишенчеләрне бишенчеләрнең бишенчене бишенченең
|
|
|
|
|
бишләп болай болар боларга боларда болардан боларны боларның болары боларын
|
|
|
|
|
боларынга боларында боларыннан боларының бу буе буена буенда буенча буйлап
|
|
|
|
|
буларак булачак булды булмый булса булып булыр булырга бусы бүтән бәлки бән
|
|
|
|
|
бәрабәренә бөтен бөтенесе бөтенесен бөтенесендә бөтенесенең бөтенесеннән
|
|
|
|
|
бөтенесенә
|
|
|
|
|
|
|
|
|
|
вә
|
|
|
|
|
|
|
|
|
|
гел генә гына гүя гүяки гәрчә
|
|
|
|
|
|
|
|
|
|
да ди дигән диде дип дистәләгән дистәләрчә дүрт дүртенче дүртенчегә дүртенчедә
|
|
|
|
|
дүртенчедән дүртенчеләр дүртенчеләргә дүртенчеләрдә дүртенчеләрдән дүртенчеләрне
|
|
|
|
|
дүртенчеләрнең дүртенчене дүртенченең дүртләп дә
|
|
|
|
|
|
|
|
|
|
егерме егерменче егерменчегә егерменчедә егерменчедән егерменчеләр
|
|
|
|
|
егерменчеләргә егерменчеләрдә егерменчеләрдән егерменчеләрне егерменчеләрнең
|
|
|
|
|
егерменчене егерменченең ел елда
|
|
|
|
|
|
|
|
|
|
иде идек идем ике икенче икенчегә икенчедә икенчедән икенчеләр икенчеләргә
|
|
|
|
|
икенчеләрдә икенчеләрдән икенчеләрне икенчеләрнең икенчене икенченең икешәр икән
|
|
|
|
|
илле илленче илленчегә илленчедә илленчедән илленчеләр илленчеләргә
|
|
|
|
|
илленчеләрдә илленчеләрдән илленчеләрне илленчеләрнең илленчене илленченең илә
|
|
|
|
|
илән инде исә итеп иткән итте итү итә итәргә иң
|
|
|
|
|
|
|
|
|
|
йөз йөзенче йөзенчегә йөзенчедә йөзенчедән йөзенчеләр йөзенчеләргә йөзенчеләрдә
|
|
|
|
|
йөзенчеләрдән йөзенчеләрне йөзенчеләрнең йөзенчене йөзенченең йөзләгән йөзләрчә
|
|
|
|
|
йөзәрләгән
|
|
|
|
|
|
|
|
|
|
кадәр кай кайбер кайберләре кайберсе кайберәү кайберәүгә кайберәүдә кайберәүдән
|
|
|
|
|
кайберәүне кайберәүнең кайдагы кайсы кайсыбер кайсын кайсына кайсында кайсыннан
|
|
|
|
|
кайсының кайчангы кайчандагы кайчаннан караганда карамастан карамый карата каршы
|
|
|
|
|
каршына каршында каршындагы кебек кем кемгә кемдә кемне кемнең кемнән кенә ки
|
|
|
|
|
килеп килә кирәк кына кырыгынчы кырыгынчыга кырыгынчыда кырыгынчыдан
|
|
|
|
|
кырыгынчылар кырыгынчыларга кырыгынчыларда кырыгынчылардан кырыгынчыларны
|
|
|
|
|
кырыгынчыларның кырыгынчыны кырыгынчының кырык күк күпләгән күпме күпмеләп
|
|
|
|
|
күпмешәр күпмешәрләп күптән күрә
|
|
|
|
|
|
|
|
|
|
ләкин
|
|
|
|
|
|
|
|
|
|
максатында менә мең меңенче меңенчегә меңенчедә меңенчедән меңенчеләр
|
|
|
|
|
меңенчеләргә меңенчеләрдә меңенчеләрдән меңенчеләрне меңенчеләрнең меңенчене
|
|
|
|
|
меңенченең меңләгән меңләп меңнәрчә меңәрләгән меңәрләп миллиард миллиардлаган
|
|
|
|
|
миллиардларча миллион миллионлаган миллионнарча миллионынчы миллионынчыга
|
|
|
|
|
миллионынчыда миллионынчыдан миллионынчылар миллионынчыларга миллионынчыларда
|
|
|
|
|
миллионынчылардан миллионынчыларны миллионынчыларның миллионынчыны
|
|
|
|
|
миллионынчының мин миндә мине минем минемчә миннән миңа монда мондагы мондые
|
|
|
|
|
мондыен мондыенгә мондыендә мондыеннән мондыеның мондый мондыйга мондыйда
|
|
|
|
|
мондыйдан мондыйлар мондыйларга мондыйларда мондыйлардан мондыйларны
|
|
|
|
|
мондыйларның мондыйлары мондыйларын мондыйларынга мондыйларында мондыйларыннан
|
|
|
|
|
мондыйларының мондыйны мондыйның моннан монсыз монча моны моныкы моныкын
|
|
|
|
|
моныкынга моныкында моныкыннан моныкының монысы монысын монысынга монысында
|
|
|
|
|
монысыннан монысының моның моңа моңар моңарга мәгълүматынча мәгәр мән мөмкин
|
|
|
|
|
|
|
|
|
|
ни нибарысы никадәре нинди ниндие ниндиен ниндиенгә ниндиендә ниндиенең
|
|
|
|
|
ниндиеннән ниндиләр ниндиләргә ниндиләрдә ниндиләрдән ниндиләрен ниндиләренн
|
|
|
|
|
ниндиләреннгә ниндиләренндә ниндиләреннең ниндиләренннән ниндиләрне ниндиләрнең
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
|
ниндирәк нихәтле ничаклы ничек ничәшәр ничәшәрләп нуль нче нчы нәрсә нәрсәгә
|
2018-06-19 11:17:53 +03:00
|
|
|
|
нәрсәдә нәрсәдән нәрсәне нәрсәнең
|
|
|
|
|
|
|
|
|
|
саен сез сезгә сездә сездән сезне сезнең сезнеңчә сигез сигезенче сигезенчегә
|
|
|
|
|
сигезенчедә сигезенчедән сигезенчеләр сигезенчеләргә сигезенчеләрдә
|
|
|
|
|
сигезенчеләрдән сигезенчеләрне сигезенчеләрнең сигезенчене сигезенченең
|
|
|
|
|
сиксән син синдә сине синең синеңчә синнән сиңа соң сыман сүзенчә сүзләренчә
|
|
|
|
|
|
|
|
|
|
та таба теге тегеләй тегеләр тегеләргә тегеләрдә тегеләрдән тегеләре тегеләрен
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
|
тегеләренгә тегеләрендә тегеләренең тегеләреннән тегеләрне тегеләрнең тегенди
|
2018-06-19 11:17:53 +03:00
|
|
|
|
тегендигә тегендидә тегендидән тегендине тегендинең тегендә тегендәге тегене
|
|
|
|
|
тегенеке тегенекен тегенекенгә тегенекендә тегенекенең тегенекеннән тегенең
|
|
|
|
|
тегеннән тегесе тегесен тегесенгә тегесендә тегесенең тегесеннән тегеңә тиеш тик
|
|
|
|
|
тикле тора триллиард триллион тугыз тугызлап тугызлашып тугызынчы тугызынчыга
|
|
|
|
|
тугызынчыда тугызынчыдан тугызынчылар тугызынчыларга тугызынчыларда
|
|
|
|
|
тугызынчылардан тугызынчыларны тугызынчыларның тугызынчыны тугызынчының туксан
|
|
|
|
|
туксанынчы туксанынчыга туксанынчыда туксанынчыдан туксанынчылар туксанынчыларга
|
|
|
|
|
туксанынчыларда туксанынчылардан туксанынчыларны туксанынчыларның туксанынчыны
|
|
|
|
|
туксанынчының турында тыш түгел тә тәгаенләнгән төмән
|
|
|
|
|
|
|
|
|
|
уенча уйлавынча ук ул ун уналты уналтынчы уналтынчыга уналтынчыда уналтынчыдан
|
|
|
|
|
уналтынчылар уналтынчыларга уналтынчыларда уналтынчылардан уналтынчыларны
|
|
|
|
|
уналтынчыларның уналтынчыны уналтынчының унарлаган унарлап унаула унаулап унбер
|
|
|
|
|
унберенче унберенчегә унберенчедә унберенчедән унберенчеләр унберенчеләргә
|
|
|
|
|
унберенчеләрдә унберенчеләрдән унберенчеләрне унберенчеләрнең унберенчене
|
|
|
|
|
унберенченең унбиш унбишенче унбишенчегә унбишенчедә унбишенчедән унбишенчеләр
|
|
|
|
|
унбишенчеләргә унбишенчеләрдә унбишенчеләрдән унбишенчеләрне унбишенчеләрнең
|
|
|
|
|
унбишенчене унбишенченең ундүрт ундүртенче ундүртенчегә ундүртенчедә
|
|
|
|
|
ундүртенчедән ундүртенчеләр ундүртенчеләргә ундүртенчеләрдә ундүртенчеләрдән
|
|
|
|
|
ундүртенчеләрне ундүртенчеләрнең ундүртенчене ундүртенченең унике уникенче
|
|
|
|
|
уникенчегә уникенчедә уникенчедән уникенчеләр уникенчеләргә уникенчеләрдә
|
|
|
|
|
уникенчеләрдән уникенчеләрне уникенчеләрнең уникенчене уникенченең унлаган
|
|
|
|
|
унлап уннарча унсигез унсигезенче унсигезенчегә унсигезенчедә унсигезенчедән
|
|
|
|
|
унсигезенчеләр унсигезенчеләргә унсигезенчеләрдә унсигезенчеләрдән
|
|
|
|
|
унсигезенчеләрне унсигезенчеләрнең унсигезенчене унсигезенченең унтугыз
|
|
|
|
|
унтугызынчы унтугызынчыга унтугызынчыда унтугызынчыдан унтугызынчылар
|
|
|
|
|
унтугызынчыларга унтугызынчыларда унтугызынчылардан унтугызынчыларны
|
|
|
|
|
унтугызынчыларның унтугызынчыны унтугызынчының унынчы унынчыга унынчыда
|
|
|
|
|
унынчыдан унынчылар унынчыларга унынчыларда унынчылардан унынчыларны
|
|
|
|
|
унынчыларның унынчыны унынчының унҗиде унҗиденче унҗиденчегә унҗиденчедә
|
|
|
|
|
унҗиденчедән унҗиденчеләр унҗиденчеләргә унҗиденчеләрдә унҗиденчеләрдән
|
|
|
|
|
унҗиденчеләрне унҗиденчеләрнең унҗиденчене унҗиденченең унөч унөченче унөченчегә
|
|
|
|
|
унөченчедә унөченчедән унөченчеләр унөченчеләргә унөченчеләрдә унөченчеләрдән
|
|
|
|
|
унөченчеләрне унөченчеләрнең унөченчене унөченченең утыз утызынчы утызынчыга
|
|
|
|
|
утызынчыда утызынчыдан утызынчылар утызынчыларга утызынчыларда утызынчылардан
|
|
|
|
|
утызынчыларны утызынчыларның утызынчыны утызынчының
|
|
|
|
|
|
|
|
|
|
фикеренчә фәкать
|
|
|
|
|
|
|
|
|
|
хакында хәбәр хәлбуки хәтле хәтта
|
|
|
|
|
|
|
|
|
|
чаклы чакта чөнки
|
|
|
|
|
|
|
|
|
|
шикелле шул шулай шулар шуларга шуларда шулардан шуларны шуларның шулары шуларын
|
|
|
|
|
шуларынга шуларында шуларыннан шуларының шулкадәр шултикле шултиклем шулхәтле
|
|
|
|
|
шулчаклы шунда шундагы шундый шундыйга шундыйда шундыйдан шундыйны шундыйның
|
|
|
|
|
шунлыктан шуннан шунсы шунча шуны шуныкы шуныкын шуныкынга шуныкында шуныкыннан
|
|
|
|
|
шуныкының шунысы шунысын шунысынга шунысында шунысыннан шунысының шуның шушы
|
|
|
|
|
шушында шушыннан шушыны шушының шушыңа шуңа шуңар шуңарга
|
|
|
|
|
|
|
|
|
|
элек
|
|
|
|
|
|
|
|
|
|
югыйсә юк юкса
|
|
|
|
|
|
|
|
|
|
я ягъни язуынча яисә яки яктан якын ярашлы яхут яшь яшьлек
|
|
|
|
|
|
|
|
|
|
җиде җиделәп җиденче җиденчегә җиденчедә җиденчедән җиденчеләр җиденчеләргә
|
|
|
|
|
җиденчеләрдә җиденчеләрдән җиденчеләрне җиденчеләрнең җиденчене җиденченең
|
|
|
|
|
җидешәр җитмеш җитмешенче җитмешенчегә җитмешенчедә җитмешенчедән җитмешенчеләр
|
|
|
|
|
җитмешенчеләргә җитмешенчеләрдә җитмешенчеләрдән җитмешенчеләрне
|
|
|
|
|
җитмешенчеләрнең җитмешенчене җитмешенченең җыенысы
|
|
|
|
|
|
|
|
|
|
үз үзе үзем үземдә үземне үземнең үземнән үземә үзен үзендә үзенең үзеннән үзенә
|
|
|
|
|
үк
|
|
|
|
|
|
|
|
|
|
һичбер һичбере һичберен һичберендә һичберенең һичбереннән һичберенә һичберсе
|
|
|
|
|
һичберсен һичберсендә һичберсенең һичберсеннән һичберсенә һичберәү һичберәүгә
|
|
|
|
|
һичберәүдә һичберәүдән һичберәүне һичберәүнең һичкайсы һичкайсыга һичкайсыда
|
|
|
|
|
һичкайсыдан һичкайсыны һичкайсының һичкем һичкемгә һичкемдә һичкемне һичкемнең
|
|
|
|
|
һичкемнән һични һичнигә һичнидә һичнидән һичнинди һичнине һичнинең һичнәрсә
|
|
|
|
|
һичнәрсәгә һичнәрсәдә һичнәрсәдән һичнәрсәне һичнәрсәнең һәм һәммә һәммәсе
|
|
|
|
|
һәммәсен һәммәсендә һәммәсенең һәммәсеннән һәммәсенә һәр һәрбер һәрбере һәрберсе
|
|
|
|
|
һәркайсы һәркайсыга һәркайсыда һәркайсыдан һәркайсыны һәркайсының һәркем
|
|
|
|
|
һәркемгә һәркемдә һәркемне һәркемнең һәркемнән һәрни һәрнәрсә һәрнәрсәгә
|
|
|
|
|
һәрнәрсәдә һәрнәрсәдән һәрнәрсәне һәрнәрсәнең һәртөрле
|
|
|
|
|
|
|
|
|
|
ә әгәр әйтүенчә әйтүләренчә әлбәттә әле әлеге әллә әмма әнә
|
|
|
|
|
|
|
|
|
|
өстәп өч өчен өченче өченчегә өченчедә өченчедән өченчеләр өченчеләргә
|
|
|
|
|
өченчеләрдә өченчеләрдән өченчеләрне өченчеләрнең өченчене өченченең өчләп
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 19:03:03 +03:00
|
|
|
|
өчәрләп""".split()
|
|
|
|
|
)
|