mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-11-01 00:17:44 +03:00 
			
		
		
		
	* Remove unicode declarations * Remove Python 3.5 and 2.7 from CI * Don't require pathlib * Replace compat helpers * Remove OrderedDict * Use f-strings * Set Cython compiler language level * Fix typo * Re-add OrderedDict for Table * Update setup.cfg * Revert CONTRIBUTING.md * Revert lookups.md * Revert top-level.md * Small adjustments and docs [ci skip]
		
			
				
	
	
		
			174 lines
		
	
	
		
			18 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			174 lines
		
	
	
		
			18 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
| # Tatar stopwords are from https://github.com/aliiae/stopwords-tt
 | ||
| 
 | ||
| STOP_WORDS = set(
 | ||
|     """алай алайса алар аларга аларда алардан аларны аларның аларча
 | ||
| алары аларын аларынга аларында аларыннан аларының алтмыш алтмышынчы алтмышынчыга
 | ||
| алтмышынчыда алтмышынчыдан алтмышынчылар алтмышынчыларга алтмышынчыларда
 | ||
| алтмышынчылардан алтмышынчыларны алтмышынчыларның алтмышынчыны алтмышынчының
 | ||
| алты алтылап алтынчы алтынчыга алтынчыда алтынчыдан алтынчылар алтынчыларга
 | ||
| алтынчыларда алтынчылардан алтынчыларны алтынчыларның алтынчыны алтынчының
 | ||
| алтышар анда андагы андай андый андыйга андыйда андыйдан андыйны андыйның аннан
 | ||
| ансы анча аны аныкы аныкын аныкынга аныкында аныкыннан аныкының анысы анысын
 | ||
| анысынга анысында анысыннан анысының аның аныңча аркылы ары аша аңа аңар аңарга
 | ||
| аңарда аңардагы аңардан
 | ||
| 
 | ||
| бар бара барлык барча барчасы барчасын барчасына барчасында барчасыннан
 | ||
| барчасының бары башка башкача белән без безгә бездә бездән безне безнең безнеңчә
 | ||
| белдерүенчә белән бер бергә беренче беренчегә беренчедә беренчедән беренчеләр
 | ||
| беренчеләргә беренчеләрдә беренчеләрдән беренчеләрне беренчеләрнең беренчене
 | ||
| беренченең беркайда беркайсы беркая беркаян беркем беркемгә беркемдә беркемне
 | ||
| беркемнең беркемнән берлән берни бернигә бернидә бернидән бернинди бернине
 | ||
| бернинең берничек берничә бернәрсә бернәрсәгә бернәрсәдә бернәрсәдән бернәрсәне
 | ||
| бернәрсәнең беррәттән берсе берсен берсенгә берсендә берсенең берсеннән берәр
 | ||
| берәрсе берәрсен берәрсендә берәрсенең берәрсеннән берәрсенә берәү бигрәк бик
 | ||
| бирле бит биш бишенче бишенчегә бишенчедә бишенчедән бишенчеләр бишенчеләргә
 | ||
| бишенчеләрдә бишенчеләрдән бишенчеләрне бишенчеләрнең бишенчене бишенченең
 | ||
| бишләп болай болар боларга боларда болардан боларны боларның болары боларын
 | ||
| боларынга боларында боларыннан боларының бу буе буена буенда буенча буйлап
 | ||
| буларак булачак булды булмый булса булып булыр булырга бусы бүтән бәлки бән
 | ||
| бәрабәренә бөтен бөтенесе бөтенесен бөтенесендә бөтенесенең бөтенесеннән
 | ||
| бөтенесенә
 | ||
| 
 | ||
| вә
 | ||
| 
 | ||
| гел генә гына гүя гүяки гәрчә
 | ||
| 
 | ||
| да ди дигән диде дип дистәләгән дистәләрчә дүрт дүртенче дүртенчегә дүртенчедә
 | ||
| дүртенчедән дүртенчеләр дүртенчеләргә дүртенчеләрдә дүртенчеләрдән дүртенчеләрне
 | ||
| дүртенчеләрнең дүртенчене дүртенченең дүртләп дә
 | ||
| 
 | ||
| егерме егерменче егерменчегә егерменчедә егерменчедән егерменчеләр
 | ||
| егерменчеләргә егерменчеләрдә егерменчеләрдән егерменчеләрне егерменчеләрнең
 | ||
| егерменчене егерменченең ел елда
 | ||
| 
 | ||
| иде идек идем ике икенче икенчегә икенчедә икенчедән икенчеләр икенчеләргә
 | ||
| икенчеләрдә икенчеләрдән икенчеләрне икенчеләрнең икенчене икенченең икешәр икән
 | ||
| илле илленче илленчегә илленчедә илленчедән илленчеләр илленчеләргә
 | ||
| илленчеләрдә илленчеләрдән илленчеләрне илленчеләрнең илленчене илленченең илә
 | ||
| илән инде исә итеп иткән итте итү итә итәргә иң
 | ||
| 
 | ||
| йөз йөзенче йөзенчегә йөзенчедә йөзенчедән йөзенчеләр йөзенчеләргә йөзенчеләрдә
 | ||
| йөзенчеләрдән йөзенчеләрне йөзенчеләрнең йөзенчене йөзенченең йөзләгән йөзләрчә
 | ||
| йөзәрләгән
 | ||
| 
 | ||
| кадәр кай кайбер кайберләре кайберсе кайберәү кайберәүгә кайберәүдә кайберәүдән
 | ||
| кайберәүне кайберәүнең кайдагы кайсы кайсыбер кайсын кайсына кайсында кайсыннан
 | ||
| кайсының кайчангы кайчандагы кайчаннан караганда карамастан карамый карата каршы
 | ||
| каршына каршында каршындагы кебек кем кемгә кемдә кемне кемнең кемнән кенә ки
 | ||
| килеп килә кирәк кына кырыгынчы кырыгынчыга кырыгынчыда кырыгынчыдан
 | ||
| кырыгынчылар кырыгынчыларга кырыгынчыларда кырыгынчылардан кырыгынчыларны
 | ||
| кырыгынчыларның кырыгынчыны кырыгынчының кырык күк күпләгән күпме күпмеләп
 | ||
| күпмешәр күпмешәрләп күптән күрә
 | ||
| 
 | ||
| ләкин
 | ||
| 
 | ||
| максатында менә мең меңенче меңенчегә меңенчедә меңенчедән меңенчеләр
 | ||
| меңенчеләргә меңенчеләрдә меңенчеләрдән меңенчеләрне меңенчеләрнең меңенчене
 | ||
| меңенченең меңләгән меңләп меңнәрчә меңәрләгән меңәрләп миллиард миллиардлаган
 | ||
| миллиардларча миллион миллионлаган миллионнарча миллионынчы миллионынчыга
 | ||
| миллионынчыда миллионынчыдан миллионынчылар миллионынчыларга миллионынчыларда
 | ||
| миллионынчылардан миллионынчыларны миллионынчыларның миллионынчыны
 | ||
| миллионынчының мин миндә мине минем минемчә миннән миңа монда мондагы мондые
 | ||
| мондыен мондыенгә мондыендә мондыеннән мондыеның мондый мондыйга мондыйда
 | ||
| мондыйдан мондыйлар мондыйларга мондыйларда мондыйлардан мондыйларны
 | ||
| мондыйларның мондыйлары мондыйларын мондыйларынга мондыйларында мондыйларыннан
 | ||
| мондыйларының мондыйны мондыйның моннан монсыз монча моны моныкы моныкын
 | ||
| моныкынга моныкында моныкыннан моныкының монысы монысын монысынга монысында
 | ||
| монысыннан монысының моның моңа моңар моңарга мәгълүматынча мәгәр мән мөмкин
 | ||
| 
 | ||
| ни нибарысы никадәре нинди ниндие ниндиен ниндиенгә ниндиендә ниндиенең
 | ||
| ниндиеннән ниндиләр ниндиләргә ниндиләрдә ниндиләрдән ниндиләрен ниндиләренн
 | ||
| ниндиләреннгә ниндиләренндә ниндиләреннең ниндиләренннән ниндиләрне ниндиләрнең
 | ||
| ниндирәк нихәтле ничаклы ничек ничәшәр ничәшәрләп нуль нче нчы нәрсә нәрсәгә
 | ||
| нәрсәдә нәрсәдән нәрсәне нәрсәнең
 | ||
| 
 | ||
| саен сез сезгә сездә сездән сезне сезнең сезнеңчә сигез сигезенче сигезенчегә
 | ||
| сигезенчедә сигезенчедән сигезенчеләр сигезенчеләргә сигезенчеләрдә
 | ||
| сигезенчеләрдән сигезенчеләрне сигезенчеләрнең сигезенчене сигезенченең
 | ||
| сиксән син синдә сине синең синеңчә синнән сиңа соң сыман сүзенчә сүзләренчә
 | ||
| 
 | ||
| та таба теге тегеләй тегеләр тегеләргә тегеләрдә тегеләрдән тегеләре тегеләрен
 | ||
| тегеләренгә тегеләрендә тегеләренең тегеләреннән тегеләрне тегеләрнең тегенди
 | ||
| тегендигә тегендидә тегендидән тегендине тегендинең тегендә тегендәге тегене
 | ||
| тегенеке тегенекен тегенекенгә тегенекендә тегенекенең тегенекеннән тегенең
 | ||
| тегеннән тегесе тегесен тегесенгә тегесендә тегесенең тегесеннән тегеңә тиеш тик
 | ||
| тикле тора триллиард триллион тугыз тугызлап тугызлашып тугызынчы тугызынчыга
 | ||
| тугызынчыда тугызынчыдан тугызынчылар тугызынчыларга тугызынчыларда
 | ||
| тугызынчылардан тугызынчыларны тугызынчыларның тугызынчыны тугызынчының туксан
 | ||
| туксанынчы туксанынчыга туксанынчыда туксанынчыдан туксанынчылар туксанынчыларга
 | ||
| туксанынчыларда туксанынчылардан туксанынчыларны туксанынчыларның туксанынчыны
 | ||
| туксанынчының турында тыш түгел тә тәгаенләнгән төмән
 | ||
| 
 | ||
| уенча уйлавынча ук ул ун уналты уналтынчы уналтынчыга уналтынчыда уналтынчыдан
 | ||
| уналтынчылар уналтынчыларга уналтынчыларда уналтынчылардан уналтынчыларны
 | ||
| уналтынчыларның уналтынчыны уналтынчының унарлаган унарлап унаула унаулап унбер
 | ||
| унберенче унберенчегә унберенчедә унберенчедән унберенчеләр унберенчеләргә
 | ||
| унберенчеләрдә унберенчеләрдән унберенчеләрне унберенчеләрнең унберенчене
 | ||
| унберенченең унбиш унбишенче унбишенчегә унбишенчедә унбишенчедән унбишенчеләр
 | ||
| унбишенчеләргә унбишенчеләрдә унбишенчеләрдән унбишенчеләрне унбишенчеләрнең
 | ||
| унбишенчене унбишенченең ундүрт ундүртенче ундүртенчегә ундүртенчедә
 | ||
| ундүртенчедән ундүртенчеләр ундүртенчеләргә ундүртенчеләрдә ундүртенчеләрдән
 | ||
| ундүртенчеләрне ундүртенчеләрнең ундүртенчене ундүртенченең унике уникенче
 | ||
| уникенчегә уникенчедә уникенчедән уникенчеләр уникенчеләргә уникенчеләрдә
 | ||
| уникенчеләрдән уникенчеләрне уникенчеләрнең уникенчене уникенченең унлаган
 | ||
| унлап уннарча унсигез унсигезенче унсигезенчегә унсигезенчедә унсигезенчедән
 | ||
| унсигезенчеләр унсигезенчеләргә унсигезенчеләрдә унсигезенчеләрдән
 | ||
| унсигезенчеләрне унсигезенчеләрнең унсигезенчене унсигезенченең унтугыз
 | ||
| унтугызынчы унтугызынчыга унтугызынчыда унтугызынчыдан унтугызынчылар
 | ||
| унтугызынчыларга унтугызынчыларда унтугызынчылардан унтугызынчыларны
 | ||
| унтугызынчыларның унтугызынчыны унтугызынчының унынчы унынчыга унынчыда
 | ||
| унынчыдан унынчылар унынчыларга унынчыларда унынчылардан унынчыларны
 | ||
| унынчыларның унынчыны унынчының унҗиде унҗиденче унҗиденчегә унҗиденчедә
 | ||
| унҗиденчедән унҗиденчеләр унҗиденчеләргә унҗиденчеләрдә унҗиденчеләрдән
 | ||
| унҗиденчеләрне унҗиденчеләрнең унҗиденчене унҗиденченең унөч унөченче унөченчегә
 | ||
| унөченчедә унөченчедән унөченчеләр унөченчеләргә унөченчеләрдә унөченчеләрдән
 | ||
| унөченчеләрне унөченчеләрнең унөченчене унөченченең утыз утызынчы утызынчыга
 | ||
| утызынчыда утызынчыдан утызынчылар утызынчыларга утызынчыларда утызынчылардан
 | ||
| утызынчыларны утызынчыларның утызынчыны утызынчының
 | ||
| 
 | ||
| фикеренчә фәкать
 | ||
| 
 | ||
| хакында хәбәр хәлбуки хәтле хәтта
 | ||
| 
 | ||
| чаклы чакта чөнки
 | ||
| 
 | ||
| шикелле шул шулай шулар шуларга шуларда шулардан шуларны шуларның шулары шуларын
 | ||
| шуларынга шуларында шуларыннан шуларының шулкадәр шултикле шултиклем шулхәтле
 | ||
| шулчаклы шунда шундагы шундый шундыйга шундыйда шундыйдан шундыйны шундыйның
 | ||
| шунлыктан шуннан шунсы шунча шуны шуныкы шуныкын шуныкынга шуныкында шуныкыннан
 | ||
| шуныкының шунысы шунысын шунысынга шунысында шунысыннан шунысының шуның шушы
 | ||
| шушында шушыннан шушыны шушының шушыңа шуңа шуңар шуңарга
 | ||
| 
 | ||
| элек
 | ||
| 
 | ||
| югыйсә юк юкса
 | ||
| 
 | ||
| я ягъни язуынча яисә яки яктан якын ярашлы яхут яшь яшьлек
 | ||
| 
 | ||
| җиде җиделәп җиденче җиденчегә җиденчедә җиденчедән җиденчеләр җиденчеләргә
 | ||
| җиденчеләрдә җиденчеләрдән җиденчеләрне җиденчеләрнең җиденчене җиденченең
 | ||
| җидешәр җитмеш җитмешенче җитмешенчегә җитмешенчедә җитмешенчедән җитмешенчеләр
 | ||
| җитмешенчеләргә җитмешенчеләрдә җитмешенчеләрдән җитмешенчеләрне
 | ||
| җитмешенчеләрнең җитмешенчене җитмешенченең җыенысы
 | ||
| 
 | ||
| үз үзе үзем үземдә үземне үземнең үземнән үземә үзен үзендә үзенең үзеннән үзенә
 | ||
| үк
 | ||
| 
 | ||
| һичбер һичбере һичберен һичберендә һичберенең һичбереннән һичберенә һичберсе
 | ||
| һичберсен һичберсендә һичберсенең һичберсеннән һичберсенә һичберәү һичберәүгә
 | ||
| һичберәүдә һичберәүдән һичберәүне һичберәүнең һичкайсы һичкайсыга һичкайсыда
 | ||
| һичкайсыдан һичкайсыны һичкайсының һичкем һичкемгә һичкемдә һичкемне һичкемнең
 | ||
| һичкемнән һични һичнигә һичнидә һичнидән һичнинди һичнине һичнинең һичнәрсә
 | ||
| һичнәрсәгә һичнәрсәдә һичнәрсәдән һичнәрсәне һичнәрсәнең һәм һәммә һәммәсе
 | ||
| һәммәсен һәммәсендә һәммәсенең һәммәсеннән һәммәсенә һәр һәрбер һәрбере һәрберсе
 | ||
| һәркайсы һәркайсыга һәркайсыда һәркайсыдан һәркайсыны һәркайсының һәркем
 | ||
| һәркемгә һәркемдә һәркемне һәркемнең һәркемнән һәрни һәрнәрсә һәрнәрсәгә
 | ||
| һәрнәрсәдә һәрнәрсәдән һәрнәрсәне һәрнәрсәнең һәртөрле
 | ||
| 
 | ||
| ә әгәр әйтүенчә әйтүләренчә әлбәттә әле әлеге әллә әмма әнә
 | ||
| 
 | ||
| өстәп өч өчен өченче өченчегә өченчедә өченчедән өченчеләр өченчеләргә
 | ||
| өченчеләрдә өченчеләрдән өченчеләрне өченчеләрнең өченчене өченченең өчләп
 | ||
| өчәрләп""".split()
 | ||
| )
 |