mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-10-26 05:31:15 +03:00 
			
		
		
		
	* Add base classes for more languages * Add test for language class initialization Make sure language can be initialize – otherwise, it's difficult to catch serious errors in the test suite, because languages are lazy-loaded
		
			
				
	
	
		
			163 lines
		
	
	
		
			1.1 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			163 lines
		
	
	
		
			1.1 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
| # coding: utf8
 | |
| from __future__ import unicode_literals
 | |
| 
 | |
| 
 | |
| # Source: https://github.com/Xangis/extra-stopwords
 | |
| 
 | |
| STOP_WORDS = set(
 | |
|     """
 | |
| afhverju
 | |
| aftan
 | |
| aftur
 | |
| afþví
 | |
| aldrei
 | |
| allir
 | |
| allt
 | |
| alveg
 | |
| annað
 | |
| annars
 | |
| bara
 | |
| dag
 | |
| eða
 | |
| eftir
 | |
| eiga
 | |
| einhver
 | |
| einhverjir
 | |
| einhvers
 | |
| eins
 | |
| einu
 | |
| eitthvað
 | |
| ekkert
 | |
| ekki
 | |
| ennþá
 | |
| eru
 | |
| fara
 | |
| fer
 | |
| finna
 | |
| fjöldi
 | |
| fólk
 | |
| framan
 | |
| frá
 | |
| frekar
 | |
| fyrir
 | |
| gegnum
 | |
| geta
 | |
| getur
 | |
| gmg
 | |
| gott
 | |
| hann
 | |
| hafa
 | |
| hef
 | |
| hefur
 | |
| heyra
 | |
| hér
 | |
| hérna
 | |
| hjá
 | |
| hún
 | |
| hvað
 | |
| hvar
 | |
| hver
 | |
| hverjir
 | |
| hverjum
 | |
| hvernig
 | |
| hvor
 | |
| hvort
 | |
| hægt
 | |
| img
 | |
| inn
 | |
| kannski
 | |
| koma
 | |
| líka
 | |
| lol
 | |
| maður
 | |
| mátt
 | |
| mér
 | |
| með
 | |
| mega
 | |
| meira
 | |
| mig
 | |
| mikið
 | |
| minna
 | |
| minni
 | |
| missa
 | |
| mjög
 | |
| nei
 | |
| niður
 | |
| núna
 | |
| oft
 | |
| okkar
 | |
| okkur
 | |
| póst
 | |
| póstur
 | |
| rofl
 | |
| saman
 | |
| sem
 | |
| sér
 | |
| sig
 | |
| sinni
 | |
| síðan
 | |
| sjá
 | |
| smá
 | |
| smátt
 | |
| spurja
 | |
| spyrja
 | |
| staðar
 | |
| stórt
 | |
| svo
 | |
| svona
 | |
| sælir
 | |
| sæll
 | |
| taka
 | |
| takk
 | |
| til
 | |
| tilvitnun
 | |
| titlar
 | |
| upp
 | |
| var
 | |
| vel
 | |
| velkomin
 | |
| velkominn
 | |
| vera
 | |
| verður
 | |
| verið
 | |
| vel
 | |
| við
 | |
| vil
 | |
| vilja
 | |
| vill
 | |
| vita
 | |
| væri
 | |
| yfir
 | |
| ykkar
 | |
| það
 | |
| þakka
 | |
| þakkir
 | |
| þannig
 | |
| það
 | |
| þar
 | |
| þarf
 | |
| þau
 | |
| þeim
 | |
| þeir
 | |
| þeirra
 | |
| þeirra
 | |
| þegar
 | |
| þess
 | |
| þessa
 | |
| þessi
 | |
| þessu
 | |
| þessum
 | |
| þetta
 | |
| þér
 | |
| þið
 | |
| þinn
 | |
| þitt
 | |
| þín
 | |
| þráð
 | |
| þráður
 | |
| því
 | |
| þær
 | |
| ætti
 | |
| """.split()
 | |
| )
 |