mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-11-04 01:48:04 +03:00 
			
		
		
		
	* start lang/ko * add test codes * using natto-py * add test_ko_tokenizer_full_tags() * spaCy contributor agreement * external dependency for ko * collections.namedtuple for python version < 3.5 * case fix * tuple unpacking * add jongseong(final consonant) * apply mecab option * Remove Pipfile for now Co-authored-by: Ines Montani <ines@ines.io>
		
			
				
	
	
		
			69 lines
		
	
	
		
			399 B
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			69 lines
		
	
	
		
			399 B
		
	
	
	
		
			Python
		
	
	
	
	
	
# coding: utf8
 | 
						|
from __future__ import unicode_literals
 | 
						|
 | 
						|
STOP_WORDS = set("""
 | 
						|
이
 | 
						|
있
 | 
						|
하
 | 
						|
것
 | 
						|
들
 | 
						|
그
 | 
						|
되
 | 
						|
수
 | 
						|
이
 | 
						|
보
 | 
						|
않
 | 
						|
없
 | 
						|
나
 | 
						|
주
 | 
						|
아니
 | 
						|
등
 | 
						|
같
 | 
						|
때
 | 
						|
년
 | 
						|
가
 | 
						|
한
 | 
						|
지
 | 
						|
오
 | 
						|
말
 | 
						|
일
 | 
						|
그렇
 | 
						|
위하
 | 
						|
때문
 | 
						|
그것
 | 
						|
두
 | 
						|
말하
 | 
						|
알
 | 
						|
그러나
 | 
						|
받
 | 
						|
못하
 | 
						|
일
 | 
						|
그런
 | 
						|
또
 | 
						|
더
 | 
						|
많
 | 
						|
그리고
 | 
						|
좋
 | 
						|
크
 | 
						|
시키
 | 
						|
그러
 | 
						|
하나
 | 
						|
살
 | 
						|
데
 | 
						|
안
 | 
						|
어떤
 | 
						|
번
 | 
						|
나
 | 
						|
다른
 | 
						|
어떻
 | 
						|
들
 | 
						|
이렇
 | 
						|
점
 | 
						|
싶
 | 
						|
말
 | 
						|
좀
 | 
						|
원
 | 
						|
잘
 | 
						|
놓
 | 
						|
""".split())
 |