mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-14 21:57:15 +03:00
58f06e6180
* start lang/ko * add test codes * using natto-py * add test_ko_tokenizer_full_tags() * spaCy contributor agreement * external dependency for ko * collections.namedtuple for python version < 3.5 * case fix * tuple unpacking * add jongseong(final consonant) * apply mecab option * Remove Pipfile for now Co-authored-by: Ines Montani <ines@ines.io>
69 lines
399 B
Python
69 lines
399 B
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
STOP_WORDS = set("""
|
|
이
|
|
있
|
|
하
|
|
것
|
|
들
|
|
그
|
|
되
|
|
수
|
|
이
|
|
보
|
|
않
|
|
없
|
|
나
|
|
주
|
|
아니
|
|
등
|
|
같
|
|
때
|
|
년
|
|
가
|
|
한
|
|
지
|
|
오
|
|
말
|
|
일
|
|
그렇
|
|
위하
|
|
때문
|
|
그것
|
|
두
|
|
말하
|
|
알
|
|
그러나
|
|
받
|
|
못하
|
|
일
|
|
그런
|
|
또
|
|
더
|
|
많
|
|
그리고
|
|
좋
|
|
크
|
|
시키
|
|
그러
|
|
하나
|
|
살
|
|
데
|
|
안
|
|
어떤
|
|
번
|
|
나
|
|
다른
|
|
어떻
|
|
들
|
|
이렇
|
|
점
|
|
싶
|
|
말
|
|
좀
|
|
원
|
|
잘
|
|
놓
|
|
""".split())
|