spaCy/punctuation.py at 229ecaf0ea69ad586587ea70b8a90d59e0e64005 - spaCy - Gitea

explosion/spaCy

mirror of https://github.com/explosion/spaCy.git synced 2024-12-25 17:36:30 +03:00

Adriane Boyd 30030176ee

Update Korean defaults for Tokenizer (#10322 )

Update Korean defaults for `Tokenizer` for tokenization following UD
Korean Kaist.

2022-02-21 10:26:19 +01:00

13 lines

266 B

Python

Raw Blame History

 from ..char_classes import LIST_QUOTES
 from ..punctuation import TOKENIZER_INFIXES as BASE_TOKENIZER_INFIXES
 _infixes = (
     ["·", "ㆍ", "\(", "\)"]
     + [r"(?<=[0-9])~(?=[0-9-])"]
     + LIST_QUOTES
     + BASE_TOKENIZER_INFIXES
 )
 TOKENIZER_INFIXES = _infixes