spaCy/punctuation.py at b2d05f9f6641f20a6005df67addf62af5aa5c03e - spaCy - Gitea

explosion/spaCy

mirror of https://github.com/explosion/spaCy.git synced 2024-11-15 06:09:01 +03:00

Adriane Boyd 30030176ee

Update Korean defaults for Tokenizer (#10322 )

Update Korean defaults for `Tokenizer` for tokenization following UD
Korean Kaist.

2022-02-21 10:26:19 +01:00

13 lines

266 B

Python

Raw Blame History

 from ..char_classes import LIST_QUOTES
 from ..punctuation import TOKENIZER_INFIXES as BASE_TOKENIZER_INFIXES
 _infixes = (
     ["·", "ㆍ", "\(", "\)"]
     + [r"(?<=[0-9])~(?=[0-9-])"]
     + LIST_QUOTES
     + BASE_TOKENIZER_INFIXES
 )
 TOKENIZER_INFIXES = _infixes