mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-25 01:16:28 +03:00
added missing punctuation following conventions. (#4066)
This commit is contained in:
parent
33b14724a5
commit
d1d30b0442
|
@ -214,7 +214,7 @@ _currency = r"\$ £ € ¥ ฿ US\$ C\$ A\$ ₽ ﷼ ₴"
|
||||||
# used in Chinese (see #1333, #1340, #1351) – unless there are cross-language
|
# used in Chinese (see #1333, #1340, #1351) – unless there are cross-language
|
||||||
# conflicts, spaCy's base tokenizer should handle all of those by default
|
# conflicts, spaCy's base tokenizer should handle all of those by default
|
||||||
_punct = (
|
_punct = (
|
||||||
r"… …… , : ; \! \? ¿ ؟ ¡ \( \) \[ \] \{ \} < > _ # \* & 。 ? ! , 、 ; : ~ · । ، ؛ ٪"
|
r"… …… , : ; \! \? ¿ ؟ ¡ \( \) \[ \] \{ \} < > _ # \* & 。 ? ! , 、 ; : ~ · । ، ۔ ؛ ٪"
|
||||||
)
|
)
|
||||||
_quotes = r'\' " ” “ ` ‘ ´ ’ ‚ , „ » « 「 」 『 』 ( ) 〔 〕 【 】 《 》 〈 〉'
|
_quotes = r'\' " ” “ ` ‘ ´ ’ ‚ , „ » « 「 」 『 』 ( ) 〔 〕 【 】 《 》 〈 〉'
|
||||||
_hyphens = "- – — -- --- —— ~"
|
_hyphens = "- – — -- --- —— ~"
|
||||||
|
|
|
@ -21,6 +21,7 @@ class UrduDefaults(Language.Defaults):
|
||||||
tag_map = TAG_MAP
|
tag_map = TAG_MAP
|
||||||
stop_words = STOP_WORDS
|
stop_words = STOP_WORDS
|
||||||
suffixes = TOKENIZER_SUFFIXES
|
suffixes = TOKENIZER_SUFFIXES
|
||||||
|
writing_system = {"direction": "rtl", "has_case": False, "has_letters": True}
|
||||||
|
|
||||||
|
|
||||||
class Urdu(Language):
|
class Urdu(Language):
|
||||||
|
|
|
@ -4,7 +4,4 @@ from __future__ import unicode_literals
|
||||||
from ..punctuation import TOKENIZER_SUFFIXES
|
from ..punctuation import TOKENIZER_SUFFIXES
|
||||||
|
|
||||||
|
|
||||||
_suffixes = TOKENIZER_SUFFIXES + ["۔"]
|
_suffixes = TOKENIZER_SUFFIXES
|
||||||
|
|
||||||
|
|
||||||
TOKENIZER_SUFFIXES = _suffixes
|
|
||||||
|
|
|
@ -5,12 +5,9 @@ import pytest
|
||||||
|
|
||||||
|
|
||||||
def test_ur_tokenizer_handles_long_text(ur_tokenizer):
|
def test_ur_tokenizer_handles_long_text(ur_tokenizer):
|
||||||
text = """اصل میں رسوا ہونے کی ہمیں
|
text = """اصل میں، رسوا ہونے کی ہمیں کچھ عادت سی ہو گئی ہے۔"""
|
||||||
کچھ عادت سی ہو گئی ہے اس لئے جگ ہنسائی کا ذکر نہیں کرتا،ہوا کچھ یوں کہ عرصہ چھ سال بعد ہمیں بھی خیال آیا
|
|
||||||
کہ ایک عدد ٹیلی ویژن ہی کیوں نہ خرید لیں ، سوچا ورلڈ کپ ہی دیکھیں گے۔اپنے پاکستان کے کھلاڑیوں کو دیکھ کر
|
|
||||||
ورلڈ کپ دیکھنے کا حوصلہ ہی نہ رہا تو اب یوں ہی ادھر اُدھر کے چینل گھمانے لگ پڑتے ہیں۔"""
|
|
||||||
tokens = ur_tokenizer(text)
|
tokens = ur_tokenizer(text)
|
||||||
assert len(tokens) == 78
|
assert len(tokens) == 14
|
||||||
|
|
||||||
|
|
||||||
@pytest.mark.parametrize("text,length", [("تحریر باسط حبیب", 3), ("میرا پاکستان", 2)])
|
@pytest.mark.parametrize("text,length", [("تحریر باسط حبیب", 3), ("میرا پاکستان", 2)])
|
||||||
|
|
Loading…
Reference in New Issue
Block a user