Add support for vocab.writing_system property (#3390)

* Add xfail test for vocab.writing_system * Add vocab.writing_system property * Set Language.Defaults.writing_system * Set default writing system * Remove xfail on test_vocab_writing_system
2026-03-08 05:41:29 +03:00 · 2019-03-11 15:23:20 +01:00 · 2019-03-11 15:23:20 +01:00 · 39a4741e26
commit 39a4741e26
parent 05ef0a5abb
8 changed files with 33 additions and 2 deletions
--- a/spacy/lang/fa/init.py
+++ b/spacy/lang/fa/init.py
@ -27,6 +27,7 @@ class PersianDefaults(Language.Defaults):
    stop_words = STOP_WORDS
    tag_map = TAG_MAP
    suffixes = TOKENIZER_SUFFIXES
+    writing_system = {"direction": "rtl", "has_case": False, "has_letters": True}


 class Persian(Language):
--- a/spacy/lang/he/init.py
+++ b/spacy/lang/he/init.py
@ -14,7 +14,7 @@ class HebrewDefaults(Language.Defaults):
    lex_attr_getters[LANG] = lambda text: "he"
    tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
    stop_words = STOP_WORDS
-
+    writing_system = {"direction": "rtl", "has_case": False, "has_letters": True}

 class Hebrew(Language):
    lang = "he"
--- a/spacy/lang/ja/init.py
+++ b/spacy/lang/ja/init.py
@ -94,6 +94,7 @@ class JapaneseDefaults(Language.Defaults):
    lex_attr_getters[LANG] = lambda _text: "ja"
    stop_words = STOP_WORDS
    tag_map = TAG_MAP
+    writing_system = {"direction": "ltr", "has_case": False, "has_letters": False}

    @classmethod
    def create_tokenizer(cls, nlp=None):
--- a/spacy/lang/zh/init.py
+++ b/spacy/lang/zh/init.py
@ -14,7 +14,7 @@ class ChineseDefaults(Language.Defaults):
    use_jieba = True
    tokenizer_exceptions = BASE_EXCEPTIONS
    stop_words = STOP_WORDS
-
+    writing_system = {"direction": "ltr", "has_case": False, "has_letters": False}

 class Chinese(Language):
    lang = "zh"
--- a/spacy/language.py
+++ b/spacy/language.py
@ -94,6 +94,7 @@ class BaseDefaults(object):
    morph_rules = {}
    lex_attr_getters = LEX_ATTRS
    syntax_iterators = {}
+    writing_system = {"direction": "ltr", "has_case": True, "has_letters": True}


 class Language(object):
--- a/spacy/tests/vocab_vectors/test_vocab_api.py
+++ b/spacy/tests/vocab_vectors/test_vocab_api.py
@ -45,3 +45,8 @@ def test_vocab_api_contains(en_vocab, text):
    _ = en_vocab[text]  # noqa: F841
    assert text in en_vocab
    assert "LKsdjvlsakdvlaksdvlkasjdvljasdlkfvm" not in en_vocab
+
+
+def test_vocab_writing_system(en_vocab):
+    assert en_vocab.writing_system["direction"] == "ltr"
+    assert en_vocab.writing_system["has_case"] == True
--- a/spacy/util.py
+++ b/spacy/util.py
@ -38,6 +38,18 @@ def set_env_log(value):
    _PRINT_ENV = value


+def lang_class_is_loaded(lang):
+    """Check whether a Language class is already loaded. Language classes are
+    loaded lazily, to avoid expensive setup code associated with the language
+    data.
+
+    lang (unicode): Two-letter language code, e.g. 'en'.
+    RETURNS (bool): Whether a Language class has been loaded.
+    """
+    global LANGUAGES
+    return lang in LANGUAGES
+ 
+
 def get_lang_class(lang):
    """Import and load a Language class.

--- a/spacy/vocab.pyx
+++ b/spacy/vocab.pyx
@ -67,6 +67,17 @@ cdef class Vocab:
                langfunc = self.lex_attr_getters.get(LANG, None)
            return langfunc("_") if langfunc else ""

+    property writing_system:
+        """A dict with information about the language's writing system. To get
+        the data, we use the vocab.lang property to fetch the Language class.
+        If the Language class is not loaded, an empty dict is returned.
+        """
+        def __get__(self):
+            if not util.lang_class_is_loaded(self.lang):
+                return {}
+            lang_class = util.get_lang_class(self.lang)
+            return dict(lang_class.Defaults.writing_system)
+
    def __len__(self):
        """The current number of lexemes stored.