prevent writing dummy values like deps because that could interfer with sent_start values

2025-12-22 09:34:23 +03:00 · 2020-06-18 17:47:59 +02:00 · 2020-06-18 17:47:59 +02:00 · e822367cf7
commit e822367cf7
parent 0b6d45eae1
2 changed files with 31 additions and 16 deletions
--- a/spacy/gold/corpus.py
+++ b/spacy/gold/corpus.py
@ -72,7 +72,7 @@ class GoldCorpus(object):
    @staticmethod
    def read_annotations(locs, limit=0):
-        """ Yield training examples """
+        """ Yield training examples as example dicts """
        i = 0
        for loc in locs:
            loc = util.ensure_path(loc)
--- a/spacy/gold/gold_io.pyx
+++ b/spacy/gold/gold_io.pyx
@ -108,15 +108,21 @@ def json_to_annotations(doc):
                words.append(token["orth"])
                spaces.append(token.get("space", True))
                ids.append(token.get('id', sent_start_i + i))
-                tags.append(token.get('tag', "-"))
+                if "tag" in token:
-                pos.append(token.get("pos", ""))
+                    tags.append(token["tag"])
-                morphs.append(token.get("morph", ""))
+                if "pos" in token:
-                lemmas.append(token.get("lemma", ""))
+                    pos.append(token["pos"])
-                heads.append(token.get("head", 0) + sent_start_i + i)
+                if "morph" in token:
-                labels.append(token.get("dep", ""))
+                    morphs.append(token["morph"])
-                # Ensure ROOT label is case-insensitive
+                if "lemma" in token:
-                if labels[-1].lower() == "root":
+                    lemmas.append(token["lemma"])
-                    labels[-1] = "ROOT"
+                if "head" in token:
                    heads.append(token["head"])
                if "dep" in token:
                    labels.append(token["dep"])
                    # Ensure ROOT label is case-insensitive
                    if labels[-1].lower() == "root":
                        labels[-1] = "ROOT"
                if i == 0:
                    sent_starts.append(1)
                else:
@ -130,15 +136,24 @@ def json_to_annotations(doc):
            ids=ids,
            words=words,
            spaces=spaces,
            tags=tags,
            pos=pos,
            morphs=morphs,
            lemmas=lemmas,
            heads=heads,
            deps=labels,
            sent_starts=sent_starts,
            brackets=brackets
        )
        # avoid including dummy values that looks like gold info was present
        if tags:
            example["token_annotation"]["tags"] = tags
        if pos:
            example["token_annotation"]["pos"] = pos
        if morphs:
            example["token_annotation"]["morphs"] = morphs
        if lemmas:
            example["token_annotation"]["lemmas"] = lemmas
        if heads:
            example["token_annotation"]["heads"] = heads
        if labels:
            example["token_annotation"]["deps"] = labels
        if pos:
            example["token_annotation"]["pos"] = pos
        cats = {}
        for cat in paragraph.get("cats", {}):