Rescale gradients for mlm

2025-08-06 05:10:21 +03:00 · 2019-10-24 17:35:37 +02:00 · 2019-10-24 17:35:37 +02:00 · 73b1f651d4
commit 73b1f651d4
parent 7d81d17ce5
1 changed files with 2 additions and 0 deletions
--- a/spacy/_ml.py
+++ b/spacy/_ml.py
@ -966,6 +966,8 @@ def masked_language_model(vocab, model, mask_prob=0.15):

        def mlm_backward(d_output, sgd=None):
            d_output *= 1 - mask
+            # Rescale gradient for number of instances.
+            d_output *= mask.size - mask.sum()
            return backprop(d_output, sgd=sgd)

        return output, mlm_backward