Add tensorizer training example

2025-11-24 03:46:02 +03:00 · 2018-11-02 23:52:12 +01:00 · 2018-11-02 23:52:12 +01:00 · baf7feae68
commit baf7feae68
parent 2527ba68e5
1 changed files with 45 additions and 0 deletions
--- a/examples/training/train_tensorizer.py
+++ b/examples/training/train_tensorizer.py
@ -0,0 +1,45 @@
+'''Not sure if this is useful -- try training the Tensorizer component.'''
+import plac
+import spacy
+import thinc.extra.datasets
+from spacy.util import minibatch
+import tqdm
+
+
+def load_imdb():
+    nlp = spacy.blank('en')
+    train, dev = thinc.extra.datasets.imdb()
+    train_texts, _ = zip(*train)
+    dev_texts, _ = zip(*dev)
+    nlp.add_pipe(nlp.create_pipe('sentencizer'))
+    return list(get_sentences(nlp, train_texts)), list(get_sentences(nlp, dev_texts))
+
+
+def get_sentences(nlp, texts):
+    for doc in nlp.pipe(texts):
+        for sent in doc.sents:
+            yield sent.text
+
+
+def main():
+    print("Load data")
+    train_texts, dev_texts = load_imdb()
+    train_texts = train_texts[:1000]
+    print("Load vectors")
+    nlp = spacy.load('en_vectors_web_lg')
+    print("Start training")
+    nlp.add_pipe(nlp.create_pipe('tagger'))
+    tensorizer = nlp.create_pipe('tensorizer')
+    nlp.add_pipe(tensorizer)
+    optimizer = nlp.begin_training()
+
+    for i in range(10):
+        losses = {}
+        for i, batch in enumerate(minibatch(tqdm.tqdm(train_texts))):
+            docs = [nlp.make_doc(text) for text in batch]
+            tensorizer.update(docs, None, losses=losses, sgd=optimizer, drop=0.5)
+            if i % 10 == 0:
+                print(losses)
+
+if __name__ == '__main__':
+    plac.call(main)