Add test for #1250: Tokenizer cache clobbered special-case attrs

2025-09-16 17:12:38 +03:00 · 2017-10-24 16:07:18 +02:00 · 2017-10-24 16:07:18 +02:00 · 63f0bde749
commit 63f0bde749
parent 18f1c1d0ba
1 changed files with 13 additions and 0 deletions
--- a/spacy/tests/regression/test_issue1250.py
+++ b/spacy/tests/regression/test_issue1250.py
@ -0,0 +1,13 @@
+from __future__ import unicode_literals
+from ...tokenizer import Tokenizer
+from ...symbols import ORTH, LEMMA, POS
+from ...lang.en import English
+
+def test_issue1250_cached_special_cases():
+    nlp = English()
+    nlp.tokenizer.add_special_case(u'reimbur', [{ORTH: u'reimbur', LEMMA: u'reimburse', POS: u'VERB'}])
+
+    lemmas = [w.lemma_ for w in nlp(u'reimbur, reimbur...')]
+    assert lemmas == ['reimburse', ',', 'reimburse', '...']
+    lemmas = [w.lemma_ for w in nlp(u'reimbur, reimbur...')]
+    assert lemmas == ['reimburse', ',', 'reimburse', '...']