From adda08fe14479e465668bcf39dcedd238a4be20e Mon Sep 17 00:00:00 2001
From: ines <ines@ines.io>
Date: Tue, 26 Sep 2017 16:39:15 +0200
Subject: [PATCH] Implement like_num getter for Dutch (via #1177)

---
 spacy/lang/nl/__init__.py  |  2 ++
 spacy/lang/nl/lex_attrs.py | 36 ++++++++++++++++++++++++++++++++++++
 2 files changed, 38 insertions(+)
 create mode 100644 spacy/lang/nl/lex_attrs.py

diff --git a/spacy/lang/nl/__init__.py b/spacy/lang/nl/__init__.py
index 7b948f295..98df8d487 100644
--- a/spacy/lang/nl/__init__.py
+++ b/spacy/lang/nl/__init__.py
@@ -2,6 +2,7 @@
 from __future__ import unicode_literals
 
 from .stop_words import STOP_WORDS
+from .lex_attrs import LEX_ATTRS
 
 from ..tokenizer_exceptions import BASE_EXCEPTIONS
 from ..norm_exceptions import BASE_NORMS
@@ -12,6 +13,7 @@ from ...util import update_exc, add_lookups
 
 class DutchDefaults(Language.Defaults):
     lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+    lex_attr_getters.update(LEX_ATTRS)
     lex_attr_getters[LANG] = lambda text: 'nl'
     lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
 
diff --git a/spacy/lang/nl/lex_attrs.py b/spacy/lang/nl/lex_attrs.py
new file mode 100644
index 000000000..4a9c0bdc3
--- /dev/null
+++ b/spacy/lang/nl/lex_attrs.py
@@ -0,0 +1,36 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from ...attrs import LIKE_NUM
+
+
+_num_words = set("""
+nul een één twee drie vier vijf zes zeven acht negen tien elf twaalf dertien
+veertien twintig dertig veertig vijftig zestig zeventig tachtig negentig honderd
+duizend miljoen miljard biljoen biljard triljoen triljard
+""".split())
+
+_ordinal_words = set("""
+eerste tweede derde vierde vijfde zesde zevende achtste negende tiende elfde
+twaalfde dertiende veertiende twintigste dertigste veertigste vijftigste
+zestigste zeventigste tachtigste negentigste honderdste duizendste miljoenste
+miljardste biljoenste biljardste triljoenste triljardste
+""".split())
+
+
+def like_num(text):
+    text = text.replace(',', '').replace('.', '')
+    if text.isdigit():
+        return True
+    if text.count('/') == 1:
+        num, denom = text.split('/')
+        if num.isdigit() and denom.isdigit():
+            return True
+    if text in _num_words:
+        return True
+    return False
+
+
+LEX_ATTRS = {
+    LIKE_NUM: like_num
+}