mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-11 20:28:20 +03:00
951825532c
* Improved Dutch language resources and Dutch lemmatization * Fix conftest * Update punctuation.py * Auto-format * Format and fix tests * Remove unused test file * Re-add deleted test * removed redundant infix regex pattern for ','; note: brackets + simple hyphen remains * Cleaner lemmatization files
18 lines
1.0 KiB
Python
18 lines
1.0 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
DETERMINERS = set(
|
|
("al allebei allerhande allerminst alletwee"
|
|
"beide clip-on d'n d'r dat datgeen datgene de dees degeen degene den dewelke "
|
|
'deze dezelfde die diegeen diegene diehien dien diene diens diezelfde dit '
|
|
'ditgene e een eene eigen elk elkens elkes enig enkel enne ettelijke eure '
|
|
'euren evenveel ewe ge geen ginds géén haar haaren halfelf het hetgeen '
|
|
'hetwelk hetzelfde heur heure hulder hulle hullen hullie hun hunder hunderen '
|
|
'ieder iederes ja je jen jouw jouwen jouwes jullie junder keiveel keiweinig '
|
|
"m'ne me meer meerder meerdere menen menig mijn mijnes minst méér niemendal "
|
|
'oe ons onse se sommig sommigeder superveel telken teveel titulair ulder '
|
|
'uldere ulderen ulle under une uw vaak veel veels véél wat weinig welk welken '
|
|
"welkene welksten z'nen ze zenen zijn zo'n zo'ne zoiet zoveel zovele zovelen "
|
|
'zuk zulk zulkdanig zulken zulks zullie zíjn àlle álle').split())
|