From 4d9aae7d6a52dbc17809d9204acc42f384ad8532 Mon Sep 17 00:00:00 2001 From: Sourav Singh Date: Sat, 19 Nov 2016 22:47:53 +0530 Subject: [PATCH] Add German Stopwords --- spacy/de/language_data.py | 73 ++++++++++++++++++++++++++++++++++++++- 1 file changed, 72 insertions(+), 1 deletion(-) diff --git a/spacy/de/language_data.py b/spacy/de/language_data.py index afb275cdd..9772be01e 100644 --- a/spacy/de/language_data.py +++ b/spacy/de/language_data.py @@ -3,7 +3,78 @@ from __future__ import unicode_literals import re -STOP_WORDS = set() +STOP_WORDS = set(""" +a ab aber ach acht achte achten achter achtes +ag alle allein allem allen aller allerdings alles +allgemeinen als also am an andere anderen +andern anders au auch auf aus ausser außer +ausserdem außerdem b bald bei beide beiden +beim beispiel bekannt bereits besonders +besser besten bin bis bisher bist da +dabei dadurch dafür dagegen daher +dahin dahinter damals damit danach +daneben dank dann daran darauf +daraus darf darfst darin darüber +darum darunter das dasein daselbst +dass daß dasselbe davon davor dazu +dazwischen dein deine deinem deiner +dem dementsprechend demgegenüber +demgemäss demgemäß demselben +demzufolge den denen denn denselben +der deren derjenige derjenigen dermassen +dermaßen derselbe derselben des deshalb +desselben dessen deswegen dich die diejenige +diejenigen dies diese dieselbe dieselben diesem +diesen dieser dieses dir doch dort drei drin dritte +dritten dritter drittes du durch durchaus dürfen +dürft durfte durften eben ebenso ehrlich ei eigen +eigene eigenen eigener eigenes ein einander eine +einem einen einer eines einigeeinigen einiger einiges +einmal einmaleins elf en ende endlich entweder +er erst erste ersten erster erstes es etwa etwas euch +früher fünf fünfte fünften fünfter fünftes für gab ganz +ganze ganzen ganzer ganzes gar gedurft gegen +gegenüber gehabt gehen geht gekannt gekonnt gemacht +gemocht gemusst genug gerade gern gesagt geschweige +gewesen gewollt geworden gibt ging gleich gott gross +groß grosse große grossen großen grosser großer +grosses großes gut gute guter gutes habe haben habt +hast hat hatte hätte hatten hätten heisst her heute hier +hin hinter hoch ich ihm ihn ihnen ihr ihre ihrem ihrer +ihres im immer in indem infolgedessen ins irgend ist +ja jahr jahre jahren je jede jedem jeden jeder jedermann +jedermanns jedoch jemand jemandem jemanden jene +jenem jenen jener jenes jetzt kam kann kannst kaum kein +keine keinem keinen keiner kleine kleinen kleiner kleines +kommen kommt können könnt konnte könnte konnten kurz +lang lange leicht leide lieber los machen macht machte mag +magst mahn man manche manchem manchen mancher +manches mann mehr mein meine meinem meinen meiner +meines mensch menschen mich mir mit mittel mochte +möchte mochten mögen möglich mögt morgen muss muß +müssen musst müsst musste mussten na nach nachdem nahm +natürlich neben nein neue neuen neun neunte neunten neunter +neuntes nicht nichts nie niemand niemandem niemanden noch +nun nur ob oben oder offen oft ohne ordnung recht rechte +rechten rechter rechtes richtig rund sa sache sagt sagte sah satt +schlecht Schluss schon sechs sechste sechsten sechster sechstes +sehr sei seid seien sein seine seinem seinen seiner seines seit +seitdem selbst selbst sich sie sieben siebente siebenten siebenter +siebentes sind so solang solche solchem solchen solcher solches +soll sollen sollte sollten sondern sonst sowie später statt tag tage +tagen tat teil tel tritt trotzdem tun über überhaupt übrigens uhr +um und uns unser unsere unserer unter vergangenen viel viele +vielem vielen vielleicht vier vierte vierten vierter viertes vom von +vor wahr während währenddem währenddessen wann war wäre +waren wart warum was wegen weil weit weiter weitere weiteren +weiteres welche welchem welchen welcher welches wem wen +wenig wenige weniger weniges wenigstens wenn wer werde +werden werdet wessen wie wieder will willst wir wird wirklich +wirst wo wohl wollen wollt wollte wollten worden wurde würde +wurden würden zehn zehnte zehnten zehnter zehntes zeit zu +zuerst zugleich zum zunächst zur zurück zusammen zwanzig +zwar zwei zweite zweiten zweiter zweites zwischen +""".split()) TOKENIZER_PREFIXES = map(re.escape, r'''