From 00b9a585580bbe7c0e26dc2043625275fb73bac3 Mon Sep 17 00:00:00 2001 From: Duygu Altinok Date: Mon, 9 Jul 2018 11:10:15 +0200 Subject: [PATCH] German lemmatizer additions (#2529) * lemma of was-> was * added new pairs issue @2486 * added article tests --- spacy/lang/de/lemmatizer.py | 387 +++++++++++++++++++++++++++++- spacy/tests/lang/de/test_lemma.py | 4 +- 2 files changed, 389 insertions(+), 2 deletions(-) diff --git a/spacy/lang/de/lemmatizer.py b/spacy/lang/de/lemmatizer.py index dbd53d20d..2125d4e7c 100644 --- a/spacy/lang/de/lemmatizer.py +++ b/spacy/lang/de/lemmatizer.py @@ -2,10 +2,27 @@ from __future__ import unicode_literals LOOKUP = { + "Ab": "ab", + "Aber": "aber", "ABMs": "ABM", "ADACs": "ADAC", "AGs": "AG", "AKWs": "AKW", + "All": "all", + "Alldieweil": "alldieweil", + "Alle": "all", + "Allein": "allein", + "Allem": "alle", + "Allen": "alle", + "Aller": "alle", + "Alles": "alle", + "Als": "als", + "An": "an", + "Andere": "ander", + "Anderem": "ander", + "Anderer": "ander", + "Anderes": "ander", + "Anstatt": "anstatt", "ARTEs": "ARTE", "AStAs": "AStA", "Aachens": "Aachen", @@ -8817,6 +8834,8 @@ LOOKUP = { "Aussehens": "Aussehen", "Aussendenden": "Aussendende", "Aussendens": "Aussenden", + "Ausser": "ausser", + "Außer": "außer", "Aussetzenden": "Aussetzende", "Aussetzens": "Aussetzen", "Aussichten": "Aussicht", @@ -9344,6 +9363,16 @@ LOOKUP = { "Azteken": "Azteke", "Aztekische": "aztekisch", "Aztekischen": "Aztekische", + "Beide": "beid", + "Beiden": "beid", + "Beider": "beid", + "Beides": "beid", + "Bevor": "bevor", + "Beziehentlich": "beziehentlich", + "Beziehungsweise": "beziehungsweise", + "Bin": "sein", + "Bis": "bis", + "Bist": "sein", "BMWs": "BMW", "Babels": "Babel", "Babylonische": "babylonisch", @@ -14972,6 +15001,7 @@ LOOKUP = { "Dachs": "Dach", "Dackeln": "Dackel", "Dackels": "Dackel", + "Da": "da", "Dafürgehaltenen": "Dafürgehaltene", "Dafürgestandenen": "Dafürgestandene", "Dafürhaltenden": "Dafürhaltende", @@ -14993,6 +15023,7 @@ LOOKUP = { "Dagesessenen": "Dagesessene", "Dagestandenen": "Dagestandene", "Dagmars": "Dagmar", + "Daher": "daher", "Daherfliegenden": "Daherfliegende", "Daherfliegens": "Daherfliegen", "Dahergeflogenen": "Dahergeflogene", @@ -15093,6 +15124,7 @@ LOOKUP = { "Damelndsten": "Damelndste", "Damelns": "Dameln", "Damen": "Dame", + "Damit": "damit", "Damme": "Damm", "Dammes": "Damm", "Damms": "Damm", @@ -15159,6 +15191,8 @@ LOOKUP = { "Darbietungen": "Darbietung", "Darbringenden": "Darbringende", "Darbringens": "Darbringen", + "Darf": "dürfen", + "Darfst": "dürfen", "Dargebotenen": "Dargebotene", "Dargebrachten": "Dargebrachte", "Dargelegten": "Dargelegte", @@ -15225,9 +15259,13 @@ LOOKUP = { "Darüberschreibens": "Darüberschreiben", "Darüberstehenden": "Darüberstehende", "Darüberstehens": "Darüberstehen", + "Das": "der", "Daseins": "Dasein", "Dasitzenden": "Dasitzende", "Dasitzens": "Dasitzen", + "Dasjenige": "derjenige", + "Dass": "dass", + "Dasselbe": "derselbe", "Dastehenden": "Dastehende", "Dastehens": "Dastehen", "Dateien": "Datei", @@ -15514,6 +15552,12 @@ LOOKUP = { "Deichs": "Deich", "Deichselnden": "Deichselnde", "Deichselns": "Deichseln", + "Deine": "mein", + "Deinem": "mein", + "Deinen": "mein", + "Deinesgleichen": "meinesgleichen", + "Deines": "mein", + "Dein": "mein", "Dejustierenden": "Dejustierende", "Dejustierens": "Dejustieren", "Dejustierte": "dejustiert", @@ -15646,6 +15690,7 @@ LOOKUP = { "Demathematisierens": "Demathematisieren", "Demathematisierte": "demathematisiert", "Demathematisierten": "Demathematisierte", + "Dem": "der", "Dementierenden": "Dementierende", "Dementierenderen": "Dementierendere", "Dementierendsten": "Dementierendste", @@ -15671,6 +15716,7 @@ LOOKUP = { "Demissionierten": "Demissionierte", "Demissionierteren": "Demissioniertere", "Demissionierteste": "demissioniert", + "Demjenigen": "derjenige", "Demobilisationen": "Demobilisation", "Demodulationen": "Demodulation", "Demodulatore": "Demodulator", @@ -15733,6 +15779,7 @@ LOOKUP = { "Demoralisierteste": "demoralisiert", "Demos": "Demo", "Demoskopien": "Demoskopie", + "Demselben": "derselbe", "Demutsgebärden": "Demutsgebärde", "Demütigenden": "Demütigende", "Demütigenderen": "Demütigendere", @@ -15747,7 +15794,10 @@ LOOKUP = { "Denazifizierens": "Denazifizieren", "Denazifizierte": "denazifiziert", "Denazifizierten": "Denazifizierte", + "Den": "der", "Dendrologen": "Dendrologe", + "Denen": "der", + "Denjenigen": "derjenige", "Denkarten": "Denkart", "Denkaufgaben": "Denkaufgabe", "Denkbare": "denkbar", @@ -15808,11 +15858,13 @@ LOOKUP = { "Denkzetteln": "Denkzettel", "Denkzettels": "Denkzettel", "Denkübungen": "Denkübung", + "Denn": "denn", "Dennys": "Denny", "Denotate": "Denotat", "Denotaten": "Denotat", "Denotationen": "Denotation", "Denotats": "Denotat", + "Denselben": "derselbe", "Dentalen": "Dentale", "Dentisten": "Dentist", "Denunzianten": "Denunziant", @@ -15882,19 +15934,28 @@ LOOKUP = { "Derberen": "Derbere", "Derbsten": "Derbste", "Derbys": "Derby", + "Der": "der", "Dereinstige": "dereinstig", "Dereinstigen": "Dereinstige", + "Derer": "der", + "Derjenige": "derjenige", + "Derjenigen": "derjenige", "Dermatologen": "Dermatologe", "Dermatologische": "dermatologisch", "Dermatologischen": "Dermatologische", "Derricks": "Derrick", + "Derselbe": "derselbe", + "Derselben": "derselbe", + "Derweil": "derweil", "Derzeitigen": "Derzeitige", "Desastern": "Desaster", "Desasters": "Desaster", + "Des": "der", "Desertierenden": "Desertierende", "Desertierens": "Desertieren", "Desertierte": "desertiert", "Desertierten": "Desertierte", + "Deshalb": "deshalb", "Designern": "Designer", "Designers": "Designer", "Designs": "Design", @@ -15918,14 +15979,18 @@ LOOKUP = { "Desinfizierteren": "Desinfiziertere", "Desinfiziertesten": "Desinfizierteste", "Desinfizierungen": "Desinfizierung", + "Desjenigen": "derjenige", "Desolaten": "Desolate", "Desolateren": "Desolatere", "Desolatesten": "Desolateste", "Desorptionen": "Desorption", + "Desselben": "derselbe", + "Dessen": "der", "Desserts": "Dessert", "Dessins": "Dessin", "Destillen": "Destille", "Destinationen": "Destination", + "Desto": "desto", "Destruktionen": "Destruktion", "Destruktivkräfte": "Destruktivkraft", "Destruktivkräften": "Destruktivkraft", @@ -16095,6 +16160,7 @@ LOOKUP = { "Diamantenen": "Diamantene", "Dias": "Dia", "Dichotomisierungen": "Dichotomisierung", + "Dich": "sich", "Dichte": "dicht", "Dichten": "Dichte", "Dichtenden": "Dichtende", @@ -16170,7 +16236,10 @@ LOOKUP = { "Diebesguts": "Diebesgut", "Diebs": "Dieb", "Dieburgs": "Dieburg", + "Die": "der", "Diehls": "Diehl", + "Diejenige": "derjenige", + "Diejenigen": "derjenige", "Dielen": "Diele", "Dienenden": "Dienende", "Dienens": "Dienen", @@ -16219,6 +16288,8 @@ LOOKUP = { "Diepgens": "Diepgen", "Diesbezügliche": "diesbezüglich", "Diesbezüglichen": "Diesbezügliche", + "Dieselbe": "derselbe", + "Dieselben": "derselbe", "Diesels": "Diesel", "Dieselöle": "Dieselöl", "Dieselölen": "Dieselöl", @@ -16237,6 +16308,7 @@ LOOKUP = { "Dietzenbachern": "Dietzenbacher", "Dietzenbachers": "Dietzenbacher", "Dietzenbachs": "Dietzenbach", + "Dieweil": "dieweil", "Diffamien": "Diffamie", "Diffamierenden": "Diffamierende", "Diffamierenderen": "Diffamierendere", @@ -16399,6 +16471,7 @@ LOOKUP = { "Dirigistischen": "Dirigistische", "Dirks": "Dirk", "Dirnen": "Dirne", + "Dir": "sich", "Discos": "Disco", "Discotheken": "Discothek", "Discountern": "Discounter", @@ -16523,6 +16596,7 @@ LOOKUP = { "Diäten": "Diät", "Diätistinnen": "Diätistin", "Diözesen": "Diözese", + "Doch": "doch", "Dochte": "Docht", "Dochten": "Docht", "Dochts": "Docht", @@ -18204,6 +18278,19 @@ LOOKUP = { "Durchzählens": "Durchzählen", "Durchzüge": "Durchzug", "Durchzügen": "Durchzug", + "Dürfe": "dürfen", + "Dürfen": "dürfen", + "Dürfest": "dürfen", + "Dürfet": "dürfen", + "Dürft": "dürfen", + "Durfte": "dürfen", + "Dürfte": "dürfen", + "Durften": "dürfen", + "Dürften": "dürfen", + "Durftest": "dürfen", + "Dürftest": "dürfen", + "Durftet": "dürfen", + "Dürftet": "dürfen", "Durstenden": "Durstende", "Durstenderen": "Durstendere", "Durstendsten": "Durstendste", @@ -18558,12 +18645,14 @@ LOOKUP = { "Ehebrechern": "Ehebrecher", "Ehebrechers": "Ehebrecher", "Ehebunds": "Ehebund", + "Ehe": "ehe", "Ehefrauen": "Ehefrau", "Ehefähige": "ehefähig", "Ehefähigen": "Ehefähige", "Ehefähigeren": "Ehefähigere", "Ehefähigsten": "Ehefähigste", "Ehegatten": "Ehegatte", + "Eh": "eh", "Ehelichenden": "Ehelichende", "Ehelichens": "Ehelichen", "Ehelosen": "Ehelose", @@ -18813,6 +18902,8 @@ LOOKUP = { "Eimers": "Eimer", "Einaktern": "Einakter", "Einakters": "Einakter", + "einander": "einander", + "Einander": "einander", "Einarbeitenden": "Einarbeitende", "Einarbeitens": "Einarbeiten", "Einarmigen": "Einarmige", @@ -21942,6 +22033,7 @@ LOOKUP = { "Entschuldigte": "entschuldigt", "Entschuldigten": "Entschuldigte", "Entschuldigungen": "Entschuldigung", + "Entschuldigung": "entschuldigung", "Entschwindenden": "Entschwindende", "Entschwindens": "Entschwinden", "Entschwirrenden": "Entschwirrende", @@ -22118,6 +22210,7 @@ LOOKUP = { "Entwarnte": "entwarnt", "Entwarnten": "Entwarnte", "Entwarnungen": "Entwarnung", + "Entweder": "entweder", "Entweichenden": "Entweichende", "Entweichens": "Entweichen", "Entwendenden": "Entwendende", @@ -22760,6 +22853,7 @@ LOOKUP = { "Erhörens": "Erhören", "Erhörte": "erhört", "Erhörten": "Erhörte", + "Er": "ich", "Erichs": "Erich", "Erics": "Eric", "Erikas": "Erika", @@ -23633,6 +23727,7 @@ LOOKUP = { "Eseleien": "Eselei", "Eseln": "Esel", "Esels": "Esel", + "Es": "ich", "Eskalationen": "Eskalation", "Eskalierenden": "Eskalierende", "Eskalierenderen": "Eskalierendere", @@ -23709,12 +23804,18 @@ LOOKUP = { "Etikettierte": "etikettiert", "Etikettierten": "Etikettierte", "Etiketts": "Etikett", + "Etliche": "etlich", + "Etlichem": "etlich", + "Etlichen": "etlich", + "Etlicher": "etlich", "Etuis": "Etui", "Etwaige": "etwaig", "Etwaigen": "Etwaige", "Etymologien": "Etymologie", "Eucharistien": "Eucharistie", + "Euch": "sich", "Euckens": "Eucken", + "Euer": "sich", "Eugens": "Eugen", "Eulen": "Eule", "Eulenspiegeleien": "Eulenspiegelei", @@ -23725,6 +23826,11 @@ LOOKUP = { "Euphorischeren": "Euphorischere", "Euphorischsten": "Euphorischste", "Eurasischen": "Eurasische", + "Eure": "mein", + "Eurem": "mein", + "Euren": "mein", + "Euresgleichen": "meinesgleichen", + "Eures": "mein", "Europameistern": "Europameister", "Europameisters": "Europameister", "Europas": "Europa", @@ -24061,6 +24167,7 @@ LOOKUP = { "Eßverhaltens": "Eßverhalten", "Eßzimmern": "Eßzimmer", "Eßzimmers": "Eßzimmer", + "Folglich": "folglich", "FUs": "FU", "Fabeleien": "Fabelei", "Fabelhafte": "fabelhaft", @@ -29553,6 +29660,7 @@ LOOKUP = { "Gemurksten": "Gemurkste", "Gemurmelten": "Gemurmelte", "Gemurrten": "Gemurrte", + "Gemußt": "müssen", "Gemusterten": "Gemusterte", "Gemusterteren": "Gemustertere", "Gemustertesten": "Gemusterteste", @@ -30673,6 +30781,7 @@ LOOKUP = { "Geschwebten": "Geschwebte", "Geschwefelten": "Geschwefelte", "Geschweiften": "Geschweifte", + "Geschweige": "geschweige", "Geschweißten": "Geschweißte", "Geschwelgten": "Geschwelgte", "Geschwellten": "Geschwellte", @@ -31984,6 +32093,7 @@ LOOKUP = { "Gleichwertige": "gleichwertig", "Gleichwertigen": "Gleichwertige", "Gleichwertigkeiten": "Gleichwertigkeit", + "Gleichwohl": "gleichwohl", "Gleichzeitige": "gleichzeitig", "Gleichzeitigen": "Gleichzeitige", "Gleichziehenden": "Gleichziehende", @@ -33078,7 +33188,10 @@ LOOKUP = { "Haases": "Haase", "Habe": "haben", "Habenden": "Habende", + "Haben": "haben", "Habens": "Haben", + "Habest": "haben", + "Habet": "haben", "Habgierigen": "Habgierige", "Habgierigeren": "Habgierigere", "Habgierigsten": "Habgierigste", @@ -33097,6 +33210,7 @@ LOOKUP = { "Habsüchtigen": "Habsüchtige", "Habsüchtigeren": "Habsüchtigere", "Habsüchtigsten": "Habsüchtigste", + "Habt": "haben", "Hacken": "Hacke", "Hackenden": "Hackende", "Hackens": "Hacken", @@ -33269,6 +33383,7 @@ LOOKUP = { "Hallendsten": "Hallendste", "Hallens": "Hallen", "Halles": "Halle", + "Hallo": "hallo", "Hallos": "Hallo", "Halls": "Hall", "Halluzinationen": "Halluzination", @@ -33577,12 +33692,21 @@ LOOKUP = { "Hastenderen": "Hastendere", "Hastendsten": "Hastendste", "Hastens": "Hasten", + "Hast": "haben", "Hastigen": "Hastige", "Hastigeren": "Hastigere", "Hastigsten": "Hastigste", + "Hat": "haben", + "Hatte": "haben", + "Hätte": "haben", + "Hatten": "haben", + "Hätten": "haben", "Hattersheimern": "Hattersheimer", "Hattersheimers": "Hattersheimer", "Hattersheims": "Hattersheim", + "Hättest": "haben", + "Hattet": "haben", + "Hättet": "haben", "Hauben": "Haube", "Haubitzen": "Haubitze", "Hauch": "hauchen", @@ -35214,6 +35338,7 @@ LOOKUP = { "Hingeführten": "Hingeführte", "Hingegangenen": "Hingegangene", "Hingegebenen": "Hingegebene", + "Hingegen": "hingegen", "Hingegossenen": "Hingegossene", "Hingehaltenen": "Hingehaltene", "Hingehalteneren": "Hingehaltenere", @@ -36735,9 +36860,24 @@ LOOKUP = { "Hüttnern": "Hüttner", "Hüttners": "Hüttner", "IBMs": "IBM", + "Ich": "ich", "ICs": "IC", + "Ihm": "ich", + "Ihnen": "ich", + "Ihn": "ich", + "Ihre": "mein", + "Ihrem": "mein", + "Ihren": "mein", + "Ihrer": "sich", + "Ihresgleichen": "meinesgleichen", + "Ihres": "mein", + "Ihr": "mein", "IKEAs": "IKEA", "IMs": "IM", + "Indem": "indem", + "Indes": "indes", + "Indessen": "indessen", + "Insofern": "insofern", "IQs": "IQ", "Ibrahims": "Ibrahim", "Ichs": "Ich", @@ -37814,6 +37954,7 @@ LOOKUP = { "Israelitischen": "Israelitische", "Israels": "Israel", "Istanbuls": "Istanbul", + "Ist": "sein", "Italias": "Italia", "Italienern": "Italiener", "Italieners": "Italiener", @@ -37829,6 +37970,32 @@ LOOKUP = { "Ivans": "Ivan", "Izabellas": "Izabella", "Izetbegovics": "Izetbegovic", + "Ja": "ja", + "Jede": "jed", + "Jedem": "jed", + "Jeden": "jed", + "Jeder": "jed", + "Jedes": "jed", + "Jedwede": "jedwed", + "Jedwedem": "jedwed", + "Jedweden": "jedwed", + "Jedweder": "jedwed", + "Jedwedes": "jedwed", + "Jegliche": "jeglich", + "Jeglichem": "jeglich", + "Jeglichen": "jeglich", + "Jeglicher": "jeglich", + "Jegliches": "jeglich", + "Jemandem": "jemand", + "Jemanden": "jemand", + "Jemandes": "jemand", + "Jemands": "jemand", + "Jene": "jen", + "Jenem": "jen", + "Jenen": "jen", + "Jener": "jen", + "Jenes": "jen", + "Jen": "jen", "JVAs": "JVA", "Jachten": "Jacht", "Jacken": "Jacke", @@ -38152,7 +38319,28 @@ LOOKUP = { "Jürgens": "Jürgen", "Jütländern": "Jütländer", "Jütländers": "Jütländer", + "Kann": "können", + "Kannst": "können", "KBs": "KB", + "Keine": "kein", + "Keinem": "kein", + "Keinen": "kein", + "Keiner": "kein", + "Keines": "kein", + "Kein": "kein", + "Könne": "können", + "Können": "können", + "Könnest": "können", + "Könnet": "können", + "Konnte": "können", + "Könnte": "können", + "Konnten": "können", + "Könnten": "können", + "Konntest": "können", + "Könntest": "können", + "Konntet": "können", + "Könntet": "können", + "Könnt": "können", "KZs": "KZ", "Kabarette": "Kabarett", "Kabaretten": "Kabarett", @@ -41990,6 +42178,10 @@ LOOKUP = { "Küsters": "Küster", "Küßchens": "Küßchen", "Küßleins": "Küßlein", + "Letzeteres": "letzter", + "Letztere": "letzter", + "Letzterem": "letzter", + "Letzterer": "letzter", "LPs": "LP", "Labbadias": "Labbadia", "Labberigen": "Labberige", @@ -43909,9 +44101,11 @@ LOOKUP = { "Magistraten": "Magistrat", "Magistrates": "Magistrat", "Magistrats": "Magistrat", + "Mag": "mögen", "Magnesiums": "Magnesium", "Magneten": "Magnet", "Magrittes": "Magritte", + "Magst": "mögen", "Maharadschas": "Maharadscha", "Maharanis": "Maharani", "Maharashtras": "Maharashtra", @@ -44009,6 +44203,11 @@ LOOKUP = { "Managern": "Manager", "Managers": "Manager", "Managuas": "Managua", + "Manche": "manch", + "Manchem": "manch", + "Manchen": "manch", + "Mancher": "manch", + "Manches": "manch", "Manchesters": "Manchester", "Mandanten": "Mandant", "Mandarinen": "Mandarine", @@ -44446,6 +44645,10 @@ LOOKUP = { "Mehreinnahmen": "Mehreinnahme", "Mehrenden": "Mehrende", "Mehrens": "Mehren", + "Mehrere": "mehrer", + "Mehrerem": "mehrer", + "Mehreren": "mehrer", + "Mehreres": "mehrer", "Mehrertrage": "Mehrertrag", "Mehrertrags": "Mehrertrag", "Mehrerträge": "Mehrertrag", @@ -44497,8 +44700,14 @@ LOOKUP = { "Meineide": "Meineid", "Meineiden": "Meineid", "Meineids": "Meineid", + "Meinem": "mein", "Meinenden": "Meinende", + "Meinen": "mein", "Meinens": "Meinen", + "Meiner": "sich", + "Meinesgleichen": "meinesgleichen", + "Meines": "mein", + "Mein": "mein", "Meinungen": "Meinung", "Meisen": "Meise", "Meisners": "Meisner", @@ -44788,6 +44997,7 @@ LOOKUP = { "Michails": "Michail", "Micheln": "Michel", "Michels": "Michel", + "Mich": "sich", "Miedern": "Mieder", "Mieders": "Mieder", "Miedertuche": "Miedertuch", @@ -45031,6 +45241,7 @@ LOOKUP = { "Minusbetrags": "Minusbetrag", "Minusbeträge": "Minusbetrag", "Minusbeträgen": "Minusbetrag", + "Minus": "minus", "Minuspunkte": "Minuspunkt", "Minuspunkten": "Minuspunkt", "Minuspunkts": "Minuspunkt", @@ -45543,6 +45754,14 @@ LOOKUP = { "Mobils": "Mobil", "Mobilste": "mobil", "Mobilsten": "Mobilste", + "Mochte": "mögen", + "Möchte": "mögen", + "Mochten": "mögen", + "Möchten": "mögen", + "Mochtest": "mögen", + "Möchtest": "mögen", + "Mochtet": "mögen", + "Möchtet": "mögen", "Mockstadts": "Mockstadt", "Modale": "modal", "Modalen": "Modale", @@ -45628,6 +45847,10 @@ LOOKUP = { "Mogadischus": "Mogadischu", "Mogelnden": "Mogelnde", "Mogelns": "Mogeln", + "Möge": "mögen", + "Mögest": "mögen", + "Möget": "mögen", + "Mögt": "mögen", "Mohammedanern": "Mohammedaner", "Mohammedaners": "Mohammedaner", "Mohammedanische": "mohammedanisch", @@ -46013,7 +46236,19 @@ LOOKUP = { "Muslimischen": "Muslimische", "Muslims": "Muslim", "Musse": "Muß", + "Müsse": "müssen", "Musses": "Muß", + "Müssest": "müssen", + "Müsset": "müssen", + "Mußte": "müssen", + "Müßte": "müssen", + "Mußten": "müssen", + "Müßten": "müssen", + "Müßtest": "müssen", + "Mußtet": "müssen", + "Müßtet": "müssen", + "Mußt": "müssen", + "Müßt": "müssen", "Mustangs": "Mustang", "Muster": "mustern", "Mustergültigen": "Mustergültige", @@ -46291,6 +46526,15 @@ LOOKUP = { "Müßigen": "Müßige", "Müßigeren": "Müßigere", "Müßigsten": "Müßigste", + "Nachdem": "nachdem", + "Nämlich": "nämlich", + "Nein": "nein", + "Niemandem": "niemand", + "Niemande": "niemand", + "Niemanden": "niemand", + "Niemandes": "niemand", + "Niemand": "neiemand", + "Niemands": "neiemand", "NVAs": "NVA", "Nabel": "nabeln", "Nabeln": "Nabel", @@ -48213,6 +48457,9 @@ LOOKUP = { "Nützlicheren": "Nützlichere", "Nützlichsten": "Nützlichste", "Nüßchens": "Nüßchen", + "Obgleich": "obgleich", + "Ob": "ob", + "Obschon": "obschon", "OBs": "OB", "Oasen": "Oase", "Obdachlose": "obdachlos", @@ -48393,6 +48640,8 @@ LOOKUP = { "Obturatore": "Obturator", "Obturatoren": "Obturator", "Obturators": "Obturator", + "Obwohl": "obwohl", + "Obzwar": "obzwar", "Ochsen": "Ochse", "Ockern": "Ocker", "Ockers": "Ocker", @@ -48400,6 +48649,7 @@ LOOKUP = { "Odems": "Odem", "Oden": "Ode", "Odenwaldes": "Odenwald", + "Oder": "oder", "Odiums": "Odium", "Odontologische": "odontologisch", "Odontologischen": "Odontologische", @@ -48459,6 +48709,8 @@ LOOKUP = { "Offiziere": "Offizier", "Offizieren": "Offizier", "Offiziers": "Offizier", + "Oft": "oft", + "Ohne": "ohne", "Ohnmachten": "Ohnmacht", "Ohnmächtige": "ohnmächtig", "Ohnmächtigen": "Ohnmächtige", @@ -48857,6 +49109,7 @@ LOOKUP = { "Ozonisierten": "Ozonisierte", "Ozons": "Ozon", "PCs": "PC", + "Plus": "plus", "PRs": "PR", "PVCs": "PVC", "Paar": "paaren", @@ -51816,6 +52069,7 @@ LOOKUP = { "Quantitativen": "Quantitative", "Quantitäten": "Quantität", "Quappen": "Quappe", + "Qua": "qua", "Quarke": "Quark", "Quarkes": "Quark", "Quarks": "Quark", @@ -51987,6 +52241,18 @@ LOOKUP = { "Quästore": "Quästor", "Quästoren": "Quästor", "Quästors": "Quästor", + "Reichlichem": "reichlich", + "Reichliche": "reichlich", + "Reichlicherem": "reichlich", + "Reichlichere": "recihlich", + "Reichlicherer": "reichlich", + "Reichlicheres": "reichlich", + "Reichlicher": "reichlich", + "Reichliches": "reichlich", + "Reichlichstem": "reichlich", + "Reichlichste": "reichlich", + "Reichlichster": "reichlich", + "Reichlichstes": "reichlich", "RTLs": "RTL", "Rabatte": "Rabatt", "Rabatten": "Rabatt", @@ -54573,6 +54839,9 @@ LOOKUP = { "Samstage": "Samstag", "Samstagen": "Samstag", "Samstags": "Samstag", + "Sämtlichem": "sämtlich", + "Sämtlicher": "sämtlich", + "Sämtliches": "sämtlich", "Samt": "samen", "Samtgemeinden": "Samtgemeinde", "Samtige": "samtig", @@ -57506,6 +57775,11 @@ LOOKUP = { "Seidene": "seiden", "Seidenen": "Seidene", "Seidenmatten": "Seidenmatte", + "Seid": "sein", + "Seiend": "sein", + "Seien": "sein", + "Seiest": "sein", + "Seiet": "sein", "Seifen": "Seife", "Seifenden": "Seifende", "Seifenopern": "Seifenoper", @@ -57522,7 +57796,14 @@ LOOKUP = { "Seilens": "Seilen", "Seiles": "Seil", "Seils": "Seil", + "Seine": "mein", + "Seinem": "mein", + "Seiner": "sich", + "Seinesgleichen": "meinesgleichen", + "Seines": "mein", + "Sein": "mein", "Seins": "Sein", + "Sei": "sein", "Seismische": "seismisch", "Seismischen": "Seismische", "Seismogramme": "Seismogramm", @@ -57533,6 +57814,8 @@ LOOKUP = { "Seismologischen": "Seismologische", "Seismometern": "Seismometer", "Seismometers": "Seismometer", + "Seist": "sein", + "Seitdem": "seitdem", "Seiten": "Seite", "Seitenbühnen": "Seitenbühne", "Seitenlange": "seitenlang", @@ -57547,6 +57830,7 @@ LOOKUP = { "Seitenverkehrte": "seitenverkehrt", "Seitenverkehrten": "Seitenverkehrte", "Seitlichen": "Seitliche", + "Seit": "seit", "Sekrete": "Sekret", "Sekreten": "Sekret", "Sekretierenden": "Sekretierende", @@ -57974,6 +58258,7 @@ LOOKUP = { "Sicherstellens": "Sicherstellen", "Sichersten": "Sicherste", "Sicherungen": "Sicherung", + "Sich": "sich", "Sichtbaren": "Sichtbare", "Sichtbareren": "Sichtbarere", "Sichtbarsten": "Sichtbarste", @@ -58033,6 +58318,7 @@ LOOKUP = { "Siegreicheren": "Siegreichere", "Siegreichsten": "Siegreichste", "Siegs": "Sieg", + "Sie": "ich", "Siestas": "Siesta", "Sieverts": "Sievert", "Siezenden": "Siezende", @@ -58084,6 +58370,7 @@ LOOKUP = { "Sindlingens": "Sindlingen", "Sindlingern": "Sindlinger", "Sindlingers": "Sindlinger", + "Sind": "sein", "Sinfonien": "Sinfonie", "Sinfonikern": "Sinfoniker", "Sinfonikers": "Sinfoniker", @@ -58144,6 +58431,7 @@ LOOKUP = { "Sinnwidrigen": "Sinnwidrige", "Sinnwidrigeren": "Sinnwidrigere", "Sinnwidrigsten": "Sinnwidrigste", + "Sintemal": "sintemal", "Sippen": "Sippe", "Sirenen": "Sirene", "Sirs": "Sir", @@ -58281,13 +58569,16 @@ LOOKUP = { "Smokings": "Smoking", "Snacks": "Snack", "Snobs": "Snob", + "Sobald": "sobald", "Sockeln": "Sockel", "Sockels": "Sockel", "Socken": "Socke", "Sockens": "Socken", + "Sodass": "sodass", "Sodenern": "Sodener", "Sodeners": "Sodener", "Sofas": "Sofa", + "Sofern": "sofern", "Sofortigen": "Sofortige", "Sofortprogramme": "Sofortprogramm", "Sofortprogrammen": "Sofortprogramm", @@ -58304,6 +58595,7 @@ LOOKUP = { "Sohne": "Sohn", "Sohns": "Sohn", "Sojasoßen": "Sojasoße", + "Solang": "solang", "Solaranlagen": "Solaranlage", "Solare": "Solar", "Solaren": "Solar", @@ -58320,8 +58612,11 @@ LOOKUP = { "Solarwinde": "Solarwind", "Solarwinden": "Solarwind", "Solarwinds": "Solarwind", + "Solchem": "solch", + "Solcher": "solch", "Solche": "solch", "Solchen": "Solche", + "Solches": "solch", "Soldaten": "Soldat", "Solds": "Sold", "Solidarische": "solidarisch", @@ -58339,9 +58634,19 @@ LOOKUP = { "Solidesten": "Solideste", "Solingens": "Solingen", "Solisten": "Solist", + "Sollen": "sollen", + "Solle": "sollen", + "Sollest": "sollen", + "Sollet": "sollen", "Soll": "sollen", "Solles": "Soll", "Solls": "Soll", + "Sollst": "sollen", + "Sollten": "sollen", + "Sollte": "sollen", + "Solltest": "sollen", + "Solltet": "sollen", + "Sollt": "sollen", "Solospiele": "Solospiel", "Solospielen": "Solospiel", "Solospiels": "Solospiel", @@ -58435,6 +58740,7 @@ LOOKUP = { "Sonntägliche": "sonntäglich", "Sonntäglichen": "Sonntägliche", "Sonstigen": "Sonstige", + "Sooft": "sooft", "Soprane": "Sopran", "Sopranen": "Sopran", "Soprans": "Sopran", @@ -58472,6 +58778,7 @@ LOOKUP = { "Sortimente": "Sortiment", "Sortimenten": "Sortiment", "Sortiments": "Sortiment", + "So": "so", "Sossenheimern": "Sossenheimer", "Sossenheimers": "Sossenheimer", "Sossenheims": "Sossenheim", @@ -58484,8 +58791,12 @@ LOOKUP = { "Souveränitäten": "Souveränität", "Souveränste": "souverän", "Souveränsten": "Souveränste", + "Soviel": "soviel", + "Soweit": "soweit", + "Sowie": "sowie", "Sowjetischen": "Sowjetische", "Sowjets": "Sowjet", + "Sowohl": "sowohl", "Sozialamte": "Sozialamt", "Sozialamtes": "Sozialamt", "Sozialamts": "Sozialamt", @@ -59564,6 +59875,7 @@ LOOKUP = { "Stattlichen": "Stattliche", "Stattlicheren": "Stattlichere", "Stattlichsten": "Stattlichste", + "Statt": "statt", "Statuen": "Statue", "Staturen": "Statur", "Stau": "stauen", @@ -61259,6 +61571,7 @@ LOOKUP = { "Süßstoffs": "Süßstoff", "Süßwaren": "Süßware", "Süßwassers": "Süßwasser", + "Trotzdem": "trotzdem", "TUs": "TU", "Tabake": "Tabak", "Tabaken": "Tabak", @@ -63247,6 +63560,19 @@ LOOKUP = { "Tütenden": "Tütende", "Tütens": "Tüten", "Tüvs": "Tüv", + "Umso": "umso", + "Um": "um", + "Und": "und", + "Unerachtet": "unerachtet", + "Unfern": "unfern", + "Ungeachtet": "ungeachtet", + "Unsere": "mein", + "Unserem": "mein", + "Unseren": "mein", + "Unserer": "mein", + "Unseresgleichen": "meinesgleichen", + "Unser": "sich", + "Uns": "sich", "US": "US-amerikanischen", "Udos": "Udo", "Uerdingens": "Uerdingen", @@ -65626,6 +65952,14 @@ LOOKUP = { "Utopisten": "Utopist", "Uwes": "Uwe", "Uzereien": "Uzerei", + "Vielem": "viel", + "Vielen": "viel", + "Vielerlei": "viel", + "Vieler": "viel", + "Vieles": "viel", + "Viele": "viel", + "Vielmehr": "vielmehr", + "Viel": "viel", "VWs": "VW", "Vakuums": "Vakuum", "Valenzen": "Valenz", @@ -71323,7 +71657,41 @@ LOOKUP = { "Völlegefühles": "Völlegefühl", "Völlegefühls": "Völlegefühl", "Völligen": "Völlige", + "Während": "während", + "Wären": "sein", + "Wäre": "sein", + "Wärest": "sein", + "Wäret": "sein", + "War": "sein", + "Warst": "sein", + "Wärst": "sein", + "Wart": "sein", + "Wärt": "sein", + "Warum": "warum", "WCs": "WC", + "Weder": "weder", + "Welchem": "welch", + "Welchen": "welch", + "Welcher": "welch", + "Welches": "welch", + "Welche": "welch", + "Welch": "welch", + "Wenigem": "wenig", + "Weniger": "wenig", + "Weniges": "wenig", + "Wenige": "wenig", + "Wenigstem": "wenig", + "Wenigster": "wenig", + "Wenigstes": "wenig", + "Wenigste": "wenig", + "Wenig": "wenig", + "Wenn": "wenn", + "Weshalb": "weshalb", + "Wie": "wie", + "Wiewohl": "wiewohl", + "Willst": "wollen", + "Will": "wollen", + "Wir": "ich", "WMs": "WM", "Waagen": "Waage", "Waagerechte": "waagerecht", @@ -72965,6 +73333,8 @@ LOOKUP = { "Wochenlangen": "Wochenlange", "Wochenschauen": "Wochenschau", "Wodkas": "Wodka", + "Wofern": "wofern", + "Wohingegen": "wohingegen", "Wohlanständigen": "Wohlanständige", "Wohlanständigeren": "Wohlanständigere", "Wohlanständigsten": "Wohlanständigste", @@ -73071,9 +73441,17 @@ LOOKUP = { "Wolkenverhangenen": "Wolkenverhangene", "Wolkigen": "Wolkige", "Wolldecken": "Wolldecke", + "Wollen": "wollen", + "Wollest": "wollen", + "Wollet": "wollen", "Wolle": "wollen", "Wollkämmereien": "Wollkämmerei", "Wollspinnereien": "Wollspinnerei", + "Wollten": "wollen", + "Wolltest": "wollen", + "Wolltet": "wollen", + "Wollte": "wollen", + "Wollt": "wollen", "Wollüste": "Wollust", "Wollüsten": "Wollust", "Wollüstige": "wollüstig", @@ -73081,12 +73459,14 @@ LOOKUP = { "Wollüstigeren": "Wollüstigere", "Wollüstigsten": "Wollüstigste", "Wolters": "Wolter", + "Womit": "womit", "Wonnen": "Wonne", "Wonneproppens": "Wonneproppen", "Wonnevolle": "wonnevoll", "Wonnevollen": "Wonnevolle", "Wonnevolleren": "Wonnevollere", "Wonnevollsten": "Wonnevollste", + "Woran": "woran", "Workshops": "Workshop", "Wortbrüchige": "wortbrüchig", "Wortbrüchigen": "Wortbrüchige", @@ -73112,6 +73492,8 @@ LOOKUP = { "Wortverdrehers": "Wortverdreher", "Wortwörtliche": "wortwörtlich", "Wortwörtlichen": "Wortwörtliche", + "Wo": "wo", + "Wozu": "wozu", "Wringenden": "Wringende", "Wringens": "Wringen", "Wuchernden": "Wuchernde", @@ -75012,6 +75394,7 @@ LOOKUP = { "Zulötens": "Zulöten", "Zumachenden": "Zumachende", "Zumachens": "Zumachen", + "Zumal": "zumal", "Zumauernden": "Zumauernde", "Zumauernderen": "Zumauerndere", "Zumauerndsten": "Zumauerndste", @@ -76159,6 +76542,7 @@ LOOKUP = { "Zuzahlens": "Zuzahlen", "Zuziehenden": "Zuziehende", "Zuziehens": "Zuziehen", + "Zu": "zu", "Zuzwinkernden": "Zuzwinkernde", "Zuzwinkerns": "Zuzwinkern", "Zuzählende": "zuzählend", @@ -76189,6 +76573,7 @@ LOOKUP = { "Zwangsweisesten": "Zwangsweiseste", "Zwanzigern": "Zwanziger", "Zwanzigers": "Zwanziger", + "Zwar": "zwar", "Zweckdenkens": "Zweckdenken", "Zweckdienliche": "zweckdienlich", "Zweckdienlichen": "Zweckdienliche", @@ -326846,7 +327231,7 @@ LOOKUP = { "wartungsfreien": "wartungsfrei", "wartungsfreier": "wartungsfrei", "wartungsfreies": "wartungsfrei", - "was": "wer", + "was": "was", "waschbarem": "waschbar", "waschbaren": "waschbar", "waschbarer": "waschbar", diff --git a/spacy/tests/lang/de/test_lemma.py b/spacy/tests/lang/de/test_lemma.py index 39b3b0313..56f6c20d6 100644 --- a/spacy/tests/lang/de/test_lemma.py +++ b/spacy/tests/lang/de/test_lemma.py @@ -7,7 +7,9 @@ import pytest @pytest.mark.parametrize('string,lemma', [('Abgehängten', 'Abgehängte'), ('engagierte', 'engagieren'), ('schließt', 'schließen'), - ('vorgebenden', 'vorgebend')]) + ('vorgebenden', 'vorgebend'), + ('die', 'der'), + ('Die', 'der')]) def test_lemmatizer_lookup_assigns(de_tokenizer, string, lemma): tokens = de_tokenizer(string) assert tokens[0].lemma_ == lemma