From 4d9aae7d6a52dbc17809d9204acc42f384ad8532 Mon Sep 17 00:00:00 2001 From: Sourav Singh Date: Sat, 19 Nov 2016 22:47:53 +0530 Subject: [PATCH 1/2] Add German Stopwords --- spacy/de/language_data.py | 73 ++++++++++++++++++++++++++++++++++++++- 1 file changed, 72 insertions(+), 1 deletion(-) diff --git a/spacy/de/language_data.py b/spacy/de/language_data.py index afb275cdd55..9772be01e04 100644 --- a/spacy/de/language_data.py +++ b/spacy/de/language_data.py @@ -3,7 +3,78 @@ import re -STOP_WORDS = set() +STOP_WORDS = set(""" +a ab aber ach acht achte achten achter achtes +ag alle allein allem allen aller allerdings alles +allgemeinen als also am an andere anderen +andern anders au auch auf aus ausser außer +ausserdem außerdem b bald bei beide beiden +beim beispiel bekannt bereits besonders +besser besten bin bis bisher bist da +dabei dadurch dafür dagegen daher +dahin dahinter damals damit danach +daneben dank dann daran darauf +daraus darf darfst darin darüber +darum darunter das dasein daselbst +dass daß dasselbe davon davor dazu +dazwischen dein deine deinem deiner +dem dementsprechend demgegenüber +demgemäss demgemäß demselben +demzufolge den denen denn denselben +der deren derjenige derjenigen dermassen +dermaßen derselbe derselben des deshalb +desselben dessen deswegen dich die diejenige +diejenigen dies diese dieselbe dieselben diesem +diesen dieser dieses dir doch dort drei drin dritte +dritten dritter drittes du durch durchaus dürfen +dürft durfte durften eben ebenso ehrlich ei eigen +eigene eigenen eigener eigenes ein einander eine +einem einen einer eines einigeeinigen einiger einiges +einmal einmaleins elf en ende endlich entweder +er erst erste ersten erster erstes es etwa etwas euch +früher fünf fünfte fünften fünfter fünftes für gab ganz +ganze ganzen ganzer ganzes gar gedurft gegen +gegenüber gehabt gehen geht gekannt gekonnt gemacht +gemocht gemusst genug gerade gern gesagt geschweige +gewesen gewollt geworden gibt ging gleich gott gross +groß grosse große grossen großen grosser großer +grosses großes gut gute guter gutes habe haben habt +hast hat hatte hätte hatten hätten heisst her heute hier +hin hinter hoch ich ihm ihn ihnen ihr ihre ihrem ihrer +ihres im immer in indem infolgedessen ins irgend ist +ja jahr jahre jahren je jede jedem jeden jeder jedermann +jedermanns jedoch jemand jemandem jemanden jene +jenem jenen jener jenes jetzt kam kann kannst kaum kein +keine keinem keinen keiner kleine kleinen kleiner kleines +kommen kommt können könnt konnte könnte konnten kurz +lang lange leicht leide lieber los machen macht machte mag +magst mahn man manche manchem manchen mancher +manches mann mehr mein meine meinem meinen meiner +meines mensch menschen mich mir mit mittel mochte +möchte mochten mögen möglich mögt morgen muss muß +müssen musst müsst musste mussten na nach nachdem nahm +natürlich neben nein neue neuen neun neunte neunten neunter +neuntes nicht nichts nie niemand niemandem niemanden noch +nun nur ob oben oder offen oft ohne ordnung recht rechte +rechten rechter rechtes richtig rund sa sache sagt sagte sah satt +schlecht Schluss schon sechs sechste sechsten sechster sechstes +sehr sei seid seien sein seine seinem seinen seiner seines seit +seitdem selbst selbst sich sie sieben siebente siebenten siebenter +siebentes sind so solang solche solchem solchen solcher solches +soll sollen sollte sollten sondern sonst sowie später statt tag tage +tagen tat teil tel tritt trotzdem tun über überhaupt übrigens uhr +um und uns unser unsere unserer unter vergangenen viel viele +vielem vielen vielleicht vier vierte vierten vierter viertes vom von +vor wahr während währenddem währenddessen wann war wäre +waren wart warum was wegen weil weit weiter weitere weiteren +weiteres welche welchem welchen welcher welches wem wen +wenig wenige weniger weniges wenigstens wenn wer werde +werden werdet wessen wie wieder will willst wir wird wirklich +wirst wo wohl wollen wollt wollte wollten worden wurde würde +wurden würden zehn zehnte zehnten zehnter zehntes zeit zu +zuerst zugleich zum zunächst zur zurück zusammen zwanzig +zwar zwei zweite zweiten zweiter zweites zwischen +""".split()) TOKENIZER_PREFIXES = map(re.escape, r''' From 6745eac3095c9d21b704f17f994a2545cbdeab74 Mon Sep 17 00:00:00 2001 From: Sourav Singh Date: Sun, 20 Nov 2016 19:52:02 +0530 Subject: [PATCH 2/2] Update language_data.py --- spacy/de/language_data.py | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/spacy/de/language_data.py b/spacy/de/language_data.py index 9772be01e04..a2250b5a8a3 100644 --- a/spacy/de/language_data.py +++ b/spacy/de/language_data.py @@ -4,11 +4,11 @@ STOP_WORDS = set(""" -a ab aber ach acht achte achten achter achtes +ab aber ach acht achte achten achter achtes ag alle allein allem allen aller allerdings alles allgemeinen als also am an andere anderen andern anders au auch auf aus ausser außer -ausserdem außerdem b bald bei beide beiden +ausserdem außerdem bald bei beide beiden beim beispiel bekannt bereits besonders besser besten bin bis bisher bist da dabei dadurch dafür dagegen daher