Wenn ich nach meinem Beruf (Datenanalyst) gefragt werde, antworten die Leute in 9 von 10 Fällen verwirrt. Aber in den meisten Fällen wissen sie etwas über maschinelles Lernen oder haben zumindest ein gewisses Verständnis davon. Das macht Sinn, denn im Alltag kommt man mit Datenkommentaren nicht in Berührung. In diesem Blogbeitrag wird hoffentlich ein Teil der Verwirrung ausgeräumt.
Aber warum ist das Anbringen von Kommentaren so wichtig? Ich nehme immer das Beispiel von Kindern, die eine Sprache lernen. Sie sind durchaus in der Lage, eine Sprache zu lernen, aber wenn sie nie angesprochen werden, werden sie auch nie eine Sprache lernen. Das maschinelle Lernen funktioniert auf ähnliche Weise. Sie wollen ein System dazu bringen, Vorhersagen zu treffen oder die richtigen Entscheidungen zu treffen, so wie Sie wollen, dass Ihre Kinder ein Stück richtiges Wissen über Sprache bekommen. Damit das System korrekte Vorhersagen machen kann, müssen Sie es mit Beispielen (Daten) trainieren. Genauso wie man mit Kindern sprechen muss, damit sie eine Sprache lernen.
Wir wissen also, dass die Trainingsdaten sehr wichtig sind, aber woher können wir sie bekommen? An dieser Stelle kommt die Datenkommentierung ins Spiel. Man muss zuerst selbst einige korrekte Datenbeispiele erstellen, damit das System lernen kann. In unserem Vergleich mit Kindern bedeutet das, dass man mit richtigen Sätzen gegen sie spricht. Grammatikalische Fehler sind dabei natürlich unvermeidlich. Das muss aber kein Problem sein, das Ziel ist ja, dass die Kinder ein allgemeines Prinzip lernen. Das Gleiche gilt für Systeme, ein falsches Datenbeispiel bedeutet nicht, dass das ganze System nicht mehr funktioniert, sondern die anderen richtigen Beispiele machen es wieder wett.
Ein weiteres Missverständnis über maschinelles Lernen und Datenkommentierung ist der Unterschied zur klassischen Programmierung. Während die klassische Programmierung nur eine Reihe von Aufgaben ist, die ein Computer erfüllen muss, macht der Computer beim maschinellen Lernen bestimmte Vorhersagen, ohne ausdrücklich dafür programmiert zu werden. Stattdessen macht er Vorhersagen, ohne explizit programmiert zu werden. Also durch Lernen aus Daten.
Was ist also für Sie drin? Nun, das Endergebnis eines korrekten Trainings (und damit einer korrekten Kommentierung) ist zum Beispiel, dass unser Modell den Unterschied zwischen Zuschlagskriterien, Ausschlussgründen und Zulassungsvoraussetzungen erkennen kann. Und das, obwohl diese drei Kategorien für einen Computer nur Textstücke sind. Wenn mehrere Beispiele kombiniert werden, können die zugrunde liegenden Strukturen dieser Kategorien gelernt werden. Und das ist der Punkt, an dem es für Ausschreibungs- und Angebotsmanager nützlich ist. Sie können einfach eine Kategorie auswählen, von der sie alle in der Ausschreibung vorkommenden Beispiele sehen wollen, und sie in einer einfachen Übersicht sehen. Das spart am Ende eine Menge Zeit.