Neueste Kundenreferenz:
Croonwolter&dros spart mehr als 50% Zeit bei Ausschreibungen
Produkt

Datenkommentare für Einsteiger

5 Minuten lesen
Veröffentlicht in
Produkt

Datenkommentare für Einsteiger

Datenkommentare für Einsteiger

Vor nicht allzu langer Zeit trat ich dem wachsenden Team von Brainialals erster Datenanalyst bei. Jeden Tag trainiere ich ein paar Stunden lang unsere Modelle über eine Online-Schnittstelle. Als Neuling in diesem Bereich habe ich mehr als genug Gelegenheiten, innezuhalten und über meine workflow nachzudenken - und so entstand dieser kleine Blogbeitrag. Ich hoffe, er hilft Ihnen, über Ihre eigene Anmerkungspraxis nachzudenken, und hebt Ihre Stimmung ein wenig.

Bevor wir eintauchen, möchte ich erwähnen, dass wir auf Brainial mit drei Arten von Modelltraining arbeiten. Artikel aus dem Internet werden auf meinen Computerbildschirm geladen, wo ich dann benannte Entitäten hervorheben (Entity Recognition), Etiketten auf der Grundlage der Textbedeutung auswählen (Signal Recognition) oder einfach feststellen muss, ob der Inhalt für unseren Kunden relevant ist (Relevancy Filter). Was ich im Folgenden beschreibe, bezieht sich hauptsächlich auf die ersten beiden, da der Relevanzfilter nur sehr wenig bewusste Anstrengung erfordert, um ihn auszuführen.

Kommen wir jetzt zu den spannenderen Dingen!

Vorbereitung

Fehler bei der Beschriftung sind etwas, das Sie minimieren möchten, weshalb ich empfehle, sich Zeit für eine gründliche Planung zu nehmen. Eine gute Möglichkeit, mit den Trainingsaufgaben zu beginnen, ist ein Probelauf. Kommentieren Sie eine kleine Menge von Texten, die genügend Beispiele der Art enthalten, mit der Sie arbeiten werden. Auf diese Weise machen Sie sich mit dem Inhalt vertraut und besprechen die Art der Labels, die Sie für jedes Szenario verwenden werden. Auf Brainial verwenden wir weit gefasste Bezeichnungen, die mehrere Themen umfassen (z. B. "Akquisition" sowohl für den Kauf eines Unternehmens durch ein anderes als auch für den Kauf von Gegenständen oder Objekten). Dies ist natürlich eine Frage der persönlichen Vorliebe, obwohl ich vermute, dass sehr spezifische Bezeichnungen das Arbeitstempo verlangsamen würden. Von Anfang an ist es wichtig, sich an das Konzept "Konsistenz vor Präzision" zu gewöhnen. Die feinen Nuancen, die wir erkennen können, bringen unsere digitalen Kollegen leicht aus dem Konzept. Es ist besser, sie beim Beschriften zu ignorieren.

Arbeit

Auch hier sollten Sie sich um Beständigkeit bemühen und Fehler vermeiden. Die Vorbereitung ist in dieser Hinsicht hilfreich, aber leider sind wir Menschen anfällig für Müdigkeit und Ablenkung. Daher arbeite ich normalerweise in Sprints von 25 Minuten mit einer fünfminütigen Pause dazwischen. Wenn Sie in einem Team arbeiten, sollten Sie die Kennzeichnung regelmäßig besprechen, um sicherzustellen, dass alle an einem Strang ziehen. Da unser Unternehmen viel mit Nachrichtenartikeln zu tun hat, habe ich mir angewöhnt, die witzigsten Titel in unserer Slack-Gruppe zu posten. Das ist nicht nur unterhaltsam, sondern regt auch hin und wieder zu Gesprächen über die Beschriftung an. Feedback ist bei dieser Aufgabe von entscheidender Bedeutung - es dauert in der Regel eine Weile, bis man erste Ergebnisse sieht, und es kann aufgrund der Wiederholungen schnell demoralisierend wirken. Mit zunehmendem Fortschritt lohnt es sich, konsequent Modellanalysen durchzuführen, um Verbesserungen zu verfolgen, und kleine Stapel kommentierter Texte manuell durchzugehen, um sie auf Fehler zu überprüfen.

Nebenbemerkung

Ich studiere noch, mein Hintergrund liegt im Marketing. Dennoch haben mich die Einfachheit des Annotierens und der Enthusiasmus unseres Teams dazu gebracht, mich mit NLP zu beschäftigen, und zwar über die graue Oberfläche der Trainingssoftware hinaus und direkt über Python-Code, Spacy, Panda und einige andere von uns verwendete Bibliotheken. Zu verstehen, welche Auswirkungen meine Arbeit unter der Haube hat, hat sich positiv auf den Spaß an meiner Arbeit ausgewirkt. Ich würde jedem, der gerade erst mit dem Trainieren von Modellen anfängt, raten, sich zumindest die Grundlagen der Technologie anzueignen, um sich seiner Annotationsarbeit bewusster zu werden.

An alle Datenkommentatoren da draußen: Ihre Arbeit ist wichtig! Wie sonst soll die Software verstehen, dass es sich bei der Verordnung, um die sich Ihr Kunde am meisten sorgt, um ein "GESETZ" handelt und nicht um ein modernistisches "KUNSTWERK"?

Ähnliche Beiträge

Lesen Sie mehr über die neuesten Entwicklungen von Brainial, Ausschreibungen und die faszinierende Welt der KI.
Lesen Sie unseren Blog zu Ausschreibungen und KI.

Lernen Sie, wie Sie schneller bessere Angebote erstellen können.

Wir führen Sie gerne durch unsere KI-gesteuerte Bid & Tender Management-Lösung
um die Potenziale für Sie und Ihr Unternehmen auszuloten.
Entdecken Sie unseren Wert
Erfahren Sie, wie wir die größten Herausforderungen lösen
Erleben Sie den Wert von KI für das Angebots- und Ausschreibungsmanagement