Montag, Januar 20, 2025

Verbesserung der Datenqualität durch kollektive Fehlererkennung und kreative Problemlösung


Ungenaue, doppelte und unvollständige Daten belasten die Industrie weiterhin. Künstliche Intelligenz wird genutzt, um diese Probleme zu mildern, sie weist jedoch inhärente Einschränkungen auf. KI-Datensätze können falsch beschriftete oder irrelevante Daten enthalten.

Fraction AI leistet Pionierarbeit bei einem neuen Ansatz zur Datenkennzeichnung, indem es die Effizienz von KI-Agenten mit menschlichen Erkenntnissen kombiniert. Das Unternehmen hat kürzlich eine Pre-Seed-Finanzierungsrunde in Höhe von 6 Millionen US-Dollar unter der gemeinsamen Leitung von Symbolic und Spartan sowie strategische Investitionen von Illia Polosukhin (Near), Sandeep Nailwal (Polygon) und anderen herausragenden Angel-Investoren abgeschlossen.

Fraction AI stellt sich der zunehmenden Herausforderung, qualitativ hochwertige Daten zu produzieren. Traditionelle Methoden basieren ausschließlich auf KI oder Menschen. Fraction AI zielt darauf ab, das menschliche Verständnis als Orientierung für KI-Agenten zu nutzen. Die Mittel aus der Runde fließen in tiefgreifende Explorations- und Infrastrukturverbesserungen, um den hochmodernen Hybridansatz zu skalieren, dessen Wirksamkeit durch Untersuchungen bestätigt wurde.

Einführung von Gamified Adversarial Prompting

Datenwissenschaftler haben gezeigt, dass die mithilfe von GAP (Gamified Adversarial Prompting) erstellten Datensätze die Leistung der neuesten KI-Modelle verbessern. Das GAP-Framework beinhaltet Crowdsourcing hochwertiger Daten zur Feinabstimmung großer multimodaler Modelle und verwandelt die Datenerfassung in ein spannendes Spiel. Es ermutigt die Spieler, komplexe, fein abgestimmte Fragen und Antworten bereitzustellen, die Wissenslücken der Modelle schließen.

Vereinfacht ausgedrückt bietet Fraction AI KI-Agenten einen Anreiz, durch Echtzeit-Wettbewerbe qualitativ hochwertige Daten zu erstellen. Entwickler richten Agenten ein und starten sie mithilfe detaillierter Anweisungen, um ihre Aktionen zu leiten und die bestmöglichen Ergebnisse zu erzielen, während Ether als wirtschaftliche Grundlage dient. Die Teilnehmer erhalten wirtschaftliche Anreize, was einen kontinuierlichen Strom wertvoller Trainingsdaten ermöglicht.

Aktuelle Probleme mit der Datenqualität

Ungenaue Daten kosten Unternehmen jährlich mehrere zehn Millionen Dollar. Zu den banalen Beispielen zählen falsch geschriebene Kundennamen, fehlerhafte Kundenadressen und generell falsche Dateneingaben. Was auch immer die Ursache sein mag, ungenaue Daten können nicht verwendet werden, da sie bei jeder Datenanalyse zu Abweichungen führen.

Wenn man Daten aus mehreren Quellen importiert, kommt es nicht selten vor, dass doppelte Sätze vorliegen. Am Beispiel des Einzelhandels könnten Sie beispielsweise Kundenlisten aus zwei Quellen importieren und einige Personen finden, die bei beiden Einzelhändlern gekauft haben. Doppelte Datensätze werden zum Problem, da Sie jeden Kunden nur einmal zählen möchten.

Wenn Daten aus zwei verschiedenen Systemen kombiniert werden, kann es zu inkonsistenten Formatierungen kommen. Systemübergreifende Inkonsistenzen können zu erheblichen Problemen mit der Datenqualität führen, wenn sie nicht schnell erkannt und behoben werden.

Unvollständige Daten und dunkle Daten sind zwei weitere Probleme. In einigen Datensätzen fehlen wichtige Informationen, beispielsweise Telefonnummern ohne Vorwahlen oder demografische Angaben ohne eingegebenes Alter. Dunkle oder versteckte Daten sind Daten, die gesammelt und gespeichert, aber nicht aktiv genutzt werden. IBM schätzt, dass 90 % aller von IoT-Geräten erfassten Sensordaten ungenutzt bleiben. Viele Unternehmen sind sich dieser verschwendeten Ressource nicht einmal bewusst, die mehr als 50 % der Datenspeicherungskosten eines durchschnittlichen Unternehmens ausmacht.

Menschliches Verständnis erleichtert Verbesserungen

Als pädagogisches Instrument motiviert GAP Menschen, die Grenzen von KI-Modellen herauszufordern, was zu bemerkenswerten Leistungsverbesserungen führt. Es fördert die Fehlererkennung, indem es die Spieler auffordert, Ungenauigkeiten oder Inkonsistenzen in Datensätzen oder KI-Ausgaben zu identifizieren. Ihre unterschiedlichen Hintergründe können unterschiedliche Perspektiven mit sich bringen, was es einfacher macht, Vorurteile zu erkennen, die ein einzelnes Entwicklungsteam möglicherweise übersieht.

Gamification fördert innovatives Denken durch Herausforderungen oder Rätsel, die darauf ausgelegt sind, die Grenzen eines Datensatzes oder Modells zu erweitern. Spieler können neuartige Anwendungsfälle entdecken, voreingenommene Ausgaben oder Eingaben erkennen und umfassendere Alternativen vorschlagen. Dies reduziert systemische Verzerrungen in Daten und Modellen und schafft eine gerechtere Grundlage für alle Arten von Anwendungen. Darüber hinaus werden die Teilnehmer bisher unbemerkte Datenanomalien kennzeichnen, da sie für das Aufdecken von Fehlern belohnt werden. Es ist denkbar, dass die Belohnungen für die Identifizierung erheblicher Mängel höher ausfallen und das Risiko unerwarteter Ausfälle oder Schwachstellen in realen Anwendungen verringert wird.

Mit der Skalierung der Technologie können immer mehr Menschen gleichzeitig Spiele spielen, was exponentielle Verbesserungen ermöglicht, da die schiere Menge an Eingaben die Identifizierung von Schwachstellen beschleunigt.

Die dunkle Seite der Kreativität

Kreative Problemlösung muss nicht dem Gemeinwohl dienen. Die Belohnungen wären für einige Benutzer die Hauptmotivation und würden zu einer übermäßigen Fokussierung auf sie führen. Um noch einen Schritt weiter zu gehen: Es ist durchaus zu erwarten, dass böswillige Akteure versuchen, das System auszutricksen, und Plattformen müssen Mechanismen bereitstellen, um schädliche Aktivitäten zu erkennen und zu blockieren. Ein Beispiel ist die Verwendung von KI und statistischen Modellen zur Überwachung von Benutzerverhaltensmustern und zur Kennzeichnung von Anomalien, die auf Spam oder ungewöhnliche Übermittlungsmuster hinweisen. Ungewöhnlich hohe Einsendungsraten oder sich wiederholende Muster eines einzelnen Benutzers könnten zur Überprüfung markiert werden.

Das GAP-Framework könnte den Teilnehmern Reputationswerte auf der Grundlage ihrer Beitragshistorie zuweisen. Im Idealfall hätten neue Nutzer nur begrenzten Einfluss, bis sie Glaubwürdigkeit erlangt hätten, um das Risiko einer anfänglichen Ausbeutung zu verringern.

Schließlich wird es Benutzer geben, die nach dem Zufallsprinzip Probleme melden. Plattformen, die GAP nutzen, müssen menschliche Experten oder KI einbeziehen, um Teilnehmer davon abzuhalten, genaue und wertvolle Daten zu melden.

Datenqualität zum Mainstream machen

Abgesehen von den Risiken werden Menschen dazu ermutigt, falsch gekennzeichnete oder irrelevante Daten in KI-Datensätzen zu erkennen, was die Qualität von maschinellem Lernen und KI-Modellen verbessert. Über KI hinaus können spielerische Beiträge die Genauigkeit und Vollständigkeit kostenloser, öffentlich zugänglicher Datensätze wie Wikipedia oder OpenStreetMap verbessern. Das Erkennen von Fehlinformationen in Echtzeit wird zu zuverlässigeren Repositories führen.

GAP wirkt sich auch auf schädliche, voreingenommene oder unangemessene Inhalte aus. Plattformen wie Reddit oder YouTube könnten es übernehmen, um solche Inhalte schneller zu identifizieren und zu entfernen.

Haftungsausschluss: Dieser Artikel dient nur zu Informationszwecken. Es wird nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung angeboten oder ist dazu gedacht.

Quelle: https://cryptodaily.co.uk/2024/12/improving-data-quality-via-collective-error-detection-and-creative-problem-solving


Dieser Beitrag ist ein öffentlicher RSS Feed. Sie finden den Original Post unter folgender Quelle (Website) .

Unser Portal ist ein RSS-Nachrichtendienst und distanziert sich vor Falschmeldungen oder Irreführung. Unser Nachrichtenportal soll lediglich zum Informationsaustausch genutzt werden. Die auf dieser Website bereitgestellten Informationen stellen keine Finanzberatung dar und sind nicht als solche gedacht. Die Informationen sind allgemeiner Natur und dienen nur zu Informationszwecken. Wenn Sie Finanzberatung für Ihre individuelle Situation benötigen, sollten Sie den Rat von einem qualifizierten Finanzberater einholen. Kryptohandel hat ein großes Handelsrisiko was zum Totalverlust führen kann.

Ähnliche Artikel

- Advertisement -spot_img

Letzten Artikel