Montag, Januar 20, 2025

Google und Harvard stellen erstmals einen Datensatz mit 1 Mio. gemeinfreien Büchern für das KI-Training vor



Die Harvard University hat in Zusammenarbeit mit Google einen Datensatz mit einer Million gemeinfreier Bücher veröffentlicht, um die nächste Generation der KI zu trainieren.

Die Bücher umfassen Genres, Sprachen und Autoren wie Dickens, Dante und Shakespeare, die aufgrund ihres Alters nicht mehr urheberrechtlich geschützt sind. Die neue Datensatzinitiative kommt daher, dass KI-Trainingsdaten naturgemäß teuer sind und sich am besten für Technologieunternehmen mit großem Budget eignen.

Harvard erhielt finanzielle Unterstützung von Technologiegiganten

Einem TechCrunch-Artikel zufolge wird die Initiative von der Institutional Data Initiative (IDI) der Harvard-Universität angeführt. Diese Initiative umfasst Bücher, die aus Googles langjährigem Buchscanprojekt Google Books stammen.

Zu den weiteren im Datensatz enthaltenen Büchern gehören tschechische Mathematiklehrbücher und walisische Taschenwörterbücher.

Die Universität neckte das IDI im März mit der klaren Aussage, sie wolle einen „vertrauenswürdigen Kanal für Rechtsdaten für die KI“ schaffen. Seitdem hörte man nicht mehr viel davon, bis zum offiziellen Start am Donnerstag und den Tech-Giganten Microsoft und OpenAI, die das Projekt finanzierten.

Der Datensatz ist nicht nur dem Silicon Valley vorbehalten, sondern IDI hat ihn für jedermann zugänglich gemacht, von Forschungslaboren bis hin zu KI-Startups, die ihre großen Sprachmodelle trainieren möchten.

Durch die Öffnung des Datensatzes für jedermann soll der Datensatz laut IDI-Geschäftsführer Greg Leppert gleiche Wettbewerbsbedingungen schaffen, in einer Zeit, in der die Kosten für die Schulung von KI nach wie vor hoch und unerschwinglich für kleinere Unternehmen sind und sie Unternehmen mit großen Budgets vorbehalten bleibt.

Leppert fügte hinzu, dass der Datensatz „eingehend überprüft“ werde, was laut Fudzilla vermutlich bedeutet, dass jemand überprüft hat, um sicherzustellen, dass Bard wirklich weg und aus dem Weg war.

Der Harvard-Datensatz wird mehr Ressourcen benötigen

Laut Leppert, der das Potenzial des Datensatzes mit Linux, dem Open-Source-Betriebssystem, verglich, wird der Erfolg des Harvard-Datensatzes von einer Reihe von Variablen abhängen. Leppert sagte, sein Erfolg erfordere mehr Ressourcen, Fachwissen und eine „Prise Magie“ von denselben finanzstarken Unternehmen, die die Initiative herausfordern soll.

Die im Datensatz enthaltenen Millionen Bücher wurden im Rahmen des Google Books-Programms gescannt. Fudzilla beschreibt die Initiative als eine digitale Zeitkapsel aus der Zeit, als Googles Ambitionen, jedes Buch zu scannen, eher skurril als dystopisch wirkten.

Leppert ist jedoch optimistisch, was die potenziellen Einsatzmöglichkeiten des Projekts angeht, und deutet darüber hinaus an, dass es eine solche Fundgrube sein könnte, die dabei hilft, KI-Modelle für alle zu trainieren, von Garagen-Startups bis hin zu Konzernen.

Während einige die Initiative als einen revolutionären Fortschritt bei der Demokratisierung der KI gelobt haben, meint Fudzilla, dass einige darin ein subtiles Mittel sehen könnten, um sicherzustellen, dass jeder ehrgeizige Neuling mit ein paar Terabyte Serverraum jetzt im Wettlauf um die Entwicklung des nächsten ChatGPT antreten kann .

Sie werden jedoch mehr Ressourcen benötigen, um wettbewerbsfähig zu sein und auf dem Markt Fuß zu fassen. ChatGPT wurde im November 2022 mit sofortigem Erfolg gestartet, was den Wettlauf um generative KI-Modelle auf der ganzen Welt beflügelte. Allerdings hat die Entwicklung dieser Modelle einen Datenhunger geweckt, um sie zu perfektionieren, und dieser Wunsch nach mehr Daten hat zu Problemen geführt, wie viele Informationen sie erhalten können, ohne sie zu stehlen.

Bisher haben Verlage wie das Wall Street Journal und die New York Times OpenAI und Perplexity wegen der unerlaubten Nutzung ihrer Daten verklagt.

Erhalten Sie in 90 Tagen einen hochbezahlten Web3-Job: Die ultimative Roadmap


Dieser Beitrag ist ein öffentlicher RSS Feed. Sie finden den Original Post unter folgender Quelle (Website) .

Unser Portal ist ein RSS-Nachrichtendienst und distanziert sich vor Falschmeldungen oder Irreführung. Unser Nachrichtenportal soll lediglich zum Informationsaustausch genutzt werden. Die auf dieser Website bereitgestellten Informationen stellen keine Finanzberatung dar und sind nicht als solche gedacht. Die Informationen sind allgemeiner Natur und dienen nur zu Informationszwecken. Wenn Sie Finanzberatung für Ihre individuelle Situation benötigen, sollten Sie den Rat von einem qualifizierten Finanzberater einholen. Kryptohandel hat ein großes Handelsrisiko was zum Totalverlust führen kann.

Ähnliche Artikel

- Advertisement -spot_img

Letzten Artikel