Samstag, Januar 11, 2025

Der neue KI-Videogenerator von Tencent konkurriert kostenlos mit Sora von OpenAI


Während OpenAI Sora nach monatelangen Verzögerungen weiterhin neckt, hat Tencent stillschweigend ein Modell eingestellt, das bereits vergleichbare Ergebnisse mit bestehenden Videogeneratoren der Spitzenklasse zeigt.

Tencent hat Hunyuan Video vorgestellt, einen kostenlosen und quelloffenen KI-Videogenerator, strategisch zeitlich abgestimmt auf die 12-tägige Ankündigungskampagne von OpenAI, die voraussichtlich auch die Einführung von Sora, seinem mit Spannung erwarteten Videotool, beinhalten wird.

„Wir präsentieren Hunyuan Video, ein neuartiges Open-Source-Video-Basismodell, das eine Leistung bei der Videogenerierung aufweist, die mit führenden Closed-Source-Modellen vergleichbar, wenn nicht sogar überlegen ist“, sagte Tencent in seiner offiziellen Ankündigung.

Der in Shenzhen, China, ansässige Technologieriese behauptet, dass sein Modell die von Runway Gen-3, Luma 1.6 und „drei leistungsstärksten chinesischen videogenerativen Modellen“ „übertrifft“, basierend auf professionellen menschlichen Bewertungsergebnissen.

Der Zeitpunkt könnte nicht passender sein.

Vor seinem Videogenerator – irgendwo zwischen der SDXL- und Flux-Ära der Open-Source-Bildgeneratoren – veröffentlichte Tencent einen Bildgenerator mit einem ähnlichen Namen.

HunyuanDit lieferte hervorragende Ergebnisse und verbesserte das Verständnis zweisprachiger Texte, fand jedoch keine breite Akzeptanz. Die Familie wurde mit einer Gruppe von vervollständigt große Sprachmodelle.

Hunyuan Video verwendet als Textencoder ein reines Multimodal Large Language Model, das nur einen Decoder enthält, anstelle der üblichen CLIP- und T5-XXL-Kombination, die in anderen KI-Videotools und Bildgeneratoren zu finden ist.

Tencent sagt, dass dies dem Modell hilft, Anweisungen besser zu befolgen, Bilddetails präziser zu erfassen und neue Aufgaben im Handumdrehen ohne zusätzliches Training zu erlernen – außerdem erhält die Einrichtung der kausalen Aufmerksamkeit einen Schub durch einen speziellen Token-Refiner, der ihm hilft, Eingabeaufforderungen gründlicher als herkömmliche Methoden zu verstehen Modelle.

Es schreibt auch Eingabeaufforderungen neu, um sie reicher zu machen und die Qualität seiner Generationen zu verbessern. Beispielsweise kann eine Eingabeaufforderung, die einfach „Ein Mann geht mit seinem Hund spazieren“ lautet, unter anderem um Details, Szenenaufbau, Lichtverhältnisse, Qualitätsartefakte und Rasse erweitert werden.

Kostenlos für die Massen

Wie Metas LLaMA 3 kann Hunyuan kostenlos verwendet und monetarisiert werden, bis Sie 100 Millionen Nutzer erreicht haben – ein Schwellenwert, über den sich die meisten Entwickler in absehbarer Zeit keine Sorgen machen müssen.

Der Haken? Sie benötigen einen leistungsstarken Computer mit mindestens 60 GB GPU-Speicher, um das 13-Milliarden-Parameter-Modell lokal auszuführen – denken Sie an Nvidia H800- oder H20-Karten. Das ist mehr vRAM, als die meisten Gaming-PCs insgesamt haben.

Für diejenigen, die keinen Supercomputer haben, sind Cloud-Dienste bereits auf dem Vormarsch.

FAL.ai, eine generative Medienplattform, die auf Entwickler zugeschnitten ist, hat integriert Hunyuan berechnet 0,5 $ pro Video. Andere Cloud-Anbieter, darunter Replizieren oder GoEhnance, haben auch damit begonnen, Zugriff auf das Modell anzubieten. Der Beamte Hunyuan-Video Der Server bietet 150 Credits zu 10 $, wobei jede Videogeneration mindestens 15 Credits kostet.

Und natürlich können Benutzer das Modell über Dienste wie Runpod oder Vast.ai auf einer gemieteten GPU ausführen.

Erste Tests zeigen, dass Hunyuan mit der Qualität kommerzieller Schwergewichte wie Luma Labs Dream Machine oder Kling AI mithalten kann. Die Erstellung von Videos dauert etwa 15 Minuten und erzeugt fotorealistische Sequenzen mit natürlich wirkenden menschlichen und tierischen Bewegungen.

Tests haben eine aktuelle Schwäche aufgedeckt: Die Fähigkeit des Modells, englische Eingabeaufforderungen zu verstehen, könnte besser sein als die seiner Konkurrenten. Da es sich jedoch um Open Source handelt, können Entwickler nun an dem Modell herumbasteln und es verbessern.

Tencent gibt an, dass sein Text-Encoder eine Ausrichtungsrate von bis zu 68,5 % erreicht – d.

Der vollständige Quellcode und die vorab trainierten Gewichte stehen unter zum Download bereit GitHub Und Umarmendes Gesicht Plattformen.

Herausgegeben von Sebastian Sinclair

Allgemein intelligenter Newsletter

Eine wöchentliche KI-Reise, erzählt von Gen, einem generativen KI-Modell.

Quelle: https://decrypt.co/295199/tencents-new-ai-video-generator-takes-on-openais-sora-for-free


Dieser Beitrag ist ein öffentlicher RSS Feed. Sie finden den Original Post unter folgender Quelle (Website) .

Unser Portal ist ein RSS-Nachrichtendienst und distanziert sich vor Falschmeldungen oder Irreführung. Unser Nachrichtenportal soll lediglich zum Informationsaustausch genutzt werden. Die auf dieser Website bereitgestellten Informationen stellen keine Finanzberatung dar und sind nicht als solche gedacht. Die Informationen sind allgemeiner Natur und dienen nur zu Informationszwecken. Wenn Sie Finanzberatung für Ihre individuelle Situation benötigen, sollten Sie den Rat von einem qualifizierten Finanzberater einholen. Kryptohandel hat ein großes Handelsrisiko was zum Totalverlust führen kann.

Ähnliche Artikel

- Advertisement -spot_img

Letzten Artikel