Dienstag, Oktober 22, 2024

Ein leistungsstarkes Sprachmodell auf einer einzelnen GPU


Iris Coleman
27. Juli 2024 05:35

NVIDIA und Mistral haben NeMo 12B entwickelt, ein Hochleistungs-Sprachmodell, das für die Ausführung auf einer einzelnen GPU optimiert ist und Anwendungen zur Textgenerierung verbessert.

NVIDIA hat in Zusammenarbeit mit Mistral Mistral NeMo 12B vorgestellt, ein bahnbrechendes Sprachmodell, das in verschiedenen Benchmarks Spitzenleistungen verspricht. Dieses fortschrittliche Modell ist für die Ausführung auf einer einzelnen GPU optimiert und stellt damit laut NVIDIA Technical Blog eine kostengünstige und effiziente Lösung für Anwendungen zur Textgenerierung dar.

Mistral NeMo 12B

Das Mistral NeMo 12B-Modell ist ein dichtes Transformer-Modell mit 12 Milliarden Parametern, das mit einem riesigen mehrsprachigen Vokabular von 131.000 Wörtern trainiert wurde. Es eignet sich hervorragend für eine Vielzahl von Aufgaben, darunter gesundes Denken, Codierung, Mathematik und mehrsprachiger Chat. Die Leistung des Modells bei Benchmarks wie HellaSwag, Winograd und TriviaQA unterstreicht seine überlegenen Fähigkeiten im Vergleich zu anderen Modellen wie Gemma 2 9B und Llama 3 8B.

Modell Kontextfenster HellaSwag (0-Schuss) Winograd (0-Schuss) NaturalQ (5-Schuss) TriviaQA (5-Schuss) MMLU (5-Schuss) OpenBookQA (0-Schuss) CommonSenseQA (0-Schuss) TruthfulQA (0-Schuss) MBPP (Pass@1 3-Schüsse)
Mistral NeMo 12B 128.000 83,5 % 76,8 % 31,2 % 73,8 % 68,0 % 60,6 % 70,4 % 50,3 % 61,8 %
Gemma 2 9B 8 Tausend 80,1 % 74,0 % 29,8 % 71,3 % 71,5 % 50,8 % 60,8 % 46,6 % 56,0 %
Rufen Sie 3 8B an 8 Tausend 80,6 % 73,5 % 28,2 % 61,0 % 62,3 % 56,4 % 66,7 % 43,0 % 57,2 %
Tabelle 1. Leistung des Mistral NeMo-Modells in gängigen Benchmarks

Mit einer Kontextlänge von 128 K kann Mistral NeMo umfangreiche und komplexe Informationen verarbeiten, was zu kohärenten und kontextbezogen relevanten Ergebnissen führt. Das Modell wird anhand des proprietären Datensatzes von Mistral trainiert, der eine erhebliche Menge mehrsprachiger und Codedaten enthält, was das Merkmalslernen verbessert und Verzerrungen reduziert.

Optimiertes Training und Inferenz

Das Training von Mistral NeMo wird von NVIDIA Megatron-LM unterstützt, einer PyTorch-basierten Bibliothek, die GPU-optimierte Techniken und Innovationen auf Systemebene bietet. Diese Bibliothek enthält Kernkomponenten wie Aufmerksamkeitsmechanismen, Transformatorblöcke und verteiltes Checkpointing, die das Training von Modellen im großen Maßstab erleichtern.

Für die Inferenz nutzt Mistral NeMo TensorRT-LLM-Engines, die die Modellschichten in optimierte CUDA-Kernel kompilieren. Diese Engines maximieren die Inferenzleistung durch Techniken wie Mustervergleich und Fusion. Das Modell unterstützt auch Inferenz in FP8-Präzision mit NVIDIA TensorRT-Model-Optimizer, wodurch kleinere Modelle mit geringerem Speicherbedarf erstellt werden können, ohne die Genauigkeit zu beeinträchtigen.

Die Möglichkeit, das Mistral NeMo-Modell auf einer einzigen GPU auszuführen, verbessert die Rechenleistung, senkt die Kosten und erhöht Sicherheit und Datenschutz. Dadurch eignet es sich für verschiedene kommerzielle Anwendungen, darunter Dokumentzusammenfassung, Klassifizierung, Multi-Turn-Konversationen, Sprachübersetzung und Codegenerierung.

Bereitstellung mit NVIDIA NIM

Das Mistral NeMo-Modell ist als NVIDIA NIM-Inferenz-Mikroservice verfügbar und wurde entwickelt, um die Bereitstellung generativer KI-Modelle in der beschleunigten Infrastruktur von NVIDIA zu optimieren. NIM unterstützt eine breite Palette generativer KI-Modelle und bietet hochdurchsatzfähige KI-Inferenz, die sich mit der Nachfrage skalieren lässt. Unternehmen können von einem erhöhten Token-Durchsatz profitieren, was sich direkt in höheren Umsätzen niederschlägt.

Anwendungsfälle und Anpassung

Das Mistral NeMo-Modell ist besonders effektiv als Coding-Copilot und bietet KI-gestützte Codevorschläge, Dokumentation, Unit-Tests und Fehlerbehebungen. Das Modell kann mit domänenspezifischen Daten für eine höhere Genauigkeit feinabgestimmt werden, und NVIDIA bietet Tools zur Ausrichtung des Modells auf bestimmte Anwendungsfälle.

Die befehlsoptimierte Variante von Mistral NeMo zeigt in mehreren Benchmarks eine starke Leistung und kann mit NVIDIA NeMo, einer End-to-End-Plattform zur Entwicklung benutzerdefinierter generativer KI, angepasst werden. NeMo unterstützt verschiedene Feinabstimmungstechniken wie die parametereffiziente Feinabstimmung (PEFT), die überwachte Feinabstimmung (SFT) und das bestärkende Lernen aus menschlichem Feedback (RLHF).

Erste Schritte

Um die Funktionen des Mistral NeMo-Modells zu erkunden, besuchen Sie die Lösungsseite für künstliche Intelligenz. NVIDIA bietet außerdem kostenlose Cloud-Credits an, um das Modell im großen Maßstab zu testen und einen Proof of Concept zu erstellen, indem Sie eine Verbindung zum von NVIDIA gehosteten API-Endpunkt herstellen.

Bildquelle: Shutterstock

Quelle: https://blockchain.news/news/nvidia-mistral-nemo-12b-high-performance-language-model


Dieser Beitrag ist ein öffentlicher RSS Feed. Sie finden den Original Post unter folgender Quelle (Website) .

Unser Portal ist ein RSS-Nachrichtendienst und distanziert sich vor Falschmeldungen oder Irreführung. Unser Nachrichtenportal soll lediglich zum Informationsaustausch genutzt werden. Die auf dieser Website bereitgestellten Informationen stellen keine Finanzberatung dar und sind nicht als solche gedacht. Die Informationen sind allgemeiner Natur und dienen nur zu Informationszwecken. Wenn Sie Finanzberatung für Ihre individuelle Situation benötigen, sollten Sie den Rat von einem qualifizierten Finanzberater einholen. Kryptohandel hat ein großes Handelsrisiko was zum Totalverlust führen kann.

Ähnliche Artikel

- Advertisement -spot_img

Letzten Artikel