Veröffentlichung von „Bllossom-V 3.1“, dem ersten koreanisch-spezifischen LMM für die gleichzeitige Verarbeitung von Text und Bildern

Die Seoul National University of Science and Technology (im Folgenden SeoulTech) gab bekannt, dass das Multimodal Language Processing Lab (MLP) unter der Leitung von Professor Kyung-Tae Im am 4. September das erste koreanischsprachige visuelle Sprachmodell ‚Bllossom-V 3.1‘ auf HuggingFace Leaderboard veröffentlicht hat.

Das Modell basiert auf ‚Bllossom‘, einem von SeoulTech und TeddySum gemeinsam entwickelten Sprachmodell, und wurde durch zusätzliche Trainingsstufen für die Bildverarbeitung zu einem visuellen Sprachmodell weiterentwickelt. Es unterstützt sowohl Koreanisch als auch Englisch und kann nicht nur Text, sondern auch Bilder verarbeiten. Die Veröffentlichung von Bllossom-V 3.1 ist insofern bedeutsam, als es das erste koreanischsprachige LMM (Large Multimodal Model) auf HuggingFace darstellt.

Die Daten, die eine zentrale Rolle bei der Entwicklung von Bllossom-V 3.1, dem ersten koreanischsprachigen LMM, gespielt haben, wurden im Rahmen des Projekts ‚Dokumentenerstellung und Informationsabrufdaten‘ erstellt, das vom Ministerium für Wissenschaft und Informations- und Kommunikationstechnologie (MSIT) initiiert und vom Korea Institute for Information and Communications Technology Promotion (NIA) geleitet wurde. An diesem Projekt war die Multimedia-Datenspezialfirma Media Group Saram & Sup (im Folgenden Saram & Sup) als federführende Organisation beteiligt, die zusammen mit Euclid Soft hochwertige und fachkundige Daten erstellt hat.

Darüber hinaus basiert Bllossom-V 3.1 auf einem Modell, das eine umfassende Vorabtrainings in Koreanisch und Englisch mithilfe der von SeoulTech und TeddySum gemeinsam entwickelten Layer-Aligning-Methode durchlaufen hat, wodurch die Unterstützung beider Sprachen sichergestellt wird. Durch die Anwendung des von der Forschungsgruppe selbst erstellten MVIF-parallelen koreanisch-englischen visuellen Korpus konnten die koreanischen Leistungen deutlich verbessert werden, ohne die englischen Leistungen zu beeinträchtigen. Die enormen Rechenressourcen, die für das Pretraining des visuellen Sprachmodells benötigt wurden, wurden vom Artificial Intelligence Industry Convergence Business Promotion Center (AICA) bereitgestellt.

Han Yun-ki, CEO von Saram & Sup, das für die Gesamtleitung der Erstellung der Modelltrainingsdaten verantwortlich war, erklärte: „Wir sind sehr stolz darauf, durch die Erstellung hochwertiger Daten zur Entwicklung des ersten öffentlich zugänglichen koreanisch-englischen visuellen Sprachmodells beigetragen zu haben. Wir werden uns auch in Zukunft für die Erstellung von öffentlich zugänglichen Daten einsetzen, die für verschiedene Zwecke verwendet werden können.“

Das Bllossom-V 3.1-Modell finden Sie hier.

Vorstellung von Media Group Saram & Sup

Media Group Saram & Sup wurde von kreativen Köpfen mit einem ausgeprägten individuellen Stil gegründet. Das Unternehmen verfügt über eine herausragende Erfolgsbilanz in den Bereichen Visual Data-basierte Digitalisierung, Künstliche Intelligenz (KI), Big Data, autonomes Fahren und Virtual Reality (VR). Aufbauend auf diesen Stärken treibt das Unternehmen eine vielseitige Geschäftsausweitung mit der Entwicklung eigener Technologien und Dienstleistungen voran und strebt den Eintritt in den globalen Markt an. Mit Daten als Bindeglied entwickelt sich das Unternehmen zu einem menschenorientierten Kultur- und Unternehmen, das gemeinsames Wachstum und Glück fördert.

Bllossom-V 3.1-Modell: https://huggingface.co/Bllossom/llama-3.1-Korean-B...

Website: https://humanf.co.kr/

Kontakt
Media Group Saram & Sup
DX-Betriebsteam
Managerin Eun-Sil Lee
02-830-8583

Kommentare0