A bejegyzés durumis AI által generált összefoglalója
A Szöuli Tudomány- és Technológiai Egyetem kutatócsoportja közzétette a HuggingFace-en a koreai nyelvű vizuális-nyelvi modelljüket, a „Bllossom-V 3.1”-et, ezzel bemutatva az első koreai LMM-et.
A modell képes szöveg és kép egyidejű feldolgozására, támogatja a koreai és az angol nyelvet, és a Tudomány- és Információs Kommunikációs Technológiai Minisztérium projektje keretében létrehozott, kiváló minőségű adatokon alapul.
A koreai nyelvű teljesítmény javítása érdekében koreai-angol párhuzamos vizuális szövegadat-készletet használtak, és a hierarchikus összekapcsolási módszer alkalmazásával biztosították a két nyelv stabil támogatását.
A Szöuli Tudomány- és Technológiai Egyetem (a továbbiakban: Szöuli Tudomány- és Technológiai Egyetem) Multimodális Nyelvi Feldolgozó Laboratóriuma (MLP) Im Kyung-tae professzora vezette kutatócsoportja bejelentette, hogy a HuggingFace ranglistáján 2023. szeptember 4-én közzétette a „Bllossom-V 3.1” nevű, első, kifejezetten koreai nyelvre optimalizált vizuális-nyelvi modellt.
Ez a modell a Szöuli Tudomány- és Technológiai Egyetem és a TeddySum közösen fejlesztett „Bllossom” nyelvi modelljén alapul, amelyet képfeldolgozásra optimalizáltak egy kiegészítő képzési folyamaton keresztül. A modell két nyelven, koreaiul és angolul működik, és nemcsak szöveget, hanem képeket is képes feldolgozni. A Bllossom-V 3.1 közzététele azért jelentős, mert ez az első koreai nyelvre optimalizált LMM a HuggingFace-en.
Az első koreai nyelvre optimalizált LMM, a Bllossom-V 3.1 fejlesztésében kulcsszerepet játszott adat a Tudomány- és Információs Kommunikációs Technológiai Minisztérium által szervezett, és a Koreai Intelligens Információs Társadalom Fejlesztési Intézet (NIA) által lebonyolított „Dokumentumgenerálás és információnyerés adatai” projekt részeként jött létre. A projektet a Media Group Saramgwasup (a továbbiakban: Saramgwasup) multimodális adatspecializált vállalat koordinálta, és az EuclidSoft közreműködésével hoztak létre szakértői szintű, kiváló minőségű adatokat.
A Bllossom-V 3.1 emellett a Szöuli Tudomány- és Technológiai Egyetem és a TeddySum közösen kifejlesztett rétegillesztési (Layer Aligning) módszerét alkalmazza, és nagyméretű koreai és angol előtanulási folyamatot végzett el, ami révén mindkét nyelvet stabilan támogatja. Ezenkívül a kutatócsoport saját fejlesztésű MVIF koreai-angol párhuzamos vizuális szövegadatbázisát használta, amelynek eredményeként a koreai nyelvi teljesítmény jelentősen javult anélkül, hogy az angol nyelvi teljesítmény romlott volna. A vizuális-nyelvi modell előtanulásához szükséges hatalmas számítási erőforrásokat a Mesterséges Intelligencia Ipari Integrációs Üzletfejlesztési Szövetség (AICA) biztosította.
Han Yun-ki, a Saramgwasup vezérigazgatója, aki a modell képzési adatainak összeállításáért felelt, elmondta: „Nagy örömmel tölt el, hogy a kiváló minőségű adatbázis létrehozásával hozzájárultunk az első koreai-angol vizuális-nyelvi nyílt forráskódú modell létrehozásához”. „A jövőben is szeretnénk hozzájárulni olyan nyílt forráskódú adatbázisok létrehozásához, amelyeket számos célra fel lehet használni” – tette hozzá.
A Bllossom-V 3.1 modell itt érhető el.
Media Group Saramgwasup bemutatása
A Media Group Saramgwasupot kreatív alkotók egy csoportja alapította, akik egyedi látásmóddal rendelkeznek. A cég kiváló eredményeket ért el a vizuális adatokon alapuló digitalizálás, mesterséges intelligencia (MI), big data, önvezető járművek és virtuális valóság (VR) területén. Saját technológiai és szolgáltatásfejlesztési tevékenységükre építve többirányú üzleti bővítéssel törekszenek a globális piacra lépésre. Az adatot közvetítőként a vállalat az emberközpontú kultúra és az emberközpontú vállalatok híve, amelyek együtt fejlődhetnek és boldogulhatnak.