Een onderzoeksteam van de Seoul National University of Science and Technology heeft het Koreaans-specifieke visueel-talige model 'Bllossom-V 3.1' op HuggingFace gepubliceerd en daarmee het eerste Koreaanse LMM gepresenteerd.
Het model kan zowel tekst als afbeeldingen verwerken, ondersteunt Koreaans en Engels en is ontwikkeld op basis van hoogwaardige gegevens die zijn verzameld via een project van het Ministerie van Wetenschap en ICT.
Met name voor de verbetering van de prestaties in het Koreaans is gebruikgemaakt van parallelle visuele corpusgegevens in het Koreaans en Engels. Door de toepassing van een hiërarchische connectiemethode is een stabiele ondersteuning van twee talen mogelijk, aldus de onderzoekers.
Seoul National University of Science and Technology (hierna SeoulTech) professor Kyung-Tae Im's Multimodal Language Processing (MLP) lab heeft op 4 september jl. via het HuggingFace-leaderboard het eerste Koreaans-specifieke visueel-talige model, 'Bllossom-V 3.1', openbaar gemaakt.
Dit model is een visueel-talige model dat is ontwikkeld op basis van 'Bllossom', een door SeoulTech en TeddySum gezamenlijk opgebouwd taalmodel, door middel van een aanvullende trainingsproces voor beeldverwerking. Het ondersteunt zowel de Koreaanse als de Engelse taal en kan naast tekst ook afbeeldingen verwerken. De openbaarmaking van Bllossom-V 3.1 is van groot belang omdat het het eerste Koreaans-specifieke LMM is dat op HuggingFace wordt gepresenteerd.
De gegevens die een cruciale rol speelden bij de ontwikkeling van Bllossom-V 3.1, het eerste Koreaans-specifieke LMM, zijn geproduceerd via het project 'Document Generatie en Informatie Zoeken Gegevens', dat werd georganiseerd door het Ministerie van Wetenschap en ICT en beheerd door het Koreaanse Instituut voor Intelligente Informatiemaatschappij (NIA). Aan dit project, met Media Group Saramgwasup (hierna Saramgwasup) als hoofdrolspeler, werkte Euclidsoft mee om hoogwaardige, professionele gegevens te ontwikkelen.
Bovendien is Bllossom-V 3.1 een model dat een grote hoeveelheid Koreaanse en Engelse pre-training heeft voltooid met behulp van de door SeoulTech en TeddySum gezamenlijk ontwikkelde Layer Aligning-methode, waardoor het beide talen stabiel ondersteunt. Bovendien is, dankzij de toepassing van de door het onderzoeksteam zelf ontwikkelde MVIF Koreaans-Engels parallelle visuele corpusgegevens, de Koreaanse prestaties aanzienlijk verbeterd zonder dat de Engelse prestaties achteruitgingen. De enorme hoeveelheid computerbronnen die nodig zijn voor de pre-training van het visueel-talige model werden verstrekt door de Artificial Intelligence Industry Convergence Business Unit (AICA).
Han Yun-ki, CEO van Saramgwasup, dat verantwoordelijk was voor de algehele ontwikkeling van de trainingsgegevens voor het model, zei: “Ik ben erg trots dat we hebben bijgedragen aan het creëren van het eerste Koreaans-Engels visueel-talige openbare model door middel van de ontwikkeling van hoogwaardige gegevens.” en voegde eraan toe: “We zullen ons ook in de toekomst inzetten voor de ontwikkeling van openbare gegevens die voor verschillende doeleinden kunnen worden gebruikt.”
Het Bllossom-V 3.1-model is hier te vinden.
Introductie van Media Group Saramgwasup
Media Group Saramgwasup, opgericht door creatieve professionals met een eigen artistieke stijl, heeft een uitstekende staat van dienst opgebouwd in diverse domeinen zoals digitalisering, kunstmatige intelligentie (AI), big data, autonoom rijden en virtual reality (VR) op basis van visuele gegevens. Op basis van deze ervaringen streeft het bedrijf naar internationale expansie door de ontwikkeling van eigen technologie en diensten en diversificatie van haar activiteiten. Het bedrijf groeit uit tot een bedrijf dat zich richt op mensen en hun cultuur en samenwerkt aan groei en welzijn, met data als verbindende factor.