ソウル科学技術大学(以下、ソウル科技大)マルチモーダル言語処理研究室(MLP)のイム・ギョンテ教授チームが、HuggingFaceリーダーボードを通じて、9月4日に韓国語に特化した初の視覚言語モデル「Bllossom-V 3.1」を公開したと発表しました。
このモデルは、ソウル科技大とテディサムが共同で構築した言語モデル「Bllossom」を基盤とし、画像処理のための追加的なトレーニング過程を経て開発された視覚言語モデルです。韓国語と英語の2つの言語に対応しており、テキストだけでなく画像も処理可能です。今回のBllossom-V 3.1の公開は、HuggingFaceで初めて韓国語に特化したLMMが登場したという点で大きな意味を持ちます。
韓国語に特化した初のLMMであるBllossom-V 3.1の開発に中心的役割を果たしたデータは、科学技術情報通信部が主催し、韓国知能情報社会振興院(NIA)が主管した「文書生成および情報検索データ」プロジェクトを通じて作成されました。このプロジェクトには、マルチモーダルデータ専門企業メディアグループサラムグァスプ(以下、サラムグァスプ)が総括として参加し、ユークリッドソフトと共に専門性の高い高品質なデータ構築を行いました。
また、Bllossom-V 3.1は、ソウル科技大とテディサムが共同で開発したレイヤーアライニング(Layer Aligning)手法を適用した大規模な韓国語・英語事前学習済みモデルであり、2つの言語を安定的にサポートします。さらに、研究チームが独自に構築したMVIF韓国語・英語並列視覚コーパスデータを採用することで、英語の性能を低下させることなく、韓国語の性能を大幅に向上させたという評価を受けています。視覚言語モデルの事前学習に必要な膨大な量のコンピューティングリソースは、人工知能産業融合事業団(AICA)の支援を受けました。
モデル学習用データ構築の総括を担当したサラムグァスプのハン・ユンギ代表は、「高品質なデータ構築を通じて、韓国語・英語の視覚言語公開モデルを初めて実現できたことに大きな喜びを感じています」と述べ、「今後も幅広い用途で活用できる公開データの作成に貢献していきたい」と語りました。
Bllossom-V 3.1モデルはこちらでご覧いただけます。
作家主義的な個性を備えたクリエイターが集まって始まったメディアグループサラムグァスプは、ビジュアルデータに基づいたデジタル化、人工知能(AI)、ビッグデータ、自動運転、仮想現実(VR)など関連分野で優れた実績を有しており、これに基づいた独自技術やサービス開発など多角的な事業拡大を通じてグローバル市場への進出を推進しています。データを媒介として、人中心の文化、人中心の企業となり、共に成長し、幸せになれる企業へと成長しています。
Bllossom-V 3.1モデル: https://huggingface.co/Bllossom/llama-3.1-Korean-B...
ウェブサイト: https://humanf.co.kr/
連絡先
メディアグループサラムグァスプ
DX運営チーム
イ・ウンシルマネージャー
02-830-8583