A equipe de pesquisa da Universidade de Ciência e Tecnologia de Seul lançou o modelo de linguagem visual coreano 'Bllossom-V 3.1' no HuggingFace, apresentando o primeiro LMM coreano.
O modelo, capaz de processar texto e imagens simultaneamente, suporta coreano e inglês e foi desenvolvido com base em dados de alta qualidade construídos por meio de um projeto do Ministério da Ciência e TIC.
Em particular, para melhorar o desempenho em coreano, foi usado um corpus paralelo de imagens visuais coreano-inglês, e o uso do método de conexão hierárquica permite o suporte estável para os dois idiomas.
A Universidade de Ciência e Tecnologia de Seul (doravante, SeoulTech) anunciou que a equipe de pesquisa de Processamento de Linguagem Multimodal (MLP), liderada pelo professor Kyung-Tae Lim, lançou em 4 de setembro o primeiro modelo de linguagem visual-linguística (LMM) especializado em coreano, chamado 'Bllossom-V 3.1', por meio do HuggingFace Leaderboard.
Este modelo é um LMM desenvolvido com base no 'Bllossom', um modelo de linguagem desenvolvido em conjunto pela SeoulTech e TeddySum, através de um treinamento adicional para processamento de imagens. Ele suporta dois idiomas, coreano e inglês, e pode processar não apenas texto, mas também imagens. O lançamento do Bllossom-V 3.1 é significativo por ser o primeiro LMM especializado em coreano no HuggingFace.
Os dados essenciais para o desenvolvimento do Bllossom-V 3.1, o primeiro LMM especializado em coreano, foram criados por meio do projeto 'Dados de Geração de Documentos e Pesquisa de Informações', organizado pelo Ministério da Ciência e TIC e administrado pela Agência de Promoção da Sociedade da Informação Inteligente da Coreia (NIA). O projeto contou com a participação da Media Group Saram & Sup (doravante, Saram & Sup), uma empresa especializada em dados multimodais, como empresa principal, e a Euclid Soft, que juntas construíram dados de alta qualidade e especializados.
Além disso, o Bllossom-V 3.1 é um modelo que concluiu o pré-treinamento em coreano e inglês em grande escala, aplicando o método de 'alinhamento de camadas' desenvolvido em conjunto pela SeoulTech e TeddySum, e, portanto, suporta os dois idiomas de forma estável. Além disso, o modelo foi avaliado como tendo melhorado significativamente o desempenho em coreano sem comprometer o desempenho em inglês, graças à aplicação de dados de corpus visual multilíngue coreano-inglês (MVIF) construídos pela própria equipe de pesquisa. Os recursos computacionais massivos necessários para o pré-treinamento do modelo de linguagem visual foram fornecidos pela Unidade de Negócios de Fusão de Indústria de IA (AICA).
Yun-Ki Han, CEO da Saram & Sup, que supervisionou a construção dos dados de treinamento do modelo, disse: “Sinto-me muito recompensado por ter contribuído para a criação do primeiro modelo de linguagem visual coreano-inglês de código aberto por meio da construção de dados de alta qualidade. Pretendemos continuar a contribuir para a criação de dados abertos que podem ser usados em uma variedade de aplicações.”
O modelo Bllossom-V 3.1 pode ser encontrado aqui.
Introdução da Media Group Saram & Sup
A Media Group Saram & Sup, fundada por criadores com individualidades artísticas, possui um histórico de sucesso em várias áreas, como digitalização baseada em dados visuais, inteligência artificial (IA), big data, veículos autônomos e realidade virtual (VR). Com base nessa experiência, a empresa está expandindo seus negócios em diversas áreas, como desenvolvimento de tecnologias e serviços próprios, e está buscando expansão para o mercado global. A empresa está crescendo como uma organização centrada em pessoas, usando dados como um catalisador para construir uma cultura e um negócio centrados em pessoas, com o objetivo de promover crescimento e felicidade compartilhados.