L'équipe de recherche de l'Université des sciences et technologies de Séoul a publié sur HuggingFace « Bllossom-V 3.1 », le premier LMM coréen spécialisé, marquant ainsi une avancée majeure dans le domaine.
Ce modèle capable de traiter simultanément le texte et les images prend en charge le coréen et l'anglais. Il a été développé à partir de données de haute qualité constituées dans le cadre d'un projet financé par le ministère coréen de la Science et des TIC.
Pour améliorer les performances en coréen, le modèle a notamment été entraîné sur un corpus de données visuelles bilingues coréen-anglais. L'application d'une méthode de connexion hiérarchique permet une prise en charge stable des deux langues.
L'équipe du professeur Im Kyung-tae du laboratoire de traitement du langage multimodal (MLP) de l'Université des sciences et technologies de Séoul (ci-après dénommée SeoulTech) a annoncé avoir publié, le 4 septembre dernier, le premier modèle linguistique visuel spécialisé en coréen, « Bllossom-V 3.1 », sur le tableau de bord HuggingFace.
Ce modèle est un modèle linguistique visuel développé à partir de « Bllossom », un modèle linguistique développé conjointement par SeoulTech et TeddySum, auquel a été ajouté un processus d'entraînement supplémentaire pour le traitement d'images. Il prend en charge deux langues, le coréen et l'anglais, et peut traiter non seulement le texte, mais aussi les images. La publication de ce Bllossom-V 3.1 est d'une grande importance car il s'agit du premier LMM spécialisé en coréen sur HuggingFace.
Les données qui ont joué un rôle essentiel dans le développement de Bllossom-V 3.1, le premier LMM spécialisé en coréen, ont été produites dans le cadre du projet « Données de génération de documents et de recherche d'informations » organisé par le ministère de la Science et des TIC et dirigé par l'Institut coréen de promotion de la société de l'information intelligente (NIA). Ce projet a été mené par Media Group Saramgwasup (ci-après dénommé Saramgwasup), une entreprise spécialisée dans les données multimodales, en collaboration avec EuclideSoft, afin de créer des données de haute qualité et spécialisées.
De plus, Bllossom-V 3.1 est un modèle qui a terminé un apprentissage pré-entraîné massif en coréen et en anglais en utilisant la méthode d'alignement de couche (Layer Aligning) développée conjointement par SeoulTech et TeddySum, et prend en charge les deux langues de manière stable. En outre, il a été évalué comme ayant considérablement amélioré les performances en coréen sans dégrader les performances en anglais grâce à l'application d'un corpus visuel bilingue coréen-anglais MVIF qu'ils ont eux-mêmes construit. Les ressources informatiques considérables nécessaires à l'apprentissage pré-entraîné du modèle linguistique visuel ont été fournies par le Consortium d'intégration de l'industrie de l'intelligence artificielle (AICA).
Han Yun-gi, PDG de Saramgwasup, qui a supervisé la création des données d'apprentissage du modèle, a déclaré : « Nous sommes très fiers d'avoir contribué à la création du premier modèle visuel linguistique coréen-anglais open source grâce à la création de données de haute qualité. » et a ajouté : « Nous continuerons à contribuer à la création de données ouvertes qui pourront être utilisées à diverses fins. »
Vous pouvez trouver le modèle Bllossom-V 3.1 ici.
Présentation de Media Group Saramgwasup
Media Group Saramgwasup, fondé par des créateurs ayant une personnalité artistique, possède une solide expérience dans les domaines de la numérisation basée sur les données visuelles, de l'intelligence artificielle (IA), du Big Data, de la conduite autonome, de la réalité virtuelle (RV), etc. et poursuit une expansion multiforme de ses activités, notamment le développement de technologies et de services propriétaires, afin de conquérir le marché mondial. L'entreprise se développe en tant qu'entreprise axée sur l'humain, qui utilise les données comme moyen de créer une culture centrée sur l'humain et de permettre une croissance et un bonheur partagés.