El equipo de investigación de la Universidad de Ciencia y Tecnología de Seúl ha presentado el primer LMM en coreano, 'Bllossom-V 3.1', publicándolo en HuggingFace.
Este modelo, capaz de procesar texto e imágenes simultáneamente, admite coreano e inglés y se ha desarrollado basándose en datos de alta calidad construidos a través de un proyecto del Ministerio de Ciencia e Información y Comunicación.
En particular, se ha utilizado un corpus visual paralelo coreano-inglés para mejorar el rendimiento en coreano, y se ha aplicado un método de conexión jerárquica para permitir un soporte estable en dos idiomas.
La Universidad de Ciencia y Tecnología de Seúl (en adelante, Universidad de Ciencia y Tecnología de Seúl) anunció que el equipo del profesor Im Kyung-tae del Laboratorio de Procesamiento del Lenguaje Multimodal (MLP) publicó el 4 de septiembre el primer modelo de lenguaje visual específico para coreano, 'Bllossom-V 3.1', a través del tablero de clasificación de HuggingFace.
Este modelo es un modelo de lenguaje visual desarrollado sobre la base de 'Bllossom', un modelo de lenguaje desarrollado conjuntamente por la Universidad de Ciencia y Tecnología de Seúl y TeddySum, mediante un proceso de entrenamiento adicional para el procesamiento de imágenes. Admite dos idiomas, coreano e inglés, y puede procesar no solo texto sino también imágenes. La publicación de Bllossom-V 3.1 tiene un gran significado ya que presenta el primer LMM específico para coreano en HuggingFace.
Los datos que desempeñaron un papel fundamental en el desarrollo de Bllossom-V 3.1, el primer LMM específico para coreano, se crearon a través del proyecto 'Datos de generación de documentos y búsqueda de información' organizado por el Ministerio de Ciencia e ICT y dirigido por el Instituto Coreano de Promoción de la Sociedad de la Información Inteligente (NIA). En este proyecto, Media Group Saramgwasup (en adelante, Saramgwasup), una empresa especializada en datos multimodales, participó como coordinadora general y, junto con EuclidSoft, construyó datos de alta calidad y profesionales.
Además, Bllossom-V 3.1 es un modelo que ha completado un aprendizaje previo a gran escala en coreano e inglés aplicando el método de alineación de capas (Layer Aligning) desarrollado conjuntamente por la Universidad de Ciencia y Tecnología de Seúl y TeddySum, y admite de forma estable los dos idiomas. Además, se aplicaron datos de corpus visual paralelo coreano-inglés MVIF construidos por el propio equipo de investigación, lo que ha mejorado significativamente el rendimiento en coreano sin afectar al rendimiento en inglés. Los abundantes recursos informáticos necesarios para el aprendizaje previo del modelo de lenguaje visual fueron proporcionados por la Unidad de Negocios de Fusión de la Industria de IA (AICA).
Han Yun-ki, CEO de Saramgwasup, que estuvo a cargo de la gestión general de la creación de datos para el aprendizaje del modelo, comentó: “Estoy muy orgulloso de haber contribuido a la creación del primer modelo de lenguaje visual coreano-inglés de código abierto mediante la creación de datos de alta calidad”. Y agregó: “En el futuro, contribuiremos a la creación de datos abiertos que puedan utilizarse para diversos fines”.
Puede encontrar el modelo Bllossom-V 3.1 aquí.
Introducción a Media Group Saramgwasup
Media Group Saramgwasup, fundado por creadores con una personalidad artística propia, cuenta con una trayectoria destacada en el campo de la digitalización basada en datos visuales, la inteligencia artificial (IA), los big data, la conducción autónoma y la realidad virtual (VR), entre otros. Sobre la base de ello, está promoviendo la entrada en el mercado global a través de la expansión de sus negocios en diversas áreas, incluyendo el desarrollo de tecnologías y servicios propios. Está creciendo como una empresa que se centra en la cultura y las personas, y que busca el crecimiento y la felicidad mutuos a través de los datos como vínculo.