Try using it in your preferred language.

English

  • English
  • 汉语
  • Español
  • Bahasa Indonesia
  • Português
  • Русский
  • 日本語
  • 한국어
  • Deutsch
  • Français
  • Italiano
  • Türkçe
  • Tiếng Việt
  • ไทย
  • Polski
  • Nederlands
  • हिन्दी
  • Magyar
translation

Esta é uma postagem traduzida por IA.

스타트업 커뮤니티 씬디스 (SeenThis.kr)

Weights & Biases, lançamento público de whitepaper com melhores práticas para avaliação de LLM

  • Idioma de escrita: Coreana
  • País de referência: Todos os países country-flag

Selecionar idioma

  • Português
  • English
  • 汉语
  • Español
  • Bahasa Indonesia
  • Русский
  • 日本語
  • 한국어
  • Deutsch
  • Français
  • Italiano
  • Türkçe
  • Tiếng Việt
  • ไทย
  • Polski
  • Nederlands
  • हिन्दी
  • Magyar

Texto resumido pela IA durumis

  • A W&B lançou um whitepaper intitulado "Melhores Práticas para Avaliação de Modelos de Linguagem de Grande Escala (LLM)" no AI EXPO KOREA 2024.
  • Este whitepaper é um documento de 59 páginas traduzido para o coreano em colaboração com a Penta System, com base na experiência da W&B na operação de leaderboards de LLM e no conhecimento de engenheiros especialistas.
  • O whitepaper apresenta as melhores práticas para avaliação de LLM e um roteiro para avaliações confiáveis, com o objetivo de fornecer uma base para construir o futuro da avaliação de IA generativa.

Weights & Biases (Weights & Biases, doravante W&B) publicou um whitepaper intitulado "Melhores práticas para a avaliação de modelos de linguagem de grande escala (LLMs)" no "AI EXPO KOREA 2024" no dia 1º. Este whitepaper é um documento de 59 páginas criado com base na experiência de desenvolvimento e operação do "Horangi Korean LLM Leaderboard (http://horangi.ai)" e do "Nejumi Japanese LLM Leaderboard", operados pelo W&B, juntamente com o conhecimento de engenheiros especializados em LLMs da equipe global, e foi traduzido para o coreano em colaboração com a Penta System.

Página de download do whitepaper

Este URL fornece a versão PDF do whitepaper: http://wandb.me/kr-llm-eval-wp

Visão geral e índice do "Melhores práticas para a avaliação de modelos de linguagem de grande escala (LLMs)"

Este whitepaper visa fornecer uma base para construir o futuro da IA ​​gerativa, não apenas apresentando as melhores práticas para avaliação de LLMs, mas também promovendo o desenvolvimento e a seleção de modelos melhores. Depois de apresentar uma visão geral da avaliação de LLMs, ele identifica os desafios atuais e apresenta as melhores práticas para avaliação de IA ​​gerativa neste momento, além de um roteiro para fornecer avaliações mais sofisticadas e confiáveis.

· Visão geral da avaliação de modelos de linguagem
· O que avaliar: aspectos a serem avaliados

  • Desempenho de linguagem geral
  • Desempenho específico do domínio
  • Governança de IA
    · Como avaliar: métodos de avaliação
    · Lista de leaderboards públicos de LLMs
    · Prática de avaliação usando Weights & Biases
    · Revisão por meio da comparação de modelos de LLMs

Perspectivas futuras para a avaliação de IA ​​gerativa

A avaliação de IA ​​gerativa também precisará continuar a mudar no futuro, acompanhando o rápido desenvolvimento dos modelos. À medida que o desempenho dos modelos melhorar, também haverá uma necessidade crescente de mais consideração e esforço por parte daqueles que avaliam. Já existem modelos que conseguem produzir mais de 90% dos resultados na avaliação da capacidade de geração, mostrando a necessidade de criar problemas ainda mais desafiadores no futuro.

Com a crescente utilização de modelos de IA ​​gerativa, especialmente em aplicações comerciais e industriais, torna-se cada vez mais necessário avaliar o conhecimento e as capacidades mais especializados. Como não há uma forma única de avaliar o desempenho do modelo nessas áreas especializadas, é urgente definir desafios de avaliação em áreas importantes e desenvolver conjuntos de dados. Alguns desses desafios exigem diferentes tipos de entrada, como linguagem, imagens e dados, o que aumenta a dificuldade de desenvolvimento.
 
Além disso, a facilidade de uso é um fator essencial para o desempenho do modelo. Por exemplo, a necessidade de serviços comerciais está aumentando, incluindo considerações sobre velocidade de inferência e custos, estabilidade e segurança da API, etc., levando à necessidade de configurar ambientes de inferência locais.

Apresentação do Weights & Biases

A Weights & Biases, Inc., com sede em São Francisco, Califórnia, fornece uma plataforma para desenvolvedores e operadores que abrange a gestão de experimentos de ML em nível empresarial e fluxos de trabalho de MLOps de ponta a ponta. O WandB é usado em diversos casos de uso de deep learning, incluindo desenvolvimento de LLM, segmentação de imagens, desenvolvimento de medicamentos, e é uma nova melhor prática de desenvolvimento de IA ​​confiável por mais de 800.000 desenvolvedores de aprendizado de máquina em todo o mundo, incluindo NVIDIA, OpenAI e Toyota.

Site do W&B na Coreia: https://kr.wandb.com

Site: https://wandb.ai/site

Informações de contato
Weights & Biases
Vendas/Marketing
Yoo Si-hyeon
+81-(0)70-4000-5657

seenthis.kr
스타트업 커뮤니티 씬디스 (SeenThis.kr)
스타트업 커뮤니티 씬디스 (http://SeenThis.kr Startup Community web) 씬디스는 스타트업 커뮤니티입니다. 1. 모르면 물어보세요 2. 알면 답해주세요
seenthis.kr
SK C&C lança 'Soluer LLMOps', plataforma que oferece suporte à implementação de sLLM personalizadas para clientes A SK C&C lançou a 'Soluer LLMOps', uma plataforma de construção de modelos de linguagem de grande porte personalizados para empresas (sLLM). A plataforma permite aos usuários criar facilmente sLLMs usando modelos de fundamentação como ChatGPT e Hyperclova

20 de maio de 2024

Pleto e Upstage assinam acordo para construção de dados de linguagem de IA Pleto e Upstage assinaram um acordo de colaboração para a construção de dados de linguagem de baixo recurso na região asiática. Por meio desta colaboração, as duas empresas fortalecerão a cooperação para melhorar o desempenho de modelos de linguagem de gr

9 de maio de 2024

RSN participará da AI Expo Korea e apresentará o 'Global MI', plataforma de análise de tendências de mercado global baseada em IA generativa A RSN apresentará a plataforma de análise de tendências de mercado global 'Global MI' na 'AI Expo Korea 2024'. Utilizando a tecnologia RAG, reduz o custo do processamento de dados e aumenta a confiabilidade, e com o sLLM desenvolvido internamente, fornece

25 de abril de 2024

O que é LLM (Large Language Model)? O modelo de linguagem de grande porte (LLM) é uma tecnologia central da inteligência artificial que aprende com uma quantidade enorme de dados de texto para adquirir a capacidade de processar linguagem semelhante à humana, podendo ser usada em uma varieda
세상 모든 정보
세상 모든 정보
세상 모든 정보
세상 모든 정보

1 de abril de 2024

Construindo um AI Full Stack com Open Source Novos modelos de LLM (Large Language Model) de código aberto estão surgindo no ecossistema de IA. Mistral, Llama e phi-2 são alguns exemplos de modelos poderosos com licenças abertas que foram lançados. Ferramentas para utilizá-los também estão sendo dese
RevFactory
RevFactory
RevFactory
RevFactory

5 de fevereiro de 2024

Mr. Know-All 6호 - Março de 2024 Apresentamos o LM Studio, uma plataforma que permite executar LLMs de código aberto como LLaMa, Falcon, MPT e StarCoder localmente, bem como Devin, um engenheiro de software de IA, e crewAI, uma plataforma de automação multi-agente, entre outras ferrament
Pilot AISmrteasy
Pilot AISmrteasy
Pilot AISmrteasy
Pilot AISmrteasy

21 de março de 2024

Lançamento do OpenELM da Apple / Phi-3 da MS / Llama 3 do Meta Apple, Microsoft e Meta, entre outras grandes empresas de tecnologia, estão revolucionando o setor de IA com o lançamento recente de seus próprios modelos de linguagem de grande porte. Os modelos lançados nesta rodada evoluíram em diversas direções, inclu
해리슨 블로그
해리슨 블로그
해리슨 블로그
해리슨 블로그

27 de abril de 2024

Mr. Know-All – 2023.7 A edição de julho de 2023 da revista mensal de IA "Mr. Know-All", edição nº 1, apresenta as últimas tecnologias e tendências de IA, incluindo Claude 2, Azure OpenAI, LangChain e LlamaIndex. Em particular, fornece uma explicação detalhada do conceito chave
Pilot AISmrteasy
Pilot AISmrteasy
Pilot AISmrteasy
Pilot AISmrteasy

21 de março de 2024

[Coluna de Gestão ESG] O desenvolvimento da indústria robótica ... Meio ambiente, sociedade e governança O desenvolvimento da indústria robótica e a convergência com a gestão ESG estão sendo aceleradas por meio da análise de big data. Tecnologias robóticas de alta eficiência energética contribuem para a proteção ambiental, e a automação ajuda a melhorar a se
NEWS FDN (다큐)
NEWS FDN (다큐)
NEWS FDN (다큐)
NEWS FDN (다큐)
NEWS FDN (다큐)

13 de março de 2024