Os programadores agora podem usar modelos de linguagem grande (LLMS) para criar um código de computador mais rapidamente. No entanto, simplesmente facilita a vida dos programadores se esse código seguir as regras da linguagem de programação e não trava o computador.
Existem alguns métodos para cumprir as regras dos LLMs nas quais eles estão criando texto, mas muitos deles são muito tempo -consumindo distorcer o objetivo do modelo ou ser possível para tarefas complexas.
Uma nova abordagem desenvolvida pelos pesquisadores automaticamente pelo MIT e por outros lugares guias para criar um guia LLM que orienta as regras de linguagem relevante como uma linguagem de programação específica e também está com defeito. Seu procedimento permite alocar tentativas para saídas que podem ser válidas e precisas ao cancelar saídas involuntárias no início do processo. Esse método potencial aumenta as habilidades de cálculo.
Devido a essa habilidade, a arquitetura dos pesquisadores permite que pequenos LLMs excedam muitos modelos grandes para produzir saídas precisas e estruturadas no caso de vários usos do mundo real, incluindo biologia molecular e robótica.
A longo prazo, essa nova arquitetura pode ajudar a controlar o material exposto da A A. Por exemplo, pode permitir que os comerciantes escrevessem perguntas complicadas no SQL para manipulação de banco de dados usando apenas solicitações de linguagem natural.
“Este trabalho também tem um impacto. Pode melhorar a ajuda de programação, a análise de dados alimentada por IA e o equipamento de invenção científica para que os resultados expostos à IA sejam eficazes e precisos” Joeo Loula, co-líder do artigo sobre essa estrutura, diz. “
Loula ingressou em Benjamin Lebrun, assistente de pesquisa do Instituto de Inteligência Artificial Mila-Quebek e Benjamin Lebrun, co-líder do graduado da Universidade da Universidade John Hopkins; Autores-sênior Bikash Mansinghaka ’05, Meng ’09, PhD ’09, MIT Bren e Departamento de Ciências Cognitivas é um dos principais cientistas de pesquisa e líder do potencial projeto de computação; Quem é Alexander. Liu SM ’20, professor assistente da Universidade de Yale; Tim Vieira, um Postdoch de Eth Zurique; E Timothy J Odonel, Professor Associado da Universidade McGill e Presidente da Cipher AI Miller Canada, que liderou a equipe internacional; Bem como vários outros. A pesquisa será apresentada na Conferência Internacional sobre Apresentação de Pesquisa.
Aplicado à estrutura e dinheiro
Em uma abordagem geral para controlar o texto estrutural produzido pelo LLMS, uma saída completa como um bloco de um código de computador é garantir que ele seja válido e livre de erros. Se não for esse o caso, o usuário deve começar de novo, os recursos calculadores aumentam.
Por outro lado, um programador pode parar de examinar a saída a caminho. Embora adie ao código com a linguagem de programação e garanta que ele seja estruturalmente válido, o crescente código pode fluir da intenção do usuário de fluir do dinheiro obtido, atingindo sua precisão a longo prazo.
Loula diz: “É mais fácil aplicar uma estrutura do que dinheiro.
No método dos pesquisadores, envolve o conhecimento de engenharia no LLM para dirigir em direção aos resultados mais comprometidos. É mais provável que essas saídas sigam limitações estruturais definidas por um usuário e tenham o significado da vontade do usuário.
Mansinghaka acrescentou: “Não estamos tentando treinar nenhum LLM para fazer isso. Em vez disso, estamos fazendo alguma engenharia de conhecimento que o combina com o conhecimento do LLM, que você oferece uma abordagem muito diferente para a habilidade em comparação à educação profunda”, acrescentou Mansinghaka.
Eles o executam usando uma técnica chamada Sequel Monty Carlo, que permite que a geração paralela competam entre si do LLM. O modelo aloca recursos para vários threads de cálculos paralelos com base em como o modelo está prometendo sua saída.
Cada saída recebe um peso de que é estruturalmente válido e apresentando semanticamente a possibilidade de ser preciso. Em todas as etapas do cálculo, o modelo se concentra nas pessoas com peso superior e cai o restante das peças.
Em certo sentido, é especialista monitorar os ombros da LLM para garantir que ele crie as escolhas certas em cada etapa enquanto se concentra no objetivo geral. O usuário especifica a estrutura e o dinheiro desejados, bem como como testar a saída, a arquitetura dos pesquisadores orienta o restante do LLM a trabalhar.
“Trabalhamos em matemática estrita para que você queira incluir qualquer tipo de restrições, está prestes a obter o peso certo. Você receberá a resposta certa”, disse Loula.
Para aumentar os menores modelos
Para examinar seus métodos, eles aplicaram a estrutura ao LLMS responsável pela produção de quatro tipos de saídas: código Python, banco de dados SQL planejava seguir a consulta, a estrutura molecular e um robô.
Quando comparado à abordagem existente, o método dos pesquisadores tem um desempenho mais precisos, precisando de menos cálculos.
Por exemplo, os pesquisadores da geração de código Python permitiram que um modelo pequeno e de código aberto excedesse um modelo especial de código fechado comercial, que é mais do que o dobro do seu tamanho.
“Estamos muito empolgados por deixarmos esses pequenos modelos subornarem seu peso”, disse Loula.
Para avançar, os pesquisadores querem usar sua técnica para controlar as partes maiores do texto em vez de trabalhar um pequeno pedaço de uma só vez. Eles também querem combiná -los com o aprendizado de seu método, para que aprendam a ser mais precisos à medida que controlam a saída de um modelo.
A longo prazo, este projeto pode ter aplicativos mais amplos para usuários não técnicos. Por exemplo, ele pode ser combinado com sistemas para modelagem automática de dados e os modelos geradores do banco de dados podem ser pesquisados.
O método pode ativar os sistemas de análise de dados para o help de máquina, onde o usuário pode conversar com o software que corrige o significado do dinheiro dos dados e o usuário modela corretamente o significado do usuário, adicionando Mansinghka.
“Uma das questões mais básicas da linguística é como as palavras, frases e frases podem ser baseadas em modelos mundiais, representando a incerteza e a ambiguidade em dinheiro e referências. Linguística e inteligência artificial necessárias para entender como as máquinas podem se comunicar sobre o mundo como nós”, diz O’Donnell.
Este estudo é financiado pelo Programa de Presidente do Canadá Cifra AI em algumas partes e pela Família Família da Família Sigel MIT Sigle Family for Intelligence