ADEUS AS LLMS?
Modelos de Linguagem Autorregressivos Contínuos (CALM): Adeus LLMs
quinta-feira, 13 de novembro de 2025, 10h55
O artigo apresenta os Continuous Autoregressive Language Models (CALM), um novo paradigma que visa substituir os Large Language Models (LLMs) tradicionais, como GPT e Gemini, ao resolver o principal gargalo de eficiência: a predição sequencial de tokens discretos.
Os LLMs atuais trabalham em um ciclo mecânico ineficiente: preveem um token de cada vez, o que exige um cálculo massivo (bilhões de FLOPs) a cada passo, apesar de cada token carregar pouca informação (cerca de 15 bits).
A principal limitação é a necessidade de executar uma operação custosa de softmax sobre todo o vocabulário a cada etapa de predição.
A Solução CALM
O CALM, proposto pela WeChat AI, elimina a predição de tokens discretos e adota a "next-vector prediction" (predição do próximo vetor contínuo).
Este vetor denso é capaz de encapsular o significado de múltiplos tokens de uma só vez (tipicamente 4 ou 8), o que reduz drasticamente o número de passos de geração e, consequentemente, o custo computacional.
Resultados e Eficiência
Nos testes, o modelo CALM-L (configurado para agrupar $K=4$ tokens por passo) igualou o desempenho de um Transformer-L padrão, mas utilizando aproximadamente 40% menos FLOPs (operações de ponto flutuante). O CALM-M mostrou-se cerca de duas vezes mais eficiente que o Transformer-S.
FONTE: medium