ChatGPT enfrenta aumento nas alucinações, segundo testes da OpenAI

A OpenAI está enfrentando um novo desafio em sua nova linha de modelos de inteligência artificial do ChatGPT: o aumento das chamadas “alucinações”, ou seja, a geração de informações falsas pelos sistemas.

Segundo uma investigação publicada pelo The New York Times, os modelos GPT o3 e GPT o4-mini estão mais propensos a apresentar esse tipo de erro do que suas versões anteriores, como o GPT o1.

Resultados preocupantes nos testes

Nos testes conduzidos pela empresa, o modelo o3 demonstrou alucinar em 33% das vezes no benchmark PersonQA, com perguntas sobre figuras públicas. Esse índice é mais do que o dobro da taxa observada no modelo o1, que era de 15%. O o4-mini apresentou resultados ainda piores: 48% de alucinação no mesmo teste.

Em um segundo teste, chamado SimpleQA, que conta com perguntas mais gerais, o GPT o3 alucinou em 51% das respostas, enquanto o o4-mini ultrapassou os 79%. O modelo o1, em comparação, teve uma taxa de 44%.

Onde está o erro?

A causa exata desse aumento não está clara. A OpenAI afirma que mais pesquisas no ChatGPT são necessárias para entender o fenômeno. No entanto, o tipo de arquitetura usada nesses novos produtos, os chamados “modelos de raciocínio”, podem ser os responsáveis.

Diferentemente dos modelos tradicionais, que apenas respondem com base em padrões estatísticos, os atuais de raciocínio tentam decompor tarefas complexas em etapas, imitando um processo de pensamento humano.