Uma em cada três respostas de IA não é confiável, alerta estudo

Imagine fazer uma pergunta simples a uma inteligência artificial e receber uma resposta perfeita, clara e totalmente embasada. Agora imagine descobrir que quase um terço dessas respostas pode ser simplesmente… inventado. Parece ficção científica, mas é exatamente o que um novo estudo revelou sobre algumas das ferramentas de IA mais usadas do mundo.

A pesquisa levantou uma dúvida que está crescendo rapidamente: até que ponto podemos confiar no que a IA diz?

Afinal, por que as respostas da IA estão sendo questionadas?

O estudo analisou centenas de respostas geradas por diferentes plataformas de inteligência artificial e encontrou algo intrigante. Muitas delas soavam confiantes, bem construídas e até educativas, mas careciam de fontes sólidas ou traziam afirmações sem respaldo factual.

Esse comportamento surpreendeu até especialistas, já que as IAs generativas estão cada vez mais presentes no nosso dia a dia.

“O mais curioso é que algumas ferramentas respondem com tanta segurança que fica difícil perceber quando estão errando”, aponta a análise.

O teste que avaliou 303 perguntas

A equipe liderada por Pranav Narayanan Venkit decidiu colocar à prova os sistemas mais populares do mercado.
Foram testados mecanismos como GPT, Perplexity, Bing Chat, You.com e também ferramentas de pesquisa aprofundada como Deep Research, Think Deeper e Google Gemini.

As perguntas foram divididas em dois grupos:
• temas controversos, para observar possíveis vieses
• temas técnicos, como medicina, meteorologia e interação humano-computador

Cada resposta passava por oito critérios que verificavam desde confiança excessiva até qualidade das fontes citadas.

E os resultados? Nada animadores

Ferramentas poderosas, que geralmente impressionam com textos coerentes, apresentaram números surpreendentemente altos de informações sem fundamento.

Os dados apontaram que:
• Bing Chat teve 23% de respostas sem base confiável
• You.com e Perplexity ficaram em torno de 31%
• GPT 4.5 chegou a 47%
• O agente profundo da Perplexity alcançou 97,5%

Esses números mostram que, mesmo com toda a evolução tecnológica, a IA ainda comete erros que passam despercebidos.

Mas a culpa é das ferramentas?

A Perplexity contestou a metodologia e afirmou que o estudo usou o modelo padrão, quando o usuário poderia escolher versões mais precisas.
Ainda assim, os próprios pesquisadores reconhecem um ponto crucial: a maioria das pessoas não saberia qual modelo selecionar.

Isso levanta outra questão importante. Se a IA quer ser acessível ao público geral, não deveria funcionar bem mesmo na configuração base?

"apresentaram — *Se a IA quer ser acessível ao público geral, não deveria funcionar bem?*

O que esse estudo revela sobre o futuro da IA?

A análise faz um alerta que está ganhando força em debates globais.
Apesar de parecerem confiáveis, respostas de IA ainda precisam ser checadas manualmente, principalmente em temas técnicos ou sensíveis.

A tecnologia avança rápido, mas a responsabilidade em verificar informações precisa acompanhar o mesmo ritmo.

E no fim, a grande pergunta permanece ecoando.

Se a IA responde tão bem, mas comete tantos erros invisíveis, como saber quando ela está realmente certa?

Talvez o futuro revele novos métodos de validação. Talvez as ferramentas melhorem sua capacidade de citar e comprovar fontes.
Por enquanto, o estudo serve como um lembrete poderoso de que curiosidade, senso crítico e verificação humana ainda são essenciais.