
Uma nova pesquisa indica que agentes de inteligência artificial ainda passam longe de fazer o trabalho de profissionais humanos em áreas complexas. Segundo o levantamento, os modelos atuais acertam menos de 30% das tarefas típicas de consultores de gestão, analistas de investimentos e advogados corporativos, mesmo nos melhores cenários.
O estudo foi conduzido pela empresa de recrutamento e treinamento de dados Mercor, que criou um novo indicador para medir esse desempenho, o AI Productivity Index for Agents (APEX-Agents). Diferente de outros testes, o benchmark tenta simular o ambiente real de trabalho, com problemas abertos, contexto incompleto e decisões que exigem análise cruzada de informações.
Nos testes, o melhor desempenho entre analistas de investimentos foi do GPT-5.2, da OpenAI, com 27,3% de acerto. O mesmo modelo liderou em consultoria de gestão, com 22,7%. Já nas tarefas jurídicas, o Gemini 3 Flash, do Google, ficou na frente, com 25,9%. Nenhum sistema conseguiu ultrapassar a marca de 30% em qualquer uma das áreas avaliadas.
Segundo a Mercor, o principal problema é que os agentes de IA ainda têm dificuldade em lidar com informações espalhadas em vários sistemas, como ocorre no dia a dia profissional. As tarefas exigem buscar dados, interpretar regras internas, cruzar legislações e tomar decisões sem ter tudo “mastigado” em um único prompt. Para os pesquisadores, esse tipo de teste é essencial para medir se, de fato, a IA está pronta para substituir trabalhadores humanos e a resposta, por enquanto, é clara: ainda não.
WALL STREET OpenAI recua e pode adiar estreia na Bolsa para buscar avaliação de US$ 1 trilhão
CONTAS NÃO FECHAM? Desespero da velha mídia?
MOTO ELÉTRICA Vammo aposta na popularização das motos elétricas e coloca 200 unidades à venda Mín. 23° Máx. 32°