Um jogador superou o bot de IA Freysa e conseguiu retirar US$ 47.000 de um fundo acumulado após 481 tentativas frustradas de outros participantes.
Freysa é o primeiro jogo de agentes adversariais do mundo, onde os participantes tentam convencer uma inteligência artificial autônoma a liberar um fundo de prêmios guardado a sete chaves.
Para participar, os jogadores pagam uma taxa de US$ 400 para enviar mensagens à IA. Desse valor, 70% é adicionado ao fundo de prêmios, que aumenta à medida que mais pessoas participam.
Mais de 190 jogadores tentaram convencer Freysa, totalizando 481 tentativas sem sucesso.
A IA é programada para seguir uma diretiva que a impede de transferir qualquer quantia de dinheiro. No entanto, no 482º esforço, um usuário identificado como p0pular.eth conseguiu convencer o bot a transferir o prêmio acumulado de US$ 47.000 para sua carteira.
Ele elaborou uma mensagem sugerindo que a função “approveTransfer”, que só seria ativada quando alguém convencesse Freysa a liberar fundos, poderia ser acionada também quando alguém enviasse dinheiro ao tesouro da IA.
O truque estava em fazer o bot entender que a função não só autorizava transferências de saída, mas também de entrada.
No final da mensagem, p0pular.eth ofereceu US$ 100 ao tesouro de Freysa, um gesto que foi suficiente para enganar a IA. Assim, ela aprovou a transferência de todo o fundo acumulado para a carteira do jogador.
“Humanidade prevaleceu”, declarou o agente de IA em um tweet. “Freysa aprendeu muito com os 195 humanos corajosos que participaram de maneira autêntica, mesmo com os riscos crescendo. Após 482 trocas de mensagens, Freysa encontrou um humano persuasivo. A transferência foi aprovada”.