Google apresenta Gemini 2.5: IA ganha raciocínio avançado e interação por voz

Google apresenta Gemini 2.5: IA ganha raciocínio avançado e interação por voz
Imagem destaque: ChatGPT

O Google apresentou durante o I/O 2025 uma atualização importante para sua família de modelos de inteligência artificial: o Gemini 2.5. As melhorias abrangem desde raciocínio mais complexo até interações em áudio realistas.

O Gemini 2.5 Pro é atualmente o modelo mais avançado do Google, e agora lidera o ranking WebDev Arena.

O WebDev Arena é uma plataforma de avaliação de modelos de inteligência artificial (IA) especializada em desenvolvimento web. Nela, modelos de IA competem em tempo real para resolver desafios de programação relacionados a HTML, CSS e JavaScript, sendo avaliados com base na preferência humana por estética e funcionalidade dos aplicativos gerados.

O Gemini 2.5 Pro tem uma pontuação ELO de 1415, superando concorrentes como Claude 3.7 Sonnet e ChatGPT 4. Essa liderança é resultado das melhorias do novo modelo do Google em tarefas de codificação, com destaque para transformação e edição de código, além de desenvolvimento de aplicativos web interativos.

Avanços em raciocínio multimodal

A nova versão da IA demonstrou desempenho superior em benchmarks acadêmicos e avaliações de raciocínio multimodal, com o VideoMME, onde obteve 84,8% de acerto.

Para quem ainda não conhece, o VideoMME (Multi-Modal Evaluation) é um benchmark desenvolvido para avaliar a capacidade de modelos de linguagem multimodais (MLLMs) em compreender e analisar vídeos de forma abrangente.

Essa tecnologia é um avanço na avaliação de inteligência artificial, focando na interpretação de dados visuais sequenciais, como vídeos, que são mais complexos do que imagens estáticas.

Capacidade de contexto expandida

A capacidade de contexto do Gemini 2.5 Pro chega a 1 milhão de tokens, o que permite interpretar e gerar conteúdos longos com coerência. Alguns exemplos são:

  • Até 1.500 páginas de texto
  • 30.000 linhas de código
  • Transcrições de vídeos de até 1 hora
  • Áudios com duração aproximada de 8,4 horas

Modelos anteriores com janelas de contexto menores frequentemente necessitavam de estratégias como resumir ou dividir conteúdos para processá-los, o que podia levar à perda de informações importantes. O Gemini 2.5 Pro, por sua vez, pode manter a integridade do conteúdo original, proporcionando análises mais precisas e respostas mais contextualmente relevantes.

A capacidade de lidar com contextos extensos torna o Gemini 2.5 Pro útil em diversas aplicações:

  • Desenvolvimento de software: análise e geração de grandes bases de código, facilitando a manutenção e evolução de projetos complexos.
  • Educação e pesquisa: síntese de grandes quantidades de material acadêmico, auxiliando na elaboração de resumos e na compreensão de temas complexos.
  • Produção de conteúdo multimídia: geração de legendas, resumos e análises de vídeos longos, melhorando a acessibilidade e a indexação de conteúdos.
Deep Think: o modo de raciocínio avançado

O Deep Think é um novo modo de raciocínio avançado introduzido no modelo Gemini 2.5 Pro, também anunciado durante o Google I/O 2025.

Essa funcionalidade permite que o modelo considere múltiplas hipóteses antes de fornecer uma resposta, simulando um processo de pensamento mais semelhante ao humano, o que resulta em respostas mais precisas e fundamentadas para tarefas complexas que exigem raciocínio profundo.

O Deep Think alcançou uma pontuação de 49,4%, superando o desempenho do modelo padrão, que foi de 34,5%. Além disso, ele lidera o LiveCodeBench, benchmark desafiador de codificação em nível de competição, e obteve 84% de acerto em testes que avaliam o raciocínio multimodal.

Atualmente, a funcionalidade está sendo testada com parceiros de confiança por meio da API do Gemini, permitindo avaliações de segurança adicionais e coleta de feedbacks especializados antes de uma disponibilização geral.

O Deep Think do Gemini 2.5 Pro pode ser usado para:

  • Matemática avançada: resolução de problemas complexos e provas matemáticas.
  • Desenvolvimento de software: análise e geração de código em projetos de grande escala.
  • Pesquisa multimodal: interpretação e síntese de informações provenientes de diferentes fontes, como texto, imagens e áudio.
Flash 2.5: mais leve e mais eficiente

Para quem busca velocidade e menor custo, a versão Gemini 2.5 Flash também foi aprimorada. Ela ficou ainda mais inteligente, consumindo entre 20% e 30% menos tokens por tarefa, sem perder qualidade.

Uma das inovações do Gemini 2.5 Flash é a introdução dos “resumos de pensamento” (thought summaries), que oferecem uma visão clara do processo de raciocínio do modelo. Esses resumos organizam as etapas internas que a IA percorre para chegar a uma resposta.

O Gemini 2.5 Flash está atualmente disponível em pré-visualização para:

  • Google AI Studio: para desenvolvedores experimentarem e integrarem o modelo em suas aplicações.
  • Vertex AI: para empresas que desejam incorporar o modelo em soluções corporativas.
  • Aplicativo Gemini: para usuários em geral testarem as capacidades do modelo.

A previsão é que a funcionalidade esteja disponível para todos no início de junho de 2025.

IA que ouve e fala como um humano

Outra revolução vem com a saída de áudio nativa. Agora, o Gemini pode responder em voz alta com entonação, sotaque e estilo adaptados ao contexto.

A IA consegue, por exemplo, contar uma história com voz dramática e é capaz de detectar emoções na fala do usuário e reagir de forma adequada.

A tecnologia também permite que o modelo ignore conversas de fundo e saiba quando responder. O Gemini pode alternar entre 24 idiomas na mesma conversa, mantendo a naturalidade e o mesmo timbre de voz.

Através da Live API, desenvolvedores podem construir experiências conversacionais mais ricas, com entrada e saída de áudio e vídeo, além de utilizar ferramentas como buscas na web durante as interações.

A funcionalidade de saída de áudio nativa está disponível para testes no Google AI Studio, Vertex AI e no aplicativo Gemini. A previsão é que esteja 100% disponível também no início de junho de 2025.

Mais segurança e controle para os desenvolvedores

O Gemini 2.5 foi projetado para identificar e mitigar ameaças ocultas em conteúdos aparentemente inofensivos, como documentos ou e-mails. Ao processar solicitações que tenham arquivos, o modelo verifica a presença de links ou comandos suspeitos antes de executar qualquer ação.

Se detectar atividades maliciosas, o Gemini pode excluir essas partes do conteúdo ou alertar o usuário sobre possíveis riscos, garantindo uma interação mais segura.

“Nossa nova abordagem de segurança ajudou a aumentar a taxa de proteção do Gemini contra ataques indiretos de injeção de prompt durante o uso da ferramenta, tornando o Gemini 2.5 nossa família de modelos mais segura até o momento”.

E o futuro?

A Google segue investindo pesado em pesquisa e desenvolvimento para tornar o Gemini mais inteligente, útil e seguro. Ainda neste ano, a expectativa é que o Deep Think seja liberado gradualmente para mais usuários, após testes com especialistas em segurança. E com tantos avanços em tão pouco tempo, uma coisa é certa: a nova geração de IAs chegou para transformar profundamente nossa relação com a tecnologia.

Leia mais: Universitária exige reembolso após professor usar ChatGPT nas aulas

Deixe seu comentário: