Google lança IA que controla computadores e pode automatizar processos críticos

O Google anunciou a integração da função “Computer use” ao modelo Gemini 3.5 Flash, permitindo que agentes de inteligência artificial possam visualizar a tela e executar ações em computadores, navegadores e aplicativos. Esta inovação já está disponível para desenvolvedores e empresas através da API do Gemini e da plataforma Gemini Enterprise Agent.

A nova ferramenta transforma o modelo em um agente capaz de realizar tarefas completas de forma autônoma, como clicar em botões, preencher formulários e navegar entre sistemas internos. O foco inicial é no ambiente corporativo, visando a automação de processos, análise de dados e testes de software. Essa integração amplia os recursos de navegação já incorporados anteriormente, como o Auto Browse no Chrome Enterprise.

Limitações e Segurança

Apesar dos avanços, o Google ressalta que o sistema ainda enfrenta limitações em situações imprevisíveis, como CAPTCHAs, pop-ups e interfaces dinâmicas. Para mitigar riscos, foram implementados mecanismos de segurança, incluindo confirmação humana em ações sensíveis e interrupção automática em caso de tentativas de manipulação. Esses controles são opcionais e não estão ativados por padrão.

Além disso, o Google adotou um treinamento adversário focado na prevenção de injeção de prompts, um tipo de ataque que pode induzir a IA a executar ações não intencionais.

Concorrência e Comparações

A novidade do Google chega para competir com a Anthropic, que já oferece o Claude Computer Use, um sistema que interage de forma mais ampla com sistemas operacionais e arquivos. A OpenAI também está se movimentando nesse espaço, ampliando suas iniciativas em agentes de IA.

Como funciona o “Computer use”?

O recurso funciona como uma camada nativa no Gemini 3.5 Flash, substituindo o modelo independente Gemini 2.5, que foi lançado em outubro de 2025. O objetivo é acelerar fluxos de trabalho mais complexos, permitindo que a IA interaja com interfaces gráficas, em vez de apenas gerar respostas em texto.

O processo se inicia com a captura da tela atual, a partir da qual o Gemini analisa os elementos visuais e determina as ações necessárias. A IA cria comandos estruturados, como cliques em botões e rolagem de páginas, e cada ação atualiza a tela, permitindo a continuidade do processo.

Testando o “Computer use”

Para desenvolvedores interessados em testar essa nova funcionalidade, o Google disponibiliza um ambiente de demonstração no Browserbase (gemini.browserbase.com), onde é possível experimentar a ferramenta em um cenário controlado. A documentação e a implementação de referência estão acessíveis pela API do Gemini e pela plataforma Gemini Enterprise Agent.

Opinião

A integração da função “Computer use” no Gemini 3.5 Flash representa um avanço significativo na automação de processos, mas as limitações e preocupações com segurança ainda precisam ser cuidadosamente consideradas.

Limitações e Segurança

Concorrência e Comparações

Como funciona o “Computer use”?

Testando o “Computer use”

Opinião

Você pode se interessar por:

Startup PocketOS sofre apagão após IA deletar banco de dados em 10 segundos

Patricia Suzuki revela como IA transforma currículos e exige atenção dos candidatos

Epic Games e Google encerram disputa e liberam pagamentos fora da Play Store