O Google anunciou a integração da função “Computer use” ao modelo Gemini 3.5 Flash, permitindo que agentes de inteligência artificial possam visualizar a tela e executar ações em computadores, navegadores e aplicativos. Esta inovação já está disponível para desenvolvedores e empresas através da API do Gemini e da plataforma Gemini Enterprise Agent.
A nova ferramenta transforma o modelo em um agente capaz de realizar tarefas completas de forma autônoma, como clicar em botões, preencher formulários e navegar entre sistemas internos. O foco inicial é no ambiente corporativo, visando a automação de processos, análise de dados e testes de software. Essa integração amplia os recursos de navegação já incorporados anteriormente, como o Auto Browse no Chrome Enterprise.
Limitações e Segurança
Apesar dos avanços, o Google ressalta que o sistema ainda enfrenta limitações em situações imprevisíveis, como CAPTCHAs, pop-ups e interfaces dinâmicas. Para mitigar riscos, foram implementados mecanismos de segurança, incluindo confirmação humana em ações sensíveis e interrupção automática em caso de tentativas de manipulação. Esses controles são opcionais e não estão ativados por padrão.
Além disso, o Google adotou um treinamento adversário focado na prevenção de injeção de prompts, um tipo de ataque que pode induzir a IA a executar ações não intencionais.
Concorrência e Comparações
A novidade do Google chega para competir com a Anthropic, que já oferece o Claude Computer Use, um sistema que interage de forma mais ampla com sistemas operacionais e arquivos. A OpenAI também está se movimentando nesse espaço, ampliando suas iniciativas em agentes de IA.
Como funciona o “Computer use”?
O recurso funciona como uma camada nativa no Gemini 3.5 Flash, substituindo o modelo independente Gemini 2.5, que foi lançado em outubro de 2025. O objetivo é acelerar fluxos de trabalho mais complexos, permitindo que a IA interaja com interfaces gráficas, em vez de apenas gerar respostas em texto.
O processo se inicia com a captura da tela atual, a partir da qual o Gemini analisa os elementos visuais e determina as ações necessárias. A IA cria comandos estruturados, como cliques em botões e rolagem de páginas, e cada ação atualiza a tela, permitindo a continuidade do processo.
Testando o “Computer use”
Para desenvolvedores interessados em testar essa nova funcionalidade, o Google disponibiliza um ambiente de demonstração no Browserbase (gemini.browserbase.com), onde é possível experimentar a ferramenta em um cenário controlado. A documentação e a implementação de referência estão acessíveis pela API do Gemini e pela plataforma Gemini Enterprise Agent.
Opinião
A integração da função “Computer use” no Gemini 3.5 Flash representa um avanço significativo na automação de processos, mas as limitações e preocupações com segurança ainda precisam ser cuidadosamente consideradas.





