A interação com a tecnologia está prestes a migrar das telas sensíveis ao toque para comandos de voz complexos e contextuais. De acordo com o cofundador e CEO da ElevenLabs, Mati Staniszewski, a voz está se tornando a próxima grande interface para a inteligência artificial (IA), permitindo que os dispositivos realizem tarefas sem que o usuário precise olhar para eles.
Em entrevista ao portal TechCrunch durante o Web Summit Qatar, o executivo afirmou que os modelos de voz evoluíram além da simples imitação da fala humana. Agora, essas tecnologias trabalham em conjunto com a capacidade de raciocínio de grandes modelos de linguagem (LLMs), o que permite uma mudança fundamental na forma como as pessoas interagem com máquinas.
Visão de Futuro e Valuation
A visão de futuro apresentada por Staniszewski projeta um cenário onde a dependência visual dos smartphones diminui. “Espero que todos os nossos telefones voltem para os nossos bolsos e possamos nos imergir no mundo real ao nosso redor, com a voz como o mecanismo que controla a tecnologia”, disse o CEO.
Para viabilizar esse futuro, a ElevenLabs trabalha em uma abordagem híbrida de processamento. O objetivo é mesclar o processamento em nuvem com a execução direta no dispositivo, permitindo que a IA funcione em novos hardwares, como fones de ouvido e óculos inteligentes, com menor latência. Recentemente, a ElevenLabs anunciou uma rodada de financiamento Série D de US$ 500 milhões, liderada pela Sequoia Capital, elevando sua avaliação de mercado (valuation) para US$ 11 bilhões.
Desenvolvimento de Agentes Conversacionais
O capital obtido será utilizado para acelerar o desenvolvimento da “ElevenAgents“, a plataforma de agentes conversacionais da empresa voltada para elevar a experiência do cliente e automatizar operações internas. O executivo destacou que a empresa lançará nos próximos dias um novo modelo conversacional para essa plataforma, prometendo um sistema mais rápido e com melhor capacidade de compreensão e expressão de emoções.
Concorrência das Big Techs
A visão da ElevenLabs se alinha a movimentos agressivos das Big Techs, que buscam transformar assistentes passivos em agentes ativos. A Apple adquiriu recentemente a Q.ai, uma startup israelense especializada em reconhecimento de fala e áudio, em um negócio avaliado em até US$ 2 bilhões. Essa inovação permite que dispositivos identifiquem comandos sussurrados, melhorando a interação em ambientes barulhentos.
Por outro lado, o Google avança com o desenvolvimento de recursos para que o Gemini controle aplicativos diretamente no sistema Android. A funcionalidade deve permitir que a IA interaja com aplicativos de transporte para reservar corridas ou realizar pedidos online sem que o usuário precise tocar na tela repetidamente.
Opinião
A evolução da interação por meio da voz promete transformar a maneira como utilizamos a tecnologia, tornando-a mais acessível e integrada ao nosso cotidiano.





