sobregrupos de trabalhoeventos
publicações
notíciasrevistaswhitepaperscanal abranetmídia
contato
  • Fone (11) 3078-3866
  • WhatsApp +55 11 94528-2739
  • E-mail sec@abranet.org.br
Rua MMDC, 450, cj 304, Butantã, São Paulo-SP, 05510-000
Conheça nosso podcast Pensai!
#005 - Marketing e IA: conversa com Thiago Gonçalves, Country Manager da Blip México
#005 - Marketing e IA: conversa com Thiago Gonçalves, Country Manager ...
01h00/30 abr 2025
/
YouTubeSpotifyInstagram
Copyright © 2014 - 2025
Abranet - Associação Brasileira de Internet
Produzido e gerenciado por Editora Convergência Digital / Site criado pela SENNO
  1. home
  2. publicações
  3. notícias
  4. Se o texto explica, a voz convence

Se o texto explica, a voz convence

05 de novembro de 2025

por Redação The Shift

Se o texto explica, a voz convence

Em 2021, dois amigos de colégio em Varsóvia, Mati Staniszewski e Piotr Dabkowski, decidiram resolver um incômodo antigo: o hábito polonês de dublar todos os filmes com uma única voz masculina, monótona, indiferente à emoção dos personagens. “Era uma experiência horrível”, lembra Mati. “E pensamos: isso vai mudar.”

A ideia, nascida de uma cena doméstica — Piotr assistindo a um filme com a namorada, que não falava inglês —, virou o ponto de partida da ElevenLabs, hoje um dos unicórnios mais promissores da Inteligência Artificial global, com sede no Reino Unido. Com apenas três anos de idade, a empresa alcançou 40 milhões de usuários, está presente em 75% das 500 maiores companhias do mundo e dobrou seu valuation para US$ 6,6 bilhões, em setembro, com uma terceira rodada de aporte de fundos, liderada pela Sequoia Capital

O que começou como uma solução para dublagem evoluiu para algo bem maior: uma plataforma de áudio sintético que pretende transformar a voz na nova interface da era digital. Enquanto gigantes da IA concentravam seus esforços em texto e imagem, a ElevenLabs decidiu ocupar o espaço do som. “Ficamos focados em áudio — na pesquisa e no produto. Isso fez toda a diferença”, conta Staniszewski em uma entrevista no podcast da Sequoia.

A decisão se mostrou estratégica. Os modelos de texto são treinados em grandes volumes de dados públicos e estruturados; os de voz, não. Há pouca base de áudio de alta qualidade, e o desafio vai além do que é dito: envolve como é dito, incluindo emoção, ritmo, pausas, intenção. A ElevenLabs desenvolveu uma arquitetura própria capaz de capturar esse contexto e gerar vozes com naturalidade quase humana. “Pela primeira vez, os modelos de texto para fala entenderam o contexto e entregaram emoção e tom”, diz Mati.

Essa combinação de ciência e sensibilidade levou à criação de ferramentas que vão de text-to-speech e dublagem a agentes conversacionais. E, recentemente, de um modelo que adiciona “emoções” à fala com tags específicas — uma voz pode rir, hesitar, ou mudar de tom conforme o contexto. Staniszewski acredita que estamos perto do “Turing test da voz”: o momento em que uma conversa com um agente será indistinguível da interação com um humano. “Acho que podemos chegar lá ainda este ano”, afirma.

A ambição da ElevenLabs vai além da conversação. Staniszewski acredita que a IA de voz vai quebrar as barreiras linguísticas e culturais do planeta. “Se você leu O Guia do Mochileiro das Galáxias, lembra do Babel Fish — aquele peixinho que traduz tudo. Ele vai existir. A tecnologia vai tornar isso possível.” A ideia é permitir que qualquer pessoa fale com outra, em qualquer idioma, mantendo sua própria voz, sotaque e emoção. “Será um salto na troca cultural global. Imagine conversar com alguém na Índia e ser entendido como se fosse um diálogo nativo”, diz ele.

Enquanto a ElevenLabs expande globalmente sua tecnologia de voz com inteligência artificial, o Brasil desponta como um dos dez maiores mercados da empresa — tanto em receita quanto em uso. A companhia, que acaba de inaugurar escritório local, aposta no potencial criativo do país e na capacidade das empresas brasileiras de transformar a voz em uma nova interface de conexão com clientes.

A empresa chega com 13 produtos ativos, incluindo o Eleven Music, que compõe trilhas a partir de prompts, e uma plataforma completa de agentes de voz, capaz de gerar clones, criar personas e integrar conversas com sistemas corporativos. No centro da estratégia estão qualidade, latência e escalabilidade. A meta é atingir interações tão naturais quanto uma ligação humana — hoje, a latência média da ElevenLabs é de 75 milissegundos, quase imperceptível.

Em entrevista à The Shift, Brunno Santos, diretor da ElevenLabs no Brasil, fala sobre os planos para a região, o impacto da voz na comunicação corporativa e o papel da IA como ferramenta de empatia, escala e humanização. “O brasileiro adotou a IA de texto — via WhatsApp — com enorme naturalidade. A voz é o passo seguinte. Ela cria empatia, aproxima, transmite sensibilidade. O texto informa, mas a voz conecta”, resume Brunno. Confira trechos da entrevista abaixo, e a entrevista completa no site da The Shift.

Silvia Bassi

 


 

A voz que humaniza a IA

 

O potencial da tecnologia é vasto. Do atendimento ao cliente às experiências imersivas, passando por tutores digitais, call centers, mídia e educação, a IA de voz promete redefinir o modo como empresas e consumidores se comunicam.

No Brasil, há pilotos em setores variados: financeiro, varejo, automotivo e agro. Mostramos um caso de uma empresa de carros que usa IA por voz dentro do veículo. E outro de varejistas que automatizam vídeos de produtos com narração sintética — o que aumenta conversão e reduz custos. No agro, há empresas que utilizam speech-to-text para converter mensagens de voz em texto e responder com text-to-speech — uma solução prática para quem está no campo, sem tempo para digitar.

“O brasileiro é early adopter por natureza, comunicativo e curioso. Isso nos coloca à frente na adoção da IA de voz.”

A regionalização também conta. O cliente do Sul quer ouvir o sotaque do Sul, o mineiro quer ouvir o mineiro. Nosso marketplace e o design de voz permitem essa personalização cultura. 

A estratégia local se baseia em três pilares: localização, time local e ecossistema de parceiros. Já temos a plataforma 100% localizada em português e agora queremos ampliar a conscientização do mercado sobre o potencial da IA por voz.  A ElevenLabs é a primeira empresa global de IA de voz a operar no Brasil. Isso é ótimo, porque há um oceano de oportunidades, mas o conhecimento ainda é baixo. Nosso papel é educar o mercado: mostrar como usar, como medir ROI e como aprimorar a tecnologia.


Tecnologia para diferentes usos

Nós nos definimos como um laboratório de Inteligência Artificial por voz, com três diferenciais principais. O primeiro é o contexto. Temos um marketplace com mais de 5 mil vozes e a possibilidade de clonagem juridicamente correta e design de voz via prompt. Isso permite uma personalização granular:

Você pode descrever, por exemplo, “mulher de 40 anos, nascida em Minas Gerais, sotaque informal e amigável”, e o sistema gera uma voz com essas características.

O segundo diferencial é o suporte multilíngue. Hoje trabalhamos com mais de 70 idiomas, incluindo o português do Brasil, que tem um papel estratégico para a companhia. E o terceiro é a escalabilidade, com duas variáveis cruciais: qualidade e latência. A voz é o que conecta. Cada cliente tem uma voz específica, e nós buscamos uma latência muito próxima à humana — em torno de 150 a 200 milissegundos. A nossa está em 75 ms, o que garante conversas mais fluidas.

Temos 13 produtos no mercado, que vão de text-to-speech e speech-to-text a voice cloning. Recentemente, lançamos o Eleven Music, que cria músicas a partir de prompts, e nossa principal oferta é a plataforma de agentes de voz. Em poucos cliques, é possível criar um agente de IA por voz com prompt comportamental, base de conhecimento e escolha do LLM. Tudo integrado com telefonia. Também lançamos o modelo de voz V3, atualmente em versão alfa.

É o primeiro modelo do mundo que, por meio de tags de emoção, muda a entonação da voz — é possível adicionar sons e ruídos naturais, o que humaniza a interação.

Hoje, a ElevenLabs já tem 40 milhões de usuários globais e está presente em 75% das 500 maiores empresas do mundo. O Brasil, mesmo antes da abertura oficial da operação, já era um dos dez principais mercados em receita e uso.

A explicação, na nossa visão, é que o país adotou rapidamente a IA por texto — via WhatsApp — e agora vê na voz uma extensão natural. A voz cria empatia, aproxima e transmite sensibilidade. Além disso, o brasileiro ainda prefere resolver situações por telefone, e isso favorece o uso da nossa tecnologia.

 

Grande poder, grande responsabilidade

Esse é um ponto central para nós. A responsabilidade ética é um pilar cultural da ElevenLabs. Temos três mecanismos principais de segurança. Primeiro, o Voice Capture, uma tecnologia proprietária que identifica qualquer clonagem de voz ilegal dentro da plataforma e bloqueia automaticamente a conta. Segundo, uma moderação ativa. Se identificamos um uso fora da nossa política, trabalhamos em conjunto com as autoridades brasileiras — mantemos um relacionamento próximo com elas. E terceiro, um site público em que qualquer pessoa pode enviar um áudio para verificar se ele foi gerado pela ElevenLabs.

Sobre a obrigatoriedade de informar se se trata de uma voz de IA, acreditamos que isso deve ser definido por regulamentação. O projeto de lei de IA no Brasil certamente vai tratar disso. Mas, na prática, nossos testes mostram resultados positivos nos dois casos — quando a voz se identifica como IA e quando não. Consideramos como boa prática informar as pessoas sobre o uso da voz sintética, especialmente em atendimento ao cliente. A transparência fortalece a relação com o usuário.
 

Como tirar o melhor da tecnologia

A ElevenLabs já alcançou US$ 200 milhões em receita recorrente anual e deve superar US$ 300 milhões até o fim do ano. Isso mostra que o potencial da IA é real. Hoje há tecnologia madura e escalável com alta qualidade, algo que não existia há poucos anos. Também há melhores práticas globais sendo consolidadas, embora cada região tenha seu próprio ritmo de maturidade. Nosso compromisso é trazer essas práticas para o Brasil.

O desafio é que nenhuma tecnologia é plug and play. Toda adoção exige mudança cultural, planejamento e mensuração de resultados.

Falta ainda mão de obra qualificada em IA de voz — o que é um bom sinal, pois mostra o início de um mercado. E há também uma ansiedade natural das empresas em adotar tudo de forma acelerada. Mas é uma jornada, e ela precisa ser feita com consciência e preparo.

 


 

Conteúdo originalmente produzido e publicado por The Shift.
Reprodução autorizada exclusivamente para a Abranet. A reprodução por terceiros, parcial ou integral, não é permitida sem autorização.

leia

também

  • Drex, a moeda digital nacional, teve 500 operações de 11 instituições em 50 dias de piloto

    Drex, a moeda digital nacional, teve 500 operações de 11 instituições em 50 dias de piloto

    13 de setembro de 2023 | Redação da Abranet

    O Banco Central (BC) informou que, em 50 dias de projeto piloto, 500 transações foram bem sucedidas no Drex, a moeda digital brasileira, e 11 instituições operam na rede. Segundo a autoridade monetária, os participantes do programa começaram a ser incorporados à plataforma no fim de julho. De lá para cá, vários tipos de operações têm sido simuladas, tanto no atacado quanto no varejo, disse o BC. De acordo com a autarquia, a primeira emissão de títulos públicos federais na plataforma Drex para fins de simulação foi realizada nessa segunda-feira (11). Cada um dos participantes já habilitados recebeu uma cota da versão para simulação dos títulos públicos e, a partir de então, podem iniciar também a simulação de procedimentos de compra e venda desses títulos entre eles e entres clientes simulados, afirmou. Vários tipos de operações têm sido simuladas tanto no atacado quanto no varejo – como criação de carteiras, emissão e destruição de Drex e transferências simuladas entre bancos e entre clientes. Todos os participantes conectados já realizaram ao menos alguns desses tipos de transações, sendo que cerca de 500 operações foram conduzidas com sucesso. A primeira fase do piloto deve ser encerrada no meio de 2024, com o desenvolvimento ainda de outras facilidades na fase seguinte. A cada semana, um tipo novo de operação é realizado pelas instituições participantes. Todas essas transações são apenas simuladas e se destinam ao teste de infraestrutura básica do Drex, que ainda não conta com a soluções de proteção à privacidade que serão testadas ao longo do Piloto Drex, ressaltou o BC.

    ler mais
  • BC publica cronograma para testes do Pix Automático

    BC publica cronograma para testes do Pix Automático

    04 de setembro de 2024 | Da Redação Abranet

    O Departamento de Competição e de Estrutura do Mercado Financeiro do Banco Central publicou nesta quarta, 4/9, uma nova instrução normativa que trata de diferentes aspectos da adesão ao Pix, além de prever a oferta de produtos e serviços adicionais ou facultativos. A norma trata de como os interessados, tenham já ou não autorização do BC para operar, devem fazer para aderirem ao sistema de pagamento instantâneo, as diversas etapas do processo e exigências para a formalização, como o projeto de experiencia do usuário, uso de QR Codes, etc. A autoridade monetária também trata de como instituições autorizadas a funcionar podem oferecer serviços adicionais, se habilitar ao Diretório de Identificadores de Contas Transacionais – DICT, ou serviços de iniciação de pagamentos, saque, por exemplo. Prevê, ainda, que uma instituição já participante do Pix, ou em processo de adesão, poderá apresentar, a qualquer tempo, pedido para ofertar ou consumir funcionalidades, de natureza facultativa, relacionadas ao Pix Automático. Além disso, a IN 511 traz um cronograma relacionado aos testes do Pix Automático: I – instituições que concluíram a etapa homologatória do processo de adesão ao Pix antes de 28 de abril de 2025, inclusive instituições participantes em operação, devem realizar com sucesso os testes entre 28 de abril de 2025 e 6 de junho de 2025; II – instituições que concluíram a etapa homologatória do processo de adesão ao Pix entre 28 de abril de 2025 e 6 de junho de 2025 devem realizar com sucesso os testes no prazo de oito semanas contadas a partir da conclusão com sucesso da etapa homologatória pertinente; III – instituições que não concluírem a etapa homologatória do processo de adesão ao Pix até 6 de junho de 2025 devem concluir os testes do Pix Automático dentro do prazo determinado para a conclusão com sucesso dessa etapa; e IV – instituições participantes em operação que ofertem conta apenas a usuários pessoa jurídica e optem por não ofertar pagamentos via Pix Automático devem encaminhar formulário cadastral indicando dispensa da oferta de Pix Automático até 4 de abril de 2025. Instituições participantes do Pix que estejam obrigadas a ofertar serviços do Pix Automático ou que, de forma facultativa, enviem até 4 de abril de 2025 formulário de atualização cadastral indicando a intenção de oferta de serviços do Pix Automático, devem cumprir os testes entre 28 de abril de 2025 e 6 de junho de 2025.

    ler mais
  • Comitê que vai definir futuro da internet tem dois brasileiros

    Comitê que vai definir futuro da internet tem dois brasileiros

    15 de julho de 2014 | Roberta Prescott

    Passado o evento NetMundial, agora representantes de grupos setoriais trabalham juntos para formar comitê que vai elaborar uma proposta para nortear a migração dos trabalhos da Iana, sigla em inglês para Autoridade para Designação de Números da Internet, para, ao que tudo indica, uma entidade multissetorial.; A IANA é um departamento da ICANN (em português, Corporação da Internet para Atribuição de Nomes e Números), cujo controle, até agora, é exercido pela NTIA, agência dos EUA responsável por aconselhar o presidente nos assuntos envolvendo políticas de telecomunicações e de informação.; O atual contrato do governo dos Estados Unidos com a ICANN para gerenciar as funções técnicas de DNS expira em 30 de setembro de 2015, podendo ser estendido por até quatro anos, se a comunidade precisar de mais tempo para desenvolver a proposta de transição. Desde que os Estados Unidos anunciaram sua saída, entidades do mundo todo vêm se organizando para debater como será a feita a transição e quem ficará na coordenação.; Durante o NetMundial, realizado entre 23 e 24 de abril, em São Paulo, o governo dos Estados Unidos se opôs a um modelo multilateral, apontando, entre as condicionantes para a transição, que apoiam o modelo multissetorial (multistakeholder). Os EUA também deixaram claro que não vão aceitar uma proposta de transição que substitua o papel NTIA com uma solução conduzida por algum governo ou uma solução intergovernamental.; O NetMundial foi aclamado por seus participantes por indicar uma série de princípios que devem reger a internet, como a neutralidade de rede, a liberdade de expressão e o direito de acesso. A consolidação destes princípios foi o grande legado, como explicou para a Abranet Vanda Scartezini, representante para a América Latina da ONG PIR. ; ; Cada um dos grupos dos stakeholders, líderes dos principais setores da cada sociedade interessados no tema, elege os participantes que integrarão o comitê, sempre visando ao caráter técnico e não político. No total, cerca de 30 pessoas integrarão o comitê de trabalho cujo objetivo é apresentar uma proposta do que poderia substituir o controle que hoje é da NTIA. Dois brasileiros fazem parte deste comitê: Demi Getschko, do Núcleo de Informação e Coordenação do Ponto BR (NIC.br), e Hartmut Richard Glaser, secretário-executivo do Comitê Gestor da Internet no Brasil – CGI.br.; A expectativa, explica Vanda Scartezini, é ter alguma proposta no próximo encontro da ICANN, em outubro em Los Angeles. Despois disto, as ideias vão para consulta pública, quando recebem críticas e sugestões, que são compiladas e analisadas. “Esta é a primeira fase de trabalhos. Como é um grupo grande, imagino que eles devam se dividir em subgrupos”, comenta. ; ;

    ler mais