Publicidade

A DeepL, empresa alemã conhecida por seus serviços de tradução de texto, anunciou nesta terça-feira (7) o lançamento de um pacote completo de tradução de voz em tempo real. A nova tecnologia é voltada para casos de uso como reuniões virtuais, conversas por dispositivos móveis e web, e até conversas em grupo para trabalhadores de linha de frente por meio de aplicativos personalizados.

Junto com a solução de voz, a companhia também está liberando uma API que permitirá a desenvolvedores e empresas externas construírem soluções personalizadas sobre a tecnologia da DeepL, como em centrais de atendimento (call centers).

Expansão natural após domínio do texto

Publicidade

“Depois de tantos anos na tradução de texto, a voz foi um passo natural para nós”, afirmou o CEO da DeepL, Jarek Kutylowski, em entrevista ao site de tecnologia TechCrunch. “Percorremos um longo caminho quando se trata de tradução de texto e de documentos. Mas achamos que não havia um grande produto para tradução de voz em tempo real.”

Kutylowski explicou que os desafios na criação de um produto de tradução em tempo real giram em torno de encontrar um equilíbrio entre reduzir a latência – o atraso entre alguém falar e o áudio traduzido ser reproduzido – e manter resultados precisos.

Foco no mercado corporativo e em grupos

Publicidade

A empresa está lançando complementos (add-ons) para plataformas como Zoom e Microsoft Teams. Nesses ambientes, os participantes podem ouvir a tradução em tempo real enquanto outros falam em seus idiomas nativos ou acompanhar o texto traduzido simultaneamente na tela. Este programa está atualmente em acesso antecipado, e a empresa está convidando organizações para uma lista de espera.

Há também um produto para conversas via dispositivos móveis e web, que podem ocorrer presencialmente ou remotamente. A solução ainda permite a participação em conversas em grupo, como em sessões de treinamento ou workshops, onde os participantes podem se juntar por meio de um código QR.

Tecnologia adaptável e controle total da stack

A DeepL afirmou que sua tecnologia de voz para voz também pode aprender e se adaptar a vocabulários personalizados, como termos específicos de setores, nomes de empresas e nomes pessoais.

O CEO destacou que a IA está reimaginando como será o atendimento ao cliente nos próximos anos. “Uma camada de tradução ajuda as empresas a fornecer suporte em idiomas onde a mão de obra qualificada é escassa e cara para contratar”, disse Kutylowski.

A empresa controla toda a stack (pilha tecnológica) de voz para voz. No entanto, o sistema atual converte a fala em texto, aplica a tradução e depois converte o texto de volta em fala. A DeepL acredita que, por ter trabalhado com tradução de texto por anos, tem uma vantagem na qualidade da tradução. Futuramente, a empresa quer desenvolver um modelo de tradução de voz de ponta a ponta que pule completamente a etapa de texto.

Concorrência no setor em expansão

A DeepL enfrenta concorrência de várias startups bem financiadas que atuam em áreas adjacentes. A Sanas, que no ano passado levantou US$ 65 milhões da Quadrille Capital e da Teleperformance, usa IA para modificar o sotaque de um falante em tempo real – uma ferramenta voltada principalmente para agentes de call center.

A Camb.AI, com sede em Dubai, foca em síntese e tradução de fala para empresas de mídia e entretenimento, ajudando-as a dublar e localizar conteúdo de vídeo em escala. Já a Palabra, apoiada pela empresa Seven Seven Six do cofundador do Reddit, Alexis Ohanian, está construindo um mecanismo de tradução de fala em tempo real projetado para preservar tanto o significado quanto a voz original do falante, colocando-a em competição mais direta com o que a DeepL está desenvolvendo.