O Venturus – um dos principais centros de tecnologia do país –, a Universidade de São Paulo (USP) e a startup suíça Data Stand AI, firmaram um convênio para o desenvolvimento de modelos de inteligência artificial voltados ao reconhecimento automático de fala (ASR, na sigla em inglês) e à conversão de texto em fala (TTS) com foco na fala espontânea em português do Brasil.
A proposta é desenvolver soluções que superem os desafios associados à variabilidade linguística da população — como sotaques regionais, níveis de formalidade e prosódia —, fatores que comprometem o desempenho de sistemas tradicionais de ASR/TTS treinados com dados mais formais ou lidos.
“Apesar dos grandes avanços na área, ainda percebemos taxas de erro mais altas no português do que em idiomas como o inglês, especialmente no cenário de fala espontânea. Além disso, muitos sistemas sofrem com vieses socioeconômicos e enfrentam dificuldades para lidar com diferentes graus de escolaridade, faixas etárias e variações regionais. Nosso objetivo com esta pesquisa é desenvolver modelos mais inclusivos para o português brasileiro, livres desses problemas e vieses, tornando a tecnologia mais eficaz em aplicações como transcrição de fala, acessibilidade e assistentes virtuais”, Frederico Gonçalves.
A iniciativa conta com a participação de profissionais experientes como Sidney Leal e Frederico Gonçalves, do Venturus, além do apoio técnico de alunos e pesquisadores do Instituto de Ciências Matemáticas e de Computação (ICMC-USP) e da Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH-USP). A Data Stand AI contribuirá com sua plataforma e expertise para limpeza e anotação dos dados que serão utilizados.
Ao longo dos próximos dois anos, o projeto desenvolverá e treinará modelos robustos com base em gravações reais de fala espontânea. A previsão é que, em uma segunda etapa, a Universidade Estadual Paulista (Unesp) também se junte à parceria, ampliando ainda mais a colaboração e o expertise da equipe.
A expectativa é aumentar significativamente a acurácia dos sistemas de ASR e TTS em contextos reais de uso no Brasil. Isso pode viabilizar aplicações mais eficientes em serviços automatizados, acessibilidade digital, educação, atendimento ao cliente e dispositivos embarcados. O projeto também contribui para o desenvolvimento de soluções de IA com critérios éticos e foco na inclusão linguística.