Programa do Curso

Introdução à Síntese de Fala e Clonagem de Voz

  • Visão geral da síntese de texto para fala (TTS) e voz neural
  • Clonagem de voz vs geração de fala: casos de uso e limites
  • Modelos principais: Tacotron, WaveNet, FastSpeech, VITS

Trabalhando com Plataformas Comerciais

  • Usando ElevenLabs e Resemble AI
  • Criação, clonagem e edição de vozes
  • Acesso à API e fluxos de trabalho de texto para fala

Construindo com Ferramentas Open-Source

  • Instalando e configurando Coqui TTS
  • Treinando vozes personalizadas e gerenciando conjuntos de dados
  • Gerando fala com controle fino (tom, velocidade, emoção)

Preparação de Dados e Gestão de Conjuntos de Dados de Voz

  • Coletando e limpeza de amostras de voz
  • Segmentação, rotulagem e alinhamento de transcrições
  • Fontes éticas e consentimento vocal

Integração de Aplicações

  • Incorporando TTS em sites e aplicativos
  • Criando sistemas IVR e bots interativos
  • Gerando diálogos sintéticos para vídeo e jogos

Avaliando Qualidade e Realismo

  • MOS (Mean Opinion Score) e testes de inteligibilidade
  • Controlando expressividade e prosódia
  • Comparando latência, fidelidade e realismo

Considerações Éticas, Legais e de Governança

  • Riscos de deepfakes e uso responsável
  • Consentimento, atribuição e implicações de direitos autorais
  • Regulamentações e políticas organizacionais

Resumo e Próximos Passos

Requisitos

  • Compreensão dos fundamentos de aprendizado de máquina
  • Familiaridade com formatos de arquivos de áudio e ferramentas de edição
  • Habilidades básicas de programação em Python

Público-Alvo

  • Desenvolvedores e engenheiros de IA interessados em síntese de fala
  • Criadores de conteúdo e tecnologistas de mídia explorando geração de voz
  • Equipes de P&D construindo sistemas de áudio personalizados ou dinâmicos
 14 Horas

Número de participantes


Preço por participante

Próximas Formações Provisórias

Categorias Relacionadas