Programa do Curso

Introdução à Síntese de Fala e Clonagem de Voz

  • Visão geral de texto para fala (TTS) e síntese neural de voz
  • Clonagem de voz vs geração de fala: casos de uso e limites
  • Modelos principais: Tacotron, WaveNet, FastSpeech, VITS

Trabalhando com Plataformas Comerciais

  • Usando ElevenLabs e Resemble AI
  • Criação, clonagem e edição de vozes
  • Acesso à API e fluxos de trabalho TTS

Construindo com Ferramentas Open-Source

  • Instalação e configuração do Coqui TTS
  • Treinamento de vozes personalizadas e gerenciamento de conjuntos de dados
  • Geração de fala com controle精细控制(音调、速度、情感)

Preparação de Dados e Conjunto de Dados de Voz Management

  • Coleta e limpeza de amostras de voz
  • Segmentação, rotulagem e alinhamento de transcrições
  • Fontes éticas e consentimento para vozes

Integração de Aplicações

  • Incorporando TTS em sites e aplicações
  • Criando sistemas IVR e bots interativos
  • Gerando diálogos sintéticos para vídeos e jogos

Avaliação de Qualidade e Realismo

  • Testes MOS (Mean Opinion Score) e inteligibilidade
  • Controle de expressividade e prosódia
  • Comparação de latência, fidelidade e realismo

Considerações Éticas, Legais e Governativas Go

  • Riscos de deepfake e uso responsável
  • Consentimento, atribuição e implicações de direitos autorais
  • Regulamentos e políticas organizacionais

Resumo e Próximos Passos

Requisitos

  • Compreensão dos fundamentos de aprendizado de máquina
  • Familiaridade com formatos de arquivos de áudio e ferramentas de edição
  • Habilidades básicas de programação Python

Público-alvo

  • Desenvolvedores e engenheiros de IA interessados em síntese de voz
  • Criadores de conteúdo e tecnólogos de mídia explorando geração de voz
  • Equipes de P&D construindo sistemas de áudio personalizados ou dinâmicos
 14 Horas

Número de participantes


Preço por Participante

Próximas Formações Provisórias

Categorias Relacionadas