Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Introdução à Síntese de Fala e Clonagem de Voz
- Visão geral da síntese de texto para fala (TTS) e da síntese neural de voz
- Clonagem de voz vs. geração de fala: casos de uso e limites
- Modelos-chave: Tacotron, WaveNet, FastSpeech, VITS
Trabalhando com Plataformas Comerciais
- Utilização do ElevenLabs e Resemble AI
- Criação, clonagem e edição de vozes
- Acesso via API e fluxos de trabalho de texto para fala
Desenvolvimento com Ferramentas de Código Aberto
- Instalação e configuração do Coqui TTS
- Treinamento de vozes personalizadas e gerenciamento de conjuntos de dados
- Geração de fala com controle fino (tom, velocidade, emoção)
Preparação de Dados e Gerenciamento de Conjuntos de Voz
- Coleta e limpeza de amostras de voz
- Segmentação, rotulagem e alinhamento de transcrições
- Fontes éticas e consentimento para uso da voz
Integração de Aplicações
- Incorporação do TTS em websites e aplicações
- Criação de sistemas IVR e robôs interativos
- Geração de diálogos sintéticos para vídeos e jogos
Avaliação de Qualidade e Realismo
- MOS (Mean Opinion Score) e testes de inteligibilidade
- Controle da expressividade e prosódia
- Comparação de latência, fidelidade e realismo
Considerações Éticas, Legais e de Governança
- Riscos relacionados a deepfakes e uso responsável
- Implicações de consentimento, atribuição e direitos autorais
- Regulamentações e políticas organizacionais
Resumo e Próximos Passos
Requisitos
- Compreensão dos fundamentos de aprendizado de máquina
- Familiaridade com formatos de arquivos de áudio e ferramentas de edição
- Conhecimento básico de programação em Python
Público-Alvo
- Desenvolvedores e engenheiros de IA interessados em síntese de fala
- Criadores de conteúdo e tecnólogos de mídia explorando a geração de voz
- Equipes de P&D construindo sistemas de áudio personalizados ou dinâmicos
14 Horas