Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Visão Geral das Tecnologias Speech Recognition
- História e evolução da reconhecimento de fala
- Modelos acústicos, modelos linguísticos e decodificação
- Arquiteturas modernas: RNNs, transformers e Whisper
Pré-processamento de Áudio e Básicos da Transcrição
- Manipulação de formatos de áudio e taxas de amostragem
- Limpeza, recorte e segmentação do áudio
- Gerando texto a partir de áudio: tempo real vs lote
Prática com Whisper e Outras APIs
- Instalação e uso OpenAI Whisper
- Chamada de APIs em nuvem (Google, Azure) para transcrição
- Comparação de desempenho, latência e custo
Línguas, Acentos e Adaptação ao Domínio
- Trabalhando com múltiplas línguas e acentos
- Vocabulários personalizados e tolerância ao ruído
- Manipulação de linguagem jurídica, médica ou técnica
Formatação da Saída e Integração
- Adicionar marcas de tempo, pontuação e rótulos do locutor
- Exportar para formatos de texto, SRT ou JSON
- Integrando transcrições em aplicativos ou bancos de dados
Laboratórios de Implementação Use Case
- Transcrevendo reuniões, entrevistas ou podcasts
- Sistemas de comando voz-para-texto
- Legendas em tempo real para streams de áudio/vídeo
Avaliação, Limitações e Ética
- Métricas de acurácia e benchmarking de modelos
- Viés e equidade em modelos de fala
- Considerações sobre privacidade e conformidade
Resumo e Próximos Passos
Requisitos
- Compreensão de conceitos gerais de IA e aprendizado de máquina
- Familiaridade com formatos e ferramentas de arquivos de áudio ou mídia
Público-alvo
- Cientistas de dados e engenheiros de IA que trabalham com dados de voz
- Desenvolvedores de software construindo aplicações baseadas em transcrição
- Organizações explorando reconhecimento de fala para automação
14 Horas