Programa do Curso

Visão Geral das Tecnologias de Reconhecimento de Fala

  • História e evolução do reconhecimento de fala
  • Modelos acústicos, modelos de linguagem e decodificação
  • Arquiteturas modernas: RNNs, transformers e Whisper

Pré-processamento de Áudio e Bases da Transcrição

  • Lidando com formatos de áudio e taxas de amostragem
  • Limpeza, recorte e segmentação de áudio
  • Geração de texto a partir do áudio: tempo real vs. lote

Prática com Whisper e Outras APIs

  • Instalação e uso do OpenAI Whisper
  • Chamada de APIs em nuvem (Google, Azure) para transcrição
  • Comparação de desempenho, latência e custo

Idiomas, Sotaques e Adaptação de Domínio

  • Trabalhando com múltiplos idiomas e sotaques
  • Vocabulários personalizados e tolerância ao ruído
  • Lidando com linguagem legal, médica ou técnica

Formatação de Saída e Integração

  • Adicionando carimbos de data e hora, pontuação e rótulos de falantes
  • Exportação para formatos de texto, SRT ou JSON
  • Integração de transcrições em aplicativos ou bancos de dados

Laboratórios de Implementação de Casos de Uso

  • Transcrevendo reuniões, entrevistas ou podcasts
  • Sistemas de comando voz em texto
  • Legendas em tempo real para fluxos de vídeo/áudio

Avaliação, Limitações e Ética

  • Métricas de precisão e benchmarking de modelos
  • Viés e equidade nos modelos de fala
  • Considerações de privacidade e conformidade

Resumo e Próximos Passos

Requisitos

  • Compreensão dos conceitos gerais de IA e aprendizado de máquina
  • Familiaridade com formatos e ferramentas de áudio ou mídia

Público-Alvo

  • Cientistas de dados e engenheiros de IA trabalhando com dados de voz
  • Desenvolvedores de software construindo aplicativos baseados em transcrição
  • Organizações explorando o reconhecimento de fala para automação
 14 Horas

Número de participantes


Preço por participante

Próximas Formações Provisórias

Categorias Relacionadas