Programa do Curso

Visão Geral das Tecnologias Speech Recognition

  • História e evolução da reconhecimento de fala
  • Modelos acústicos, modelos linguísticos e decodificação
  • Arquiteturas modernas: RNNs, transformers e Whisper

Pré-processamento de Áudio e Básicos da Transcrição

  • Manipulação de formatos de áudio e taxas de amostragem
  • Limpeza, recorte e segmentação do áudio
  • Gerando texto a partir de áudio: tempo real vs lote

Prática com Whisper e Outras APIs

  • Instalação e uso OpenAI Whisper
  • Chamada de APIs em nuvem (Google, Azure) para transcrição
  • Comparação de desempenho, latência e custo

Línguas, Acentos e Adaptação ao Domínio

  • Trabalhando com múltiplas línguas e acentos
  • Vocabulários personalizados e tolerância ao ruído
  • Manipulação de linguagem jurídica, médica ou técnica

Formatação da Saída e Integração

  • Adicionar marcas de tempo, pontuação e rótulos do locutor
  • Exportar para formatos de texto, SRT ou JSON
  • Integrando transcrições em aplicativos ou bancos de dados

Laboratórios de Implementação Use Case

  • Transcrevendo reuniões, entrevistas ou podcasts
  • Sistemas de comando voz-para-texto
  • Legendas em tempo real para streams de áudio/vídeo

Avaliação, Limitações e Ética

  • Métricas de acurácia e benchmarking de modelos
  • Viés e equidade em modelos de fala
  • Considerações sobre privacidade e conformidade

Resumo e Próximos Passos

Requisitos

  • Compreensão de conceitos gerais de IA e aprendizado de máquina
  • Familiaridade com formatos e ferramentas de arquivos de áudio ou mídia

Público-alvo

  • Cientistas de dados e engenheiros de IA que trabalham com dados de voz
  • Desenvolvedores de software construindo aplicações baseadas em transcrição
  • Organizações explorando reconhecimento de fala para automação
 14 Horas

Número de participantes


Preço por Participante

Próximas Formações Provisórias

Categorias Relacionadas