Entrar em Contato

Programa do Curso

Visão Geral das Tecnologias de Reconhecimento de Fala

  • História e evolução do reconhecimento de fala
  • Modelos acústicos, modelos de linguagem e decodificação
  • Arquiteturas modernas: RNNs, transformers e Whisper

Pré-processamento de Áudio e Fundamentos da Transcrição

  • Manipulação de formatos de áudio e taxas de amostragem
  • Limpeza, corte e segmentação de áudio
  • Geração de texto a partir de áudio: tempo real versus lote

Prática com Whisper e Outras APIs

  • Instalação e uso do OpenAI Whisper
  • Chamadas de APIs na nuvem (Google, Azure) para transcrição
  • Comparação de desempenho, latência e custo

Idiomas, Sotaques e Adaptação por Domínio

  • Trabalho com múltiplos idiomas e sotaques
  • Vocabulários personalizados e tolerância a ruídos
  • Tratamento de linguagem jurídica, médica ou técnica

Formatação de Saída e Integração

  • Adição de marcas de tempo, pontuação e identificação dos locutores
  • Exportação para formatos de texto, SRT ou JSON
  • Integração das transcrições em aplicativos ou bancos de dados

Laboratórios de Implementação de Casos de Uso

  • Transcrição de reuniões, entrevistas ou podcasts
  • Sistemas de comandos por voz para texto
  • Legendas em tempo real para transmissões de vídeo/áudio

Avaliação, Limitações e Ética

  • Métricas de precisão e benchmarking de modelos
  • Viés e equidade nos modelos de fala
  • Considerações sobre privacidade e conformidade

Resumo e Próximos Passos

Requisitos

  • Conhecimento geral sobre conceitos de IA e aprendizado de máquina
  • Familiaridade com formatos e ferramentas de arquivos de áudio ou mídia

Público-Alvo

  • Cientistas de dados e engenheiros de IA que trabalham com dados de voz
  • Desenvolvedores de software criando aplicativos baseados em transcrição
  • Organizações que exploram o reconhecimento de fala para automação
 14 Horas

Número de participantes


Preço por participante

Próximas Formações Provisórias

Categorias Relacionadas