Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Visão Geral das Tecnologias de Reconhecimento de Fala
- História e evolução do reconhecimento de fala
- Modelos acústicos, modelos de linguagem e decodificação
- Arquiteturas modernas: RNNs, transformers e Whisper
Pré-processamento de Áudio e Fundamentos da Transcrição
- Manipulação de formatos de áudio e taxas de amostragem
- Limpeza, corte e segmentação de áudio
- Geração de texto a partir de áudio: tempo real versus lote
Prática com Whisper e Outras APIs
- Instalação e uso do OpenAI Whisper
- Chamadas de APIs na nuvem (Google, Azure) para transcrição
- Comparação de desempenho, latência e custo
Idiomas, Sotaques e Adaptação por Domínio
- Trabalho com múltiplos idiomas e sotaques
- Vocabulários personalizados e tolerância a ruídos
- Tratamento de linguagem jurídica, médica ou técnica
Formatação de Saída e Integração
- Adição de marcas de tempo, pontuação e identificação dos locutores
- Exportação para formatos de texto, SRT ou JSON
- Integração das transcrições em aplicativos ou bancos de dados
Laboratórios de Implementação de Casos de Uso
- Transcrição de reuniões, entrevistas ou podcasts
- Sistemas de comandos por voz para texto
- Legendas em tempo real para transmissões de vídeo/áudio
Avaliação, Limitações e Ética
- Métricas de precisão e benchmarking de modelos
- Viés e equidade nos modelos de fala
- Considerações sobre privacidade e conformidade
Resumo e Próximos Passos
Requisitos
- Conhecimento geral sobre conceitos de IA e aprendizado de máquina
- Familiaridade com formatos e ferramentas de arquivos de áudio ou mídia
Público-Alvo
- Cientistas de dados e engenheiros de IA que trabalham com dados de voz
- Desenvolvedores de software criando aplicativos baseados em transcrição
- Organizações que exploram o reconhecimento de fala para automação
14 Horas