Programa do Curso

Introdução aos Modelos Multimodais Mistral

  • Visão geral do Mistral Medium e suas capacidades multimodais
  • Modelos OCR/documento e casos de uso
  • Integração com ecossistemas open-source

Pipelines de OCR e Visão

  • Fundamentos do OCR com modelos Mistral
  • Pré-processamento de imagens e documentos digitalizados
  • Extração de texto estruturado a partir de imagens

Compreensão de Documentos

  • Design de pipelines NLP para documentos
  • Reconhecimento de entidades, resumo e classificação
  • Vinculação cross-modal de dados de texto e visão

Sistemas de Pesquisa e Aplicações de Conhecimento

  • Sistemas de pesquisa de visão-texto
  • Criação de pesquisa semântica com saídas OCR
  • Repositórios de documentos empresariais

Aplicações Assistivas e Interativas

  • Design de UI para assistentes multimodais
  • Aplicações de acessibilidade (por exemplo, visão-texto)
  • Ferramentas de produtividade do mundo real

Desempenho e Otimização

  • Escalação de pipelines multimodais
  • Ajuste de desempenho de inferência
  • Avaliação de trade-offs entre precisão e eficiência

Estudos de Caso e Direções Futuras

  • Aplicações industriais da IA multimodal
  • Tendências de pesquisa em OCR e AI de documentos
  • Considerações de IA responsável nas tarefas de visão-texto

Resumo e Próximos Passos

Requisitos

  • Compreensão dos conceitos de processamento de linguagem natural
  • Experiência com Python e frameworks de ML
  • Familiaridade com os fundamentos de visão computacional

Público-Alvo

  • Equipes de produto
  • Pesquisadores de ML
  • Engenheiros de ML aplicados
 14 Horas

Número de participantes


Preço por Participante

Próximas Formações Provisórias

Categorias Relacionadas