Programa do Curso

Esboço detalhado do treinamento

  1. Introdução ao NLP
    • Compreendendo o NLP
    • Frameworks de NLP
    • Aplicações comerciais de NLP
    • Raspagem de dados da web
    • Trabalhando com diferentes APIs para recuperar dados textuais
    • Manipulando e armazenando corpora de texto, salvando conteúdo e metadados relevantes
    • Vantagens do uso do curso intensivo Python e NLTK
  2. Compreensão prática de um corpus e conjunto de dados
    • Por que precisamos de um corpus?
    • Análise de corpus
    • Tipos de atributos de dados
    • Diferentes formatos de arquivo para corpora
    • Preparando um conjunto de dados para aplicações NLP
  3. Compreendendo a estrutura das frases
    • Componentes do NLP
    • Compreensão da linguagem natural
    • Análise morfológica - raiz, palavra, token, tags de fala
    • Análise sintática
    • Análise semântica
    • Lidando com ambiguidade
  4. Pré-processamento de dados textuais
    • Corpus - texto bruto
      • Tokenização de frases
      • Stemming para texto bruto
      • Lematização de texto bruto
      • Remoção de stop words
    • Corpus-frases brutas
      • Word tokenização
      • Word lematização
    • Trabalhando com matrizes Term-Doc/Doc-Term
    • Tokenização de texto em n-gramas e frases
    • Pré-processamento prático e personalizado
  5. Análise de dados textuais
    • Características básicas do NLP
      • Parsers e parsing
      • POS tagging e taggers
      • Reconhecimento de entidades nomeadas
      • N-gramas
      • Bolsa de palavras
    • Características estatísticas do NLP
      • Conceitos de álgebra linear para NLP
      • Teoria probabilística para NLP
      • TF-IDF
      • Vetorização
      • Encoders e Decoders
      • Normalização
      • Modelos probabilísticos
    • Engenharia de recursos avançada e NLP
      • Básicos do word2vec
      • Componentes do modelo word2vec
      • Lógica do modelo word2vec
      • Extensão do conceito word2vec
      • Apliação do modelo word2vec
    • Caso de estudo: Aplicação da bolsa de palavras: resumificação automática de texto usando algoritmos simplificados e verdadeiros de Luhn
  6. Clusterização, Classificação de Documentos e Modelagem Tópica
    • Clusterização e mineração de padrões em documentos (clusterização hierárquica, k-means, etc.)
    • Comparando e classificando documentos usando TFIDF, Jaccard e medidas de distância cosseno
    • Classificação de documentos usando Naïve Bayes e Máxima Entropia
  7. Identificando Textos Importantes Elements
    • Redução de dimensionalidade: Análise de Componentes Principais, Decomposição de Valor Singular e fatoração de matriz não negativa
    • Modelagem tópica e recuperação de informações usando Análise Semântica Latente
  8. Extração de Entidades, Sentiment Analysis e Modelagem Tópica Avançada
    • Positivo vs negativo: grau de sentimento
    • Teoria de Resposta ao Item
    • Etiquetagem de classes gramaticais e sua aplicação: encontrar pessoas, lugares e organizações mencionadas no texto
    • Modelagem tópica avançada: Atribuição Dirichlet Latente
  9. Casos de estudo
    • Mineração de avaliações de usuários não estruturadas
    • Classificação e visualização do sentimento em dados de revisão de produtos
    • Mineração de logs de pesquisa para padrões de uso
    • Classificação de texto
    • Modelagem tópica

Requisitos

Conhecimento e conscientização sobre os princípios da PLN (Processamento de Linguagem Natural) e apreciação das aplicações de IA nos negócios

 21 Horas

Número de participantes


Preço por Participante

Declaração de Clientes (1)

Próximas Formações Provisórias

Categorias Relacionadas