Entrar em Contato

Programa do Curso

Ementa detalhada do curso

  1. Introdução ao PLN
    • Compreendendo o PLN
    • Ferramentas (Frameworks) para PLN
    • Aplicações comerciais do PLN
    • Coleta de dados da web (Web scraping)
    • Uso de diversas APIs para recuperar dados textuais
    • Manipulação e armazenamento de corpora de textos, salvando conteúdo e metadados relevantes
    • Vantagens do uso do Python e aula introdutória sobre NLTK
  2. Compreensão prática de um Corpora e de um Conjunto de Dados
    • Por que precisamos de um corpora?
    • Análise de corpora
    • Tipos de atributos de dados
    • Diferentes formatos de arquivo para corpora
    • Preparação de um conjunto de dados para aplicações de PLN
  3. Compreendendo a Estrutura das Frases
    • Componentes do PLN
    • Compreensão da linguagem natural
    • Análise morfológica: raiz da palavra, palavra, token e tags gramaticais
    • Análise sintática
    • Análise semântica
    • Lidando com ambiguidade
  4. Pré-processamento de dados textuais
    • Corpora – Texto bruto
      • Tokenização de sentenças
      • Stemming para texto bruto
      • Lematização de texto bruto
      • Remoção de palavras de parada (stop words)
    • Corpora – Sentenças brutas
      • Tokenização de palavras
      • Lematização de palavras
    • Trabalhando com matrizes Termo-Documento / Documento-Termo
    • Tokenização de textos em n-grams e sentenças
    • Pré-processamento prático e personalizado
  5. Análise de Dados Textuais
    • Características básicas do PLN
      • Analisadores e análise sintática (parsing)
      • Tagging de partes da fala (POS tagging) e taggers
      • Reconhecimento de entidades nomeadas
      • N-grams
      • Modelo de saca de palavras (Bag of words)
    • Características estatísticas do PLN
      • Conceitos de Álgebra Linear para PLN
      • Teoria Probabilística para PLN
      • TF-IDF
      • Vetorização
      • Codificadores (Encoders) e Decodificadores (Decoders)
      • Normalização
      • Modelos Probabilísticos
    • Engenharia avançada de características e PLN
      • Introdução ao word2vec
      • Componentes do modelo word2vec
      • Lógica do modelo word2vec
      • Extensão do conceito de word2vec
      • Aplicação do modelo word2vec
    • Estudo de caso: Aplicação do modelo de saca de palavras: sumarização automática de textos usando algoritmos simplificados e reais de Luhn
  6. Clustering de Documentos, Classificação e Modelagem de Tópicos
    • Clustering de documentos e mineração de padrões (clustering hierárquico, k-means, clustering, etc.)
    • Comparação e classificação de documentos usando medidas de distância TFIDF, Jaccard e cosseno
    • Classificação de documentos usando Bayes Ingênuo (Naïve Bayes) e Máxima Entropia
  7. Identificação de Elementos Textuais Importantes
    • Redução de dimensionalidade: Análise de Componentes Principais, Decomposição em Valores Singulares, Fatoração Matricial Não Negativa
    • Modelagem de tópicos e recuperação de informações usando Análise Semântica Latente
  8. Extração de Entidades, Análise de Sentimentos e Modelagem Avançada de Tópicos
    • Positivo vs. negativo: grau de sentimento
    • Teoria de Resposta ao Item
    • Tagging de partes da fala e sua aplicação: identificação de pessoas, lugares e organizações mencionadas no texto
    • Modelagem avançada de tópicos: Alocação Dirichlet Latente
  9. Estudos de caso
    • Mineração de avaliações não estruturadas de usuários
    • Classificação e visualização de sentimentos de dados de avaliação de produtos
    • Mineração de registros de busca para padrões de uso
    • Classificação de textos
    • Modelagem de tópicos

Requisitos

Conhecimento e compreensão dos princípios do PLN e apreço pela aplicação da IA nos negócios.

 21 Horas

Número de participantes


Preço por participante

Testemunhos de Clientes (1)

Próximas Formações Provisórias

Categorias Relacionadas