Programa do Curso

Introdução a Data Science for Big Data Analytics

    Data Science Visão geral Visão geral do Big Data Estruturas de dados Drivers e complexidades do Big Data Ecossistema de Big Data e uma nova abordagem para análise Tecnologias-chave em processos e problemas de Big Data Data Mining Associação de padrões de mineração Clustering de dados Detecção de outliers Classificação de dados

Introdução ao ciclo de vida da análise de dados

    Descoberta Preparação de dados Planejamento de modelo Construção de modelo Apresentação/Communication de resultados Exercício de operacionalização: Estudo de caso

A partir deste ponto, a maior parte do tempo de treinamento (80%) será gasto em exemplos e exercícios em R e tecnologia de big data relacionada.

Introdução ao R

    Instalando recursos R e Rstudio de objetos da linguagem R em dados R em manipulação de dados R Problemas de big data Exercícios

Começando com Hadoop

    Instalando Hadoop Compreendendo Hadoop modos Arquitetura HDFS MapReduce Hadoop visão geral de projetos relacionados Escrevendo programas em Hadoop Exercícios MapReduce

Integrando R e Hadoop com RHadoop

    Componentes de RHadoop Instalando RHadoop e conectando com Hadoop A arquitetura de RHadoop Hadoop streaming com R Solução de problemas de análise de dados com RHadoop Exercícios

Pré-processamento e preparação de dados

    Etapas de preparação de dados Extração de recursos Limpeza de dados Integração e transformação de dados Redução de dados - amostragem, seleção de subconjunto de recursos, redução de dimensionalidade Discretização e categorização Exercícios e estudo de caso

Métodos exploratórios de análise de dados em R

    Estatística descritiva Análise exploratória de dados Visualização – etapas preliminares Visualização de variável única Exame de múltiplas variáveis Métodos estatísticos de avaliação Teste de hipóteses Exercícios e estudo de caso

Data Visualizations

    Visualizações básicas em pacotes R para visualização de dados ggplot2, lattice, plotly, lattice Formatação de gráficos em R Exercícios de gráficos avançados

Regressão (estimativa de valores futuros)

    Regressão linear Casos de uso Descrição do modelo Diagnóstico Problemas com regressão linear Métodos de encolhimento, regressão de crista, o laço Generalizações e não linearidade Splines de regressão Regressão polinomial local Modelos aditivos generalizados Regressão com RHadoop Exercícios e estudo de caso

Classificação

    Os problemas relacionados à classificação Atualização bayesiana Naïve Bayes Regressão logística K-vizinhos mais próximos Algoritmo de árvores de decisão Redes neurais Máquinas de vetores de suporte Diagnóstico de classificadores Comparação de métodos de classificação Scalaalgoritmos de classificação ble Exercícios e estudo de caso

Avaliando o desempenho e a seleção do modelo

    Viés, variância e complexidade do modelo Precisão versus interpretabilidade Avaliação de classificadores Medidas de desempenho do modelo/algoritmo Método de validação de validação Validação cruzada Ajuste de algoritmos de aprendizado de máquina com pacote circunflexo Visualização do desempenho do modelo com curvas ROC de lucro e elevação

Métodos de conjunto

    Bagging Random Forests Boosting Gradient boosting Exercícios e estudo de caso

Suporta máquinas de vetores para classificação e regressão

    Classificadores de Margem Máxima Suportam Classificadores de Vetores Suportam Máquinas de Vetores SVMs para problemas de classificação SVMs para problemas de regressão
Exercícios e estudo de caso
  • Identificando agrupamentos desconhecidos em um conjunto de dados
  • Seleção de recursos para clustering Algoritmos baseados em representantes: k-means, k-medoids Algoritmos hierárquicos: métodos aglomerativos e divisivos Algoritmos de base probabilística: EM Algoritmos baseados em densidade: DBSCAN, DENCLUE Validação de cluster Conceitos avançados de clustering Clustering com RHadoop Exercícios e estudo de caso

      Descobrindo conexões com Link Analysis

    Conceitos de análise de link Métricas para análise de redes O algoritmo Pagerank Induzido por hiperlink Tópico Search Exercícios de previsão de link e estudo de caso

      Mineração de padrões de associação

    Problemas de modelo de mineração de padrões frequentes Scala problemas de habilidade na mineração de padrões frequentes Algoritmos de força bruta Algoritmo a priori A abordagem de crescimento de FP Avaliação de regras candidatas Aplicações de regras de associação Validação e teste Diagnóstico Regras de associação com R e Hadoop Exercícios e estudo de caso

      Construindo mecanismos de recomendação

    Compreendendo os sistemas de recomendação Técnicas de mineração de dados usadas em sistemas de recomendação Sistemas de recomendação com pacote recommerlab Avaliando os sistemas de recomendação Recomendações com RHadoop Exercício: Construindo mecanismo de recomendação

      Análise de texto

    Etapas de análise de texto Coleta de texto bruto Conjunto de palavras Frequência do termo – Frequência inversa do documento Determinação de sentimentos Exercícios e estudo de caso

      35 horas
     

    Número de participantes


    Inicia

    Termina


    Dates are subject to availability and take place between 09:30 and 16:30.

    Preço por participante

    Declaração de Clientes (2)

    Cursos Relacionados

    Unified Batch and Stream Processing with Apache Beam

      14 horas

    Categorias Relacionadas