Programa do Curso

Cada sessão dura 2 horas

Dia-1: Sessão -1: Visão Geral dos Negócios do Big Data para Agências Governamentais

  • Estudos de caso da NIH, DoE
  • Taxa de adaptação ao Big Data em Agências Governamentais e como estão alinhando suas futuras operações com a Análise Preditiva do Big Data
  • Aplicações em larga escala no DoD, NSA, IRS, USDA etc.
  • Integração de Big Data com dados legados
  • Entendimento básico das tecnologias habilitadoras na análise preditiva
  • Integração de dados e visualização em painéis de controle
  • Gerenciamento de fraudes
  • Geração de regras de negócio/detecção de fraudes
  • Detecção e perfilamento de ameaças
  • Análise custo-benefício para implementação do Big Data

Dia-1: Sessão-2 : Introdução ao Big Data-1

  • Principais características do Big Data — volume, variedade, velocidade e veracidade. Arquitetura MPP para volume.
  • Data Warehouses — esquema estático, conjunto de dados que evolui lentamente
  • Bancos de Dados MPP como Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Soluções baseadas em Hadoop — sem condições de estrutura para o conjunto de dados.
  • Padrão típico: HDFS, MapReduce (processamento), recuperação do HDFS
  • Lote — adequado para análise/não interativa
  • Volume: dados de streaming CEP
  • Opções típicas — produtos CEP (por exemplo, Infostreams, Apama, MarkLogic etc)
  • Menos prontos para produção — Storm/S4
  • Bancos de Dados NoSQL — (colunar e chave-valor): melhor adaptado como complemento analítico ao data warehouse/banco de dados

Dia-1: Sessão -3 : Introdução ao Big Data-2

Soluções NoSQL

  • Armazenamento de Chave-Valor (KV Store) — Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Armazenamento de Chave-Valor (KV Store) — Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Armazenamento de Chave-Valor Hierárquico (KV Store) — GT.m, Cache
  • Armazenamento de Chave-Valor Ordenado (KV Store) — TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Cache de Chave-Valor (KV Cache) — Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Armazenamento de Tuplas (Tuple Store) — Gigaspaces, Coord, Apache River
  • Banco de Dados Objeto (Object Database) — ZopeDB, DB40, Shoal
  • Armazenamento de Documentos (Document Store) — CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Armazenamento de Colunas Largas (Wide Columnar Store) — BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de Dados: Introdução à Questão da Limpeza de Dados no Big Data

  • RDBMS — estrutura/esquema estático, não promove um ambiente ágil e exploratório.
  • NoSQL — semi-estruturado, com estrutura suficiente para armazenar dados sem esquema exato antes de armazená-los
  • Questões de limpeza de dados

Dia-1: Sessão-4 : Introdução ao Big Data-3: Hadoop

  • Quando selecionar Hadoop?
  • ESTRUTURADO — data warehouses/bancos de dados empresariais podem armazenar grandes volumes de dados (a um custo), mas impõem estrutura (não é bom para exploração ativa)
  • DADOS SEMI-ESTRUTURADOS — difícil de fazer com soluções tradicionais (DW/DB)
  • Armazenamento de dados = esforço HUGO e estático mesmo após a implementação
  • Para variedade e volume de dados, processados em hardware commodity — HADOOP
  • Hardware commodity necessário para criar um cluster Hadoop

Introdução ao MapReduce /HDFS

  • MapReduce — distribuição de computação em múltiplos servidores
  • HDFS — torna os dados disponíveis localmente para o processo de computação (com redundância)
  • Dados — podem ser não estruturados/sem esquema (diferentemente do RDBMS)
  • Responsabilidade do desenvolvedor de dar sentido aos dados
  • Programação MapReduce = trabalhando com Java (prós/contras), carregamento manual de dados no HDFS

Dia-2: Sessão-1: Ecossistema do Big Data — Construindo ETL do Big Data: universo das ferramentas de Big Data — qual usar e quando?

  • Hadoop vs. outras soluções NoSQL
  • Para acesso interativo e aleatório a dados
  • Hbase (banco de dados orientado por colunas) em cima do Hadoop
  • Acesso aleatório a dados mas com restrições impostas (máximo 1 PB)
  • Não é bom para análise ad-hoc, bom para logs, contagem, séries temporais
  • Sqoop — Importação de bancos de dados para Hive ou HDFS (acesso JDBC/ODBC)
  • Flume — Stream de dados (por exemplo, logs) para o HDFS

Dia-2: Sessão-2: Sistema de Gerenciamento do Big Data

  • Partes móveis, nós de computação iniciam/falham: ZooKeeper — Para serviços de configuração/coordenação/nomeação
  • Pipeline/fluxo complexo: Oozie — gerenciamento de fluxo, dependências, encadeamento em série
  • Implantação, configuração, gerenciamento de cluster, upgrade etc (adm. do sistema): Ambari
  • Em Nuvem: Whirr

Dia-2: Sessão-3: Análise Preditiva em Inteligência de Negócios -1: Técnicas Fundamentais e BI Baseado em Aprendizado de Máquina:

  • Introdução ao aprendizado de máquina
  • Técnicas de classificação de aprendizado
  • Previsão Bayesiana — preparação do arquivo de treinamento
  • Máquina de Vetores de Suporte (SVM)
  • KNN p-Álgebra e mineração vertical
  • Rede Neural
  • Problema de grandes variáveis do Big Data — Floresta Aleatória (RF)
  • Problema de automação do Big Data — Ensemble Multi-modelo RF
  • Automação através do Soft10-M
  • Ferramenta analítica de texto — Treeminer
  • Aprendizado ágil
  • Aprendizado baseado em agentes
  • Aprendizado distribuído
  • Introdução a ferramentas de código aberto para análise preditiva: R, Rapidminer, Mahout

Dia-2: Sessão-4: Ecossistema de Análise Preditiva -2: Problemas Comuns de Análise Preditiva no Governo

  • Análise de insights
  • Análise visual
  • Análise preditiva estruturada
  • Análise preditiva não estruturada
  • Perfilamento de ameaças/fraudes/fornecedores
  • Motor de recomendação
  • Detecção de padrões
  • Descoberta de regras/cenários — falha, fraude, otimização
  • Descoberta da causa raiz
  • Análise de sentimento
  • Análise de CRM
  • Análise de rede
  • Análise de texto
  • Revisão assistida por tecnologia (TAR)
  • Análise de fraude
  • Análise em tempo real

Dia-3: Sessão-1: Análise em Tempo Real e Escalável sobre Hadoop

  • Por que algoritmos de análise comuns falham no Hadoop/HDFS
  • Apache Hama — para computação distribuída síncrona em lote
  • Apache SPARK — para computação em cluster para análise em tempo real
  • CMU Graphics Lab2 — abordagem assíncrona baseada em gráficos para computação distribuída
  • Abordagem p-Álgebra KNN do Treeminer para reduzir o custo de hardware da operação

Dia-3: Sessão-2: Ferramentas para eDiscovery e Forense

  • eDiscovery sobre Big Data vs. dados legados — uma comparação de custo e desempenho
  • Codificação preditiva e revisão assistida por tecnologia (TAR)
  • Demonstração ao vivo de um produto TAR (vMiner) para entender como o TAR funciona para descobertas mais rápidas
  • Indexação mais rápida através do HDFS — velocidade dos dados
  • Processamento de linguagem natural (NLP) — diversas técnicas e produtos de código aberto
  • eDiscovery em línguas estrangeiras — tecnologia para processamento de línguas estrangeiras

Dia-3: Sessão-3: BI do Big Data para Segurança Cibernética — Entendendo visões completas de 360 graus da coleta rápida de dados à identificação de ameaças

  • Entendendo os fundamentos da análise de segurança — superfície de ataque, configuração de segurança incorreta, defesas do host
  • Infraestrutura de rede/grande datapipe / ETL de resposta para análise em tempo real
  • Prescritivo vs preditivo — regras fixas baseadas em metadados vs descoberta automática de regras de ameaças

Dia-3: Sessão-4: Big Data no USDA: Aplicações na Agricultura

  • Introdução ao IoT (Internet das Coisas) para a agricultura — dados de sensores do Big Data e controle
  • Introdução à imagens satelitais e suas aplicações na agricultura
  • Integração de dados de sensores e imagens para fertilidade do solo, recomendações de cultivo e previsão
  • Seguro agrícola e Big Data
  • Previsão de perdas de culturas

Dia-4: Sessão-1: Prevenção de Fraudes com BI do Big Data no Governo — Análise de Fraude:

  • Classificação básica da análise de fraudes — baseada em regras vs preditiva
  • Aprendizado de máquina supervisionado vs não supervisionado para detecção de padrões de fraude
  • Fraudes de fornecedores/cobranças excessivas por projetos
  • Fraudes do Medicare e Medicaid — técnicas de detecção de fraudes para processamento de sinistros
  • Fraudes em reembolso de viagens
  • Fraudes de restituição do IRS
  • Estudos de caso e demonstrações ao vivo serão fornecidos sempre que os dados estiverem disponíveis.

Dia-4: Sessão-2: Análise de Mídia Social — Coleta e análise de inteligência

  • API ETL do Big Data para extrair dados da mídia social
  • Texto, imagem, metadados e vídeo
  • Análise de sentimento a partir dos feeds da mídia social
  • Filtragem contextual e não contextual dos feeds da mídia social
  • Painel de Mídia Social para integrar diversas plataformas de mídia social
  • Perfilamento automático de perfis de mídia social
  • Demonstração ao vivo de cada análise será dada através da ferramenta Treeminer.

Dia-4: Sessão-3: Análise do Big Data em processamento de imagens e feeds de vídeo

  • Técnicas de armazenamento de imagens no Big Data — solução de armazenamento para dados que excedem petabytes
  • LTFS e LTO
  • GPFS-LTFS (solução de armazenamento em camadas para grandes volumes de imagens)
  • Fundamentos da análise de imagens
  • Reconhecimento de objetos
  • Segmentação de imagens
  • Rastreamento de movimentos
  • Reconstrução de imagem 3-D

Dia-4: Sessão-4: Aplicações do Big Data no NIH:

  • Áreas emergentes de bioinformática
  • Meta-gênomica e problemas de mineração de dados do Big Data
  • Análise preditiva do Big Data para farmacogenômica, metabólomica e proteômica
  • Big Data no processo downstream de genômica
  • Aplicações da análise preditiva do Big Data na saúde pública

Painel do Big Data para acessibilidade rápida e exibição de dados diversos:

  • Integração da plataforma de aplicativos existente com o painel do Big Data
  • Gerenciamento do Big Data
  • Estudo de caso do Painel do Big Data: Tableau e Pentaho
  • Usar aplicativos de Big Data para fornecer serviços baseados em localização no governo
  • Sistema de rastreamento e gerenciamento

Dia-5: Sessão-1: Como justificar a implementação do BI do Big Data dentro de uma organização:

  • Definindo ROI para a implementação do Big Data
  • Estudos de caso para economizar tempo dos analistas na coleta e preparação de dados — aumento da produtividade
  • Estudos de caso de ganho de receita pela economia no custo do banco de dados licenciado
  • Ganho de receita por serviços baseados em localização
  • Economia por prevenção de fraudes
  • Abordagem integrada de planilha para calcular gastos aproximados vs. ganhos/economias de receita da implementação do Big Data.

Dia-5: Sessão-2: Procedimento passo a passo para substituir o sistema de dados legados pelo sistema de Big Data:

  • Entendendo um roteiro prático de migração do Big Data
  • Informações importantes necessárias antes de arquitetar uma implementação de Big Data
  • Diferentes maneiras de calcular volume, velocidade, variedade e veracidade dos dados
  • Como estimar o crescimento dos dados
  • Estudos de caso

Dia-5: Sessão-4: Revisão de fornecedores e produtos do Big Data. Sessão de Perguntas e Respostas:

  • Accenture
  • APTEAN (anteriormente CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (parte da EMC)

Requisitos

  • Conhecimento básico de operações de negócios e sistemas de dados governamentais em seu domínio
  • Entendimento básico de SQL/Oracle ou banco de dados relacional
  • Conhecimento básico de Estatística (no nível de planilhas)
 35 Horas

Número de participantes


Preço por Participante

Declaração de Clientes (1)

Próximas Formações Provisórias

Categorias Relacionadas