Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Cada sessão dura 2 horas
Dia-1: Sessão -1: Visão Geral dos Negócios do Big Data para Agências Governamentais
- Estudos de caso da NIH, DoE
- Taxa de adaptação ao Big Data em Agências Governamentais e como estão alinhando suas futuras operações com a Análise Preditiva do Big Data
- Aplicações em larga escala no DoD, NSA, IRS, USDA etc.
- Integração de Big Data com dados legados
- Entendimento básico das tecnologias habilitadoras na análise preditiva
- Integração de dados e visualização em painéis de controle
- Gerenciamento de fraudes
- Geração de regras de negócio/detecção de fraudes
- Detecção e perfilamento de ameaças
- Análise custo-benefício para implementação do Big Data
Dia-1: Sessão-2 : Introdução ao Big Data-1
- Principais características do Big Data — volume, variedade, velocidade e veracidade. Arquitetura MPP para volume.
- Data Warehouses — esquema estático, conjunto de dados que evolui lentamente
- Bancos de Dados MPP como Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Soluções baseadas em Hadoop — sem condições de estrutura para o conjunto de dados.
- Padrão típico: HDFS, MapReduce (processamento), recuperação do HDFS
- Lote — adequado para análise/não interativa
- Volume: dados de streaming CEP
- Opções típicas — produtos CEP (por exemplo, Infostreams, Apama, MarkLogic etc)
- Menos prontos para produção — Storm/S4
- Bancos de Dados NoSQL — (colunar e chave-valor): melhor adaptado como complemento analítico ao data warehouse/banco de dados
Dia-1: Sessão -3 : Introdução ao Big Data-2
Soluções NoSQL
- Armazenamento de Chave-Valor (KV Store) — Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Armazenamento de Chave-Valor (KV Store) — Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Armazenamento de Chave-Valor Hierárquico (KV Store) — GT.m, Cache
- Armazenamento de Chave-Valor Ordenado (KV Store) — TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Cache de Chave-Valor (KV Cache) — Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Armazenamento de Tuplas (Tuple Store) — Gigaspaces, Coord, Apache River
- Banco de Dados Objeto (Object Database) — ZopeDB, DB40, Shoal
- Armazenamento de Documentos (Document Store) — CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Armazenamento de Colunas Largas (Wide Columnar Store) — BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de Dados: Introdução à Questão da Limpeza de Dados no Big Data
- RDBMS — estrutura/esquema estático, não promove um ambiente ágil e exploratório.
- NoSQL — semi-estruturado, com estrutura suficiente para armazenar dados sem esquema exato antes de armazená-los
- Questões de limpeza de dados
Dia-1: Sessão-4 : Introdução ao Big Data-3: Hadoop
- Quando selecionar Hadoop?
- ESTRUTURADO — data warehouses/bancos de dados empresariais podem armazenar grandes volumes de dados (a um custo), mas impõem estrutura (não é bom para exploração ativa)
- DADOS SEMI-ESTRUTURADOS — difícil de fazer com soluções tradicionais (DW/DB)
- Armazenamento de dados = esforço HUGO e estático mesmo após a implementação
- Para variedade e volume de dados, processados em hardware commodity — HADOOP
- Hardware commodity necessário para criar um cluster Hadoop
Introdução ao MapReduce /HDFS
- MapReduce — distribuição de computação em múltiplos servidores
- HDFS — torna os dados disponíveis localmente para o processo de computação (com redundância)
- Dados — podem ser não estruturados/sem esquema (diferentemente do RDBMS)
- Responsabilidade do desenvolvedor de dar sentido aos dados
- Programação MapReduce = trabalhando com Java (prós/contras), carregamento manual de dados no HDFS
Dia-2: Sessão-1: Ecossistema do Big Data — Construindo ETL do Big Data: universo das ferramentas de Big Data — qual usar e quando?
- Hadoop vs. outras soluções NoSQL
- Para acesso interativo e aleatório a dados
- Hbase (banco de dados orientado por colunas) em cima do Hadoop
- Acesso aleatório a dados mas com restrições impostas (máximo 1 PB)
- Não é bom para análise ad-hoc, bom para logs, contagem, séries temporais
- Sqoop — Importação de bancos de dados para Hive ou HDFS (acesso JDBC/ODBC)
- Flume — Stream de dados (por exemplo, logs) para o HDFS
Dia-2: Sessão-2: Sistema de Gerenciamento do Big Data
- Partes móveis, nós de computação iniciam/falham: ZooKeeper — Para serviços de configuração/coordenação/nomeação
- Pipeline/fluxo complexo: Oozie — gerenciamento de fluxo, dependências, encadeamento em série
- Implantação, configuração, gerenciamento de cluster, upgrade etc (adm. do sistema): Ambari
- Em Nuvem: Whirr
Dia-2: Sessão-3: Análise Preditiva em Inteligência de Negócios -1: Técnicas Fundamentais e BI Baseado em Aprendizado de Máquina:
- Introdução ao aprendizado de máquina
- Técnicas de classificação de aprendizado
- Previsão Bayesiana — preparação do arquivo de treinamento
- Máquina de Vetores de Suporte (SVM)
- KNN p-Álgebra e mineração vertical
- Rede Neural
- Problema de grandes variáveis do Big Data — Floresta Aleatória (RF)
- Problema de automação do Big Data — Ensemble Multi-modelo RF
- Automação através do Soft10-M
- Ferramenta analítica de texto — Treeminer
- Aprendizado ágil
- Aprendizado baseado em agentes
- Aprendizado distribuído
- Introdução a ferramentas de código aberto para análise preditiva: R, Rapidminer, Mahout
Dia-2: Sessão-4: Ecossistema de Análise Preditiva -2: Problemas Comuns de Análise Preditiva no Governo
- Análise de insights
- Análise visual
- Análise preditiva estruturada
- Análise preditiva não estruturada
- Perfilamento de ameaças/fraudes/fornecedores
- Motor de recomendação
- Detecção de padrões
- Descoberta de regras/cenários — falha, fraude, otimização
- Descoberta da causa raiz
- Análise de sentimento
- Análise de CRM
- Análise de rede
- Análise de texto
- Revisão assistida por tecnologia (TAR)
- Análise de fraude
- Análise em tempo real
Dia-3: Sessão-1: Análise em Tempo Real e Escalável sobre Hadoop
- Por que algoritmos de análise comuns falham no Hadoop/HDFS
- Apache Hama — para computação distribuída síncrona em lote
- Apache SPARK — para computação em cluster para análise em tempo real
- CMU Graphics Lab2 — abordagem assíncrona baseada em gráficos para computação distribuída
- Abordagem p-Álgebra KNN do Treeminer para reduzir o custo de hardware da operação
Dia-3: Sessão-2: Ferramentas para eDiscovery e Forense
- eDiscovery sobre Big Data vs. dados legados — uma comparação de custo e desempenho
- Codificação preditiva e revisão assistida por tecnologia (TAR)
- Demonstração ao vivo de um produto TAR (vMiner) para entender como o TAR funciona para descobertas mais rápidas
- Indexação mais rápida através do HDFS — velocidade dos dados
- Processamento de linguagem natural (NLP) — diversas técnicas e produtos de código aberto
- eDiscovery em línguas estrangeiras — tecnologia para processamento de línguas estrangeiras
Dia-3: Sessão-3: BI do Big Data para Segurança Cibernética — Entendendo visões completas de 360 graus da coleta rápida de dados à identificação de ameaças
- Entendendo os fundamentos da análise de segurança — superfície de ataque, configuração de segurança incorreta, defesas do host
- Infraestrutura de rede/grande datapipe / ETL de resposta para análise em tempo real
- Prescritivo vs preditivo — regras fixas baseadas em metadados vs descoberta automática de regras de ameaças
Dia-3: Sessão-4: Big Data no USDA: Aplicações na Agricultura
- Introdução ao IoT (Internet das Coisas) para a agricultura — dados de sensores do Big Data e controle
- Introdução à imagens satelitais e suas aplicações na agricultura
- Integração de dados de sensores e imagens para fertilidade do solo, recomendações de cultivo e previsão
- Seguro agrícola e Big Data
- Previsão de perdas de culturas
Dia-4: Sessão-1: Prevenção de Fraudes com BI do Big Data no Governo — Análise de Fraude:
- Classificação básica da análise de fraudes — baseada em regras vs preditiva
- Aprendizado de máquina supervisionado vs não supervisionado para detecção de padrões de fraude
- Fraudes de fornecedores/cobranças excessivas por projetos
- Fraudes do Medicare e Medicaid — técnicas de detecção de fraudes para processamento de sinistros
- Fraudes em reembolso de viagens
- Fraudes de restituição do IRS
- Estudos de caso e demonstrações ao vivo serão fornecidos sempre que os dados estiverem disponíveis.
Dia-4: Sessão-2: Análise de Mídia Social — Coleta e análise de inteligência
- API ETL do Big Data para extrair dados da mídia social
- Texto, imagem, metadados e vídeo
- Análise de sentimento a partir dos feeds da mídia social
- Filtragem contextual e não contextual dos feeds da mídia social
- Painel de Mídia Social para integrar diversas plataformas de mídia social
- Perfilamento automático de perfis de mídia social
- Demonstração ao vivo de cada análise será dada através da ferramenta Treeminer.
Dia-4: Sessão-3: Análise do Big Data em processamento de imagens e feeds de vídeo
- Técnicas de armazenamento de imagens no Big Data — solução de armazenamento para dados que excedem petabytes
- LTFS e LTO
- GPFS-LTFS (solução de armazenamento em camadas para grandes volumes de imagens)
- Fundamentos da análise de imagens
- Reconhecimento de objetos
- Segmentação de imagens
- Rastreamento de movimentos
- Reconstrução de imagem 3-D
Dia-4: Sessão-4: Aplicações do Big Data no NIH:
- Áreas emergentes de bioinformática
- Meta-gênomica e problemas de mineração de dados do Big Data
- Análise preditiva do Big Data para farmacogenômica, metabólomica e proteômica
- Big Data no processo downstream de genômica
- Aplicações da análise preditiva do Big Data na saúde pública
Painel do Big Data para acessibilidade rápida e exibição de dados diversos:
- Integração da plataforma de aplicativos existente com o painel do Big Data
- Gerenciamento do Big Data
- Estudo de caso do Painel do Big Data: Tableau e Pentaho
- Usar aplicativos de Big Data para fornecer serviços baseados em localização no governo
- Sistema de rastreamento e gerenciamento
Dia-5: Sessão-1: Como justificar a implementação do BI do Big Data dentro de uma organização:
- Definindo ROI para a implementação do Big Data
- Estudos de caso para economizar tempo dos analistas na coleta e preparação de dados — aumento da produtividade
- Estudos de caso de ganho de receita pela economia no custo do banco de dados licenciado
- Ganho de receita por serviços baseados em localização
- Economia por prevenção de fraudes
- Abordagem integrada de planilha para calcular gastos aproximados vs. ganhos/economias de receita da implementação do Big Data.
Dia-5: Sessão-2: Procedimento passo a passo para substituir o sistema de dados legados pelo sistema de Big Data:
- Entendendo um roteiro prático de migração do Big Data
- Informações importantes necessárias antes de arquitetar uma implementação de Big Data
- Diferentes maneiras de calcular volume, velocidade, variedade e veracidade dos dados
- Como estimar o crescimento dos dados
- Estudos de caso
Dia-5: Sessão-4: Revisão de fornecedores e produtos do Big Data. Sessão de Perguntas e Respostas:
- Accenture
- APTEAN (anteriormente CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anteriormente 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (parte da EMC)
Requisitos
- Conhecimento básico de operações de negócios e sistemas de dados governamentais em seu domínio
- Entendimento básico de SQL/Oracle ou banco de dados relacional
- Conhecimento básico de Estatística (no nível de planilhas)
35 Horas
Declaração de Clientes (1)
A capacidade do instrutor de alinhar o curso com os requisitos da organização, e não apenas oferecer o curso por mera formalidade.
Masilonyane - Revenue Services Lesotho
Curso - Big Data Business Intelligence for Govt. Agencies
Máquina Traduzida