Programa do Curso
=====
Dia 01
=====
Visão geral de Big Data Business Inteligência para Análise de Inteligência Criminal
- Estudos de caso da aplicação da lei - Policiamento Preditivo
- Big Data taxa de adoção nas agências de aplicação da lei e como elas estão alinhando suas operações futuras em torno de Big Data Predictive Analytics
- Soluções tecnológicas emergentes, como sensores de tiro, vídeo de vigilância e mídias sociais
- Usando Big Data tecnologia para mitigar a sobrecarga de informações
- Interface Big Data com dados legados
- Compreensão básica de tecnologias habilitadoras em análise preditiva
- Data Integration e visualização do painel
- Gestão de fraude
- Business Regras e detecção de fraude
- Detecção e criação de perfil de ameaças
- Análise de custo-benefício para Big Data implementação
Introdução a Big Data
- Principais características de Big Data - Volume, Variedade, Velocidade e Veracidade.
- Arquitetura MPP (processamento massivamente paralelo)
- Data Warehouses – esquema estático, conjunto de dados em evolução lenta
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Soluções Baseadas – sem condições na estrutura do conjunto de dados.
- Padrão típico: HDFS, MapReduce (crunch), recuperação do HDFS
- Apache Spark para processamento de fluxo
- Lote adequado para análises/não interativas
- Volume: dados de streaming CEP
- Escolhas típicas – produtos CEP (por exemplo, Infostreams, Apama, MarkLogic etc.)
- Menos produção pronta – Storm/S4
- NoSQL Databases – (colunar e valor-chave): Mais adequado como complemento analítico para data warehouse/banco de dados
NoSQL soluções
- Armazenamento KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Loja KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Loja KV (hierárquica) - GT.m, Cache
- Loja KV (encomendada) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Accord
- Cache KV - Memcached, Repcached, Coerência, Infinispan, EXtremeScale, JBossCache, Velocidade, Terracoqua
- Loja Tupla - Gigaspaces, Coord, Rio Apache
- Objeto Database - ZopeDB, DB40, Shoal
- Armazenamento de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Amplo armazenamento colunar - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de dados: introdução a Data Cleaning questões em Big Data
- RDBMS – estrutura/esquema estático, não promove ambiente ágil e exploratório.
- NoSQL – estrutura semiestruturada, suficiente para armazenar dados sem esquema exato antes de armazenar os dados
- Problemas de limpeza de dados
Hadoop
- Quando selecionar Hadoop?
- ESTRUTURADO - Data warehouses/bancos de dados corporativos podem armazenar dados massivos (a um custo), mas impor estrutura (não é bom para exploração ativa)
- Dados SEMI ESTRUTURADOS – difíceis de realizar utilizando soluções tradicionais (DW/DB)
- Dados de armazenamento = ENORME esforço e estática mesmo após a implementação
- Para variedade e volume de dados, processados em hardware comum – HADOOP
- H/W de commodities necessário para criar um Hadoop Cluster
Introdução à redução de mapa/HDFS
- MapReduce – distribua computação em vários servidores
- HDFS – disponibiliza dados localmente para o processo de computação (com redundância)
- Dados – podem ser não estruturados/sem esquema (ao contrário do RDBMS)
- Responsabilidade do desenvolvedor em dar sentido aos dados
- Programming MapReduce = trabalhando com Java (prós/contras), carregando dados manualmente no HDFS
=====
Dia 02
=====
Big Data Ecossistema – Construindo Big Data ETL (Extrair, Transformar, Carregar) – Quais Big Data Ferramentas usar e quando?
- Hadoop vs. Outras NoSQL soluções
- Para acesso interativo e aleatório aos dados
- Hbase (banco de dados orientado a colunas) em cima de Hadoop
- Acesso aleatório aos dados, mas restrições impostas (máx. 1 PB)
- Não é bom para análises ad-hoc, é bom para registro, contagem e séries temporais
- Sqoop - Importação de bancos de dados para Hive ou HDFS (acesso JDBC/ODBC)
- Flume – Transmita dados (por exemplo, dados de log) para HDFS
Big Data Management Sistema
- Partes móveis, nós de computação iniciam/falham: ZooKeeper - Para serviços de configuração/coordenação/nomeação
- Pipeline/fluxo de trabalho complexo: Oozie – gerencie fluxo de trabalho, dependências, ligação em série
- Implantar, configurar, gerenciamento de cluster, atualizar etc (administrador de sistema): Ambari
- Na nuvem: Whirr
Predictive Analytics - Técnicas Fundamentais e Machine Learning baseadas em Business Inteligência
- Introdução a Machine Learning
- Aprendendo técnicas de classificação
- Predição Bayesiana - preparando um arquivo de treinamento
- Máquina de vetores de suporte
- Álgebra KNN p-Tree e mineração vertical
- Neural Networks
- Big Data problema de grande variável - floresta aleatória (RF)
- Big Data Problema de automação – conjunto multimodelo RF
- Automação através do Soft10-M
- Ferramenta de análise de texto-Treeminer
- Agile aprendendo
- Aprendizagem baseada em agente
- Aprendizagem distribuída
- Introdução às ferramentas de código aberto para análise preditiva: R, Python, Rapidminer, Mahut
Predictive Analytics Ecossistema e sua aplicação em Análise de Inteligência Criminal
- Tecnologia e o processo investigativo
- Análise de insights
- Análise de visualização
- Análise preditiva estruturada
- Análise preditiva não estruturada
- Perfil de ameaça/fraudstar/fornecedor
- Mecanismo de recomendação
- Detecção de padrões
- Descoberta de regras/cenários – falha, fraude, otimização
- Descoberta da causa raiz
- Análise de sentimentos
- Análise de CRM
- Análise de rede
- Análise de texto para obter insights de transcrições, depoimentos de testemunhas, conversas na Internet, etc.
- Revisão assistida por tecnologia
- Análise de fraude
- Análise em tempo real
=====
Dia 03
=====
Análise em tempo real e Scalable Over Hadoop
- Por que algoritmos analíticos comuns falham em Hadoop/HDFS
- Apache Hama- para computação distribuída síncrona em massa
- Apache SPARK - para computação em cluster e análise em tempo real
- CMU Graphics Lab2- Abordagem assíncrona baseada em gráficos para computação distribuída
- KNN p - Abordagem baseada em álgebra do Treeminer para redução do custo de operação de hardware
Ferramentas para descoberta eletrônica e análise forense
- eDiscovery sobre Big Data vs. dados legados – uma comparação de custo e desempenho
- Codificação preditiva e revisão assistida por tecnologia (TAR)
- Demonstração ao vivo do vMiner para entender como o TAR permite uma descoberta mais rápida
- Indexação mais rápida por meio de HDFS – Velocidade dos dados
- PNL (processamento de linguagem natural) – produtos e técnicas de código aberto
- eDiscovery em línguas estrangeiras – tecnologia para processamento de línguas estrangeiras
Big Data BI para Cyber Security – Obtendo uma visão de 360 graus, coleta rápida de dados e identificação de ameaças
- Compreender os fundamentos da análise de segurança – superfície de ataque, configuração incorreta de segurança, defesas de host
- Infraestrutura de rede / Grande datapipe / ETL de resposta para análise em tempo real
- Prescritivo vs preditivo – Baseado em regras fixas vs descoberta automática de regras de ameaças a partir de metadados
Coletando dados díspares para análise de inteligência criminal
- Usando IoT (Internet of Things) como sensores para captura de dados
- Usando imagens de satélite para vigilância doméstica
- Uso de vigilância e dados de imagem para identificação criminal
- Outras tecnologias de coleta de dados – drones, câmeras corporais, sistemas de marcação GPS e tecnologia de imagem térmica
- Combinando recuperação automatizada de dados com dados obtidos de informantes, interrogatórios e pesquisas
- Forecasting atividade criminosa
=====
Dia 04
=====
BI de prevenção de fraude de Big Data em Fraud Analytics
- Classificação básica de Fraud Analytics – análise baseada em regras versus análise preditiva
- Aprendizado de máquina supervisionado versus não supervisionado para detecção de padrões de fraude
- Business à fraude empresarial, fraude em reclamações médicas, fraude em seguros, evasão fiscal e lavagem de dinheiro
Social Media Analytics – Coleta e análise de inteligência
- Como Social Media é usado por criminosos para organizar, recrutar e planejar
- Big Data API ETL para extração de dados de mídia social
- Texto, imagem, metadados e vídeo
- Análise de sentimento do feed de mídia social
- Filtragem contextual e não contextual de feed de mídia social
- Social Media Painel para integração de diversas mídias sociais
- Perfil automatizado de perfil de mídia social
- A demonstração ao vivo de cada análise será fornecida por meio da ferramenta Treeminer
Big Data Análise em processamento de imagens e feeds de vídeo
- Técnicas de armazenamento de imagens em Big Data - Solução de armazenamento para dados que excedem petabytes
- LTFS (Linear Tape File System) e LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) - solução de armazenamento em camadas para dados de grandes imagens
- Fundamentos da análise de imagens
- Reconhecimento de objeto
- Segmentação de imagens
- Rastreamento de movimento
- Reconstrução de imagem 3D
Biométricas, DNA e programas de identificação da próxima geração
- Além da impressão digital e do reconhecimento facial
- Reconhecimento de fala, pressionamento de tecla (analisando o padrão de digitação do usuário) e CODIS (sistema combinado de índice de DNA)
- Além da correspondência de DNA: usando fenotipagem forense de DNA para construir um rosto a partir de amostras de DNA
Big Data Painel para acessibilidade rápida de diversos dados e exibição:
- Integração da plataforma de aplicativos existente com Big Data Dashboard
- Big Data gestão
- Estudo de caso do Big Data Painel: Tableau e Pentaho
- Use o aplicativo Big Data para enviar serviços baseados em localização em Govt.
- Sistema de rastreamento e gerenciamento
=====
Dia 05
=====
Como justificar Big Data a implementação de BI dentro de uma organização:
- Definindo o ROI (Retorno em Investment) para implementação Big Data
- Estudos de caso para economizar tempo do analista na coleta e preparação de dados – aumentando a produtividade
- Ganho de receita devido ao menor custo de licenciamento de banco de dados
- Ganho de receita de serviços baseados em localização
- Economia de custos com a prevenção de fraudes
- Uma abordagem de planilha integrada para calcular despesas aproximadas versus ganho/economia de receita da implementação Big Data.
Procedimento passo a passo para substituir um sistema de dados legado por um sistema Big Data
- Big Data Roteiro de Migração
- Que informações críticas são necessárias antes de arquitetar um sistema Big Data?
- Quais são as diferentes formas de calcular Volume, Velocidade, Variedade e Veracidade dos dados
- Como estimar o crescimento dos dados
- Estudos de caso
Revisão de Big Data Fornecedores e revisão de seus produtos.
- Accenture
- APTEAN (anteriormente CDC Software)
- Cisco Sistemas
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Sistemas de dados Hitachi
- Hortonworks
- HP
- IBM
- informática
- Informações
- Jaspersoft
- Microsoft
- MongoDB (Anteriormente 10Gen)
- MU Sigma
- Netapp
- Soluções Ópera
- Oracle
- Pentaho
- Plataforma
- Qliktech
- Quântico
- Rackspace
- Análise da Revolução
- Salesforce
- SAP
- SAS Instituto
- Sisense
- Software AG/Terracota
- Automação Soft10
- Splunk
- Sqrrl
- Supermicro
- Tableau Programas
- Teradata
- Pense em grandes análises
- Sistemas de Marca de Maré
- Mineiro da árvore
- VMware (Parte da EMC)
Sessão de perguntas/respostas
Requisitos
- Conhecimento dos processos de aplicação da lei e dos sistemas de dados
- Compreensão básica de SQL/Oracle ou base de dados relacional
- Compreensão básica de estatística (a nível de folha de cálculo)
Declaração de Clientes (4)
Use cases were awesome! and Ray involved each and every one of us in each use case.
Zara - Trench Ltd
Curso - Alteryx for Data Analysis
Explicações claras com bons exemplos para que eu possa relacionar com a minha própria linha de trabalho.
Elaine Vermeulen - Sandoz BV
Curso - Alteryx for Developers
Machine Translated
Utilizou bons exemplos, o ritmo da formação foi bom e cobriu a maioria dos assuntos
David - McGraw Hill
Curso - Data Preparation with Alteryx
Machine Translated
team work