Programa do Curso
Dia 01
Visão geral do Business Intelligence de Big Data para Análise de Inteligência Criminal
- Estudos de caso das Forças Policiais - Policiamento Preditivo
- Taxa de adoção de Big Data nas Agências de Polícia e como estão alinhando suas operações futuras em torno da Análise Preditiva de Big Data
- Soluções tecnológicas emergentes, como sensores de tiros, vídeos de vigilância e mídias sociais
- Uso da tecnologia Big Data para mitigar a sobrecarga de informações
- Integração do Big Data com dados legados
- Compreensão básica das tecnologias habilitadoras na análise preditiva
- Integração de Dados e visualização em painéis (dashboards)
- Gestão de fraudes
- Regras de negócio e detecção de fraude
- Detecção de ameaças e perfilamento
- Análise de custo-benefício para implementação de Big Data
Introdução ao Big Data
- Características principais do Big Data: Volume, Variedade, Velocidade e Veracidade.
- Arquitetura MPP (Massively Parallel Processing)
- Armazéns de dados (Data Warehouses) – esquema estático, conjunto de dados que evolui lentamente
- Bancos de dados MPP: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Soluções baseadas em Hadoop – sem restrições na estrutura do conjunto de dados.
- Padrão típico: HDFS, MapReduce (crunch), recuperação a partir do HDFS
- Apache Spark para processamento em streaming
- Lote (Batch) – adequado para análise/não interativo
- Volume: dados de streaming CEP
- Opções típicas – produtos CEP (ex. Infostreams, Apama, MarkLogic, etc.)
- Pouco prontos para produção – Storm/S4
- Bancos de dados NoSQL – (colunar e chave-valor): mais adequados como complemento analítico ao armazém de dados
Soluções NoSQL
- Armazenamento KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Armazenamento KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Armazenamento KV (Hierárquico) - GT.m, Cache
- Armazenamento KV (Ordenado) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracotta
- Armazenamento de tuplas - Gigaspaces, Coord, Apache River
- Banco de dados de objetos - ZopeDB, DB40, Shoal
- Armazenamento de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Bancos XML, ThruDB, CloudKit, Preserved, Riak-Basho, Scalaris
- Armazenamento Colunar Largo (Wide Columnar Store) - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de Dados: Introdução aos problemas de limpeza de dados no Big Data
- RDBMS – estrutura/esquema estático, não promove ambiente ágil ou exploratório.
- NoSQL – semiestruturado, com estrutura suficiente para armazenar dados sem um esquema exato prévio
- Problemas de limpeza de dados
Hadoop
- Quando escolher o Hadoop?
- DADOS ESTRUTURADOS - Armazéns e bancos de dados empresariais podem armazenar dados massivos (a um custo), mas impõem estrutura (não é bom para exploração ativa)
- DADOS SEMIESTRUTURADOS – difíceis de processar com soluções tradicionais (DW/DB)
- Armazenamento em data warehouse = ESFORÇO ENORME e estático mesmo após a implementação
- Para variedade e volume de dados, processados em hardware comum – HADOOP
- Hardware comum necessário para criar um Cluster Hadoop
Introdução ao MapReduce /HDFS
- MapReduce – distribuir o processamento entre vários servidores
- HDFS – disponibilizar os dados localmente para o processo de computação (com redundância)
- Dados – podem ser não estruturados/sem esquema (ao contrário do RDBMS)
- Responsabilidade do desenvolvedor em interpretar os dados
- Programação no MapReduce = trabalhar com Java (vantagens/desvantagens), carregamento manual de dados no HDFS
Dia 02
Ecossistema de Big Data -- Construindo ETL (Extract, Transform, Load) de Big Data – Quais ferramentas de Big Data usar e quando?
- Hadoop vs. Outras soluções NoSQL
- Para acesso interativo e aleatório aos dados
- Hbase (banco de dados orientado a colunas) sobre o Hadoop
- Acesso aleatório aos dados, mas com restrições impostas (máx. 1 PB)
- Não é bom para análises ad-hoc, bom para registro, contagem e séries temporais
- Sqoop - Importação de bancos de dados para Hive ou HDFS (acesso JDBC/ODBC)
- Flume – Transmissão de dados (ex. logs) para o HDFS
Sistema de Gestão de Big Data
- Componentes móveis, nós de computação iniciam/falham: ZooKeeper - Para serviços de configuração/coordenação/naming
- Pipeline/workflow complexo: Oozie – gerenciar workflow, dependências, cadeia de ações
- Implantação, configuração, gestão de cluster, atualização etc. (sysadmin): Ambari
- No Cloud: Whirr
Análise Preditiva -- Técnicas Fundamentais e Business Intelligence baseado em Aprendizado de Máquina
- Introdução ao Machine Learning
- Aprendizado de técnicas de classificação
- Predição Bayesiana – preparação de um arquivo de treinamento
- Máquina de Vetores de Suporte (Support Vector Machine)
- KNN p-Tree Algebra & mineração vertical
- Redes Neurais
- Problema de grandes variáveis no Big Data – Random Forest (RF)
- Problema de automação no Big Data – RF Multi-modelo ensemble
- Automação através do Soft10-M
- Ferramenta de análise de texto - Treeminer
- Aprendizado ágil
- Aprendizado baseado em agentes
- Aprendizado distribuído
- Introdução a ferramentas open source para análise preditiva: R, Python, RapidMiner, Mahout
Ecossistema de Análise Preditiva e sua aplicação na Análise de Inteligência Criminal
- Tecnologia e o processo investigativo
- Análise de insights
- Análise visualização
- Análise preditiva estruturada
- Análise preditiva não estruturada
- Perfilamento de ameaças/fraudsters/fornecedores
- Motor de recomendação
- Detecção de padrões
- Descoberta de regras/cenários – falha, fraude, otimização
- Descoberta da causa raiz
- Análise de sentimento
- Análise CRM
- Análise de redes
- Análise de texto para obter insights a partir de transcrições, depoimentos de testemunhas, conversas na internet, etc.
- Revisão assistida por tecnologia
- Análise de fraudes
- Análise em Tempo Real
Dia 03
Análise em Tempo Real e Escalável sobre Hadoop
- Por que algoritmos analíticos comuns falham no Hadoop/HDFS
- Apache Hama - para computação distribuída síncrona em grandes lotes
- Apache SPARK - para computação em cluster e análise em tempo real
- CMU Graphics Lab2 - Abordagem assíncrona baseada em grafos para computação distribuída
- KNN p -- Abordagem algébrica a partir do Treeminer para redução do custo operacional de hardware
Ferramentas para eDiscovery e Perícia Forense
- eDiscovery em Big Data vs. dados legados – uma comparação de custo e desempenho
- Codificação preditiva e Revisão Assistida por Tecnologia (TAR)
- Demonstração ao vivo do vMiner para entender como o TAR permite descoberta mais rápida
- Indexação mais rápida através do HDFS – Velocidade dos dados
- PNI (Processamento de Linguagem Natural) – produtos e técnicas open source
- eDiscovery em idiomas estrangeiros – tecnologia para processamento de idiomas estrangeiros
Big Data BI para Segurança Cibernética – Obtendo uma visão de 360 graus, coleta rápida de dados e identificação de ameaças
- Compreensão dos fundamentos da análise de segurança – superfície de ataque, configurações incorretas de segurança, defesas do host
- Infraestrutura de rede / grande data pipe / ETL de resposta para análise em tempo real
- Preditivo prescritivo vs. preditivo – Regras fixas baseadas vs. descoberta automática de regras de ameaça a partir de metadados
Coleta de dados distintos para Análise de Inteligência Criminal
- Uso do IoT (Internet das Coisas) como sensores para captura de dados
- Uso de Imagens de Satélite para Vigilância Doméstica
- Uso de dados de vigilância e imagem para identificação criminal
- Outras tecnologias de coleta de dados – drones, câmeras corporais, sistemas de marcação GPS e tecnologia de imageamento térmico
- Combinação de recuperação automatizada de dados com dados obtidos de informantes, interrogatórios e pesquisas
- Predição de atividade criminosa
Dia 04
BI de Prevenção de Fraudes a partir do Big Data na Análise de Fraudes
- Classificação básica da Análise de Fraudes – baseada em regras vs. análise preditiva
- Aprendizado de máquina supervisionado vs. não supervisionado para detecção de padrões de fraude
- Fraude entre empresas (B2B), fraude em sinistros médicos, fraude em seguros, evasão fiscal e lavagem de dinheiro
Análise de Mídias Sociais – Coleta e Análise de Inteligência
- Como as Mídias Sociais são usadas por criminosos para organizar, recrutar e planejar
- API ETL de Big Data para extração de dados de mídias sociais
- Texto, imagem, metadados e vídeo
- Análise de sentimento a partir do feed de mídias sociais
- Filtragem contextual e não contextual do feed de mídias sociais
- Painel (Dashboard) de Mídias Sociais para integrar diversas plataformas
- Perfilamento automatizado de perfis em mídias sociais
- Demonstração ao vivo de cada análise será fornecida através da Ferramenta Treeminer
Análise de Big Data em processamento de imagens e feeds de vídeo
- Técnicas de armazenamento de imagens no Big Data – Solução de armazenamento para dados que excedem petabytes
- LTFS (Linear Tape File System) e LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) – solução de armazenamento em camadas para grandes imagens
- Fundamentos da análise de imagem
- Reconhecimento de objetos
- Segmentação de imagens
- Rastreamento de movimento
- Reconstrução de imagens 3-D
Biometria, DNA e Programas de Identificação de Próxima Geração
- Além da impressão digital e reconhecimento facial
- Reconhecimento de voz, padrões de digitação (analisando o padrão de digitação do usuário) e CODIS (Sistema de Índice Combinado de DNA)
- Além da correspondência de DNA: uso da fenotipagem forense de DNA para construir um rosto a partir de amostras de DNA
Painel (Dashboard) de Big Data para acesso rápido e visualização de dados diversos :
- Integração da plataforma de aplicativos existente com o Painel de Big Data
- Gestão de Big Data
- Estudo de caso do Painel de Big Data: Tableau e Pentaho
- Uso de aplicativos de Big Data para impulsionar serviços baseados em localização no governo
- Sistema de rastreamento e gestão
Dia 05
Como justificar a implementação do Business Intelligence de Big Data dentro de uma organização:
- Definição do ROI (Retorno sobre o Investimento) para implementação de Big Data
- Estudos de caso para redução do tempo do analista na coleta e preparação de dados – aumentando a produtividade
- Ganho de receita devido à menor custos de licenciamento de banco de dados
- Ganho de receita de serviços baseados em localização
- Economia de custos com prevenção de fraudes
- Uma abordagem integrada de planilha para calcular despesas aproximadas vs. ganho/economia de receita da implementação de Big Data.
Procedimento passo a passo para substituir um sistema de dados legado por um sistema de Big Data
- Roteiro de Migração de Big Data
- Que informações críticas são necessárias antes de arquiteturar um sistema de Big Data?
- Quais são as diferentes formas de calcular Volume, Velocidade, Variedade e Veracidade dos dados
- Como estimar o crescimento dos dados
- Estudos de caso
Revisão de fornecedores de Big Data e avaliação de seus produtos.
- Accenture
- APTEAN (antigamente CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (antigamente 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (parte da EMC)
Sessão de Perguntas e Respostas
Requisitos
- Conhecimento dos processos e sistemas de dados das forças policiais
- Compreensão básica de SQL/Oracle ou banco de dados relacional
- Compreensão básica de estatística (nível de planilha)
Público-Alvo
- Especialistas das forças policiais com formação técnica
Testemunhos de Clientes (3)
fundamentos e adorou os documentos e exercícios preparados
Rekha Nallam - GE Medical Systems Polska Sp. z o.o.
Curso - Introduction to Predictive AI
Máquina Traduzida
Deepthi estava muito atenta às minhas necessidades, sabia quando adicionar camadas de complexidade e quando se conter para seguir uma abordagem mais estruturada. Deepthi realmente trabalhou no meu ritmo e garantiu que eu pudesse usar as novas funções/ferramentas por conta própria, primeiro mostrando e depois me permitindo recrear os itens, o que ajudou muito a fixar o treinamento. Não poderia estar mais satisfeito com os resultados deste treinamento e com o nível de expertise de Deepthi!
Deepthi - Invest Northern Ireland
Curso - IBM Cognos Analytics
Máquina Traduzida
ele estava bem preparado - e é muito simpático
Oliver - Post CH AG
Curso - Splunk Fundamentals
Máquina Traduzida