Entrar em Contato

Programa do Curso

Dia 01

Visão geral do Business Intelligence de Big Data para Análise de Inteligência Criminal

  • Estudos de caso das Forças Policiais - Policiamento Preditivo
  • Taxa de adoção de Big Data nas Agências de Polícia e como estão alinhando suas operações futuras em torno da Análise Preditiva de Big Data
  • Soluções tecnológicas emergentes, como sensores de tiros, vídeos de vigilância e mídias sociais
  • Uso da tecnologia Big Data para mitigar a sobrecarga de informações
  • Integração do Big Data com dados legados
  • Compreensão básica das tecnologias habilitadoras na análise preditiva
  • Integração de Dados e visualização em painéis (dashboards)
  • Gestão de fraudes
  • Regras de negócio e detecção de fraude
  • Detecção de ameaças e perfilamento
  • Análise de custo-benefício para implementação de Big Data

Introdução ao Big Data

  • Características principais do Big Data: Volume, Variedade, Velocidade e Veracidade.
  • Arquitetura MPP (Massively Parallel Processing)
  • Armazéns de dados (Data Warehouses) – esquema estático, conjunto de dados que evolui lentamente
  • Bancos de dados MPP: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluções baseadas em Hadoop – sem restrições na estrutura do conjunto de dados.
  • Padrão típico: HDFS, MapReduce (crunch), recuperação a partir do HDFS
  • Apache Spark para processamento em streaming
  • Lote (Batch) – adequado para análise/não interativo
  • Volume: dados de streaming CEP
  • Opções típicas – produtos CEP (ex. Infostreams, Apama, MarkLogic, etc.)
  • Pouco prontos para produção – Storm/S4
  • Bancos de dados NoSQL – (colunar e chave-valor): mais adequados como complemento analítico ao armazém de dados

Soluções NoSQL

  • Armazenamento KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Armazenamento KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Armazenamento KV (Hierárquico) - GT.m, Cache
  • Armazenamento KV (Ordenado) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracotta
  • Armazenamento de tuplas - Gigaspaces, Coord, Apache River
  • Banco de dados de objetos - ZopeDB, DB40, Shoal
  • Armazenamento de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Bancos XML, ThruDB, CloudKit, Preserved, Riak-Basho, Scalaris
  • Armazenamento Colunar Largo (Wide Columnar Store) - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de Dados: Introdução aos problemas de limpeza de dados no Big Data

  • RDBMS – estrutura/esquema estático, não promove ambiente ágil ou exploratório.
  • NoSQL – semiestruturado, com estrutura suficiente para armazenar dados sem um esquema exato prévio
  • Problemas de limpeza de dados

Hadoop

  • Quando escolher o Hadoop?
  • DADOS ESTRUTURADOS - Armazéns e bancos de dados empresariais podem armazenar dados massivos (a um custo), mas impõem estrutura (não é bom para exploração ativa)
  • DADOS SEMIESTRUTURADOS – difíceis de processar com soluções tradicionais (DW/DB)
  • Armazenamento em data warehouse = ESFORÇO ENORME e estático mesmo após a implementação
  • Para variedade e volume de dados, processados em hardware comum – HADOOP
  • Hardware comum necessário para criar um Cluster Hadoop

Introdução ao MapReduce /HDFS

  • MapReduce – distribuir o processamento entre vários servidores
  • HDFS – disponibilizar os dados localmente para o processo de computação (com redundância)
  • Dados – podem ser não estruturados/sem esquema (ao contrário do RDBMS)
  • Responsabilidade do desenvolvedor em interpretar os dados
  • Programação no MapReduce = trabalhar com Java (vantagens/desvantagens), carregamento manual de dados no HDFS

Dia 02

Ecossistema de Big Data -- Construindo ETL (Extract, Transform, Load) de Big Data – Quais ferramentas de Big Data usar e quando?

  • Hadoop vs. Outras soluções NoSQL
  • Para acesso interativo e aleatório aos dados
  • Hbase (banco de dados orientado a colunas) sobre o Hadoop
  • Acesso aleatório aos dados, mas com restrições impostas (máx. 1 PB)
  • Não é bom para análises ad-hoc, bom para registro, contagem e séries temporais
  • Sqoop - Importação de bancos de dados para Hive ou HDFS (acesso JDBC/ODBC)
  • Flume – Transmissão de dados (ex. logs) para o HDFS

Sistema de Gestão de Big Data

  • Componentes móveis, nós de computação iniciam/falham: ZooKeeper - Para serviços de configuração/coordenação/naming
  • Pipeline/workflow complexo: Oozie – gerenciar workflow, dependências, cadeia de ações
  • Implantação, configuração, gestão de cluster, atualização etc. (sysadmin): Ambari
  • No Cloud: Whirr

Análise Preditiva -- Técnicas Fundamentais e Business Intelligence baseado em Aprendizado de Máquina

  • Introdução ao Machine Learning
  • Aprendizado de técnicas de classificação
  • Predição Bayesiana – preparação de um arquivo de treinamento
  • Máquina de Vetores de Suporte (Support Vector Machine)
  • KNN p-Tree Algebra & mineração vertical
  • Redes Neurais
  • Problema de grandes variáveis no Big Data – Random Forest (RF)
  • Problema de automação no Big Data – RF Multi-modelo ensemble
  • Automação através do Soft10-M
  • Ferramenta de análise de texto - Treeminer
  • Aprendizado ágil
  • Aprendizado baseado em agentes
  • Aprendizado distribuído
  • Introdução a ferramentas open source para análise preditiva: R, Python, RapidMiner, Mahout

Ecossistema de Análise Preditiva e sua aplicação na Análise de Inteligência Criminal

  • Tecnologia e o processo investigativo
  • Análise de insights
  • Análise visualização
  • Análise preditiva estruturada
  • Análise preditiva não estruturada
  • Perfilamento de ameaças/fraudsters/fornecedores
  • Motor de recomendação
  • Detecção de padrões
  • Descoberta de regras/cenários – falha, fraude, otimização
  • Descoberta da causa raiz
  • Análise de sentimento
  • Análise CRM
  • Análise de redes
  • Análise de texto para obter insights a partir de transcrições, depoimentos de testemunhas, conversas na internet, etc.
  • Revisão assistida por tecnologia
  • Análise de fraudes
  • Análise em Tempo Real

Dia 03

Análise em Tempo Real e Escalável sobre Hadoop

  • Por que algoritmos analíticos comuns falham no Hadoop/HDFS
  • Apache Hama - para computação distribuída síncrona em grandes lotes
  • Apache SPARK - para computação em cluster e análise em tempo real
  • CMU Graphics Lab2 - Abordagem assíncrona baseada em grafos para computação distribuída
  • KNN p -- Abordagem algébrica a partir do Treeminer para redução do custo operacional de hardware

Ferramentas para eDiscovery e Perícia Forense

  • eDiscovery em Big Data vs. dados legados – uma comparação de custo e desempenho
  • Codificação preditiva e Revisão Assistida por Tecnologia (TAR)
  • Demonstração ao vivo do vMiner para entender como o TAR permite descoberta mais rápida
  • Indexação mais rápida através do HDFS – Velocidade dos dados
  • PNI (Processamento de Linguagem Natural) – produtos e técnicas open source
  • eDiscovery em idiomas estrangeiros – tecnologia para processamento de idiomas estrangeiros

Big Data BI para Segurança Cibernética – Obtendo uma visão de 360 graus, coleta rápida de dados e identificação de ameaças

  • Compreensão dos fundamentos da análise de segurança – superfície de ataque, configurações incorretas de segurança, defesas do host
  • Infraestrutura de rede / grande data pipe / ETL de resposta para análise em tempo real
  • Preditivo prescritivo vs. preditivo – Regras fixas baseadas vs. descoberta automática de regras de ameaça a partir de metadados

Coleta de dados distintos para Análise de Inteligência Criminal

  • Uso do IoT (Internet das Coisas) como sensores para captura de dados
  • Uso de Imagens de Satélite para Vigilância Doméstica
  • Uso de dados de vigilância e imagem para identificação criminal
  • Outras tecnologias de coleta de dados – drones, câmeras corporais, sistemas de marcação GPS e tecnologia de imageamento térmico
  • Combinação de recuperação automatizada de dados com dados obtidos de informantes, interrogatórios e pesquisas
  • Predição de atividade criminosa

Dia 04

BI de Prevenção de Fraudes a partir do Big Data na Análise de Fraudes

  • Classificação básica da Análise de Fraudes – baseada em regras vs. análise preditiva
  • Aprendizado de máquina supervisionado vs. não supervisionado para detecção de padrões de fraude
  • Fraude entre empresas (B2B), fraude em sinistros médicos, fraude em seguros, evasão fiscal e lavagem de dinheiro

Análise de Mídias Sociais – Coleta e Análise de Inteligência

  • Como as Mídias Sociais são usadas por criminosos para organizar, recrutar e planejar
  • API ETL de Big Data para extração de dados de mídias sociais
  • Texto, imagem, metadados e vídeo
  • Análise de sentimento a partir do feed de mídias sociais
  • Filtragem contextual e não contextual do feed de mídias sociais
  • Painel (Dashboard) de Mídias Sociais para integrar diversas plataformas
  • Perfilamento automatizado de perfis em mídias sociais
  • Demonstração ao vivo de cada análise será fornecida através da Ferramenta Treeminer

Análise de Big Data em processamento de imagens e feeds de vídeo

  • Técnicas de armazenamento de imagens no Big Data – Solução de armazenamento para dados que excedem petabytes
  • LTFS (Linear Tape File System) e LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) – solução de armazenamento em camadas para grandes imagens
  • Fundamentos da análise de imagem
  • Reconhecimento de objetos
  • Segmentação de imagens
  • Rastreamento de movimento
  • Reconstrução de imagens 3-D

Biometria, DNA e Programas de Identificação de Próxima Geração

  • Além da impressão digital e reconhecimento facial
  • Reconhecimento de voz, padrões de digitação (analisando o padrão de digitação do usuário) e CODIS (Sistema de Índice Combinado de DNA)
  • Além da correspondência de DNA: uso da fenotipagem forense de DNA para construir um rosto a partir de amostras de DNA

Painel (Dashboard) de Big Data para acesso rápido e visualização de dados diversos :

  • Integração da plataforma de aplicativos existente com o Painel de Big Data
  • Gestão de Big Data
  • Estudo de caso do Painel de Big Data: Tableau e Pentaho
  • Uso de aplicativos de Big Data para impulsionar serviços baseados em localização no governo
  • Sistema de rastreamento e gestão

Dia 05

Como justificar a implementação do Business Intelligence de Big Data dentro de uma organização:

  • Definição do ROI (Retorno sobre o Investimento) para implementação de Big Data
  • Estudos de caso para redução do tempo do analista na coleta e preparação de dados – aumentando a produtividade
  • Ganho de receita devido à menor custos de licenciamento de banco de dados
  • Ganho de receita de serviços baseados em localização
  • Economia de custos com prevenção de fraudes
  • Uma abordagem integrada de planilha para calcular despesas aproximadas vs. ganho/economia de receita da implementação de Big Data.

Procedimento passo a passo para substituir um sistema de dados legado por um sistema de Big Data

  • Roteiro de Migração de Big Data
  • Que informações críticas são necessárias antes de arquiteturar um sistema de Big Data?
  • Quais são as diferentes formas de calcular Volume, Velocidade, Variedade e Veracidade dos dados
  • Como estimar o crescimento dos dados
  • Estudos de caso

Revisão de fornecedores de Big Data e avaliação de seus produtos.

  • Accenture
  • APTEAN (antigamente CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (antigamente 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (parte da EMC)

Sessão de Perguntas e Respostas

Requisitos

  • Conhecimento dos processos e sistemas de dados das forças policiais
  • Compreensão básica de SQL/Oracle ou banco de dados relacional
  • Compreensão básica de estatística (nível de planilha)

Público-Alvo

  • Especialistas das forças policiais com formação técnica
 35 Horas

Número de participantes


Preço por participante

Testemunhos de Clientes (3)

Próximas Formações Provisórias

Categorias Relacionadas