Cursos de SMACK Stack for Data Science
SMACK é uma coleção de software de plataforma de dados, nomeadamente Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, e Apache Kafka. Usando a faixa SMACK, os usuários podem criar e escalar plataformas de processamento de dados.
Este treinamento guiado por instrutores, ao vivo (online ou on-site) é dirigido a cientistas de dados que desejam usar a faixa SMACK para construir plataformas de processamento de dados para soluções de big data.
No final do curso, os participantes poderão:
- Implementar uma arquitetura de tubos de dados para o processamento de grandes dados.
- Desenvolver uma infraestrutura de cluster com Apache Mesos e Docker.
- Análise de dados com o Spark e Scala.
- Gerenciar dados não estruturados com o Apache Cassandra.
O formato do curso
- Interação e discussão interativa.
- Muitos exercícios e práticas.
- Implementação de mão em um ambiente de laboratório ao vivo.
Opções de Customização
- Para solicitar uma formação personalizada para este curso, por favor contacte-nos para organizar.
Programa do Curso
Introdução
Visão geral do SMACK Stack
- O que é o Apache Spark? Características do Apache Spark
- O que é o Apache Mesos? Recursos do Apache Mesos
- O que é o Apache Akka? Funcionalidades do Apache Akka
- O que é o Apache Cassandra? Recursos do Apache Cassandra
- O que é o Apache Kafka? Funcionalidades do Apache Kafka
Scala Língua
- Scala sintaxe e estrutura
- Scala fluxo de controlo
Preparando o ambiente de desenvolvimento
- Instalar e configurar a pilha SMACK
- Instalando e configurando Docker
Apache Akka
- Utilização de actores
Apache Cassandra
- Criar uma base de dados para operações de leitura
- Trabalhar com cópias de segurança e recuperação
Conectores
- Criando um fluxo
- Construindo uma aplicação Akka
- Armazenando dados com Cassandra
- Revisando conectores
Apache Kafka
- Trabalhar com clusters
- Criação, publicação e consumo de mensagens
Apache Mesos
- Atribuição de recursos
- Executar clusters
- Trabalhar com o Apache Aurora e Docker
- Executar serviços e trabalhos
- Implantar o Spark, o Cassandra e o Kafka no Mesos
Apache Spark
- Gerir fluxos de dados
- Trabalhar com RDDs e quadros de dados
- Efetuar análises de dados
Resolução de problemas
- Tratamento de falhas de serviços e erros
Resumo e conclusão
Requisitos
- Compreensão dos sistemas de tratamento de dados
Público
- Cientistas de dados
Open Training Courses require 5+ participants.
Cursos de SMACK Stack for Data Science - Booking
Cursos de SMACK Stack for Data Science - Enquiry
SMACK Stack for Data Science - Solicitação de Consultoria
Declaração de Clientes (1)
very interactive...
Richard Langford
Curso - SMACK Stack for Data Science
Upcoming Courses
Cursos Relacionados
Kaggle
14 horasEste treinamento ao vivo conduzido por instrutor em Brasil (online ou no local) é destinado a cientistas de dados e desenvolvedores que desejam aprender e construir suas carreiras em Ciência de Dados usando Kaggle.
No final desta formação, os participantes serão capazes de
- Aprenda sobre ciência de dados e aprendizado de máquina.
- Explorar a análise de dados.
- Saiba mais sobre Kaggle e como ele funciona.
Accelerating Python Pandas Workflows with Modin
14 horasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a cientistas e desenvolvedores de dados que desejam usar o Modin para criar e implementar cálculos paralelos com Pandas para uma análise de dados mais rápida.
No final desta formação, os participantes serão capazes de
- Configurar o ambiente necessário para começar a desenvolver Pandas fluxos de trabalho em escala com o Modin.
- Compreender os recursos, a arquitetura e as vantagens do Modin.
- Conhecer as diferenças entre Modin, Dask e Ray.
- Realizar Pandas operações mais rapidamente com o Modin.
- Implementar toda a API Pandas e as funções.
GPU Data Science with NVIDIA RAPIDS
14 horasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a cientistas de dados e desenvolvedores que desejam usar RAPIDS para construir pipelines de dados acelerados por GPU, fluxos de trabalho e visualizações, aplicando algoritmos de aprendizado de máquina, como XGBoost, cuML, etc.
No final desta formação, os participantes serão capazes de
- Configurar o ambiente de desenvolvimento necessário para criar modelos de dados com NVIDIA RAPIDS.
- Compreender os recursos, componentes e vantagens do RAPIDS.
- Utilizar GPUs para acelerar pipelines de dados e análises de ponta a ponta.
- Implementar a preparação de dados acelerada por GPU e ETL com cuDF e Apache Arrow.
- Aprenda a executar tarefas de aprendizado de máquina com os algoritmos XGBoost e cuML.
- Construir visualizações de dados e executar análises de gráficos com cuXfilter e cuGraph.
Anaconda Ecosystem for Data Scientists
14 horasEste treinamento ao vivo conduzido por instrutor em Brasil (online ou no local) é destinado a cientistas de dados que desejam usar o ecossistema Anaconda para capturar, gerenciar e implantar pacotes e fluxos de trabalho de análise de dados em uma única plataforma.
No final desta formação, os participantes serão capazes de
- Instalar e configurar componentes e bibliotecas do Anaconda.
- Compreender os principais conceitos, recursos e benefícios do Anaconda.
- Gerenciar pacotes, ambientes e canais usando o Anaconda Navigator.
- Use os pacotes Conda, R e Python para ciência de dados e aprendizado de máquina.
- Conheça alguns casos de uso práticos e técnicas para gerenciar vários ambientes de dados.
Python e Spark para Big Data (PySpark)
21 horasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão como usar Python e Spark juntos para analisar big data enquanto trabalham em exercícios práticos.
No final desta formação, os participantes serão capazes de
- Aprenda a usar o Spark com Python para analisar Big Data.
- Trabalhar em exercícios que imitam casos do mundo real.
- Utilizar diferentes ferramentas e técnicas para análise de big data usando PySpark.
Introduction to Graph Computing
28 horasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão sobre as ofertas de tecnologia e abordagens de implementação para o processamento de dados gráficos. O objetivo é identificar objetos do mundo real, suas características e relacionamentos, depois modelar esses relacionamentos e processá-los como dados usando uma abordagem Graph Computing (também conhecida como Graph Analytics). Começaremos com uma visão geral e concentrar-nos-emos em ferramentas específicas à medida que avançamos numa série de estudos de casos, exercícios práticos e implementações em direto.
No final desta formação, os participantes serão capazes de
- Compreender como os dados de grafos são persistidos e percorridos.
- Selecionar o melhor framework para uma determinada tarefa (de bancos de dados de grafos a frameworks de processamento em lote.)
- Implementar Hadoop, Spark, GraphX e Pregel para realizar computação de grafos em muitas máquinas em paralelo.
- Ver problemas de big data do mundo real em termos de grafos, processos e travessias.
Apache Spark MLlib
35 horasO MLlib é a biblioteca de aprendizado de máquina (ML) do Spark. Seu objetivo é tornar prático o aprendizado de máquina escalável e fácil. Ele consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, regressão, agrupamento, filtragem colaborativa, redução de dimensionalidade, além de primitivas de otimização de nível inferior e APIs de pipeline de nível superior.
Divide-se em dois pacotes:
O spark.mllib contém a API original construída sobre os RDDs.
O spark.ml fornece uma API de alto nível, construída sobre os DataFrames, para a construção de pipelines de ML.
Público
Este curso é direcionado a engenheiros e desenvolvedores que desejam utilizar uma biblioteca de máquinas integrada para o Apache Spark
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 horasEste curso destina-se a programadores e cientistas de dados que pretendam compreender e implementar a IA nas suas aplicações. É dada especial atenção à análise de dados, à IA distribuída e ao processamento de linguagem natural.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 horasVisão geral
Communications provedores de serviços (CSP) estão enfrentando pressão para reduzir custos e maximizar o rendimento médio por usuário (ARPU), ao mesmo tempo que garantem uma excelente experiência de cliente, mas os volumes de dados continuam a crescer. O tráfego global de dados móveis crescerá a uma taxa de crescimento anual combinada (CAGR) de 78 por cento até 2016, atingindo 10,8 exabytes por mês.
Enquanto isso, os CSPs estão gerando grandes volumes de dados, incluindo registros de detalhes de chamadas (CDR), dados de rede e dados de clientes. As empresas que aproveitam plenamente esses dados ganham um limiar competitivo. De acordo com uma pesquisa recente da Economist Intelligence Unit, as empresas que usam tomada de decisões orientadas a dados desfrutam de um aumento de 5-6% na produtividade. No entanto, 53% das empresas usam apenas metade dos seus dados valiosos, e um quarto dos entrevistados notou que enormes quantidades de dados úteis vão sem acesso. Os volumes de dados são tão altos que a análise manual é impossível, e a maioria dos sistemas de software hereditário não pode manter-se, resultando em dados valiosos sendo descartados ou ignorados.
Com Big Data & Analytics’ software de big data de alta velocidade, escalável, os CSPs podem minar todos os seus dados para melhor tomada de decisão em menos tempo. Diferentes Big Data produtos e técnicas fornecem uma plataforma de software end-to-end para a recolha, preparação, análise e apresentação de insights de grandes dados. As áreas de aplicação incluem monitoramento de desempenho da rede, detecção de fraude, detecção de clientes e análise de risco de crédito. Big Data & Produtos de análise escala para lidar com terabytes de dados, mas a implementação dessas ferramentas requer um novo tipo de sistema de banco de dados baseado em nuvem como Hadoop ou processador de computação paralelo de escala massiva ( KPU etc.)
Este curso trabalha em Big Data BI para Telco cobre todas as novas áreas emergentes em que os CSPs estão investindo para aumentar a produtividade e abrir novos fluxos de receita de negócios. O curso fornecerá uma visão completa de 360 graus de Big Data BI em Telco para que os decisores e gerentes possam ter uma visão geral muito ampla e abrangente das possibilidades de Big Data BI em Telco para produtividade e ganho de receita.
Objetivos do curso
O objetivo principal do curso é introduzir novas Big Data técnicas de inteligência de negócios em 4 setores de Telecom Business (Marketing/Vendas, Operação de Rede, Operação Financeira e Relação com o Cliente Management). Os alunos serão introduzidos a seguir:
- Introdução a Big Data-o que é 4Vs (volume, velocidade, variedade e veracidade) em Big Data- Geração, extração e gerenciamento da perspectiva da Telco
- Como Big Data o analista difere do analista de dados de herança
- In-house justificação de Big Data -Prospectiva Telco
- Introdução a Hadoop Ecosistema- familiaridade com todas as Hadoop ferramentas como Hive, Pig, SPARC –quando e como eles são usados para resolver Big Data problema
- Como Big Data é extraído para analisar para a ferramenta de análise-como Business Analysis’s podem reduzir seus pontos de dor de recolha e análise de dados através de uma abordagem integrada Hadoop dashboard
- Introdução básica da análise de Insight, análise de visualização e análise preditiva para Telco
- Analítica do cliente e Big Data-como Big Data analítica pode reduzir o cliente e a insatisfação do cliente em estudos de caso Telco
- Análise de falhas de rede e de falhas de serviço a partir de metadados de rede e IPDR
- Análise financeira-fraude, vazamento e estimativa do ROI a partir de dados de vendas e operações
- Problemas de aquisição do cliente-Marketing Objetivo, Segmentação do cliente e Cross-Sales a partir de dados de vendas
- Introdução e resumo de todos os Big Data produtos analíticos e onde eles se encaixam no espaço analítico da Telco
- Conclusão-como tomar uma abordagem passo a passo para introduzir Big Data Business Intelligence em sua organização
Auditoria Objetiva
- Operação de rede, gerentes financeiros, gerentes de CRM e gerentes de TI de alto nível no escritório do Telco CIO.
- Business Analisadores em Telco
- Diretores de escritório / analistas
- Gestores Operacionais
- Gerenciadores QA
Data Science for Big Data Analytics
35 horasBig data é um conjunto de dados tão volumoso e complexo que os aplicativos tradicionais de processamento de dados são inadequados para lidar com eles. Os desafios do big data incluem a captura de dados, armazenamento de dados, análise de dados, pesquisa, compartilhamento, transferência, visualização, consulta, atualização e privacidade de informações.
MATLAB Fundamentals, Data Science & Report Generation
35 horasNa primeira parte deste treinamento, abordamos os fundamentos de MATLAB e sua função como linguagem e plataforma. Incluída nesta discussão está uma introdução à sintaxe de MATLAB, matrizes e matrizes, visualização de dados, desenvolvimento de scripts e princípios orientados a objetos.
Na segunda parte, demonstramos como usar MATLAB para mineração de dados, aprendizado de máquina e análise preditiva. Para dar aos participantes uma perspetiva clara e prática da abordagem e do poder da MATLAB, estabelecemos comparações entre a utilização da MATLAB e a utilização de outras ferramentas, como folhas de cálculo, C, C++ e Visual Basic.
Na terceira parte da formação, os participantes aprendem a simplificar o seu trabalho, automatizando o processamento de dados e a criação de relatórios.
Ao longo do curso, os participantes colocarão em prática as ideias aprendidas através de exercícios práticos num ambiente de laboratório. No final da formação, os participantes terão um conhecimento profundo das capacidades de MATLAB e serão capazes de o empregar para resolver problemas reais de ciência de dados, bem como para agilizar o seu trabalho através da automatização.
As avaliações serão realizadas ao longo do curso para avaliar o progresso.
Formato do curso
- O curso inclui exercícios teóricos e práticos, incluindo discussões de casos, inspeção de código de amostra e implementação prática.
Nota
- As sessões práticas serão baseadas em modelos de relatório de dados de amostra pré-arranjados. Se tiver necessidades específicas, contacte-nos para combinarmos.
Jupyter for Data Science Teams
7 horasO Jupyter é um IDE interativo e um ambiente de computação de código aberto, baseado na Web.
Este treinamento ao vivo conduzido por instrutor (no local ou remoto) apresenta a ideia de desenvolvimento colaborativo em ciência de dados e demonstra como usar o Jupyter para rastrear e participar como uma equipe no "ciclo de vida de uma ideia computacional". Ele conduz os participantes através da criação de um projeto de ciência de dados de amostra baseado no topo do ecossistema Jupyter.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Jupyter, incluindo a criação e integração de um repositório de equipa no Git.
- Usar os recursos do Jupyter, como extensões, widgets interativos, modo multiusuário e muito mais para permitir a colaboração no projeto.
- Criar, partilhar e organizar Jupyter Notebooks com os membros da equipa.
- Escolher entre Scala, Python, R, para escrever e executar código contra sistemas de big data como Apache Spark, tudo através da interface Jupyter.
Formato do curso
- Palestra interactiva e discussão.
- Muitos exercícios e prática.
- Implementação prática num ambiente de laboratório ao vivo.
Opções de personalização do curso
- O Jupyter Notebook suporta mais de 40 idiomas, incluindo R, Python, Scala, Julia, etc. Para personalizar este curso para a(s) sua(s) língua(s) de eleição, por favor contacte-nos para combinar.
F# for Data Science
21 horasPython Programming for Finance
35 horasPython é uma linguagem de programação que ganhou enorme popularidade no setor financeiro. Adotado pelos maiores bancos de investimento e fundos de hedge, ele está sendo usado para criar uma ampla gama de aplicações financeiras, que vão desde os principais programas de negociação até os sistemas de gerenciamento de riscos.
Neste treinamento ao vivo, ministrado por instrutor, os participantes aprenderão como usar o Python para desenvolver aplicativos práticos para resolver uma série de problemas específicos relacionados a finanças.
Ao final deste treinamento, os participantes serão capazes de:
- Compreender os fundamentos da Python programação Python
- Baixe, instale e mantenha as melhores ferramentas de desenvolvimento para criar aplicativos financeiros em Python
- Selecione e utilize os pacotes Python e técnicas de programação mais adequados para organizar, visualizar e analisar dados financeiros de várias fontes (CSV, Excel , bancos de dados, web, etc.)
- Crie aplicativos que resolvam problemas relacionados à alocação de ativos, análise de riscos, desempenho de investimentos e muito mais
- Solucionar problemas, integrar, implantar e otimizar um aplicativo Python
Público
- Desenvolvedores
- Analistas
- Quants
Formato do curso
- Parte palestra, parte discussão, exercícios e prática prática pesada
Nota
- Este treinamento visa fornecer soluções para alguns dos principais problemas enfrentados pelos profissionais de finanças. No entanto, se você tiver um tópico, ferramenta ou técnica específica que deseja anexar ou elaborar mais adiante, entre em contato conosco para agendar.