Curso de SMACK Stack para Ciência de Dados
SMACK é uma coleção de softwares de plataforma de dados, nomeadamente Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra e Apache Kafka. Usando a pilha SMACK, os usuários podem criar e escalar plataformas de processamento de dados.
Este treinamento guiado por instrutor (online ou presencial) é destinado a cientistas de dados que desejam usar a pilha SMACK para construir plataformas de processamento de dados para soluções de big data.
Ao final deste treinamento, os participantes serão capazes de:
- Implementar uma arquitetura de pipeline de dados para processar big data.
- Desenvolver uma infraestrutura de cluster com Apache Mesos e Docker.
- Analisar dados com Spark e Scala.
- Gerenciar dados não estruturados com Apache Cassandra.
Formato do Curso
- Aula interativa e discussão.
- Muitos exercícios e prática.
- Implementação prática em um ambiente de laboratório ao vivo.
Opções de Personalização do Curso
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para agendar.
Programa do Curso
Introdução
Visão Geral da Pilha SMACK
- O que é o Apache Spark? Recursos do Apache Spark
- O que é o Apache Mesos? Recursos do Apache Mesos
- O que é o Apache Akka? Recursos do Apache Akka
- O que é o Apache Cassandra? Recursos do Apache Cassandra
- O que é o Apache Kafka? Recursos do Apache Kafka
Linguagem Scala
- Sintaxe e estrutura da Scala
- Controle de fluxo na Scala
Preparação do Ambiente de Desenvolvimento
- Instalação e configuração da pilha SMACK
- Instalação e configuração do Docker
Apache Akka
- Usando atores
Apache Cassandra
- Criando um banco de dados para operações de leitura
- Trabalhando com backups e recuperação
Conectores
- Criando um fluxo de dados
- Construindo uma aplicação Akka
- Armazenando dados com Cassandra
- Revisando conectores
Apache Kafka
- Trabalhando com clusters
- Criando, publicando e consumindo mensagens
Apache Mesos
- Alocando recursos
- Executando clusters
- Trabalhando com Apache Aurora e Docker
- Executando serviços e tarefas
- Implementando Spark, Cassandra e Kafka no Mesos
Apache Spark
- Gerenciando fluxos de dados
- Trabalhando com RDDs e dataframes
- Realizando análise de dados
Resolução de Problemas
- Lidando com falhas de serviços e erros
Resumo e Conclusão
Requisitos
- Um entendimento de sistemas de processamento de dados
Público-Alvo
- Cientistas de Dados
Os cursos de treinamento abertos exigem mais de 5 participantes.
Curso de SMACK Stack para Ciência de Dados - Reserva
Curso de SMACK Stack para Ciência de Dados - Consulta
SMACK Stack para Ciência de Dados - Solicitação de Consultoria
Solicitação de Consultoria
Declaração de Clientes (1)
muito interativo...
Richard Langford
Curso - SMACK Stack for Data Science
Máquina Traduzida
Próximas Formações Provisórias
Cursos Relacionados
Ecosystem para Cientistas de Dados
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a cientistas de dados que desejam usar o ecossistema Anaconda para capturar, gerenciar e implantar pacotes e fluxos de trabalho de análise de dados em uma única plataforma.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar componentes e bibliotecas Anaconda.
- Compreender os principais conceitos, recursos e benefícios do Anaconda.
- Gerenciar pacotes, ambientes e canais usando o Anaconda Navigator.
- Usar pacotes Conda, R e Python para ciência de dados e aprendizado de máquina.
- Conhecer alguns casos de uso práticos e técnicas para gerenciar vários ambientes de dados.
Inteligência de Negócios de Big Data para Provedores de Serviços de Telecomunicações e Comunicação
35 HorasVisão geral
Communications provedores de serviços (CSP) estão enfrentando pressão para reduzir custos e maximizar o rendimento médio por usuário (ARPU), ao mesmo tempo que garantem uma excelente experiência de cliente, mas os volumes de dados continuam a crescer. O tráfego global de dados móveis crescerá a uma taxa de crescimento anual combinada (CAGR) de 78 por cento até 2016, atingindo 10,8 exabytes por mês.
Enquanto isso, os CSPs estão gerando grandes volumes de dados, incluindo registros de detalhes de chamadas (CDR), dados de rede e dados de clientes. As empresas que aproveitam plenamente esses dados ganham um limiar competitivo. De acordo com uma pesquisa recente da Economist Intelligence Unit, as empresas que usam tomada de decisões orientadas a dados desfrutam de um aumento de 5-6% na produtividade. No entanto, 53% das empresas usam apenas metade dos seus dados valiosos, e um quarto dos entrevistados notou que enormes quantidades de dados úteis vão sem acesso. Os volumes de dados são tão altos que a análise manual é impossível, e a maioria dos sistemas de software hereditário não pode manter-se, resultando em dados valiosos sendo descartados ou ignorados.
Com Big Data & Analytics’ software de big data de alta velocidade, escalável, os CSPs podem minar todos os seus dados para melhor tomada de decisão em menos tempo. Diferentes Big Data produtos e técnicas fornecem uma plataforma de software end-to-end para a recolha, preparação, análise e apresentação de insights de grandes dados. As áreas de aplicação incluem monitoramento de desempenho da rede, detecção de fraude, detecção de clientes e análise de risco de crédito. Big Data & Produtos de análise escala para lidar com terabytes de dados, mas a implementação dessas ferramentas requer um novo tipo de sistema de banco de dados baseado em nuvem como Hadoop ou processador de computação paralelo de escala massiva ( KPU etc.)
Este curso trabalha em Big Data BI para Telco cobre todas as novas áreas emergentes em que os CSPs estão investindo para aumentar a produtividade e abrir novos fluxos de receita de negócios. O curso fornecerá uma visão completa de 360 graus de Big Data BI em Telco para que os decisores e gerentes possam ter uma visão geral muito ampla e abrangente das possibilidades de Big Data BI em Telco para produtividade e ganho de receita.
Objetivos do curso
O objetivo principal do curso é introduzir novas Big Data técnicas de inteligência de negócios em 4 setores de Telecom Business (Marketing/Vendas, Operação de Rede, Operação Financeira e Relação com o Cliente Management). Os alunos serão introduzidos a seguir:
- Introdução a Big Data-o que é 4Vs (volume, velocidade, variedade e veracidade) em Big Data- Geração, extração e gerenciamento da perspectiva da Telco
- Como Big Data o analista difere do analista de dados de herança
- In-house justificação de Big Data -Prospectiva Telco
- Introdução a Hadoop Ecosistema- familiaridade com todas as Hadoop ferramentas como Hive, Pig, SPARC –quando e como eles são usados para resolver Big Data problema
- Como Big Data é extraído para analisar para a ferramenta de análise-como Business Analysis’s podem reduzir seus pontos de dor de recolha e análise de dados através de uma abordagem integrada Hadoop dashboard
- Introdução básica da análise de Insight, análise de visualização e análise preditiva para Telco
- Analítica do cliente e Big Data-como Big Data analítica pode reduzir o cliente e a insatisfação do cliente em estudos de caso Telco
- Análise de falhas de rede e de falhas de serviço a partir de metadados de rede e IPDR
- Análise financeira-fraude, vazamento e estimativa do ROI a partir de dados de vendas e operações
- Problemas de aquisição do cliente-Marketing Objetivo, Segmentação do cliente e Cross-Sales a partir de dados de vendas
- Introdução e resumo de todos os Big Data produtos analíticos e onde eles se encaixam no espaço analítico da Telco
- Conclusão-como tomar uma abordagem passo a passo para introduzir Big Data Business Intelligence em sua organização
Auditoria Objetiva
- Operação de rede, gerentes financeiros, gerentes de CRM e gerentes de TI de alto nível no escritório do Telco CIO.
- Business Analisadores em Telco
- Diretores de escritório / analistas
- Gestores Operacionais
- Gerenciadores QA
Uma Introdução Prática à Ciência de Dados
35 HorasOs participantes que concluírem esta formação adquirirão um conhecimento prático e real da Data Science e das tecnologias, metodologias e ferramentas relacionadas.
Os participantes terão a oportunidade de pôr em prática estes conhecimentos através de exercícios práticos. A interação em grupo e o feedback do formador constituem uma componente importante da aula.
O curso começa com uma introdução aos conceitos elementares da Data Science, depois avança para as ferramentas e metodologias utilizadas na Data Science.
Público
- Programadores
- Analistas técnicos
- Consultores de TI
Formato do curso
- Parte palestra, parte discussão, exercícios e prática prática pesada
Nota
- Para solicitar uma formação personalizada para este curso, por favor contacte-nos para combinar.
Ciência de Dados para Análise de Big Data
35 HorasBig data é um conjunto de dados tão volumoso e complexo que os aplicativos tradicionais de processamento de dados são inadequados para lidar com eles. Os desafios do big data incluem a captura de dados, armazenamento de dados, análise de dados, pesquisa, compartilhamento, transferência, visualização, consulta, atualização e privacidade de informações.
Ciência de Dados essencial para profissionais de Marketing/Vendas
21 HorasEste curso é destinado a Profissionais de Marketing e Vendas que pretendem se aprofundar na aplicação da ciência de dados no Marketing/Vendas. O curso oferece cobertura detalhada das diferentes técnicas de ciência de dados usadas para "up-sale", "cross-sale", segmentação de mercado, branding e CLV.
Diferença entre Marketing e Vendas - Como as vendas e o marketing são diferentes?
Em palavras muito simples, vendas podem ser definidas como um processo que se concentra ou visa indivíduos ou pequenos grupos. Por outro lado, o marketing visa um grupo maior ou o público em geral. O marketing inclui pesquisa (identificação das necessidades do cliente), desenvolvimento de produtos (produção de produtos inovadores) e promoção do produto (através de publicidade) e criação de conscientização sobre o produto entre os consumidores. Portanto, o marketing significa gerar leads ou prospects. Uma vez que o produto está no mercado, é tarefa do vendedor convencer o cliente a comprar o produto. As vendas significam converter leads ou prospects em compras e pedidos, enquanto o marketing visa objetivos de longo prazo, as vendas se referem a metas de curto prazo.
Jupyter para Equipes de Ciência de Dados
7 HorasEste treinamento ao vivo e ministrado por instrutor em Brasil (online ou presencial) introduz a ideia de desenvolvimento colaborativo em ciência de dados e demonstra como usar o Jupyter para acompanhar e participar, como uma equipe, no "ciclo de vida de uma ideia computacional". Ele guia os participantes através da criação de um projeto de ciência de dados baseado no ecossistema do Jupyter.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Jupyter, incluindo a criação e integração de um repositório de equipe no Git.
- Usar recursos do Jupyter como extensões, widgets interativos, modo multiusuário e mais para habilitar colaboração em projetos.
- Criar, compartilhar e organizar os Notebooks Jupyter com membros da equipe.
- Esfolar de Scala, Python, R, para escrever e executar código contra sistemas de big data como Apache Spark, tudo através da interface do Jupyter.
Kaggle
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a cientistas de dados e desenvolvedores que desejam aprender e construir suas carreiras em Data Science usando Kaggle.
Ao final deste treinamento, os participantes serão capazes de:
- Aprender sobre ciência de dados e aprendizado de máquina.
- Explorar a análise de dados.
- Aprender sobre Kaggle e como ele funciona.
Fundamentos do MATLAB, Ciência de Dados e Geração de Relatórios
35 HorasNa primeira parte deste treinamento, abordamos os fundamentos de MATLAB e sua função como linguagem e plataforma. Incluída nesta discussão está uma introdução à sintaxe de MATLAB, matrizes e matrizes, visualização de dados, desenvolvimento de scripts e princípios orientados a objetos.
Na segunda parte, demonstramos como usar MATLAB para mineração de dados, aprendizado de máquina e análise preditiva. Para dar aos participantes uma perspetiva clara e prática da abordagem e do poder da MATLAB, estabelecemos comparações entre a utilização da MATLAB e a utilização de outras ferramentas, como folhas de cálculo, C, C++ e Visual Basic.
Na terceira parte da formação, os participantes aprendem a simplificar o seu trabalho, automatizando o processamento de dados e a criação de relatórios.
Ao longo do curso, os participantes colocarão em prática as ideias aprendidas através de exercícios práticos num ambiente de laboratório. No final da formação, os participantes terão um conhecimento profundo das capacidades de MATLAB e serão capazes de o empregar para resolver problemas reais de ciência de dados, bem como para agilizar o seu trabalho através da automatização.
As avaliações serão realizadas ao longo do curso para avaliar o progresso.
Formato do curso
- O curso inclui exercícios teóricos e práticos, incluindo discussões de casos, inspeção de código de amostra e implementação prática.
Nota
- As sessões práticas serão baseadas em modelos de relatório de dados de amostra pré-arranjados. Se tiver necessidades específicas, contacte-nos para combinarmos.
Machine Learning para Data Science com Python
21 HorasEsta formação ao vivo, ministrada por um instrutor em Brasil (online ou presencial), é direcionada a analistas de dados intermediários, desenvolvedores ou cientistas de dados aspirantes que desejam aplicar técnicas de aprendizado de máquina no Python para extrair insights, fazer previsões e automatizar decisões baseadas em dados.
No final deste curso, os participantes serão capazes de:
- Compreender e diferenciar os principais paradigmas de aprendizado de máquina.
- Explorar técnicas de pré-processamento de dados e métricas de avaliação de modelos.
- Aplicar algoritmos de aprendizado de máquina para resolver problemas reais com dados.
- Utilizar bibliotecas do Python e Jupyter notebooks para desenvolvimento prático.
- Criar modelos para previsão, classificação, recomendação e agrupamento.
Acelerando Fluxos de Trabalho do Python Pandas com o Modin
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a cientistas e desenvolvedores de dados que desejam usar Modin para criar e implementar cálculos paralelos com Pandas para uma análise de dados mais rápida.
No final deste treinamento, os participantes serão capazes de:
- Configurar o ambiente necessário para começar a desenvolver fluxos de trabalho Pandas em escala com Modin.
- Compreender os recursos, a arquitetura e as vantagens de Modin.
- Conhecer as diferenças entre Modin, Dask e Ray.
- Realizar operações Pandas mais rapidamente com Modin.
- Implementar toda a API Pandas e as funções.
Programação em Python para Finanças
35 HorasPython é uma linguagem de programação que ganhou enorme popularidade no setor financeiro. Adotado pelos maiores bancos de investimento e fundos de hedge, ele está sendo usado para criar uma ampla gama de aplicações financeiras, que vão desde os principais programas de negociação até os sistemas de gerenciamento de riscos.
Neste treinamento ao vivo, ministrado por instrutor, os participantes aprenderão como usar o Python para desenvolver aplicativos práticos para resolver uma série de problemas específicos relacionados a finanças.
Ao final deste treinamento, os participantes serão capazes de:
- Compreender os fundamentos da linguagem de programação Python
- Baixar, instalar e manter as melhores ferramentas de desenvolvimento para criar aplicações financeiras em Python
- Selecionar e utilizar os pacotes e técnicas de programação Python mais adequados para organizar, visualizar e analisar dados financeiros de diversas fontes (CSV, Excel, bancos de dados, web, etc.)
- Construir aplicações que resolvam problemas relacionados à alocação de ativos, análise de riscos, desempenho de investimentos e muito mais
- Solucionar problemas, integrar, implantar e otimizar uma aplicação Python
Público
- Desenvolvedores
- Analistas
- Quants
Formato do curso
- Parte palestra, parte discussão, exercícios e muita prática hands-on
Nota
- Este treinamento tem como objetivo fornecer soluções para alguns dos principais problemas enfrentados por profissionais de finanças. No entanto, se você tiver um tópico, ferramenta ou técnica específica que deseja aprofundar ou elaborar, entre em contato conosco para combinar.
Python na Ciência de Dados
35 HorasO curso de treinamento ajudará os participantes a se prepararem para o Desenvolvimento de Aplicações Web usando Programação Python com Análise de Dados. A visualização de dados é uma excelente ferramenta para a Alta Administração na tomada de decisões.
Ciência de Dados com GPU usando NVIDIA RAPIDS
14 HorasEste treinamento presencial, ministrado pelo instrutor em Brasil (online ou localmente), é destinado a cientistas de dados e desenvolvedores que desejam usar o RAPIDS para construir pipelines de dados aceleradas por GPU, fluxos de trabalho e visualizações, aplicando algoritmos de aprendizado de máquina, como XGBoost, cuML, etc.
Ao final deste treinamento, os participantes serão capazes de:
- Configurar o ambiente de desenvolvimento necessário para criar modelos de dados com NVIDIA RAPIDS.
- Compreender as funcionalidades, componentes e vantagens do RAPIDS.
- Utilizar GPUs para acelerar pipelines de dados e análise de ponta a ponta.
- Implementar a preparação de dados e ETL acelerados por GPU com cuDF e Apache Arrow.
- Aprender como realizar tarefas de aprendizado de máquina com algoritmos XGBoost e cuML.
- Construir visualizações de dados e executar análise de gráficos com cuXfilter e cuGraph.
Python e Spark para Big Data (PySpark)
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão como usar Python e Spark juntos para analisar big data enquanto trabalham em exercícios práticos.
Ao final deste treinamento, os participantes serão capazes de:
- Aprenda a usar o Spark com Python para analisar Big Data.
- Trabalhe em exercícios que imitam casos do mundo real.
- Use diferentes ferramentas e técnicas para análise de big data usando PySpark.
Stratio: Módulos Rocket e Intelligence com PySpark
14 HorasA Stratio é uma plataforma centrada em dados que integra big data, IA e governança em uma única solução. Seus módulos Rocket e Intelligence permitem a exploração rápida de dados, transformação e análises avançadas em ambientes empresariais.
Esta formação presencial (online ou no local), orientada por instrutor, é direcionada a profissionais de dados intermediários que desejam usar os módulos Rocket e Intelligence na Stratio efetivamente com PySpark, focando em estruturas de repetição, funções definidas pelo usuário e lógica de dados avançada.
Ao final deste treinamento, os participantes serão capazes de:
- Navegar e trabalhar dentro da plataforma Stratio usando os módulos Rocket e Intelligence.
- Aplicar PySpark no contexto de ingestão de dados, transformação e análise.
- Usar loops e lógica condicional para controlar fluxos de trabalho de dados e tarefas de engenharia de recursos.
- Criar e gerenciar funções definidas pelo usuário (UDFs) para operações reutilizáveis em PySpark.
Formato do Curso
- Aula interativa e discussão.
- Muitos exercícios e prática.
- Implementação hands-on em um ambiente de laboratório ao vivo.
Opções de Personalização do Curso
- Para solicitar uma formação personalizada para este curso, entre em contato conosco para agendar.