Curso de Fundamentos do Apache Iceberg
O Apache Iceberg é um formato de tabela de código aberto para conjuntos de dados em larga escala que traz a confiabilidade e simplicidade das tabelas SQL para big data. Ele foi projetado para resolver os desafios de gerenciamento de big data em data lakes, que geralmente envolvem o manuseio de esquemas complexos, arquivos grandes e fontes de dados diversas.
Este treinamento conduzido por instrutor (online ou presencial) é voltado para profissionais de dados de nível iniciante que desejam adquirir os conhecimentos e habilidades necessários para utilizar efetivamente o Apache Iceberg no gerenciamento de conjuntos de dados em larga escala, garantindo a integridade dos dados e otimizando fluxos de trabalho de processamento de dados.
Ao final deste treinamento, os participantes serão capazes de:
- Obter uma compreensão aprofundada da arquitetura, recursos e benefícios do Apache Iceberg.
- Aprender sobre formatos de tabela, particionamento, evolução de esquema e capacidades de viagem no tempo.
- Instalar e configurar o Apache Iceberg em diferentes ambientes.
- Criar, gerenciar e manipular tabelas do Iceberg.
- Compreender o processo de migração de dados de outros formatos de tabela para Iceberg.
Formato do Curso
- Aula interativa e discussão.
- Muitos exercícios e prática.
- Implementação prática em um ambiente de laboratório ao vivo.
Opções de Personalização do Curso
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para agendar.
Programa do Curso
Introdução ao Apache Iceberg
- Visão geral do Apache Iceberg
- Importância e casos de uso na arquitetura de dados moderna
- Principais recursos e benefícios
Conceitos Fundamentais
- Formato e arquitetura das tabelas Iceberg
- Comparação com outros formatos de tabela
- Particionamento e evolução do esquema
- Viagem no tempo e versionamento de dados
Configurando o Apache Iceberg
- Instalação e configuração
- Integração do Iceberg com diversos motores de processamento de dados
- Configurando um ambiente Iceberg em uma máquina local
Operações Básicas
- Criação e gerenciamento de tabelas Iceberg
- Gravação e leitura em tabelas Iceberg
- Operações CRUD básicas
Migração de Dados e Integração
- Migração de dados do Hive e outros sistemas para o Iceberg
- Integração com ferramentas de BI
- Migração de um conjunto de dados de exemplo para o Iceberg
Otimização de Desempenho
- Técnicas de otimização de desempenho
- Otimização de consultas e varreduras de dados
- Otimização de desempenho no Iceberg
Visão Geral dos Recursos Avançados
- Evolução da partição e particionamento oculto
- Evolução de tabelas e alterações no esquema
- Viagem no tempo e recursos de rollback
- Implementação de recursos avançados no Iceberg
Resumo e Próximos Passos
Requisitos
- Familiaridade com conceitos como tabelas, esquemas, partições e ingestão de dados
- Conhecimento básico de SQL
Público-Alvo
- Engenheiros de dados
- Arquitetos de dados
- Analistas de dados
- Desenvolvedores de software
Os cursos de treinamento abertos exigem mais de 5 participantes.
Curso de Fundamentos do Apache Iceberg - Reserva
Curso de Fundamentos do Apache Iceberg - Consulta
Fundamentos do Apache Iceberg - SOLICITAÇÃO DE CONSULTORIA
Testemunhos de Clientes (1)
Exercícios práticos. A turma deveria ter durado 5 dias, mas os 3 dias ajudaram a esclarecer muitas das minhas dúvidas sobre o trabalho com NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Máquina Traduzida
Próximas Formações Provisórias
Cursos Relacionados
Avançado em Apache Iceberg
21 HorasEste treinamento presencial, conduzido por um instrutor em Brasil (online ou no local), é direcionado a profissionais de dados de nível avançado que desejam otimizar fluxos de trabalho de processamento de dados, garantir a integridade dos dados e implementar soluções robustas de data lakehouse capazes de lidar com as complexidades das aplicações de big data modernas.
Ao final deste treinamento, os participantes serão capazes de:
- Obter uma compreensão aprofundada da arquitetura do Iceberg, incluindo gerenciamento de metadados e layout de arquivos.
- Configurar o Iceberg para desempenho ótimo em diferentes ambientes e integrá-lo com múltiplos motores de processamento de dados.
- Gerenciar tabelas do Iceberg em larga escala, realizar alterações complexas no esquema e lidar com a evolução das partições.
- Dominar técnicas para otimizar o desempenho de consultas e a eficiência da leitura de dados em grandes conjuntos de dados.
- Implementar mecanismos para garantir a consistência dos dados, gerenciar garantias transacionais e lidar com falhas em ambientes distribuídos.
Análise de Grandes Dados com Google Colab e Apache Spark
14 HorasEste treinamento ao vivo, conduzido por instrutor em Brasil (online ou presencial), é direcionado a cientistas de dados e engenheiros intermediários que desejam usar Google Colab e Apache Spark para processamento e análise de big data.
Ao final deste treinamento, os participantes serão capazes de:
- Configurar um ambiente de big data usando Google Colab e Spark.
- Processar e analisar grandes conjuntos de dados eficientemente com Apache Spark.
- Visualizar big data em um ambiente colaborativo.
- Integrar Apache Spark com ferramentas baseadas na nuvem.
Inteligência de Negócios Big Data para Agências do Governo
35 HorasAvanços em tecnologias e o aumento cada vez maior da quantidade de informações estão transformando a forma como os negócios são conduzidos em muitas indústrias, incluindo o governo. As taxas de geração e arquivamento digital de dados governamentais estão em ascensão devido ao rápido crescimento de dispositivos móveis e aplicativos, sensores inteligentes e dispositivos, soluções de computação em nuvem e portais voltados para os cidadãos. À medida que as informações digitais se expandem e ficam mais complexas, a gestão, processamento, armazenamento, segurança e disposição desses dados também se tornam mais complexos. Novas ferramentas de captura, pesquisa, descoberta e análise estão ajudando organizações a obter insights de seus dados não estruturados. O mercado governamental está em um ponto de inflexão, reconhecendo que a informação é um ativo estratégico, e o governo precisa proteger, aproveitar e analisar tanto informações estruturadas quanto não estruturadas para melhor servir e cumprir suas missões. Conforme os líderes governamentais buscam evoluir organizações baseadas em dados para realizar com sucesso sua missão, estão estabelecendo as bases para correlacionar dependências entre eventos, pessoas, processos e informações.
Soluções de alto valor para o governo serão criadas a partir de uma mistura das tecnologias mais disruptivas:
- Dispositivos móveis e aplicativos
- Serviços em nuvem
- Tecnologias de negócios sociais e redes sociais
- Big Data e análise
O Big Data é uma das soluções inteligentes da indústria e permite que o governo tome melhores decisões baseadas em padrões revelados pela análise de grandes volumes de dados — relacionados ou não, estruturados ou não estruturados.
Mas alcançar esses feitos vai muito além de simplesmente acumular quantidades massivas de dados. “Dar sentido a esses volumes de Big Data requer ferramentas e tecnologias de ponta capazes de analisar e extrair conhecimento útil de fluxos vastos e diversos de informações”, escreveram Tom Kalil e Fen Zhao do Escritório de Ciência e Tecnologia da Casa Branca em um post no blog OSTP.
A Casa Branca deu um passo importante para ajudar as agências a encontrar essas tecnologias quando estabeleceu a Iniciativa Nacional de Pesquisa e Desenvolvimento Big Data em 2012. A iniciativa incluiu mais de $200 milhões para aproveitar ao máximo a explosão do Big Data e as ferramentas necessárias para analisá-lo.
Os desafios que o Big Data apresenta são quase tão formidáveis quanto sua promessa é encorajadora. Armazenar dados de forma eficiente é um desses desafios. Como sempre, os orçamentos são apertados, então as agências devem minimizar o custo por megabyte de armazenamento e manter os dados acessíveis para que os usuários possam obtê-los quando quiserem e da forma como precisam. Fazer backup de quantidades massivas de dados aumenta ainda mais esse desafio.
Analisar os dados efetivamente é outro grande desafio. Muitas agências empregam ferramentas comerciais que lhes permitem vasculhar montanhas de dados, identificando tendências que podem ajudá-las a operar com mais eficiência. (Um estudo recente da MeriTalk revelou que executivos de TI federais acreditam que o Big Data poderia ajudar as agências a economizar mais de $500 bilhões enquanto também cumprem suas missões.).
Ferramentas personalizadas de Big Data também estão permitindo que as agências abordem a necessidade de analisar seus dados. Por exemplo, o Laboratório Nacional Oak Ridge, por meio do Grupo de Análise de Dados Computacionais, disponibilizou seu sistema de análise de dados Piranha para outras agências. O sistema ajudou pesquisadores médicos a encontrar um link que pode alertar os médicos sobre aneurismas da aorta antes que ocorram. Também é usado para tarefas mais mundanas, como filtrar currículos para conectar candidatos a vagas com gerentes de contratação.
Hadoop para administradores
21 HorasApache Hadoop é o framework mais popular para processamento Big Data em clusters de servidores. Neste curso de três (opcionalmente, quatro) dias, os participantes aprenderão sobre os benefícios comerciais e casos de uso para Hadoop e seu ecossistema, como planejar a implantação e o crescimento do cluster, como instalar, manter, monitorar, solucionar problemas e otimizar Hadoop. Eles também praticarão o carregamento em massa de dados no cluster, se familiarizarão com várias distribuições Hadoop e praticarão a instalação e gerenciamento das ferramentas do ecossistema Hadoop. O curso termina com uma discussão sobre a segurança do cluster com Kerberos.
"... Os materiais foram muito bem preparados e abrangentes. A Labs foram muito úteis e bem organizadas"
— Andrew Nguyen, Engenheiro de Integração DW Principal, Microsoft Online Advertising
Público-Alvo
Administradores do Hadoop
Formato
Aulas e laboratórios práticos, aproximadamente 60% aulas, 40% labs.
Apache NiFi para Administradores
21 HorasO Apache NiFi é uma plataforma de integração e processamento de eventos baseada em fluxo. Ele permite a roteirização, transformação e mediação automatizadas e em tempo real de dados entre sistemas heterogêneos, com uma interface web e controle granular.
Este treinamento liderado por instrutor (presencial ou remoto) é direcionado a administradores e engenheiros intermediários que desejam implantar, gerenciar, proteger e otimizar fluxos de dados do NiFi em ambientes de produção.
No final deste treinamento, os participantes serão capazes de:
- Instalar, configurar e manter clusters Apache NiFi.
- Projetar e gerenciar fluxos de dados de várias fontes e destinos.
- Implementar lógica de automação, roteirização e transformação de fluxo.
- Otimizar o desempenho, monitorar operações e solucionar problemas.
Formato do Curso
- Aula interativa com discussão de arquitetura no mundo real.
- Laboratórios práticos: construção, implantação e gerenciamento de fluxos.
- Exercícios baseados em cenários em um ambiente de laboratório ao vivo.
Opções de Customização do Curso
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para organizar.
Apache NiFi para Desenvolvedores
7 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão os fundamentos da programação baseada em fluxo à medida que desenvolvem uma série de extensões de demonstração, componentes e processadores usando Apache NiFi.
No final deste treinamento, os participantes serão capazes de:
- Compreender a arquitetura do NiFi e os conceitos de fluxo de dados.
- Desenvolver extensões usando NiFi e APIs de terceiros.
- Desenvolver seu próprio processador Apache Nifi.
- Ingerir e processar dados em tempo real de formatos de arquivos e fontes de dados diferentes e incomuns.
PySpark e Machine Learning
21 HorasEste treinamento oferece uma introdução prática à criação de fluxos de trabalho escaláveis de processamento de dados e Machine Learning utilizando PySpark. Os participantes aprenderão como o Apache Spark opera dentro dos ecossistemas modernos de Big Data e como processar grandes conjuntos de dados de forma eficiente, aplicando os princípios da computação distribuída.
Fundamentos do Apache Spark
21 HorasEste treinamento conduzido por instrutor (online ou presencial) em Brasil é voltado para engenheiros que desejam configurar e implantar o sistema Apache Spark para processar grandes volumes de dados.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Apache Spark.
- Ler rapidamente e analisar grandes conjuntos de dados.
- Entender a diferença entre Apache Spark e Hadoop MapReduce e quando usar cada um.
- Integrar o Apache Spark com outras ferramentas de aprendizado de máquina.
Administração do Apache Spark
35 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a administradores de sistema de nível iniciante a intermediário que desejam implantar, manter e otimizar clusters Spark.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar Apache Spark em vários ambientes.
- Gerenciar recursos de cluster e monitorar aplicativos Spark.
- Otimizar o desempenho dos clusters do Spark.
- Implementar medidas de segurança e garantir alta disponibilidade.
- Depurar e solucionar problemas comuns do Spark.
Apache Spark na Nuvem
21 HorasA curva de aprendizagem do Apache Spark aumenta lentamente no início, exigindo muito esforço para obter o primeiro retorno. Este curso visa ultrapassar a primeira parte difícil. Após concluir este curso, os participantes compreenderão os fundamentos do Apache Spark, distinguirão claramente RDD de DataFrame, aprenderão as APIs Python e Scala, entenderão executores e tarefas, etc. Seguindo as melhores práticas, este curso se concentra fortemente na implantação em nuvem, Databricks e AWS. Os alunos também compreenderão as diferenças entre AWS EMR e AWS Glue, um dos últimos serviços de Spark da AWS.
PÚBLICO:
Data Engineer, DevOps, Data Scientist
Python e Spark para Big Data (PySpark)
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão como usar Python e Spark juntos para analisar big data enquanto trabalham em exercícios práticos.
Ao final deste treinamento, os participantes serão capazes de:
- Aprenda a usar o Spark com Python para analisar Big Data.
- Trabalhe em exercícios que imitam casos do mundo real.
- Use diferentes ferramentas e técnicas para análise de big data usando PySpark.
Python, Spark e Hadoop para Big Data
21 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a desenvolvedores que desejam usar e integrar o Spark, Hadoop e Python para processar, analisar e transformar conjuntos de dados grandes e complexos.
No final deste treinamento, os participantes serão capazes de:
- Configurar o ambiente necessário para iniciar o processamento de big data com Spark, Hadoop e Python.
- Compreender os recursos, componentes principais e arquitetura do Spark e Hadoop.
- Aprender como integrar Spark, Hadoop e Python para o processamento de big data.
- Explorar as ferramentas do ecossistema Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka e Flume).
- Construir sistemas de recomendação de filtragem colaborativa semelhantes a Netflix, YouTube, Amazon, Spotify e Google.
- Utilizar o Apache Mahout para escalar algoritmos de aprendizagem automática.
Apache Spark SQL
7 HorasO Spark SQL é o módulo do Apache Spark para trabalhar com dados estruturados e não estruturados. O Spark SQL fornece informações sobre a estrutura dos dados, bem como os cálculos sendo realizados. Essas informações podem ser usadas para realizar otimizações. Dois usos comuns do Spark SQL são:
- executar consultas SQL.
- ler dados de uma instalação existente do Hive.
Neste treinamento conduzido por um instrutor (presencial ou remoto), os participantes aprenderão a analisar vários tipos de conjuntos de dados usando Spark SQL.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Spark SQL.
- Realizar análise de dados usando Spark SQL.
- Consultar conjuntos de dados em diferentes formatos.
- Visualizar dados e resultados de consultas.
Formato do Curso
- Aula interativa e discussão.
- Muitos exercícios e práticas.
- Implementação prática em um ambiente de laboratório ao vivo.
Opções de Customização do Curso
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para agendar.
Stratio: Módulos Rocket e Intelligence com PySpark
14 HorasA Stratio é uma plataforma centrada em dados que integra big data, IA e governança em uma única solução. Seus módulos Rocket e Intelligence permitem a exploração rápida de dados, transformação e análises avançadas em ambientes empresariais.
Esta formação presencial (online ou no local), orientada por instrutor, é direcionada a profissionais de dados intermediários que desejam usar os módulos Rocket e Intelligence na Stratio efetivamente com PySpark, focando em estruturas de repetição, funções definidas pelo usuário e lógica de dados avançada.
Ao final deste treinamento, os participantes serão capazes de:
- Navegar e trabalhar dentro da plataforma Stratio usando os módulos Rocket e Intelligence.
- Aplicar PySpark no contexto de ingestão de dados, transformação e análise.
- Usar loops e lógica condicional para controlar fluxos de trabalho de dados e tarefas de engenharia de recursos.
- Criar e gerenciar funções definidas pelo usuário (UDFs) para operações reutilizáveis em PySpark.
Formato do Curso
- Aula interativa e discussão.
- Muitos exercícios e prática.
- Implementação hands-on em um ambiente de laboratório ao vivo.
Opções de Personalização do Curso
- Para solicitar uma formação personalizada para este curso, entre em contato conosco para agendar.