Programa do Curso
Machine Learning Introdução
- Tipos de aprendizado de máquina – supervisionado vs não supervisionado
- Do aprendizado estatístico ao aprendizado de máquina
- O fluxo de trabalho da mineração de dados: compreensão do negócio, preparação dos dados, modelagem, implantação
- Escolhendo o algoritmo certo para a tarefa
- Sobreajuste e o trade-off entre viés e variância
Python e Visão Geral de Bibliotecas de ML
- Por que usar linguagens de programação para ML
- Escolhendo entre R e Python
- Introdução ao Python e Jupyter Notebooks
- Bibliotecas do Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Testando e Avaliando Algoritmos de ML
- Generalização, sobreajuste e validação do modelo
- Estratégias de avaliação: holdout, validação cruzada, bootstrap
- Métricas para regressão: ME, MSE, RMSE, MAPE
- Métricas para classificação: acurácia, matriz de confusão, classes desbalanceadas
- Visualização do desempenho do modelo: curva de lucro, ROC curve, lift curve
- Seleção e ajuste de modelos com grid search
Preparação dos Dados
- Importação e armazenamento de dados no Python
- Análise exploratória e estatísticas descritivas
- Lidando com valores ausentes e outliers
- Padrão, normalização e transformações
- Codificação de dados qualitativos e manipulação de dados com pandas
Algoritmos de Classificação
- Classificação binária vs multiclasse
- Regressão logística e funções discriminantes
- Naïve Bayes, k-vizinhos mais próximos
- Árvores de decisão: CART, Random Forests, Bagging, Boosting, XGBoost
- Máquinas de vetores de suporte e kernels
- Técnicas de aprendizado em conjunto
Regressão e Previsão Numérica
- Mínimos quadrados e seleção de variáveis
- Métodos de regularização: L1, L2
- Regressão polinomial e modelos não lineares
- Árvores de regressão e splines
Unsupervised Learning
- Técnicas de agrupamento: k-means, k-medoids, clusterização hierárquica, SOMs
- Redução da dimensionalidade: PCA, análise fatorial, SVD
- Escala multidimensional
Miningue de Texto
- Pré-processamento e tokenização de texto
- Bolsa de palavras, stemming e lematização
- Análise de sentimento e frequência das palavras
- Visualizando dados de texto com nuvens de palavras
Sistemas de Recomendação
- Filtragem colaborativa baseada em usuários e itens
- Desevolvendo e avaliando motores de recomendação
Mineração de Padrões de Associação
- Conjuntos frequentes e algoritmo Apriori
- Análise do cesto de compras e razão de elevação
Deteção de Outliers
- Análise de valores extremos
- Métodos baseados em distância e densidade
- Deteção de outliers em dados de alta dimensionalidade
Machine Learning Estudo de Caso
- Compreendendo o problema do negócio
- Pré-processamento dos dados e engenharia de recursos
- Seleção do modelo e ajuste de parâmetros
- Avaliação e apresentação das descobertas
- Implantação
Resumo e Próximos Passos
Requisitos
- Noções básicas de estatística e álgebra linear
- Familiaridade com conceitos de análise de dados ou inteligência empresarial
- Alguma exposição à programação (preferencialmente em Python ou R) é recomendada
- Interesse em aprender machine learning aplicado para projetos orientados a dados
Público-alvo
- Analistas e cientistas de dados
- Estatísticos e profissionais de pesquisa
- Desenvolvedores e profissionais de TI explorando ferramentas de machine learning
- Qualquer pessoa envolvida em projetos de ciência de dados ou análise preditiva
Declaração de Clientes (3)
Mesmo com a necessidade de faltar um dia por causa das reuniões com clientes, sinto que tenho uma compreensão muito mais clara dos processos e técnicas utilizados no Machine Learning e quando eu usaria uma abordagem em vez de outra. Nosso desafio agora é praticar o que aprendemos e começar a aplicá-lo ao nosso domínio de problemas.
Richard Blewett - Rock Solid Knowledge Ltd
Curso - Machine Learning – Data science
Máquina Traduzida
Gostei de que o treinamento se concentrou em exemplos e codificação. Achei impossível compactar tanto conteúdo em três dias de treinamento, mas me enganei. O treinamento abrangeu muitos tópicos e tudo foi feito de forma muito detalhada (especialmente o ajuste dos parâmetros do modelo - não esperava que houvesse tempo para isso e fiquei bastante surpreso).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
Curso - Machine Learning – Data science
Máquina Traduzida
Está mostrando muitos métodos com scripts pré-preparados - materiais muito bem preparados e fáceis de rastrear.
Kamila Begej - GE Medical Systems Polska Sp. Zoo
Curso - Machine Learning – Data science
Máquina Traduzida