The_Self-taught_Data_Scientist
The_Self-taught_Data_Scientist copied to clipboard
A curated list of free courses from reputable universities that meet the requirements of an undergraduate curriculum in Data Science, excluding general education. With projects, supporting materials i...
Currículo Autodidata em Ciência de Dados
Sumário de Conteúdo
- Sobre
-
Metas de Aprendizado
- Seção 01 - Fundamentos
- Seção 02 - Matemática e Estatística Aplicada em Dados e Computação
- Seção 03 - Programação para Ciência de Dados
- Seção 03-A - Linguagem Python para Análise de Dados
- Seção 03-B - Linguagem R para Análise e Modelagem Estatística
- Seção 03-C - Linguagem Rust para Engenharia de Dados e LLM
- Seção Bônus - Estruturas de dados e Algoritmos
- Seção 04 - Mineração de Dados
- Seção 05 - Bancos de dados, SQL e Big Data
- Seção 06 - Computação na Nuvem
- Seção 07 - Aprendizado de Maquina
- Seção 08 - Aprendizado Profundo
- Seção 09 - Processamento de Linguagem Natural
- Seção 10 - Soft Skills
- Projetos Obrigatórios
- Bibliografia Extra
- Notas e Esclarecimentos
- Referências
Sobre
Bem-vindo a esse Currículo de Formação Autodidata em Dados, uma lista de cursos gratuitos de universidades renomadas como Stanford, Johns Hopkins e Colorado e outras.
Minha intenção ao criar esse projeto era aprender ciência de dados de forma gratuita, principalmente quando vi que existe muito conteúdo gratuito e bom na internet, por isso fiz minha pesquisa e organizei da forma mais coerente que encontrei.
Inicialmente eu criei esse guia para mim, mas se quiser usar também é só clonar e fazer os cursos que estão aqui presentes, caso faça sentido pra você ;)
Para construir este currículo consultei diferentes fontes que podem ser encontradas na seção Referências
no final deste README
.
Metas de Aprendizado
Meu foco principal é aprender o conteúdo seguindo este roteiro aqui, criado pelo pessoal da AI Expert.
Mas aqui está uma lista geral de conceitos e habilidades que quero aprender ao final deste "curso":
-
Proficiência em Programação:
-
Python é a principal linguagem para manipulação e implementação de modelos de dados, além de ser a principal ferramenta de inteligência artificial, sendo assim, é a linguagem mais explorada neste currículo.
-
Proficiência em R para análise estatística, visualização e exploração de dados estatísticos.
-
Rust é uma linguagem muito usada para engenharia de dados e implementação de modelos de IA, não preciso dizer mais nada.
-
-
Bancos de dados, Business Intelligence e Data Warehousing:
-
Conhecimento de sistemas de gerenciamento de banco de dados, com ênfase em bancos de dados relacionais e não relacionais.
-
Proficiência em ferramentas de Business Intelligence (BI) para análise de dados e tomada de decisões.
-
Compreender os meandros do Data Warehousing para garantir armazenamento e recuperação eficientes de grandes conjuntos de dados.
-
-
Inteligência Artificial:
-
Compreensão do desenvolvimento e aplicação de algoritmos de aprendizado de máquina para modelagem preditiva e reconhecimento de padrões.
-
Deep Learning: Aprofundando-se nas redes neurais, explorando arquiteturas e frameworks como TensorFlow e PyTorch.
-
Seção 01 - Fundamentos
Nesta seção, o objetivo é aprender o básico sobre dados, mas, mais importante, tornar-se "alfabetizado" em dados, entendendo como é possível transformar dados em informação.
Essa seção possui em média 128h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.
Curso | Oferecido por | Esforço de | Certificado, se aplicável | Status |
---|---|---|---|---|
Dados – O Que São, O Que Podemos Fazer Com Eles | Johns Hopkins University | ~11h | -- | -- |
Medição – Transformando Conceitos em Dados | Johns Hopkins University | ~11h | -- | -- |
Quantificando Relações com Modelos de Regressão | Johns Hopkins University | ~11h | -- | -- |
Quais são as chances? Probabilidade e Incerteza na Estatística | Johns Hopkins University | ~10h | -- | -- |
Ciência de Dados como Campo | University of Colorado | ~10h | -- | -- |
A Caixa de Ferramentas do Cientista de Dados | Johns Hopkins University | ~18h | Certificado de Conclusão | ✓ |
Questões Éticas em Ciência de Dados | University of Colorado | ~23h | -- | -- |
Cibersegurança para Ciência de Dados | University of Colorado | ~19h | -- | -- |
Fundamentos da Visualização de Dados | University of Colorado | ~14h | -- | -- |
Seção 02 - Matemática e Estatística Aplicada em Dados e Computação
Matemática é a área mais importante para ciência de dados, logo, acredito que a melhor forma de aprender seja por livros ou mesmo fazendo uma graduação em estatística, ou matemática aplicada, como já sou graduado em estatística, coloquei apenas alguns cursos específicos, mas nada muito profundo, recomendo fortemente as referências bibliográficas para um estudo mais aprofundado em matemática e estatística.
Essa seção possui em média 400h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.
Matemática 01:
Curso | Oferecido por | Esforço de | Certificado, se aplicável | Status |
---|---|---|---|---|
Pensamento Matemático em Ciência da Computação | UC San Diego | ~41h | -- | -- |
Combinatória e Probabilidade | UC San Diego | ~23h | -- | -- |
Introdução à Teoria dos Grafos | UC San Diego | ~20h | -- | -- |
Teoria dos Números e Criptografia | UC San Diego | ~16h | -- | -- |
Problema de Entrega | UC San Diego | ~13h | -- | -- |
Álgebra Linear para Aprendizado de Máquina e Ciência de Dados | DeepLearning.AI | ~34h | -- | -- |
Cálculo para aprendizado de máquina e ciência de dados | DeepLearning.AI | ~25h | -- | -- |
Probabilidade e estatística para aprendizado de máquina e ciência de dados | DeepLearning.AI | ~33h | -- | -- |
Matemática 02:
Curso | Oferecido por | Esforço de | Certificado, se aplicável | Status |
---|---|---|---|---|
Bioestatística 1 | Johns Hopkins University | ~13h | -- | -- |
Bioestatística 2 | Johns Hopkins University | ~11h | -- | -- |
Modelos Lineares 1: Mínimos Quadrados | Johns Hopkins University | ~08h | -- | -- |
Modelos Lineares 2: Modelos Estatísticos | Johns Hopkins University | ~05h | -- | -- |
Modelos Gráficos Probabilísticos 1: Representação | Stanford University | ~66h | -- | -- |
Modelos Gráficos Probabilísticos 2: Inferência | Stanford University | ~38h | -- | -- |
Modelos Gráficos Probabilísticos 3: Aprendizagem | Stanford University | ~66h | -- | -- |
Seção 03 - Programação para Ciência de Dados
Essa seção é focada em linguagens de programação usadas na área de dados, para isso eu selecionei 3, Python, R e Rust. As três linguagens são amplamente usadas, são padrões na indústria, possuem um monte de bibliotecas para dados, mas mais importante, quando eu pesquiso "Ciência de Dados" no LinkedIn, Python é a principal linguagem cobrada, todo curso de Estatística é dado em R, e Rust parece ser super legal de aprender... logo, essas são as linguagens que vamos aprender.
Essa seção possui em média 900h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo, e é a parte mais longa do currículo.
Seção 03-A - Linguagem Python para Análise de Dados
Seção 03-B - Linguagem R para Análise e Modelagem Estatística
Curso | Oferecido por | Esforço de | Certificado, se aplicável | Status |
---|---|---|---|---|
Programação R | Johns Hopkins University | ~57h | -- | -- |
Programação R Avançada | Johns Hopkins University | ~18h | -- | -- |
Construindo Pacotes R | Johns Hopkins University | ~20h | -- | -- |
Introdução ao Tidyverse | Johns Hopkins University | ~07h | -- | -- |
Importando dados no Tidyverse | Johns Hopkins University | ~15h | -- | -- |
Organização de dados no Tidyverse | Johns Hopkins University | ~14h | -- | -- |
Visualizando dados no Tidyverse | Johns Hopkins University | ~16h | -- | -- |
Modelando dados no Tidyverse | Johns Hopkins University | ~21h | -- | -- |
Introdução à visualização de dados em R | Johns Hopkins University | ~11h | -- | -- |
Visualização de dados em R com ggplot2 | Johns Hopkins University | ~12h | -- | -- |
Visualização de dados avançada com R | Johns Hopkins University | ~10h | -- | -- |
Publicação de visualizações em R com Shiny e flexdashboard | Johns Hopkins University | ~11h | -- | -- |
Seção 03-C - Linguagem Rust para Engenharia de Dados e LLM
Curso | Oferecido por | Esforço de | Certificado, se aplicável | Status |
---|---|---|---|---|
Fundamentos da Rust | Duke University | ~40h | -- | -- |
Engenharia de dados com Rust | Duke University | ~63h | -- | -- |
Rust para DevOps | Duke University | ~18h | -- | -- |
Python e Rust com ferramentas de linha de comando do Linux | Duke University | ~20h | -- | -- |
Rust para LLMOps | Duke University | ~16h | -- | -- |
Seção Bônus - Estruturas de dados e Algoritmos
Curso | Oferecido por | Esforço de | Certificado, se aplicável | Status |
---|---|---|---|---|
Algoritmos para pesquisa, classificação e indexação | University of Colorado Boulder | ~35h | -- | -- |
Árvores e gráficos: noções básicas | University of Colorado Boulder | ~34h | -- | -- |
Programação dinâmica, algoritmos gananciosos | University of Colorado Boulder | ~37h | -- | -- |
Algoritmos de Aproximação e Programação Linear | University of Colorado Boulder | ~48h | -- | -- |
Estruturas de dados avançadas, algoritmos RSA e quânticos | University of Colorado Boulder | ~37h | -- | -- |
Seção 04 - Mineração de Dados
Nessa seção eu quero aprender técnicas de mineração de dados tanto para dados estruturados, quanto para dados não estruturados que existem na forma de texto em linguagem natural. Os tópicos específicos dos cursos incluem descoberta de padrões, clustering, recuperação de texto, mineração e análise de texto e visualização de dados.
Essa seção possui em média 112h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.
Curso | Oferecido por | Esforço de | Certificado, se aplicável | Status |
---|---|---|---|---|
Visualização de dados | University of Illinois | ~15h | -- | -- |
Recuperação de texto e motores de busca | University of Illinois | ~30h | -- | -- |
Mineração e análise de texto | University of Illinois | ~33h | -- | -- |
Descoberta de padrões em mineração de dados | University of Illinois | ~17h | -- | -- |
Análise de Cluster em Mineração de Dados | University of Illinois | ~16h | -- | -- |
Seção 05 - Bancos de dados, SQL e Big Data
Acredito que preciso descrever porque temos uma seção de SQL e Big Data... Com isso posto, aqui estão ótimos cursos que visam ensinar essas habilidades relacionadas a Banco de Dados e Big Data.
Essa seção possui em média 160h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.
Curso | Oferecido por | Esforço de | Certificado, se aplicável | Status |
---|---|---|---|---|
Design de banco de dados relacional | University of Colorado | ~34h | -- | -- |
A linguagem de consulta estruturada (SQL) | University of Colorado | ~26h | -- | -- |
Tópicos Avançados e Tendências Futuras em Tecnologias de Banco de Dados | University of Colorado | ~16h | -- | -- |
Introdução ao Big Data | University of California | ~17h | -- | -- |
Modelagem de Big Data e Sistemas de Gestão | University of California | ~13h | -- | -- |
Integração e processamento de Big Data | University of California | ~17h | -- | -- |
Aprendizado de máquina com Big Data | University of California | ~23h | -- | -- |
Análise gráfica para Big Data | University of California | ~13h | -- | -- |
Seção 06 - Computação na Nuvem
Cloud é extremamente importante em tecnologia hoje em dia, porém, esse projeto já passou por algumas iterações, e não só tecnologia evolui, como temos diversos serviços de Cloud, por isso os cursos aqui são mais teóricos do que treinamentos, acredito que aprendendo a base do que é computação em nuvem, fica muito mais fácil escolher usar Azure ou AWS.. etc.
Essa seção possui em média 100h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.
Curso | Oferecido por | Esforço de | Certificado, se aplicável | Status |
---|---|---|---|---|
Conceitos de computação em nuvem, parte 1 | University of Illinois | ~23h | -- | -- |
Conceitos de computação em nuvem: parte 2 | University of Illinois | ~19h | -- | -- |
Sistemas e infraestrutura em nuvem | University of Illinois | ~15h | -- | -- |
Big Data e aplicações na nuvem | University of Illinois | ~19h | -- | -- |
Rede em nuvem | University of Illinois | ~22h | -- | -- |
Seção 07 - Aprendizado de Maquina
Aprendemos análise de dados, Python e Big Data... agora juntamos tudo isso e aplicamos IA nisso, as próximas três seções exploram isso, começando por Machine Learning. Os cursos a seguir fornecem uma ampla introdução ao aprendizado de máquina moderno, incluindo aprendizado supervisionado (regressão linear múltipla, regressão logística, redes neurais e árvores de decisão), aprendizado não supervisionado (clustering, redução de dimensionalidade, sistemas de recomendação) e algumas das melhores práticas usadas em Silicon.
Essa seção possui em média 148h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.
Curso | Oferecido por | Esforço de | Certificado, se aplicável | Status |
---|---|---|---|---|
Aprendizado de Máquina Supervisionado: Regressão e Classificação | DeepLearning.AI | ~33h | -- | -- |
Algoritmos de Aprendizagem Avançada | DeepLearning.AI | ~34h | -- | -- |
Aprendizagem não Supervisionada, Recomendações, Aprendizagem por Reforço | DeepLearning.AI | ~37h | -- | -- |
Introdução ao TensorFlow | DeepLearning.AI | ~17h | -- | -- |
Redes Neurais Convolucionais no TensorFlow | DeepLearning.AI | ~16h | -- | -- |
Processamento de linguagem natural no TensorFlow | DeepLearning.AI | ~24h | -- | -- |
Sequências, Séries Temporais e Previsão | DeepLearning.AI | ~22h | -- | -- |
Seção 08 - Aprendizado Profundo
Dando continuidade aos estudos de IA, passamos ao Deep Learning, que basicamente são técnicas mais complexas para trabalhar com dados não estruturados, como imagens. Os cursos dessa seção exploram essas técnicas e aplicações.
Essa seção possui em média 127h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.
Curso | Oferecido por | Esforço de | Certificado, se aplicável | Status |
---|---|---|---|---|
Redes Neurais e Aprendizado Profundo | DeepLearning.AI | ~24h | -- | -- |
Melhorando Redes Neurais Profundas | DeepLearning.AI | ~23h | -- | -- |
Estruturação de Projetos de Aprendizado de Máquina | DeepLearning.AI | ~06h | -- | -- |
Redes Neurais Convolucionais | DeepLearning.AI | ~35h | -- | -- |
Modelos de sequência | DeepLearning.AI | ~37h | -- | -- |
Seção 09 - Processamento de Linguagem Natural
Finalizando os estudos (introdutórios) de IA com NLP, que é o estudo de técnicas para o reconhecimento e análise de linguagem natural, que é a forma como nós escrevemos e falamos. Essa tecnologia é uma das áreas de aprendizado de máquina mais amplamente aplicadas e é fundamental para a análise eficaz de grandes quantidades de dados não estruturados e com muito texto. À medida que a IA continua a expandir-se, também aumenta a procura por profissionais qualificados na construção de modelos que analisem a fala e a linguagem, descubram padrões contextuais e produzam insights a partir de texto e áudio. Os cursos a seguir visam ensinar a realizar isso.
Essa seção possui em média 112h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.
Curso | Oferecido por | Esforço de | Certificado, se aplicável | Status |
---|---|---|---|---|
NLP com classificação e espaços vetoriais | DeepLearning.AI | ~33h | -- | -- |
NLP com Modelos Probabilísticos | DeepLearning.AI | ~30h | -- | -- |
NLP com modelos de sequência | DeepLearning.AI | ~21h | -- | -- |
NLP com modelos de atenção | DeepLearning.AI | ~26h | -- | -- |
Seção 10 - Soft Skills
Uma seção para habilidade e conceitos relevantes que não se relacionam a parte técnica e teórica, mas ainda sim, são extremamente relevantes para um profissional de Data Science.
Curso | Oferecido por | Esforço de | Certificado, se aplicável | Status |
---|---|---|---|---|
Aprendendo a aprender | Deep Teaching Solutions | ~15h | Certificado de Conclusão | ✓ |
Storytelling & Influência: Comunicar com Impacto | Macquarie University | ~18h | -- | -- |
Faça perguntas para tomar decisões baseadas em dados | ~21h | Certificado de Conclusão | ✓ |
Projetos Obrigatórios
Essa seção contêm os projetos sugeridos para complementar os cursos e consolidar os conteúdos aprendidos aqui, alguns são oferecidos através dos próprios cursos, outros são projeto relevantes que achei legal para complementar.
Proposta de Projeto | Repositório, se aplicável | Status |
---|---|---|
Alfabetização em Dados – Avaliando Pesquisas | -- | |
Projeto Python: Pillow, Tesseract e OpenCV | -- | |
Dominando o desenvolvimento de software em R | -- | |
Projeto de Visualização de Dados | -- | |
Projeto de Mineração de Dados | -- | |
Projeto de Big Data | -- | |
Projeto de Computação em Nuvem | -- | |
Projeto de Aprendizado de Maquina | -- |
Bibliografía Extra
Além dos cursos deste currículo (eu particularmente prefiro vídeos do que livros), foram utilizados outros materiais como artigos e livros, que são referenciados nesta seção.
Os livros aqui não estão organizados em nenhuma ordem específica.
Livros de Matemática
- Fundamentos de Matemática Discreta - David J. Hunter
- Matemática Concreta: Uma Fundação para a Ciência da Computação - Ronald Graham
- Pré-Cálculo - Valéria Zuma Medeiros
- Cálculo I - James Stweart
- Cálculo II - James Stweart
- Cálculo Numérico: Aspectos Teóricos e Computacionais - Marcia Gomes
- Álgebra Linear Elementar - Howard Anton
- Geometria Analítica: Um Tratamento Vetorial - Ivan De Camargo
- Introdução à Teoria da Estatística - Alexander Mood
- Álgebra Matricial Útil para Estatística - Andre I Khuri
- Os elementos da aprendizagem estatística - Trevor Hastie, Robert Tibshirani, Jerome Friedman
- Introdução à Análise de Regressão Linear - Douglas C Montgomery
- Estatísticas Bayesianas - Peter M. Lee
- Cadeia de Markov Monte Carlo: Simulação Estocástica para Inferência Bayesiana - Dani Gamerman
- Métodos Estatísticos Não Paramétricos Aplicados - Nigel C Smeeton
- Interpretabilidade de modelos de regressão baseados em inteligência computacional - János Abonyi
- Modelos de Regrassão com Apoio Computacional - Gilberto A. Paula
- Uma introdução ao aprendizado estatístico com aplicações em R - Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
Livros, artigos e documentação relacionada
- SQL for Smarties: Advanced SQL Programming - Joe Celko
- Deep Learning Papers Reading Roadmap - Roadmap of DL Papers
- Artificial Intelligence: A Modern Approach - Stuart J. Russell
- The Missing Semester of Your CS Education - MIT
Notas e Esclarecimentos
-
A duração dos cursos aqui são estimativas feitas pelas plataformas onde são oferecidos.
-
No momento estou fazendo essa graduação, então o tempo verbal desse
readme
está um pouco estranho, às vezes no passado, às vezes no futuro, conforme eu fizer isso irei reformatá-lo para melhor relatar minha experiência . -
Quanto aos livros, minha universidade tem parceria com algumas plataformas, como a O'Reilly, além de uma biblioteca muito grande, onde consegui quase todos, mas se você não tiver acesso... cof cof... tenta ver se eles caem do caminhão... cof cof..., mas se der pra comprar, comprem... cof cof..
Referências
Sources consulted for the construction of this curriculum.
- OSSU Data Science - A OSSU é uma galera que oferece faculdades para graduação em tech de graça, eles tem uma galera especialista que monta os currículos e coloca os links de onde você consegue estudar aqueles temas de graça, é uma faculdade EAD de graça, que você estuda no seu tempo, é basicamente isso aqui, só que esse repositório é mais personalizado, mas recomendo muito a OSSU, e qualquer um que tente democratizar a educação.
- AI Expert Roadmap - Novamente, um roteiro para se tornar um especialista em IA, por uma galera que entende de IA.
- Python Developer - O Roadmap SH é uma plataforma que oferece trilhas de aprendizagem em diversas áreas e ferramentas de tecnologia. Esse link é para o roadmap de Python, mas eles tem muitos outros.
- PostgreSQL - Roadmap de PostgreSQL para DBA do Roadmap SH.
- Curso de Estatística da USP - Bacharel em Estatística pela Universidade de São Paulo, que utilizei para guiar alguns dos cursos que escolhi aqui, mas principalmente para escolher os livros.