data-science-introduction-with-python
data-science-introduction-with-python copied to clipboard
Python 数据科学导论 | Data Science Introduction with Python
Data Science Introduction with Python 
简介 - Introduction
- 本项目是一套以 Python 为分析语言的数据科学入门教程。
- 托管网站:https://ds-python.leovan.tech
- 仓库目录结构:
- base 目录:幻灯片相关配置文件
- docs 目录:其他资料
- 其他一级目录:
- 二级目录:
- *.pdf:本节课程幻灯片
- data:本节课程所需数据文件
- slide:本节课程幻灯片源代码
- 本项目遵守 CC BY-NC-SA 4.0 协议。
准备 - Preparation
- 操作系统:Windows 10+ (x64),macOS 10.12+,Ubuntu 16.04+
- Python:最新版本 Anaconda Python 3 (下载地址)
- PyCharm:最新版本 (下载地址,Python IDE)
- Spyder:最新版本 (下载地址,Python IDE,Anaconda 已包含)
- Visual Studio Code:最新版本 (下载地址,用于代码浏览和编辑)
- Typora:最新版本 (下载地址,用于 Markdown 浏览)
参考书籍 - Reference
- 《Python 编程从入门到实践》(Python Crash Course, A Hand-On, Project-Based Introduction to Programming),Eric Matthes 著,袁国忠 译
- 《流畅的 Python》(Fluent Python),Luciano Ramalho 著,安道、吴珂 译
- 《利用 Python 进行数据分析》(Python for Data Analysis:Data Wrangling with Pandas, Numpy and IPython),Wes McKinney 著,徐敬一 译
- 《机器学习实践》(Machine Learning in Action),Petter Harrington 著,李锐、李鹏、曲亚东、王斌 译
- 《Python 机器学习》(Python Machine Learning),Sebastian Raschka & Vahid Mirjalili 著,陈斌 译
- 《统计学习方法》李航 著
- 《机器学习》周志华 著
- 《深度学习》(Deep Learning),Ian Goodfellow, Yoshua Bengio & Aaron Courville 著,赵申剑、黎彧君、符天凡、李凯 译
数据科学简介 - Data Science Introduction
- 数据科学概念
- 数据科学
- 数据产品
- 跨界
- 数据科学工具箱
- 数据科学常用工具
- 数据科学之战:Python 和 R
- 选择哪种语言
- 数据科学分工与流程
- 数据科学分工
- 数据分析和挖掘流程
Python 语言简介 - Python Introduction
- Python 相关环境配置
- Python 基础语法
- Python 数据结构
- Python 编码风格规范
数据分析基础 (上) - Data Analytics Introduction - Part 1
- NumPy 简介
- NumPy 多维数组对象
- NumPy 面向数据编程
数据分析基础 (下) - Data Analytics Introduction - Part 2
- pandas 简介
- pandas 数据载入和存储
- pandas 数据规整
数据可视化 - Data Visualization
- 数据可视化
- Matplotlib & Seaborn
- plotnine
- 基于 Web 的绘图库
统计分析基础 - Statistical Analytics Introduction
- 探索性分析
- 描述性统计量
- 常用分布
- 实验设计
- 假设检验概念
- 常用假设检验
- 线性回归
- 一元线性回归
- 多元线性回归
- 广义线性回归
- 最小二乘法与梯度下降
特征工程 - Feature Engineering
- 数据预处理
- 数据清洗
- 缺失值,重复值,异常值处理
- 数据采样,数据集分割
- 特征变换和编码
- 无量纲化
- 分箱
- 分类特征编码
- 特征提取,选择和监控
- 特征提取
- 特征选择
- 特征监控
模型评估 & 超参数优化 - Model Evaluation & Hyperparameter Optimization
- 模型性能评估
- 回归问题
- 分类问题
- 聚类问题
- 模型生成和选择
- 过拟合问题
- 评估方法
- 偏差和方差
- 超参数优化
- 搜索算法
- 进化和群体算法
- 贝叶斯优化
分类算法 (上) - Classification Algorithms - Part 1
- 逻辑回归
- 决策树
分类算法 (下) - Classification Algorithms - Part 2
- Bagging
- Boosting
- Stacking
时间序列算法 - Time Series Algorithms
- 时间序列
- ARIMA 模型
- 季节性分析
- Prophet
聚类算法 - Clustering Algorithms
- K-means
- 层次聚类
- 基于密度的聚类
可重复性研究 - Reproducible Research
- 可重复性研究
- Markdown
- reStructuredText & Sphinx
- Jupyter
- 版本控制
- 其他工具
深度学习算法 - Deep Learning Algorithms
- 人工神经网络
- 卷积神经网络
- 循环神经网络
- 深度学习框架