data-science-practice
data-science-practice copied to clipboard
数据科学实践 | data science practice
数据科学实践
数据科学 是指
- 数学/统计学
- 计算机技术(编程)
- 业务领域
三者的交叉应用学科。数据科学这个词近些年火起来,典型事件是2015年2月美国白宫宣布任命曾在多家硅谷科技公司任职的帕蒂尔(DJ Patil)为白宫首位首席数据科学家。
数据科学3者下的两两交叉应用,其实已经广为大家所知:
- 数学/统计学
+
计算机技术(编程)
=>
机器学习(Bang!) - 计算机技术(编程)
+
业务领域
=>
业务软件开发(平时说的软件工程师) - 数学/统计学
+
业务领域
=>
传统研究
在数据科学火起来之前,大家用的多是『数据分析』这个词。所以2个主题的书一起看,早些年典型的『数据分析』主题的书实际讲的是数据科学的内容。
❤️❤️ 欢迎进入数据科学的世界! ❤️❤️
- 0. 学习资料/书单
-
1. 实践/开发环境搭建
-
1.1
Python
运行环境搭建-
1.1.1 安装
Anaconda
的Python
发行版 - 1.1.2 配置镜像源
-
1.1.3
Anaconda
的使用
-
1.1.1 安装
-
1.2 代码编写的环境
-
1.2.1
Jupyter Notebook
-
1.2.2
PyCharm
-
1.2.3
VS Code
-
1.2.1
-
1.1
- 2. 自己的数据科学学习/实践
0. 学习资料/书单
- 数据科学/Data Science 书单,个人推荐先看:
- 数据分析 书单,个人推荐先看:
可以看看了解
1. 实践/开发环境搭建
Python
已经成为数据科学/机器学习的首选实践/开发环境。
# 当然也可以使用R
或是 Excel
,使用不同工具环境都可以实践数据科学。
# Excel
,是的,没听错;Excel
应该是使用人数最多的数据分析工具。
-
Python
繁荣与活跃生态 对 数据科学/机器学习 已经有了成熟的支持。 -
Python
作为通用编程语言,相对R
、Excel
而言,灵活性不可比拟。
1.1 Python
运行环境搭建
Anaconda
!
- 使用
Anaconda
的Python
发行版已经成为数据科学/机器学习Python
运行环境搭建的最佳实践! -
Anaconda
快速提供了- 一个包含各种数据分析、机器学习的库的
Python
运行环境 - 不同的
Python
版本/不同库的隔离环境
- 一个包含各种数据分析、机器学习的库的
- 而无需在琐碎但没有价值的事情上浪费时间:
- 各种库的安装过程
- 不同库不同版本的兼容性问题
下面给下快速搭建数据科学/机器学习的Python
运行环境的说明。
1.1.1 安装Anaconda
的Python
发行版
下载地址:
- https://www.anaconda.com/distribution/
- 照着网页上的说明,完成安装。
安装好Anaconda
之后,执行命令
-
jupyter notebook
: 运行基于Web
浏览器里的一体化交互式环境 -
ipython
:运行加强的python
解释器
,运行看看~ 🎉
安装过程,如有问题,更多说明参见
- 2019年最新最全的 Anaconda 安装指南 - 简书
https://www.jianshu.com/p/e23e70fe8788 - 或是搜索一下 :")
1.1.2 配置镜像源
在国内没有镜像可不行,包安装下载要等死。
-
配置
Anaconda
的镜像源-
使用清华的镜像。
-
直接修改配置文件
~/.condarc
:channels: - defaults show_channel_urls: true default_channels: - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r custom_channels: conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
-
或是通过命令行设置(安装好
Anaconda
之后,包含了conda
):conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r conda config --set show_channel_urls yes
-
-
配置
pip
的镜像源-
修改
~/.pip/pip.conf
:[global] trusted-host = pypi.douban.com index-url = http://pypi.douban.com/simple
-
如有问题,更多说明参见
- Anaconda | 镜像站使用帮助 | 清华大学开源软件镜像站
https://mirror.tuna.tsinghua.edu.cn/help/anaconda/ -
Anaconda
修改国内镜像源 - 简书
https://www.jianshu.com/p/042fd657e2d4 - 或是 搜索一下 :")
1.1.3 Anaconda
的使用
下载安装后Anaconda
的使用:
- 常见的
Anaconda
使用 -
Python
环境维护
👉 参见独立的文档:Anaconda
的使用。
1.2 代码编写的环境
Jupyter Notebook
| PyCharm
| VS Code
。
1.2.1 Jupyter Notebook
Jupyter Notebook
已经在Anaconda
的发行版本中有了。
提供基于Web
浏览器里的一体化交互式环境,非常流行。试试用用,你会喜欢的。
1.2.2 PyCharm
IDE
王者JetBrains
提供Python
开发的专业IDE
。
- 强劲的代码编写提示支持
- 内置集成支持
- 流行
Jupyter Notebook
的编写 -
Anaconda
- 流行
如果你是JetBrains
/IntelliJ
的粉丝更会喜欢。
1.2.3 VS Code
无需多解释。
2. 自己的数据科学学习/实践
-
学习
- 《统计学:从数据到结论》第四版 吴喜之:
代码练习库 - github.com/oldratlee/statistics-from-data-to-conclusion-4e
- 《统计学:从数据到结论》第四版 吴喜之:
-
实践
- 计数不对的『豆瓣豆列』抓取:
github.com/oldratlee/doulist-wrong-counter-analysis
基于Jupyter Notebook
使用Python
完成 页面抓取 与 分析。
- 计数不对的『豆瓣豆列』抓取: