data-science-practice
data-science-practice copied to clipboard
数据科学实践 | data science practice
数据科学实践
数据科学 是指
- 数学/统计学
- 计算机技术(编程)
- 业务领域
三者的交叉应用学科。数据科学这个词近些年火起来,典型事件是2015年2月美国白宫宣布任命曾在多家硅谷科技公司任职的帕蒂尔(DJ Patil)为白宫首位首席数据科学家。
数据科学3者下的两两交叉应用,其实已经广为大家所知:
- 数学/统计学
+计算机技术(编程)
=>机器学习(Bang!) - 计算机技术(编程)
+业务领域
=>业务软件开发(平时说的软件工程师) - 数学/统计学
+业务领域
=>传统研究
在数据科学火起来之前,大家用的多是『数据分析』这个词。所以2个主题的书一起看,早些年典型的『数据分析』主题的书实际讲的是数据科学的内容。
❤️❤️ 欢迎进入数据科学的世界! ❤️❤️
- 0. 学习资料/书单
- 1. 实践/开发环境搭建
- 1.1
Python运行环境搭建- 1.1.1 安装
Anaconda的Python发行版 - 1.1.2 配置镜像源
- 1.1.3
Anaconda的使用
- 1.1.1 安装
- 1.2 代码编写的环境
- 1.2.1
Jupyter Notebook - 1.2.2
PyCharm - 1.2.3
VS Code
- 1.2.1
- 1.1
- 2. 自己的数据科学学习/实践
0. 学习资料/书单
- 数据科学/Data Science 书单,个人推荐先看:
- 数据分析 书单,个人推荐先看:
可以看看了解
1. 实践/开发环境搭建
Python已经成为数据科学/机器学习的首选实践/开发环境。
# 当然也可以使用R 或是 Excel,使用不同工具环境都可以实践数据科学。
# Excel,是的,没听错;Excel应该是使用人数最多的数据分析工具。
Python繁荣与活跃生态 对 数据科学/机器学习 已经有了成熟的支持。Python作为通用编程语言,相对R、Excel而言,灵活性不可比拟。
1.1 Python运行环境搭建
Anaconda!
- 使用
Anaconda的Python发行版已经成为数据科学/机器学习Python运行环境搭建的最佳实践! Anaconda快速提供了- 一个包含各种数据分析、机器学习的库的
Python运行环境 - 不同的
Python版本/不同库的隔离环境
- 一个包含各种数据分析、机器学习的库的
- 而无需在琐碎但没有价值的事情上浪费时间:
- 各种库的安装过程
- 不同库不同版本的兼容性问题
下面给下快速搭建数据科学/机器学习的Python运行环境的说明。
1.1.1 安装Anaconda的Python发行版
下载地址:
- https://www.anaconda.com/distribution/
- 照着网页上的说明,完成安装。
安装好Anaconda之后,执行命令
jupyter notebook: 运行基于Web浏览器里的一体化交互式环境ipython:运行加强的python解释器
,运行看看~ 🎉
安装过程,如有问题,更多说明参见
- 2019年最新最全的 Anaconda 安装指南 - 简书
https://www.jianshu.com/p/e23e70fe8788 - 或是搜索一下 :")
1.1.2 配置镜像源
在国内没有镜像可不行,包安装下载要等死。
-
配置
Anaconda的镜像源-
使用清华的镜像。
-
直接修改配置文件
~/.condarc:channels: - defaults show_channel_urls: true default_channels: - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r custom_channels: conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud -
或是通过命令行设置(安装好
Anaconda之后,包含了conda):conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r conda config --set show_channel_urls yes
-
-
配置
pip的镜像源-
修改
~/.pip/pip.conf:[global] trusted-host = pypi.douban.com index-url = http://pypi.douban.com/simple
-
如有问题,更多说明参见
- Anaconda | 镜像站使用帮助 | 清华大学开源软件镜像站
https://mirror.tuna.tsinghua.edu.cn/help/anaconda/ Anaconda修改国内镜像源 - 简书
https://www.jianshu.com/p/042fd657e2d4- 或是 搜索一下 :")
1.1.3 Anaconda的使用
下载安装后Anaconda的使用:
- 常见的
Anaconda使用 Python环境维护
👉 参见独立的文档:Anaconda的使用。
1.2 代码编写的环境
Jupyter Notebook | PyCharm | VS Code。
1.2.1 Jupyter Notebook
Jupyter Notebook已经在Anaconda的发行版本中有了。
提供基于Web浏览器里的一体化交互式环境,非常流行。试试用用,你会喜欢的。
1.2.2 PyCharm
IDE王者JetBrains提供Python开发的专业IDE。
- 强劲的代码编写提示支持
- 内置集成支持
- 流行
Jupyter Notebook的编写 Anaconda
- 流行
如果你是JetBrains/IntelliJ的粉丝更会喜欢。
1.2.3 VS Code
无需多解释。
2. 自己的数据科学学习/实践
-
学习
- 《统计学:从数据到结论》第四版 吴喜之:
代码练习库 - github.com/oldratlee/statistics-from-data-to-conclusion-4e
- 《统计学:从数据到结论》第四版 吴喜之:
-
实践
- 计数不对的『豆瓣豆列』抓取:
github.com/oldratlee/doulist-wrong-counter-analysis
基于Jupyter Notebook使用Python完成 页面抓取 与 分析。
- 计数不对的『豆瓣豆列』抓取: