data-analysis-in-action
data-analysis-in-action copied to clipboard
章节写作 or 修改认领
R 语言数据分析实战 提纲
第一部分 R语言入门
第一章 R 语言初步
1.1 R 语言介绍和安装
- R语言介绍
- R语言版本和R包
- 在Windows系统上安装
- 在Mac OS系统上安装
- 在Linux系统上安装
- R语言运行界面
1.2 Rstudio 的介绍、安装和基本操作
- Rstudio介绍
- 在Windows系统上安装
- 在Mac OS系统上安装
- 在Linux系统上安装
- 常用的操作界面
1.3 数据集的概念和操作
- 数据类型
- 变量
- 向量
- 函数和管道
- 数据框
- 矩阵
- 数组
- 列表
1.4 不同形式数据导入
- 自行输入数据
- 导入Excel数据
- 导入XML数据
- 导入SPSS数据
- 导入Stata数据
- 导入数据库数据
第二章 R 语言基本操作
2.1 常见语法
- 创建自己的函数
- 调用函数
- 处理数据对象的常用函数
2.2 图形基本操作
- 如何绘制简单图形
- 图形参数
- 添加图形元素
2.3 基本数据管理
- 数据编码
- 变量的重编吗和重命名
- 缺失值处理
- 日期值处理
- 异常值处理
- 数据类型转换和排序
- 数据合并和提取
- 长宽数据格式转化
2.4 高级数据管理
- 常用数据处理函数
- 循环函数处理
- 数据整合与重构
第二部分 R 语言基本方法
第三章 R 语言数据处理
3.1 数据清洗步骤
- 一个例子
- 变量对齐
- 数据归一化
3.2 缺失值的数据处理
- 验证数据缺失模式
- 删除缺失数据
- 缺失变量分析
3.3 数据插补
- 为什么进行插补
- 均值插补
- 热卡插补
- 多重插补
3.4 异常值数据分析和处理
- 识别异常值
- 异常值剔除
- 异常值转化
第四章 基本统计分析
4.1 描述性统计分析
- 一个经典例子
- 数据归一化处理
- 分组统计
4.2 频数和列联表
- 生成频数表
- 独立性检验
- 列联表检验
4.3 相关和 t 检验
- 计算几种不同相关系数
- 相关分析可视化
- t 检验
4.4 R 语言方差分析
- 方差分析
- 单因素方差分析
- 双因素方差分析
- 多元方差分析
第五章 数据可视化
5.1 ggplot2 介绍
5.2 图形基础
- 图层
- 标签
- 标度
- 配色
- 图例
- 主题
- 注释
- 分面
- 字体
- 动画
- 组合
5.3 描述趋势
- 折线图
- 曲线图
- 蜡烛图
- 等高线图
- 日历图
- 曲面拟合图
5.4 描述关系
- 散点图:相关关系
- 气泡图:相关关系
- 树形图:层次关系
- 韦恩图:交叉关系
- 甘特图:依赖关系
5.5 描述占比
- 简单饼图
- 环形饼图
- 扇形饼图:南丁格尔风玫瑰图
- 马赛克图:多个分类变量占比
- 矩阵树图:有层次的占比
5.6 描述对比
- 柱形图
- 条形图:柱形图横着
- 点图:克利夫兰点图,条形图的简版
- 雷达图:多元数据,多变量对比
- 词云图:
5.7 描述分布
- 直方图
- 箱线图
- 密度图
- 提琴图
- 热力图
第六章 常用的 R 包
6.1 数据处理
- tidyverse
- tibble
- readr
- stringr
- dplyr
- data.table
6.2 时序数据
- ts
- lubridate
- arima
6.3 文本分析
- tm
- tidytext
- topicmodel
- wordcloud
6.4 网络数据
- network
- igraph
- sna
6.5 数据可视化
- ggplot2
- plotly
- lattice
第三部分 R 语言机器学习
第七章 R 语言回归
7.1 R 语言回归分析
- 回归分析介绍
- 线性回归
- 多项式回归
- 多元线性回归
7.2 回归诊断
- 多重共线性
- 异常值
- 改进措施
7.3 模型选择
- 模型比较
- 变量选择
- 交叉验证
7.4 广义线性模型
- 广义线性模型介绍
- 模型拟合和回归诊断
- 模型改进
7.5 逻辑 Logistic 回归
7.6 泊松回归
7.7. Cox-Box 比例风险回归
第八章 R 语言分类
8.1 R 语言分类介绍
8.2 Logistic 回归
8.3 决策树
8.4 随机森林
8.5 支持向量机
8.6 集成学习方法
- bagging
- boosting
- xgboost / lightgbm
8.7 朴素贝叶斯方法
第九章 R 语言聚类
9.1 R 语言聚类分析
9.2 聚类分析的步骤
9.3 距离计算
9.4 层次聚类分析
9.5 划分聚类分析
- K-Means 聚类
- 围绕中心点的划分
9.6 模糊聚类分析
9.7 谱聚类分析
第十章 R 语言统计模拟方法
10.1 统计模拟介绍
10.2 重抽样法
10.3 自助法
10.4 MCMC 方法
第十一章 R 语言降维方法
11.1 线性判别分析
11.2 主成分分析
- 判断主成分个数
- 提取主成分
- 主成分旋转和得分
11.3 因子分析
- 判断公共因子数
- 提取公共因子
- 因子旋转
- 因子得分
11.4 奇异值分解
11.5 特征选择
- 岭回归
- Lasso
第十二章 R 语言时间序列分析
12.1 R 语言时间序列对象
- 时序数据预处理
- 时序数据的平滑化
- 时序数据分解
12.2 指数预测模型
- 指数平滑
- 自动预测
12.3 ARIMA 预测模型
- ARMA 模型
- ARIMA 模型
- 自动预测
第十三章 R 语言文本数据挖掘
13.1 文本字符串处理
- 字符串构造
- 字符串提取
- 字符串替换和删除
- 字符串拼接和拆分
13.2 正则表达式
- 通配符
- 字符集
- 文本匹配
13.3 文本数据预处理
- 文本切分
- 停用词处理
- 词干提取
- 词性还原和词性标注
13.4 文本特征提取
- 基本特征提取
- 基于 TF-IDF 特征提取
- 词嵌入
- 文档向量化
13.5 文本机器学习
- 文本相似度聚类
- 文本主题模型
- 文本分类
13.6 文本情感分析
- 情感词典
- 英文情感分析
- 中文情感分析
13.7 文本可视化
- 条形图
- 词云图
- 网络图
第十四章 R 语言网络数据挖掘
14.1 网络数据构建
- 创建网络图
- 网络图表示
- 常见的图
14.2 网络数据的描述
- 节点和边的特征
- 网络的凝聚特征
- 图的分割
14.3 网络数据可视化
- 图可视化的基本元素
- 图的布局
- 常见网络图形可视化
14.4 网络图模型
- 随机图模型
- 广义随机图模型
- 小世界模型
- B-A 模型
- 指数随机图模型
- 网络模型评估
14.5 网络流和动态网络数据分析
- 引力模型
- 流量矩阵估计
- 动态网络标识
- 动态网络可视化
- 动态网络建模
第十五章 R 语言假设检验
15.1 假设检验与检验的 P 值
- 假设检验的步骤
- 检验的 P 值
15.2 正态总体参数的检验
15.3 单正态总体参数的检验
15.4 两正态总体参数的检验
15.5 配对数据的 t 检验
15.6 比率的检验
- 单样本比率的检验
- 两样本比率的检验
15.7 单总体位置参数的非参数检验
- 中位数的符号检验
- Wilcoxon 符号秩检验
15.8 分布的一致性检验 $\chi^2$ 检验
15.9 两总体的比较和非参数检验
15.10 多总体的比较与非参数检验
第十六章 R 语言创建动态报告
16.1 用 R Markdown 生成动态报告
16.2 用 tinytex 生成 LaTeX 报告
16.3 用 rticles 生成期刊文章
16.4 用 Markdown 生成幻灯片
- PowerPoint 演示文稿
- Beamer 学术型幻灯片
- HTML 网页幻灯片
16.5 用 bookdown 生成书籍
16.6 用 blogdown 生成博客
第十七章 R 语言深度学习
17.1 R 连接远程服务器
17.2 用 Spark 进行机器学习
17.3 R 语言深度学习初步
17.4 构建卷积神经网络
17.5 可视化卷积神经网络的学习过程
第十八章 开发 R 包
18.1 如何创建 R 包
第十九章 开发 Shiny 应用
19.1 Shiny 应用介绍
大家在申领的时候注意以下几点:
- 以二级标题为单位
- 标注预计完成时间
- 完成一章才能申领下一章
- 申领后在对应章节后面标注姓名
例如:
| 小节 | 申领人 | 预计完成时间 |
|---|---|---|
| 5.1 ~ 5.7 | 黄湘云 | 2022年12月31日 |
| 4.1 ~ 4.4 | 张沥今 | 2023年01月31日 |
R 语言实战第三版关于作图,占三章分别是入门、基础和中级,本书将有类似的层次划分。
《数据可视化》的定位是实战,鉴于易学、易用、流行和生态等因素,将全部基于 ggplot2 包,已写了两节草稿。
- 第1节是对 ggplot2 生态做简要介绍。
- 第2节提供三个数据可视化示例。
- 第3-4节是对 ggplot2 基础知识(共 11 个)详细介绍,示例数据来自世界银行,以此数据集串联整节。汉斯·罗琳和 gapminder 数据集群众基础很广,可以串联整节也是这个数据集的优势,因数据敏感问题,重新从世界银行获取和制作数据集,而不是使用 R 包 gapminder。这节基本不涉及分析,主要介绍如何根据实际数据把图画好。
- 我接下来的写作规划:第3节至第7节从统计图形的应用和实际作用出发,从描述趋势、描述占比、描述对比、描述分布、描述关系等5个方面分别选择一些的常用图形详细介绍。示例数据将会是完整的、真实的。内容包含数据背景、可视化及分析,都用 ggplot2 来实现。多个示例数据都将围绕一个主题 --- 「过去 25 年开源统计软件 R 的发展」,贯穿 5 节。