Shellbye.github.io icon indicating copy to clipboard operation
Shellbye.github.io copied to clipboard

《数据可视化》陈为 读书笔记

Open Shellbye opened this issue 5 years ago • 0 comments

数据可视化

基础篇

第1章 数据可视化简介
    1.1 可视化释义
        人眼具有很强的模式识别能力,对可视符号的感知速度比数字或文本快多个数量级
        在计算机学科的分类中,利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,成为可视化
        它们的单维度均值、最小二乘法回归线性方程、误差的平方和、方差的回归和、均方误差的误差和、相关系数等统计属性均相同,
        因此,通过这些传统的统计方法难以对他们直接进行区分

        可视化的作用体现在多个方面,如 揭示想法和关系、形成论点或意见、观察事务演化的趋势、总结或积聚数据、存档和汇整、寻求真相和真理、探索性数据分析
            信息记录
            支持对信息的推理和分析
            信息传播与协同
    1.2 可视化简史
        17世纪之前:图表萌芽
        1600--1699年:物理测量
        1700--1799年:图形符号
        1800--1900年:数据图形
        1900--1949年:现代启蒙
        1950--1974年:多维信息的可视编码
        1975--1987年:多维统计图形
        1987--2004年:交互可视化
        2004--至今    可视分析学
    1.3 数据可视化详解
        1.3.1 数据科学的发展
            数据、信息、知识、智慧(Data Information Knowledge Wisdom) DIKW
            
            数据
                数据即事实
                数据即信号
                数据即符号
            信息
                信息是被赋予了意义和目标的数据
                信息的特征
                    结构性与功能性
                    象征性或主体性
            知识
                知识是一个隐晦的、意会的、难以描述和定义的概念,是被处理、组织过、应用或付诸行动的信息
            智慧
                智慧是启示性的,本意是知道为什么,知道如何去做
        1.3.2 数据可视化的意义
        1.3.3 数据可视化分类
            科学可视化 scientific visualization
                1. 标量场可视化
                2. 向量场可视化
                3. 张量场可视化
            信息可视化 information visualization
                1. 时空数据可视化
                2. 层次与网络结构数据可视化
                3. 文本和跨媒体数据可视化
                4. 多变量数据可视化
            可视分析学 visual analytics
        1.3.4 数据可视化与其他学科领域的关系
            图形学、人机交互
            数据库与数据仓库
            数据分析与数据挖掘
            面向领域的可视化方法与技术
            信息视觉设计
    1.4 数据可视化研究挑战
        1. 计算能力的可扩展性
        2. 感知和认知能力的局限性
        3. 显示能力的局限性

        1. 大数据可视化
        2. 以人为中心的探索式可视分析

第2章 视觉感知与认知
    2.1 视觉感知和认知
        2.1.1 视觉感知和认知的定义
        2.1.2 视觉感知处理过程
        2.1.3 格式塔理论
            贴近原则
            相似原则
            连续原则
            闭合原则
            共势原则
            好图原则
            对称性原则
            经验原则
    2.2 颜色
        2.2.1 颜色刺激理论
            2.2.1.1 人眼与可见光
            2.2.1.2 颜色与视觉
            2.2.1.3 颜色视觉障碍
        2.2.2 色彩空间
            2.2.2.1 CIE XYZ/CIE L*a*b
            2.2.2.2 RGB/CMYK 
            2.2.2.3 HSV/HSL
            2.2.2.4 绝对色彩空间与相对色彩空间
    2.3 视觉编码原则
        2.3.1 相对性和绝对性
        2.3.2 标记和视觉通道
        2.3.3 视觉通道的概念
            2.3.3.1 视觉通道的类型
                定性或分类
                    形状、颜色的色调、空间位置
                定量或定序
                    直线长度、区域面积、空间体积、斜度、角度、颜色的饱和度、亮度
                分组
            2.3.3.2 表现力和有效性
            2.3.3.3 表现力判断标准
                精确性
                    改变刺激人体感觉器官的物理强度值并不能使得人对信号的感知得到成比例的响应
                    例如,亮度增加两倍后,人们并不能感到响应的两部变化;相反,通过人体指尖的电流,
                    则是超线性的,加倍电流值会带来超过三倍的感知变化;长度则是线性的

                        不同视觉通道在史蒂文幂次法则 S=I^n 中所对应的 n 值
                    视觉通道    亮度    响度    面积    长度    灰度对比    电流
                      幂次      0.5   0.67     0.7    1.0     1.2       3.5
                可辨性
                    某些视觉通道只有非常有限的取值范围和取值数量,比如直线宽度,人们区分不同直线宽度的能力非常有限
                可分离性
                    不互相干扰
                视觉突出
        2.3.4 视觉通道的特性
            2.3.4.1 平面位置
            2.3.4.2 颜色
                亮度
                    适合编码有序的数据
                饱和度
                    编码有序
                色调
                    编码分类
                配色方案
            2.3.4.3 尺寸
            2.3.4.4 斜度和角度
            2.3.4.5 形状
            2.3.4.6 纹理
            2.3.4.7 动画
                视觉残留

第3章 数据
    3.1 数据释义
        3.1.1 数据基础
            3.1.1.1 数据分类
            3.1.1.2 数据集
                数据记录集
                图数据集
                有序数据集
            3.1.1.3 数据相似度与密度
        3.1.2 数据科学及过程
    3.2 数据获取和预处理
        3.2.1 数据获取
        3.2.2 数据预处理
            合并
            采样
            降维
            特征子集选择
            特征生成
            离散化与二值化
            属性变换
    3.3 数据组织与管理
        文件存储
        结构化文件格式
        数据库
        3.3.1 数据清洗与精简
        3.3.2 数据整合与集成
        3.3.3 数据库
        3.3.4 数据仓库
    3.4 数据分析与挖掘
        3.4.1 探索式数据分析
        3.4.2 联机分析处理
        3.4.3 数据挖掘
            分类(预测性方法)
            聚类(描述性方法)
            概念描述(描述性方法)

            关联规则挖掘(描述性方法)
            序列模式挖掘(描述性方法)
            回归(预测性方法)
            偏差检测(预测性方法)

            知识发现的5个基本步骤
                选择
                预处理
                变换
                数据挖掘
                解释与评估
    3.5 数据工作流
    3.6 数据科学的挑战

第4章 数据可视化基础
    4.1 数据可视化基本框架
        4.1.1 数据可视化流程
            数据表示与变换
            数据的可视化呈现
            用户交互
        4.1.2 数据可视化设计
            1.问题刻画层
            2.抽象层
            3.编码层
            4.实现层
    4.2 可视化中的数据
        4.2.1 数据认知
        4.2.2 数据类型
            类别型数据
            有序型数据
            数值型数据
    4.3 可视化的基本图表
        4.3.1 原始数据绘图
            数据轨迹
            柱状图
            直方图
            饼图
            等值线图
            走势图
            散点图和散点图矩阵
            韦恩图
            热力图
        4.3.2 简单统计值标绘
            盒须图
        4.3.3 多视图协调关联
    4.4 可视化设计原则
        4.4.1 数据到可视化的直观映射
        4.4.2 视图选择与交互设计
        4.4.3 信息密度——数据的筛选
        4.4.4 美学因素
            聚焦
            平衡
            简单
        4.4.5 动画与过渡
            1. 用时间换取空间,在有限的屏幕空间中展示更多的数据
            2. 辅助不同可视化视图直接的转换与跟踪,或者辅助不同可视化视觉通道的变换
            3. 增加用户在可视化系统中交互的反馈效果
            4. 引起观察者注意力
        4.4.6 可视化隐喻
        4.4.7 颜色与透明度
    4.5 可视化理论发展
        4.5.1 图形符号学
        4.5.2 关系数据的图形表示
        4.5.3 图形语法
        4.5.4 基于数据类型的研究
        4.5.5 基于数据状态模型的研究
        4.5.6 多维关系数据库可视化分析系统

时空数据篇

第5章 空间标量场可视化
    5.1 一维标量场可视化
    5.2 二维标量场可视化
        5.2.1 颜色映射
        5.2.2 等值线提取
        5.2.3 高度图
    5.3 三维标量场数据可视化
        5.3.1 空间数据表达
            5.3.1.1 空间网格形式
            5.3.1.2 空间网格采样方式
            5.3.1.3 离散采样重建
            5.3.1.4 离散采样压缩
        5.3.2 空间数据特征计算
        5.3.3 间接体绘制
        5.3.4 规则三维标量场的直接体可视化
            略
        5.3.5 不规则体数据的体可视化

第6章 地理信息可视化
    6.1 地图投影
        6.1.1 墨卡托投影
        6.1.2 亚尔勃斯投影
        6.1.3 方位角投影
    6.2 点数据的可视化
    6.3 线数据的可视化
    6.4 区域数据的可视化
        6.4.1 Choropleth 地图
        6.4.2 Cartogram
        6.4.3 规则形状地图
        6.4.4 多元关系地图
    6.5 地理信息可视化的应用
        6.5.1 地球与生成环境
        6.5.2 城市与日常生活
        6.5.3 地理时空数据
        6.5.4 复杂地理数据的可视分析
    6.6 地理信息可视化的其他挑战
        6.6.1 地图标注
        6.6.2 地图综合
        6.6.3 在线地图

第7章 大规模多变量空间数据可视化
    略

第8章 时变数据可视化
    8.1 时间属性的可视化
        线性时间和周期时间
        时间点和时间间隔
        顺序时间、分支时间和多角度时间

        8.1.1 线性和周期时间可视化
        8.1.2 日历时间可视化
        8.1.3 分支和多角度时间可视化
            线性多角度时间可视化
            流状分支时间主线可视化
        8.1.4 时间属性的动态可视化
    8.2 多变量时变型数据可视化
        8.2.1 基于线表示的可视化
            1. 高纬曲线采样,采样的频率由用户交互指定
            2. 采样后曲线分段
            3. 投影到二维空间
        8.2.2 基于图结构的可视化
        8.2.3 时间序列数据的可视化交互
    8.3 流数据可视化
        8.3.1 流数据可视化模型
        8.3.2 流数据处理技术
            略
        8.3.3 流数据可视化案例
            8.3.3.1 系统日志监控流数据
            8.3.3.2 文本流数据
        8.3.4 并行流计算框架

非时空数据篇

第9章 层次和网络数据可视化
    9.1 层次数据
        9.1.1 层次数据的可视化
            节点-链接
            空间填充
        9.1.2 节点-链接法
            正交布局
            径向布局
        9.1.3 空间填充法
            径向布局
        9.1.4 其他方法
    9.2 网络数据
        9.2.1 网络和图
        9.2.2 网络数据可视化
            9.2.2.1 节点-链接法
                力引导布局
                多维尺度分析布局
                弧长链接图
            9.2.2.2 相邻矩阵布局
            9.2.2.3 混合布局方法
        9.2.3 网络数据的地图隐喻可视化
        9.2.4 超图及其可视化
            9.2.4.1 超图的定义
            9.2.4.2 超图的可视化
        9.2.5 动态网络的数据可视化
        9.2.6 图可视化的视觉效果
            略
        9.2.7 图可视化中的交互
            略
        9.2.8 网络数据可视化的挑战

第10章 文本和文档可视化
    10.1 文本可视化释义
        10.1.1 文本信息的层级
            1. 词汇级
            2. 语法级
            3. 语义级
        10.1.2 文本可视化的研究内容
        10.1.3 文本可视化流程
            10.1.3.1 文本信息挖掘
                1. 文本数据的预处理
                2. 文本特征的抽取
                3. 文本特征的度量
            10.1.3.2 视图绘制
            10.1.3.3 人机交互
    10.2 文本信息分析基础
        10.2.1 分词技术和词干提取
        10.2.2 空间向量模型
            10.2.2.1 词袋模型
            10.2.2.2 文本的相似性度量
            10.2.2.3 TF-IDF
        10.2.3 主题抽取
    10.3 文本内容可视化
        10.3.1 基于关键词的文本内容可视化
            标签云
            文档散
            文档卡片
        10.3.2 时序性的文本内容可视化
            主题河流
            TIARA
            历史流
        10.3.3 文本特征的分布模式可视化
            文本弧
            文献指纹
            文本特征透镜
        10.3.4 情感分析可视化
        10.3.5 文档信息检索可视化
            TileBar
            Sparkler
        10.3.6 软件可视化
            SeeSoft
            Code_Swarm
    10.4 文本关系可视化
        10.4.1 基于图的文本关系可视化
            单词树
            短语网络
            新闻地图
        10.4.2 文档集合关系可视化
            星系视图
            主题地貌
            基于范例的大文本集合投影
            JigSaw
    10.5 文本多层面信息的可视表达
        ContexTour
        FacetAtlas
        平行标签云
    10.6 总结

第11章 跨媒体数据可视化
    11.1 图像
        11.1.1 图像网格
        11.1.2 时空采样
        11.1.3 基于相似性的图像集可视化
        11.1.4 基于海塞图的社交图像可视化
    11.2 视频
        11.2.1 视频概要可视化
        11.2.2 视频立方
        11.2.3 视频可视摘要
            视频条形码
            视频指纹
    11.3 声音与音乐
        11.3.1 声乐波形可视化
        11.3.2 声乐结构的可视化
    11.4 超媒体
        11.4.1 微博可视化
            11.4.1.1 关键词可视化
            11.4.1.2 统计图表
            11.4.1.3 基于位置信息的可视化
            11.4.1.4 社交关系可视化
            11.4.1.5 时变信息可视化
        11.4.2 社交网络可视化
            11.4.2.1 社交网络的基本概念和原理
                小世界网络
                    两个节点之间的平均距离的增长速度远低于节点总数的增长速度
                无尺度网络
                    大多数节点拥有较少的连接,而少部分节点拥有大量的连接
                
                1. 当一个节点要同其他节点建立新的联系时,它总是倾向于同度数更高的节点建立这个连接:随着网络规模的扩大,
                原来度数较大的节点会拥有更多的连接。这就是社交网络中的马太效应
                2. 在分析社交网络时,关注点是处于网络核心的高度数用户,因为他们的行为对网络会产生较大的影响
            11.4.2.2 社交网络可视化:节点-链接图
            11.4.2.3 社交网络可视化:邻接矩阵
        11.4.3 数据生活可视化

第12章 复杂高维多元数据的可视化
    12.1 高维多元数据
        12.1.1 空间映射法
            12.1.1.1 散点图及散点图矩阵
            12.1.1.2 表格透镜
            12.1.1.3 平行坐标
                泰坦尼克
            12.1.1.4 降维
        12.1.2 图标法
            12.1.2.1 星形图
            12.1.2.2 Chernoff Faces 
        12.1.3 基于像素图的方法
    12.2 非结构化与异构数据的可视化
        12.2.1 非结构化数据 
        12.2.2 异构数据
    12.3 大尺度数据的可视化
        12.3.1 基于并行的大尺度数据高分辨率可视化
        12.3.2 大尺度数据的分而治之可视化与分析
    12.4 数据不确定性的可视化
        12.4.1 不确定性的基本定义
        12.4.2 不确定性的来源
        12.4.3 不确定性的可视化方法
            12.4.3.1 图标法
            12.4.3.2 视觉元素编码法
            12.4.3.3 几何体表达法
            12.4.3.4 动画表达法

用户篇

第13章 可视化中的交互
    交互在如下两个方面让数据可视化更有效
    1. 缓解有限的可视化空间和数据过载之间的矛盾
    2. 交互能让用户更好的参与对数据的理解和分析

    13.1 交互准则
        13.1.1 交互延时
            感知处理    0.1s
            立即反应    1s
            基本任务    10s+
        13.1.2 交互成本
            达成目的选择花费的决策成本
            生成系统操作花费的系统资源成本
            多重输入模式引发的交互流程阻滞
            人体物理动作占据的流程执行时间
            视觉混叠引起的感知阻碍
            视图变换花费的解读时间
            评估解释中的状态转换成本
        13.1.3 交互场景变化
            change blindness
    13.2 交互分类
        13.2.1 按低阶交互操作分类
            概览
            缩放
            过滤
            按需提供细节
            关联
            记录
            提取
        13.2.2 按交互操作符与空间分类
        13.2.3 按交互任务分类
    13.3 交互技术
        13.3.1 选择
        13.3.2 导航
        13.3.3 重配
        13.3.4 编码
        13.3.5 抽象/具象
        13.3.6 过滤
        13.3.7 关联
        13.3.8 概览+细节
        13.3.9 焦点+上下文
            变形
            加层
    13.4 交互与硬件设备
        13.4.1 交互环境
        13.4.2 交互设备

第14章 可视化评测
    14.1 评测流程
    14.2 影响评测效度的因素
    14.3 评测方法
    14.4 评测实例分析

第15章 面向领域的数据可视化
    15.1 高性能科学计算
    15.2 生命科学
    15.3 其他科学与艺术
    15.4 网络与系统安全可视化
    15.5 商业智能可视化
    15.6 金融数据可视化

第16章 可视化研究与开发资源
    16.1 可视化软件
    16.2 可视化开发工具
    16.3 数据分析和数据挖掘软件与开发工具
    16.4 可视化数据集资源
    16.5 可视化信息资源
    16.6 可视化科研机构

Shellbye avatar Jun 25 '19 06:06 Shellbye