machine-learning-notes icon indicating copy to clipboard operation
machine-learning-notes copied to clipboard

This is the notes of the way of machine learning study. You may find something useful in it.

=>点此阅读<=

目录

机器学习算法地图 machine-learning-map

前言

  • 个人前言
  • 机器学习前言
  • 机器学习的学习路径
  • 机器学习面试
  • 机器学习发展史

数学基础

  • 机器学习需要的数学
  • 数学系课程地图
  • 微积分
    • 泰勒展开
    • e的直观认识
    • 傅里叶变换
    • 希尔伯特空间
    • 卷积
  • 线性代数
    • 范数
    • 矩阵求导
    • 特征值
    • SVD奇异值分解
  • 概率统计
    • 概率统计基础
    • 方差和协方差
      • 协方差矩阵
      • 样本方差的无偏估计
      • Welfor算法:迭代更新方差
    • 贝叶斯分析方法
      • 概率论与贝叶斯先验
      • 贝叶斯概率
      • 共轭先验
    • 概率分布
      • Normal正态分布
      • Gamma伽马函数
      • Gamma伽马分布
      • Beta贝塔分布
      • Dirichlet狄利克雷分布
  • 信息论
    • 信息论基础
  • 数值计算与优化
    • 最小二乘法
    • 等式约束的拉格朗日乘子法
    • 凸优化
      • 凸集和凸函数
      • 凸优化问题
  • 梯度更新算法
    • 离线学习
      • 梯度下降算法的演化
      • 随机梯度下降SGD
      • 动量法Momentum
      • 牛顿动量Nesterov
      • AdaGrad
      • RMSprop
      • Adadelta
      • Adam
      • Nadam
      • AdamW
      • AMSGrad
      • AdasMax
    • 增量学习
      • LwF: Learning-without-Forgetting
    • 在线学习
      • FTRL

编程基础

  • 计算机科目
    • 计算机科目概述
    • 计算机组成原理
      • 嵌入式系统
    • 数据结构与算法
      • 数据结构与算法概述
      • 数据结构
      • 算法思想
        • 排序
          • 堆排序
          • 归并排序
          • 快速排序
        • 递归
      • 剑指offer
        • 链表
        • 二叉树
        • 数组
        • 字符串
        • 栈和队列
        • 递归和回溯法
        • 动态规划
        • 其他
      • Leetcode
        • 动态规划
    • 编译原理
      • 编译过程、静态库和动态库
      • 关于extern "C"
      • GCC编译器介绍
      • Make
      • CMake
      • QMake生成Makefile
    • 操作系统
      • Linux
        • Linux常用命令
        • Shell
          • 输入输出重定向
        • Vim编辑器
      • Docker
      • 实时操作系统
        • freeRTOS
    • 计算机网络
      • TCP/IP协议族
        • TCP
        • ZeroMQ
  • 编程语言
    • C/C++
      • STL容器
      • algorithm算法库
      • 知识点
        • string字符串类
        • volatile关键字
        • float的精度和取值范围
    • Python
      • Python简介
      • Python语法
        • 基础语法
        • 数据结构
        • 过程控制
        • 函数
        • 类和对象
        • 文件操作
        • 正则表达式
      • Python知识点
      • Python库
        • numpy
        • pandas
        • scipy
        • matplotlib
        • scikit-learn
      • Python应用
        • 排序算法
      • Cython
  • 大数据
    • Hadoop
      • Hadoop简介
      • MapReduce
    • Hive
    • Spark

机器学习

  • 机器学习概论
    • 机器学习的哲学思想
    • 机器学习模型组成与分类
    • 模型评估方法与性能度量
    • 过拟合与模型复杂度
    • 正则化
  • 特征工程
  • 感知机
  • k近邻
  • 朴素贝叶斯
  • 线性模型
    • 最大熵模型
    • 指数族分布与广义线性模型
    • 线性回归
    • Logistic回归
  • 决策树
  • 支持向量机
    • 线性可分支持向量机与硬间隔最大化
    • 线性支持向量机与软间隔最大化
    • 非线性支持向量机与核函数
    • 序列最小最优化算法SMO
    • SVM总结
  • liblinear
  • 集成学习
    • 集成学习概述
    • Bagging
      • 随机森林
    • Boosting
      • AdaBoost
      • GradientBoosting
        • GBDT
        • XGBoost
          • XGBoost理论
          • XGBoost实践
        • LightGBM
    • Stacking
  • 降维
    • 降维概述
    • PCA主成分分析
    • LDA线性判别分析
    • t-SNE
    • ICA独立分量分析
    • 多维缩放(可能不重要)
    • 自编码器
    • 流形学习
  • EM算法
  • 概率图模型
    • 概率图模型简介
    • 概率图简介
  • HMM隐马尔科夫模型
  • CRF条件随机场
  • 聚类
    • k均值聚类
    • 高斯混合模型
    • DPMM狄利克雷过程混合模型
  • 主题模型
    • LDA隐狄利克雷分布
  • 知识点
    • 损失函数
    • 负采样
  • 机器学习算法总结

深度学习

  • 深度学习概论
  • ANN人工神经网络
  • Hopfield神经网络
  • 知识点
    • 激活函数
    • 深度学习中的正则化
      • Batch Normalization
      • Layer Normalization
    • 深度学习的高阶特征交叉原理
    • 梯度爆炸与梯度消失
  • CNN卷积神经网络
    • CNN卷积神经网络
    • TextCNN: Convolutional Neural Networks for Sentence Classification EMNLP2014
  • RNN循环神经网络
    • RNN循环神经网络
    • LSTM长短期记忆网络
      • LSTM长短期记忆网络
      • pix2code: Generating Code from a Graphical User Interface Screenshot EICS2018
    • GRU门控循环单元
  • BNN贝叶斯神经网络
    • 贝叶斯神经网络
    • Weight Uncertainty in Neural Networks ICML2015
  • GNN图神经网络
    • GNN图神经网络综述
    • GCN图卷积网络
      • GCN图卷积网络初步理解
      • GCN图卷积网络的numpy简单实现
      • GCN图卷积网络本质理解
      • GCN图卷积网络全面理解
      • Semi-Supervised-Classification-With-Graph-Convolutional-Networks ICLR2017
  • 深度生成模型
    • 深度生成模型概述
    • GAN生成对抗网络
    • VAE变分自编码器
    • Flow-based Models流模型
    • Diffusion Models扩散模型
  • Few-shot Learning小样本学习

强化学习

  • 强化学习学习路径

  • 强化学习

    • 强化学习概论
    • 状态、奖励、动作
      • 奖励
    • 多臂赌博机及其解法
    • 马尔科夫决策过程
    • 动态规划
    • 无模型方法一:蒙特卡洛
    • 无模型方法二:时间差分
    • 无模型方法三:多步自举
    • 函数近似和深度网络
    • 策略梯度算法
    • 深度强化学习
    • 基于模型的强化学习
    • 强化学习前景
    • 强化学习论文
      • DDPG: Continuous Control With Deep Reinforcement Learning ICLR2016
      • PPO: Proximal Policy Optimization arXiv2017OpenAI
      • Soft Actor-Critic
  • 仿真环境

    • OpenAI: Gym
    • OpenAI: Mujoco
    • OpenDILab: GoBigger多智能体仿真平台
    • Unity3D: ml-agents 简言之:行为树是适合解决复杂AI的解决方案。 对于Unity用户,Unity商店现在已经有一个比较完善的行为树设计(Behavior Designer)插件可供购买使用。
  • Sim2Real从仿真器到现实环境的迁移

    • 论文
      • i-Sim2Real: Reinforcement Learning of Robotic Policies in Tight Human-Robot Interaction Loops arXiv2022 Google
      • Legged Robots that Keep on Learning: Fine-Tuning Locomotion Policies in the Real World arXiv2022 Google
  • MCTS蒙特卡洛树搜索

  • 模仿学习

    • 模仿学习介绍
    • BC行为克隆:Behavior Cloning
      • 论文
        • Visual Backtracking Teleoperation: A Data Collection Protocol for Offline Image-Based Reinforcement Learning arXir2022 Google
        • GoalsEye: Learning High Speed Precision Table Tennis on a Physical Robot Google2022
    • IRL逆强化学习Inverse Reinforcement Learning
      • 论文
        • XIRL: Cross-embodiment Inverse Reinforcement Learning arXir2022 Google
    • GAIL生成式对抗模仿学习: Generative Adversarial Imitation Learning NeurIPS2016
    • 论文
      • Augmenting GAIL with BC for sample efficient imitation learning
      • Robotic Table Wiping via Reinforcement Learning and Whole-body Trajectory Optimization arXiv2022 Google
      • On the Sample Complexity of Stability Constrained Imitation Learning PMLR2022 Google
  • 多智能体强化学习

    • MAPPO
    • 多智能体强化学习论文
      • mean-field: Mean Field Multi-Agent Reinforcement Learning ICML2018
  • Transformer+RL

  • 决策大模型

  • Offline RL离线强化学习

  • MMRL多模态强化学习

  • LLM+RL

  • DiffusionModel+RL

  • 业界应用

    • DeepMind
      • AlphaGo
      • AlphaGo-Zero: Mastering the Game of Go without Human Knowledge Nature2017
      • AlphaStar: Grandmaster level in StarCraft II using multi-agent reinforcement learning Nature2019
      • AlphaZero
      • MuZero
      • AlphaFold
      • AlphaCode
      • AlphaTensor: Discovering faster matrix multiplication algorithms with reinforcement learning Nature2022
      • Agent57 2020
      • DeepNash
    • OpenAI
      • Emergence of grounded compositional language in multi agent populations 2017 在模拟游戏环境里从无到有进化出一种语言 OpenAI在2017年先完成了具身智能演化出语言的原理模型之后才立项GPT,Emergence of grounded compositional language in multi agent populations.现在多模态模型的关键要素在文章里都有了,而之前OpenAI还在打游戏。而且这还只是对外公开的部分,谁知道内部发生了啥,马斯克骂骂咧咧的退出了。
      • OpenAI Five: Dota 2 with Large Scale Deep Reinforcement Learning 2019
      • 玩魔方
    • 腾讯
      • 王者荣耀Honor of Kings
    • InspirAI启元世界
      • InspirAI启元世界
      • TimeChamber大规模并行的大规模自对弈框架
        • TimeChamber大规模并行的大规模自对弈框架
        • Humanoid Strike人类击剑

机器学习训练框架

  • Anaconda
  • 模型训练云服务器平台
    • AutoDL
    • MistGPU
  • 本地IDE远程连接服务器
    • Pycharm远程连接服务器
  • TensorFlow
    • TensorFlow1.0
      • TensorFlow基础
      • TensorFlow基础概念解析
      • TensorFlow机器学习基础
    • TensorFlow2.0
      • TensorFlow2.0安装
      • 理解Eager模式及tf.function
      • keras
    • Tensorflow分布式架构
    • TensorFlow Serving
    • 工具
      • TensorFlow中使用GPU
      • TensorFlow中ckpt转pb文件(模型持久化)
      • 得到模型参数值
  • PyTorch
    • PyTorch基础
    • 计算图与动态图机制 https://blog.csdn.net/qq_37388085/article/details/102559532 来自目录https://blog.csdn.net/qq_37388085/category_9417143.html
    • 保存加载模型文件
    • 推理inference
  • 强化学习训练框架
    • 强化学习开源框架整理
    • 清华:天授
    • 百度:PARL 用PaddlePaddle实现了所有算法,用Pytorch实现了部分算法
    • Ray分布式计算框架
    • RLlib分布式强化学习系统
  • 大模型训练框架
  • 超算集群
    • 微软: 用于训练ChatGPT的超算

计算机视觉

  • ResNet 有捷径的(resnet的跳跃连接)
  • InceptionNet 多岔路的(inception的多分支)
  • DenseNet 通往多个地点的捷径的(densenet的密集连接)
  • YOLO
    • YOLO原理
    • DarkNet深度学习框架
    • YOLO-v5
  • 图像标注工具
    • YOLO_Mark
    • Labelme
  • Vision Transformer
  • Swin Transformer

自然语言处理

  • 自然语言处理概论
  • 自然语言
  • 语言模型和中文分词
  • TF-IDF词频-逆文档频率
  • word2vec
  • Seq2Seq模型和Attention机制
  • Self-Attention和Transformer
    • Transformer: Attention Is All You Need NIPS2017
    • Transformer模型tensorflow2.0官网demo代码解读
    • Transformer的细节问题
  • BERT

多模态大模型

  • Foundation Models基础模型
    • On the Opportunities and Risks of Foundation Models Stanford2021李飞飞
    • Can Foundation Models Perform Zero Shot For Robot PMLR2022
  • RLHF基于人工反馈的强化学习方法
  • LoRA大语言模型的低秩适应
  • Prompt Learning
  • Emergence涌现现象
  • 自己训练ChatGPT
  • 业界应用
    • OpenAI
      • 可能大家对于绘画了解的比较多的是midjourney与stable diffusion,实际上这两个产品的基本技术都来源于DALL-E系列,那里的OpenAI还是Open的,它的论文还有足够的内容让我们理解,它里边有什么。于是大家根据它的2021年的DALL-E及CLIP这两个论文,搞出来midjourney,而stable diffusion也是在这个基础上的一个开源方案。
      • 2021 DALL·E1
      • 2021 CLIP
      • 2022 DALL-E2
      • 2023 DALL-E3 已融合进GPT4中
      • 202212 Point-E 文本生成3D点云模型
      • GTP系列介绍
      • GPT前身Unsupervised Sentiment Neuron
        • Unsupervised Sentiment Neuron
        • Learning to Generate Reviews and Discovering Sentiment ArXiv2017
      • GPT1
      • GPT2
      • GPT3 语言生成模型 根据Lambda官网数据,微软为OpenAI设计了一个包含10000块Nvidia V100 GPU的分布式集群进行GPT-3的模型训练,由于模型参数量较大(共1750亿参数),训练完成共耗费30天,消耗总算力为 3640PF-days。以Nvidia Tesla V100的Lambda GPU实例定价为1.50 美元/小时测算,GPT-3的完整训练成本将达到466万美元/次。
      • Codex
      • GPT-3.5
      • instructGPT
      • ChatGPT 聊天机器人
      • 202303 GPT-4 输入图/文,输出文
      • 202402 sora 文字生成视频
    • Meta
      • OPT 复现开源了GPT3
      • 202302 LLaMa 对标OpenAI的ChatGPT,开源
    • Stability.ai
      • Stable Diffusion开源
    • MiscroSoft
      • Copilot MiscroSoft和OpenAI联合打造的AI编程工具,基于OpenAI的大模型Codex,基于GPT-3框架进行训练
      • Kosmos-1 20230227发布,第二种才是真正的多模态LLM,才是GPT-4的魅力,他的原理目前OpenAI没有公布细节,但是大家可以参考微软在2月27日发布的Kosmos-1的论文(想一想,为什么偏偏是OpenAI的深度合作伙伴发了这篇论文)。
    • Google
      • 202105 LaMDA I/O大会
      • 202204 PaLM 5400亿参数
      • 202205 LaMDA-2 I/O大会
      • T5
      • 202302 Bard 聊天机器人,对标OpenAI的ChatGPT
      • ReAct是来自谷歌论文《Synergizing Reasoning and Acting in Language Models》中的一个方法,它是2022年12月发表的。这是一种eason+Act(ReAct)的方式,让大模型的行动和推理一起协同,提高大模型解决问题的能力。也就是让模型在访问外部知识的情况下和自己的模型能力结合。其实这就是Bing中的ChatGPT的运行方式!这个简单的方法可以让模型有更强的能力。而它的实现其实只需要简单的几行代码即可。因此,在前面的低成本+浏览器运行的基础上,加上ReAct改造,几乎可以得到一个与ChatGPT类似或者甚至更好的对话模型!
    • 智谱AI
      • ChatGLM 近日,由清华技术成果转化的公司智谱AI开源了GLM系列模型的新成员——中英双语对话模型ChatGLM-6B,支持在单张消费级显卡上进行推理使用。这是继此前开源GLM-130B千亿基座模型之后,智谱AI再次推出大模型方向的研究成果。与此同时,基于千亿基座模型的ChatGLM也同期推出,初具问答和对话功能 ChatGLM:千亿基座的对话模型启动内测,单卡版模型已全面开源
    • Together
    • 阿里达摩院
      • 中文GPT3 对标GPT-3的开源项目
    • 元语智能
      • 202210 PromptCLUE1.0
      • 202211 PromptCLUE1.5
      • 202212 ChatYuan
    • 百度
      • 202302 ERNIE-Bot文心一言
    • BlinkDL
      • 202208 ChatRWKV 对标ChatGPT的开源项目,基于RNN架构
    • Alpaca 斯坦福大学
      • Alpaca 近日,斯坦福基于 Meta 的 LLaMA 7B 模型微调出一个新模型 Alpaca。该研究让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)样本,以此作为Alpaca的训练数据。研究团队已将训练数据、生成训练数据的代码和超参数开源,后续还将发布模型权重和训练代码。 斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现
    • HPC-AI Tech潞晨科技
      • 202302 ColossalChat 对标ChatGPT的开源项目。ColossalChat开源了第一个完整的RLHF pipeline,斯坦福Alpaca没有做RLHF
      • 202406 Open-Sora
    • 复旦大学自然语言处理实验室邱锡鹏团队
      • 202302 MOSS 对标ChatGPT已开源
    • 百川智能
      • 202306 baichuan-7B 开源
    • Salesforce Research
      • 图生文BLIP-2 能力堪比ChatGPT

AutoML

  • AutoML介绍
  • 自动数据清理AutoClean
  • 自动特征工程AutoFE
  • 超参数优化HPO
  • 元学习MetaLearning
  • 神经网络架构搜索NAS
    • Weight-Agnostic-Neural-Networks Google2019

知识图谱

推荐系统

  • 推荐系统概述
  • 基础知识
    • 协同过滤
    • 用户画像
  • 进阶知识
    • 排序模型概述
    • 召回模型概述
    • 机器学习
      • FM: Factorization Machines ICDM2010
    • Graph Embedding
      • 图表征概述
      • LINE: Large-scale Information Network Embedding ACM2015
    • 深度学习
      • DeepFM: A Factorization-Machine based Neural Network for CTR Prediction 2017
      • DSSM: Learning Deep Structured Semantic Models for Web Search using Clickthrough Data CIKM2013
    • 图卷积网络
      • Graph Convolutional Neural Networks for Web-Scale Recommender Systems KDD2018
    • 强化学习
      • DRN: A Deep Reinforcement Learning Framework for News Recommendation WWW2018
  • 业界应用
    • YouTube
      • YouTubeDNN: Deep Neural Networks for YouTube Recommendations RecSys2016
    • Facebook
      • XGB+LR: Practical Lessons from Predicting Clicks on Ads at Facebook KDD2014
    • Alibaba
      • TDM: Learning Tree-based Deep Model for Recommender Systems KDD2018
      • DIN: Deep Interest Network for Click-Through Rate Prediction KDD2018
      • DSIN: Deep Session Interest Network for Click-Through Rate Prediction IJCAI2019
      • ESMM: Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate SIGIR2018
    • Google
      • MMoE: Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts KDD2018

模型部署

  • 矩阵加速算法
    • im2col: 将卷积转为矩阵乘法来加速计算
    • winograd: Fast Algorithms for Convolutional Neural Networks CVPR2016
  • 并行计算
    • OpenCL
    • CUDA
    • OpenBlas
    • OpenMP
  • 模型压缩
    • 模型压缩概述
    • 剪枝
    • 量化
    • 知识蒸馏
  • 模型部署
    • TensorRT
    • 基于C/C++部署TensorFlow模型
  • AI编译器

自动驾驶

  • 机电系统
    • 各类型传感器
      • 加速度计
        • 加速度计的六面校准法
      • 陀螺仪
        • 陀螺仪校准
      • 磁力计
        • 磁力计校准
      • 电流计
        • 使用电流计测量电池电动势用于pwm电压补偿
      • 空速计
    • 动力系统
      • 多旋翼组装选型
      • 电调
        • 螺旋桨推力与电调pwm的曲线映射关系
      • 电机
        • 电机的原理
  • 感知
  • 决策
  • 规划
    • 基于LLM大语言模型的规划
      • Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language arXiv2022 Google
      • Towards Helpful Robots: Grounding Language in Robotic Affordances Google2022
      • Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon Reasoning arXiv2022 Google
      • Inner Monologue: Embodied Reasoning through Planning with Language Models arXiv2022 Google
      • Interactive Language: Talking to Robots in Real Time arXiv2022 Google
      • ChatGPT for Robotics: Design Principles and Model Abilities Microsoft2023
  • 制导
  • 控制
    • PID控制
      • Sqrt Controller开方控制器
    • 基于强化学习的控制
    • 基于LLM大语言模型的控制
      • Code as Policies: Language Model Programs for Embodied Control arXiv2022 Google
      • RT-1: Robotics Transformer for Real-World Control at Scale arXiv2022 Google
      • Performer MPC: Learning Model Predictive Controllers with Real-Time Attention for Real-World Navigation Google2022
      • ChatGPT for Robotics: Design Principles and Model Abilities MicroSoft2023 ***
      • PaLM-E: An Embodied Multimodal Language Model arXiv2023 Google ***
      • Towards a Robotics Foundation Model ML-Collective协会2023
  • 导航
    • 欧拉旋转定理
    • 坐标变换与欧拉运动学方程
    • 导航常用坐标系及变换
    • 哥氏定理/科里奥利定理
    • 四元数
    • 罗德里格斯公式
    • 李群李代数
    • 基于互补滤波的组合导航
  • 仿真
  • 动力学模型
    • 六自由度动力学与运动学模型
    • 空气动力学
  • 集群

通用人工智能

  • 业界应用
    • DeepMind
      • DeepMind介绍
      • PathNet: Evolution Channels Gradient Descent in Super Neural Networks arXiv2017
      • Reward is enough AI2021
      • Gato: A Generalist Agent arXiv2022
    • OpenAI
      • OpenAI介绍
      • Emergence of Grounded Compositional Language in Multi-Agent Populations arXiv2017
    • Google

任务清单

  • 收集的各种资料
  • 有用的工具