machine-learning-notes
machine-learning-notes copied to clipboard
This is the notes of the way of machine learning study. You may find something useful in it.
=>点此阅读<=
目录
前言
- 个人前言
- 机器学习前言
- 机器学习的学习路径
- 机器学习面试
- 机器学习发展史
数学基础
- 机器学习需要的数学
- 数学系课程地图
- 微积分
- 泰勒展开
- e的直观认识
- 傅里叶变换
- 希尔伯特空间
- 卷积
- 线性代数
- 范数
- 矩阵求导
- 特征值
- SVD奇异值分解
- 概率统计
- 概率统计基础
- 方差和协方差
- 协方差矩阵
- 样本方差的无偏估计
- Welfor算法:迭代更新方差
- 贝叶斯分析方法
- 概率论与贝叶斯先验
- 贝叶斯概率
- 共轭先验
- 概率分布
- Normal正态分布
- Gamma伽马函数
- Gamma伽马分布
- Beta贝塔分布
- Dirichlet狄利克雷分布
- 信息论
- 信息论基础
- 数值计算与优化
- 最小二乘法
- 等式约束的拉格朗日乘子法
- 凸优化
- 凸集和凸函数
- 凸优化问题
- 梯度更新算法
- 离线学习
- 梯度下降算法的演化
- 随机梯度下降SGD
- 动量法Momentum
- 牛顿动量Nesterov
- AdaGrad
- RMSprop
- Adadelta
- Adam
- Nadam
- AdamW
- AMSGrad
- AdasMax
- 增量学习
- LwF: Learning-without-Forgetting
- 在线学习
- FTRL
- 离线学习
编程基础
- 计算机科目
- 计算机科目概述
- 计算机组成原理
- 嵌入式系统
- 数据结构与算法
- 数据结构与算法概述
- 数据结构
- 算法思想
- 排序
- 堆排序
- 归并排序
- 快速排序
- 递归
- 排序
- 剑指offer
- 链表
- 二叉树
- 数组
- 字符串
- 栈和队列
- 递归和回溯法
- 动态规划
- 其他
- Leetcode
- 动态规划
- 编译原理
- 编译过程、静态库和动态库
- 关于extern "C"
- GCC编译器介绍
- Make
- CMake
- QMake生成Makefile
- 操作系统
- Linux
- Linux常用命令
- Shell
- 输入输出重定向
- Vim编辑器
- Docker
- 实时操作系统
- freeRTOS
- Linux
- 计算机网络
- TCP/IP协议族
- TCP
- ZeroMQ
- TCP/IP协议族
- 编程语言
- C/C++
- STL容器
- algorithm算法库
- 知识点
- string字符串类
- volatile关键字
- float的精度和取值范围
- Python
- Python简介
- Python语法
- 基础语法
- 数据结构
- 过程控制
- 函数
- 类和对象
- 文件操作
- 正则表达式
- Python知识点
- Python库
- numpy
- pandas
- scipy
- matplotlib
- scikit-learn
- Python应用
- 排序算法
- Cython
- C/C++
- 大数据
- Hadoop
- Hadoop简介
- MapReduce
- Hive
- Spark
- Hadoop
机器学习
- 机器学习概论
- 机器学习的哲学思想
- 机器学习模型组成与分类
- 模型评估方法与性能度量
- 过拟合与模型复杂度
- 正则化
- 特征工程
- 感知机
- k近邻
- 朴素贝叶斯
- 线性模型
- 最大熵模型
- 指数族分布与广义线性模型
- 线性回归
- Logistic回归
- 决策树
- 支持向量机
- 线性可分支持向量机与硬间隔最大化
- 线性支持向量机与软间隔最大化
- 非线性支持向量机与核函数
- 序列最小最优化算法SMO
- SVM总结
- liblinear
- 集成学习
- 集成学习概述
- Bagging
- 随机森林
- Boosting
- AdaBoost
- GradientBoosting
- GBDT
- XGBoost
- XGBoost理论
- XGBoost实践
- LightGBM
- Stacking
- 降维
- 降维概述
- PCA主成分分析
- LDA线性判别分析
- t-SNE
- ICA独立分量分析
- 多维缩放(可能不重要)
- 自编码器
- 流形学习
- EM算法
- 概率图模型
- 概率图模型简介
- 概率图简介
- HMM隐马尔科夫模型
- CRF条件随机场
- 聚类
- k均值聚类
- 高斯混合模型
- DPMM狄利克雷过程混合模型
- 主题模型
- LDA隐狄利克雷分布
- 知识点
- 损失函数
- 负采样
- 机器学习算法总结
深度学习
- 深度学习概论
- ANN人工神经网络
- Hopfield神经网络
- 知识点
- 激活函数
- 深度学习中的正则化
- Batch Normalization
- Layer Normalization
- 深度学习的高阶特征交叉原理
- 梯度爆炸与梯度消失
- CNN卷积神经网络
- CNN卷积神经网络
- TextCNN: Convolutional Neural Networks for Sentence Classification EMNLP2014
- RNN循环神经网络
- RNN循环神经网络
- LSTM长短期记忆网络
- LSTM长短期记忆网络
- pix2code: Generating Code from a Graphical User Interface Screenshot EICS2018
- GRU门控循环单元
- BNN贝叶斯神经网络
- 贝叶斯神经网络
- Weight Uncertainty in Neural Networks ICML2015
- GNN图神经网络
- GNN图神经网络综述
- GCN图卷积网络
- GCN图卷积网络初步理解
- GCN图卷积网络的numpy简单实现
- GCN图卷积网络本质理解
- GCN图卷积网络全面理解
- Semi-Supervised-Classification-With-Graph-Convolutional-Networks ICLR2017
- 深度生成模型
- 深度生成模型概述
- GAN生成对抗网络
- VAE变分自编码器
- Flow-based Models流模型
- Diffusion Models扩散模型
- Few-shot Learning小样本学习
强化学习
-
强化学习学习路径
-
强化学习
- 强化学习概论
- 状态、奖励、动作
- 奖励
- 多臂赌博机及其解法
- 马尔科夫决策过程
- 动态规划
- 无模型方法一:蒙特卡洛
- 无模型方法二:时间差分
- 无模型方法三:多步自举
- 函数近似和深度网络
- 策略梯度算法
- 深度强化学习
- 基于模型的强化学习
- 强化学习前景
- 强化学习论文
- DDPG: Continuous Control With Deep Reinforcement Learning ICLR2016
- PPO: Proximal Policy Optimization arXiv2017OpenAI
- Soft Actor-Critic
-
仿真环境
- OpenAI: Gym
- OpenAI: Mujoco
- OpenDILab: GoBigger多智能体仿真平台
- Unity3D: ml-agents 简言之:行为树是适合解决复杂AI的解决方案。 对于Unity用户,Unity商店现在已经有一个比较完善的行为树设计(Behavior Designer)插件可供购买使用。
-
Sim2Real从仿真器到现实环境的迁移
- 论文
- i-Sim2Real: Reinforcement Learning of Robotic Policies in Tight Human-Robot Interaction Loops arXiv2022 Google
- Legged Robots that Keep on Learning: Fine-Tuning Locomotion Policies in the Real World arXiv2022 Google
- 论文
-
MCTS蒙特卡洛树搜索
-
模仿学习
- 模仿学习介绍
- BC行为克隆:Behavior Cloning
- 论文
- Visual Backtracking Teleoperation: A Data Collection Protocol for Offline Image-Based Reinforcement Learning arXir2022 Google
- GoalsEye: Learning High Speed Precision Table Tennis on a Physical Robot Google2022
- 论文
- IRL逆强化学习Inverse Reinforcement Learning
- 论文
- XIRL: Cross-embodiment Inverse Reinforcement Learning arXir2022 Google
- 论文
- GAIL生成式对抗模仿学习: Generative Adversarial Imitation Learning NeurIPS2016
- 论文
- Augmenting GAIL with BC for sample efficient imitation learning
- Robotic Table Wiping via Reinforcement Learning and Whole-body Trajectory Optimization arXiv2022 Google
- On the Sample Complexity of Stability Constrained Imitation Learning PMLR2022 Google
-
多智能体强化学习
- MAPPO
- 多智能体强化学习论文
- mean-field: Mean Field Multi-Agent Reinforcement Learning ICML2018
-
Transformer+RL
-
决策大模型
-
Offline RL离线强化学习
-
MMRL多模态强化学习
-
LLM+RL
-
DiffusionModel+RL
-
业界应用
- DeepMind
- AlphaGo
- AlphaGo-Zero: Mastering the Game of Go without Human Knowledge Nature2017
- AlphaStar: Grandmaster level in StarCraft II using multi-agent reinforcement learning Nature2019
- AlphaZero
- MuZero
- AlphaFold
- AlphaCode
- AlphaTensor: Discovering faster matrix multiplication algorithms with reinforcement learning Nature2022
- Agent57 2020
- DeepNash
- OpenAI
- Emergence of grounded compositional language in multi agent populations 2017 在模拟游戏环境里从无到有进化出一种语言 OpenAI在2017年先完成了具身智能演化出语言的原理模型之后才立项GPT,Emergence of grounded compositional language in multi agent populations.现在多模态模型的关键要素在文章里都有了,而之前OpenAI还在打游戏。而且这还只是对外公开的部分,谁知道内部发生了啥,马斯克骂骂咧咧的退出了。
- OpenAI Five: Dota 2 with Large Scale Deep Reinforcement Learning 2019
- 玩魔方
- 腾讯
- 王者荣耀Honor of Kings
- InspirAI启元世界
- InspirAI启元世界
- TimeChamber大规模并行的大规模自对弈框架
- TimeChamber大规模并行的大规模自对弈框架
- Humanoid Strike人类击剑
- DeepMind
机器学习训练框架
- Anaconda
- 模型训练云服务器平台
- AutoDL
- MistGPU
- 本地IDE远程连接服务器
- Pycharm远程连接服务器
- TensorFlow
- TensorFlow1.0
- TensorFlow基础
- TensorFlow基础概念解析
- TensorFlow机器学习基础
- TensorFlow2.0
- TensorFlow2.0安装
- 理解Eager模式及tf.function
- keras
- Tensorflow分布式架构
- TensorFlow Serving
- 工具
- TensorFlow中使用GPU
- TensorFlow中ckpt转pb文件(模型持久化)
- 得到模型参数值
- TensorFlow1.0
- PyTorch
- PyTorch基础
- 计算图与动态图机制 https://blog.csdn.net/qq_37388085/article/details/102559532 来自目录https://blog.csdn.net/qq_37388085/category_9417143.html
- 保存加载模型文件
- 推理inference
- 强化学习训练框架
- 强化学习开源框架整理
- 清华:天授
- 百度:PARL 用PaddlePaddle实现了所有算法,用Pytorch实现了部分算法
- Ray分布式计算框架
- RLlib分布式强化学习系统
- 大模型训练框架
- 超算集群
- 微软: 用于训练ChatGPT的超算
计算机视觉
- ResNet 有捷径的(resnet的跳跃连接)
- InceptionNet 多岔路的(inception的多分支)
- DenseNet 通往多个地点的捷径的(densenet的密集连接)
- YOLO
- YOLO原理
- DarkNet深度学习框架
- YOLO-v5
- 图像标注工具
- YOLO_Mark
- Labelme
- Vision Transformer
- Swin Transformer
自然语言处理
- 自然语言处理概论
- 自然语言
- 语言模型和中文分词
- TF-IDF词频-逆文档频率
- word2vec
- Seq2Seq模型和Attention机制
- Self-Attention和Transformer
- Transformer: Attention Is All You Need NIPS2017
- Transformer模型tensorflow2.0官网demo代码解读
- Transformer的细节问题
- BERT
多模态大模型
- Foundation Models基础模型
- On the Opportunities and Risks of Foundation Models Stanford2021李飞飞
- Can Foundation Models Perform Zero Shot For Robot PMLR2022
- RLHF基于人工反馈的强化学习方法
- LoRA大语言模型的低秩适应
- Prompt Learning
- Emergence涌现现象
- 自己训练ChatGPT
- 业界应用
- OpenAI
- 可能大家对于绘画了解的比较多的是midjourney与stable diffusion,实际上这两个产品的基本技术都来源于DALL-E系列,那里的OpenAI还是Open的,它的论文还有足够的内容让我们理解,它里边有什么。于是大家根据它的2021年的DALL-E及CLIP这两个论文,搞出来midjourney,而stable diffusion也是在这个基础上的一个开源方案。
- 2021 DALL·E1
- 2021 CLIP
- 2022 DALL-E2
- 2023 DALL-E3 已融合进GPT4中
- 202212 Point-E 文本生成3D点云模型
- GTP系列介绍
- GPT前身Unsupervised Sentiment Neuron
- Unsupervised Sentiment Neuron
- Learning to Generate Reviews and Discovering Sentiment ArXiv2017
- GPT1
- GPT2
- GPT3 语言生成模型 根据Lambda官网数据,微软为OpenAI设计了一个包含10000块Nvidia V100 GPU的分布式集群进行GPT-3的模型训练,由于模型参数量较大(共1750亿参数),训练完成共耗费30天,消耗总算力为 3640PF-days。以Nvidia Tesla V100的Lambda GPU实例定价为1.50 美元/小时测算,GPT-3的完整训练成本将达到466万美元/次。
- Codex
- GPT-3.5
- instructGPT
- ChatGPT 聊天机器人
- 202303 GPT-4 输入图/文,输出文
- 202402 sora 文字生成视频
- Meta
- OPT 复现开源了GPT3
- 202302 LLaMa 对标OpenAI的ChatGPT,开源
- Stability.ai
- Stable Diffusion开源
- MiscroSoft
- Copilot MiscroSoft和OpenAI联合打造的AI编程工具,基于OpenAI的大模型Codex,基于GPT-3框架进行训练
- Kosmos-1 20230227发布,第二种才是真正的多模态LLM,才是GPT-4的魅力,他的原理目前OpenAI没有公布细节,但是大家可以参考微软在2月27日发布的Kosmos-1的论文(想一想,为什么偏偏是OpenAI的深度合作伙伴发了这篇论文)。
- Google
- 202105 LaMDA I/O大会
- 202204 PaLM 5400亿参数
- 202205 LaMDA-2 I/O大会
- T5
- 202302 Bard 聊天机器人,对标OpenAI的ChatGPT
- ReAct是来自谷歌论文《Synergizing Reasoning and Acting in Language Models》中的一个方法,它是2022年12月发表的。这是一种eason+Act(ReAct)的方式,让大模型的行动和推理一起协同,提高大模型解决问题的能力。也就是让模型在访问外部知识的情况下和自己的模型能力结合。其实这就是Bing中的ChatGPT的运行方式!这个简单的方法可以让模型有更强的能力。而它的实现其实只需要简单的几行代码即可。因此,在前面的低成本+浏览器运行的基础上,加上ReAct改造,几乎可以得到一个与ChatGPT类似或者甚至更好的对话模型!
- 智谱AI
- ChatGLM 近日,由清华技术成果转化的公司智谱AI开源了GLM系列模型的新成员——中英双语对话模型ChatGLM-6B,支持在单张消费级显卡上进行推理使用。这是继此前开源GLM-130B千亿基座模型之后,智谱AI再次推出大模型方向的研究成果。与此同时,基于千亿基座模型的ChatGLM也同期推出,初具问答和对话功能 ChatGLM:千亿基座的对话模型启动内测,单卡版模型已全面开源
- Together
- OpenChatKit ChatGPT的开源平替来了,源代码、模型权重和训练数据集全部公开。由前OpenAI研究员共同打造。如何看待 Together 推出的开源聊天大模型 OpenChatKit?能否替代 ChatGPT?,ChatGPT开源平替来了,开箱即用!前OpenAI团队打造
- 阿里达摩院
- 中文GPT3 对标GPT-3的开源项目
- 元语智能
- 202210 PromptCLUE1.0
- 202211 PromptCLUE1.5
- 202212 ChatYuan
- 百度
- 202302 ERNIE-Bot文心一言
- BlinkDL
- 202208 ChatRWKV 对标ChatGPT的开源项目,基于RNN架构
- Alpaca 斯坦福大学
- Alpaca 近日,斯坦福基于 Meta 的 LLaMA 7B 模型微调出一个新模型 Alpaca。该研究让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)样本,以此作为Alpaca的训练数据。研究团队已将训练数据、生成训练数据的代码和超参数开源,后续还将发布模型权重和训练代码。 斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现
- HPC-AI Tech潞晨科技
- 202302 ColossalChat 对标ChatGPT的开源项目。ColossalChat开源了第一个完整的RLHF pipeline,斯坦福Alpaca没有做RLHF
- 202406 Open-Sora
- 复旦大学自然语言处理实验室邱锡鹏团队
- 202302 MOSS 对标ChatGPT已开源
- 百川智能
- 202306 baichuan-7B 开源
- Salesforce Research
- 图生文BLIP-2 能力堪比ChatGPT
- OpenAI
AutoML
- AutoML介绍
- 自动数据清理AutoClean
- 自动特征工程AutoFE
- 超参数优化HPO
- 元学习MetaLearning
- 神经网络架构搜索NAS
- Weight-Agnostic-Neural-Networks Google2019
知识图谱
推荐系统
- 推荐系统概述
- 基础知识
- 协同过滤
- 用户画像
- 进阶知识
- 排序模型概述
- 召回模型概述
- 机器学习
- FM: Factorization Machines ICDM2010
- Graph Embedding
- 图表征概述
- LINE: Large-scale Information Network Embedding ACM2015
- 深度学习
- DeepFM: A Factorization-Machine based Neural Network for CTR Prediction 2017
- DSSM: Learning Deep Structured Semantic Models for Web Search using Clickthrough Data CIKM2013
- 图卷积网络
- Graph Convolutional Neural Networks for Web-Scale Recommender Systems KDD2018
- 强化学习
- DRN: A Deep Reinforcement Learning Framework for News Recommendation WWW2018
- 业界应用
- YouTube
- YouTubeDNN: Deep Neural Networks for YouTube Recommendations RecSys2016
- Facebook
- XGB+LR: Practical Lessons from Predicting Clicks on Ads at Facebook KDD2014
- Alibaba
- TDM: Learning Tree-based Deep Model for Recommender Systems KDD2018
- DIN: Deep Interest Network for Click-Through Rate Prediction KDD2018
- DSIN: Deep Session Interest Network for Click-Through Rate Prediction IJCAI2019
- ESMM: Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate SIGIR2018
- Google
- MMoE: Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts KDD2018
- YouTube
模型部署
- 矩阵加速算法
- im2col: 将卷积转为矩阵乘法来加速计算
- winograd: Fast Algorithms for Convolutional Neural Networks CVPR2016
- 并行计算
- OpenCL
- CUDA
- OpenBlas
- OpenMP
- 模型压缩
- 模型压缩概述
- 剪枝
- 量化
- 知识蒸馏
- 模型部署
- TensorRT
- 基于C/C++部署TensorFlow模型
- AI编译器
自动驾驶
- 机电系统
- 各类型传感器
- 加速度计
- 加速度计的六面校准法
- 陀螺仪
- 陀螺仪校准
- 磁力计
- 磁力计校准
- 电流计
- 使用电流计测量电池电动势用于pwm电压补偿
- 空速计
- 加速度计
- 动力系统
- 多旋翼组装选型
- 电调
- 螺旋桨推力与电调pwm的曲线映射关系
- 电机
- 电机的原理
- 各类型传感器
- 感知
- 决策
- 规划
- 基于LLM大语言模型的规划
- Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language arXiv2022 Google
- Towards Helpful Robots: Grounding Language in Robotic Affordances Google2022
- Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon Reasoning arXiv2022 Google
- Inner Monologue: Embodied Reasoning through Planning with Language Models arXiv2022 Google
- Interactive Language: Talking to Robots in Real Time arXiv2022 Google
- ChatGPT for Robotics: Design Principles and Model Abilities Microsoft2023
- 基于LLM大语言模型的规划
- 制导
- 控制
- PID控制
- Sqrt Controller开方控制器
- 基于强化学习的控制
- 基于LLM大语言模型的控制
- Code as Policies: Language Model Programs for Embodied Control arXiv2022 Google
- RT-1: Robotics Transformer for Real-World Control at Scale arXiv2022 Google
- Performer MPC: Learning Model Predictive Controllers with Real-Time Attention for Real-World Navigation Google2022
- ChatGPT for Robotics: Design Principles and Model Abilities MicroSoft2023 ***
- PaLM-E: An Embodied Multimodal Language Model arXiv2023 Google ***
- Towards a Robotics Foundation Model ML-Collective协会2023
- PID控制
- 导航
- 欧拉旋转定理
- 坐标变换与欧拉运动学方程
- 导航常用坐标系及变换
- 哥氏定理/科里奥利定理
- 四元数
- 罗德里格斯公式
- 李群李代数
- 基于互补滤波的组合导航
- 仿真
- 动力学模型
- 六自由度动力学与运动学模型
- 空气动力学
- 熵
- 集群
通用人工智能
- 业界应用
- DeepMind
- DeepMind介绍
- PathNet: Evolution Channels Gradient Descent in Super Neural Networks arXiv2017
- Reward is enough AI2021
- Gato: A Generalist Agent arXiv2022
- OpenAI
- OpenAI介绍
- Emergence of Grounded Compositional Language in Multi-Agent Populations arXiv2017
- DeepMind
任务清单
- 收集的各种资料
- 有用的工具
