blog icon indicating copy to clipboard operation
blog copied to clipboard

机器学习从头开始之基础套路

Open mylamour opened this issue 8 years ago • 0 comments

这是什么

一份挺简单的回顾和教程,or 套路。

基本的数学知识

  • 微积分
  • 线性代数
  • 概率论

最基本的就够了,看得懂推导,不一定要自己推导.但要能用,理解其含义。不会去查查。

  • 最小二乘法
  • 极大似然估计
  • 信息熵,信息增益比
  • 基尼系数
  • 正态分布
  • 联合概率分布
  • 条件概率分布
  • 独立同分布

什么是

  • 生成模型
  • 判别模型
  • 回归
  • 预测
  • 分类
  • 聚类
  • 有监督学习
  • 无监督学习
  • 半监督学习
  • 强化学习
  • 训练集,测试集
  • 标签,数据
  • 泛化能力
  • 准确率
  • 召回率

知道这么多之后,概念清晰,你就应该集中去学习 有(无)监督学习了。

基础而简单的机器学习算法

  • 逻辑回归
  • 决策树
  • K-近邻
  • K-Means
  • 贝叶斯方法
  • 支持向量机(SVM)
  • 感知机--神经网络
  • 集成算法
  • 自动编码机

为什么

  • 降维
  • 正则化
  • 特征工程
  • 交叉验证
  • 哪些方法可以增加计算速度
  • 怎么增加模型泛化能力

一定要会

  • sklearn numpy matplotlib pandas scipy python

所以你需要起码过一遍这个

要看哪些资源

  • 李航博士的《统计学习方法》
  • 周志华教授的《机器学习》
  • Andrew NG 的机器学习公开课 或者 李宏毅的

我当初是从《机器学习实战》和《集体智慧编程》上手的,但是还是很建议先看一下《统计学习方法》,甚至应该再看一下吴军的《数学之美》

框架这么多我到底要怎么选

  • pytorch
  • tensorflow
  • keras

其实框架都差不多,越来越偏向易用,不过要关注最新的框架特性。我现在已经不常用C++,所以没有推荐Caffe,虽然他也具有Python接口。

  • https://github.com/hunkim/PyTorchZeroToAll
  • https://github.com/nfmcclure/tensorflow_cookbook
  • https://keras-cn.readthedocs.io/en/latest/
  • https://github.com/fchollet/keras/tree/master/examples

都看完了该干嘛了呢

反正我是不相信你可以那么快看到这里的 看看总要先试一试的XGBoost,然后

  • CNN
  • MLP
  • RNN
  • LSTM
  • SRU
  • GAN
  • Seq2Seq
  • Net2Net
  • C2C

是不是挑一个就可以开始干了

  • Q Learning
  • Deep Q Learning
  • 遗传算法等

在这个时候,你又需要了解

  • 为什么需要MaxPool
  • 初始参数到底怎样算好
  • 猜测一下多少层合适
  • 那么多激活函数, RELU和Sigmoid的各自特点是什么
  • tensorflow如何缓解内存紧张的问题
  • 为什么要对高维数据可视化
  • 如何更好的通过tensorboard可视化去调节参数

如果你是搞NLP的,那么可能还需要

  • 怎么分词,分词算法
  • Wor2Vec
  • FastText .......

mylamour avatar Nov 04 '17 03:11 mylamour