泳鱼
泳鱼
>人工智能将和电力一样具有颠覆性 。 --吴恩达  如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网,人工智能(AI)正赋能各个产业,推动着人类进入智能时代。 本文从介绍人工智能及主要的思想派系,进一步系统地梳理了其发展历程、标志性成果并侧重其算法思想介绍,将这段 60余年几经沉浮的历史,以一个清晰的脉络呈现出来,以此展望人工智能(AI)未来的趋势。 # 一、人工智能简介 ## 1.1 人工智能研究目的 人工智能(Artificial Intelligence,AI)研究目的是通过探索智慧的实质,扩展人类智能——促使智能主体会听(语音识别、机器翻译等)、会看(图像识别、文字识别等)、会说(语音合成、人机对话等)、会思考(人机对弈、专家系统等)、会学习(知识表示,机器学习等)、会行动(机器人、自动驾驶汽车等)。一个经典的AI定义是:**“ 智能主体可以理解数据及从中学习,并利用知识实现特定目标和任务的能力。(A system’s ability to correctly interpret external data, to learn from such data, and to use...
# 前言 前阶段时间梳理了机器学习开发实战的系列文章: [1、Python机器学习入门指南(全)](https://mp.weixin.qq.com/s?__biz=MzI4MDE1NjExMQ==&mid=2247484023&idx=1&sn=12cc9ed0326104e367d4f5be1d6b9894&scene=19#wechat_redirect) [2、Python数据分析指南(全)](https://mp.weixin.qq.com/s/v3pZnoNsCfIo99UmZQRgUA) [3、一文归纳Ai数据增强之法](https://mp.weixin.qq.com/s/lnE0OFqhoK-IAf9LRcM5Fw) [4、一文归纳Python特征生成方法(全)](https://mp.weixin.qq.com/s/MkXOE1VrZz2IWBvvHC06bA) [5、Python特征选择(全)](https://mp.weixin.qq.com/s/YWqaza96XsNehkJCN-lWMg) [6、一文归纳Ai调参炼丹之法](https://mp.weixin.qq.com/s/f4-f6CDTMn5o1MHqTQ6TXw) 现阶段写作计划会对各类机器学习算法做一系列的原理概述及实践,主要包括无监督聚类、异常检测、半监督算法、强化学习、集成学习等。 # 一、机器学习简介 机器学习按照数据的标签情况可以细分为:监督学习,无监督学习,半监督学习以及强化学习。  - 监督学习是利用数据特征及其标签 D ={(x1,y1),…,(xl,yl)}学习输入到输出的映射f:X→Y的方法。  - 无监督学习是仅利用无类标签的样本数据特征 D={x1,…,xn}学习其对应的簇标签、特征表示等方法。  - 强化学习从某种程度可以看作是有延迟标签信息的监督学习。  - 半监督学习是介于传统监督学习和无监督学习之间,其思想是在标记样本数量较少的情况下,通过在模型训练中直接引入无标记样本,以充分捕捉数据整体潜在分布,以改善如传统无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题。  >半监督学习的有效性通常基于如下假设:...
## 前言 数据分析是通过明确分析目的,梳理并确定分析逻辑,针对性的收集、整理数据,并采用统计、挖掘技术分析,提取有用信息和展示结论的过程,是数据科学领域的核心技能。  本文从数据分析常用逻辑框架及技术方法出发,结合python项目实战全面解读数据分析,可以系统掌握数据分析的框架套路,快速上手数据分析。 ## 一、 数据分析的逻辑(方法论)  ### 1.1 PEST分析法 PEST分析是指宏观环境的分析,宏观环境是指影响一切行业或企业的各种宏观力量。P是政治(Politics),E是经济(Economy),S是社会(Society),T是技术(Technology)。通常是战略咨询顾问用来帮助企业检阅其外部宏观环境的一种方法,以吉利收购沃尔沃为例:  ### 1.2 5W2H分析法 5W2H分析法又称七何分析法,包括:Why、What、Where、When、Who、How、How much 。主要用于用户行为分析、业务问题专题分析、营销活动等,是一个方便又实用的工具。  ### 1.3 逻辑树分析法  逻辑树是分析问题最常用的工具之一,它是将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。使用逻辑树分析的主要优点是保证解决问题的过程的完整性,且方便将工作细分为便于操作的任务,确定各部分的优先顺序,明确地把责任落实到个人。  ### 1.4 4P营销理论...
数据、算法、算力是人工智能发展的三要素。数据决定了Ai模型学习的上限,数据规模越大、质量越高,模型就能够拥有更好的泛化能力。然而在实际工程中,训练的数据相对模型而言数据量太少,或者很难覆盖全部的场景等问题,解决这问题的一个有效途径是通过数据增强(Data Augmentation),使模型获得较好的泛化性能。  ## 1 数据增强介绍 数据增强(Data Augmentation)是在不实质性的增加数据的情况下,从原始数据加工出更多的表示,提高原数据的数量及质量,以接近于更多数据量产生的价值。其原理是,通过对原始数据融入先验知识,加工出更多数据的表示,有助于模型判别数据中统计噪声,减少模型过拟合。 >如经典的机器学习例子--哈士奇误分类为狼: 通过可解释性方法,可发现错误分类是由于图像上的雪造成的。通常狗对比狼的图像里面雪地背景比较少,分类器学会使用雪作为一个特征来将图像分类为狼还是狗,而忽略了动物本体的特征。此时,可以通过数据增强的方法,增加变换后的数据(如背景换色、加入噪声等方式)来训练模型,帮助模型学习到本体的特征,提高泛化能力。  需要关注的是,数据增强样本也有可能是引入片面噪声,导致过拟合。此时需要考虑的是调整数据增强方法,或者通过算法(可借鉴Pu-Learning思路)选择增强数据的最佳子集,以提高模型的泛化能力。 常用数据增强方法可分为:基于样本变换的数据增强及基于深度学习的数据增强。 ## 2 基于样本变换的数据增强 样本变换数据增强即采用预设的数据变换规则进行已有数据的扩增,包含单样本数据增强和多样本数据增强。 ### 2.1 单样本增强 单(图像)样本增强主要有几何操作、颜色变换、随机擦除、添加噪声等方法,可参见imgaug开源库。  ### 2.2 多样本数据增强方法 多样本增强是通过先验知识组合及转换多个样本,主要有Smote、SamplePairing、Mixup等方法在特征空间内构造已知样本的邻域值。 - Smote(Synthetic Minority Over-sampling...
# 1 超参数优化  调参即超参数优化,是指从超参数空间中选择一组合适的超参数,以权衡好模型的偏差(bias)和方差(variance),从而提高模型效果及性能。常用的调参方法有: - 人工手动调参 - 网格/随机搜索(Grid / Random Search) - 贝叶斯优化(Bayesian Optimization)  >注:超参数 vs 模型参数差异 超参数是控制模型学习过程的(如网络层数、学习率); 模型参数是通过模型训练学习后得到的(如网络最终学习到的权重值)。 # 2 人工调参 手动调参需要结合数据情况及算法的理解,优化调参的优先顺序及参数的经验值。 不同模型手动调参思路会有差异,如随机森林是一种bagging集成的方法,参数主要有n_estimators(子树的数量)、max_depth(树的最大生长深度)、max_leaf_nodes(最大叶节点数)等。(此外其他参数不展开说明) 对于n_estimators:通常越大效果越好。参数越大,则参与决策的子树越多,可以消除子树间的随机误差且增加预测的准度,以此降低方差与偏差。 对于max_depth或max_leaf_nodes:通常对效果是先增后减的。取值越大则子树复杂度越高,偏差越低但方差越大。  #...
业内常说数据决定了模型效果上限,而机器学习算法是通过数据特征做出预测的,好的特征可以显著地提升模型效果。这意味着通过特征生成(即从数据设计加工出模型可用特征),是特征工程相当关键的一步。本文从特征生成作用、特征生成的方法(人工设计、自动化特征生成)展开阐述并附上代码。 >创造新的特征是一件十分困难的事情,需要丰富的专业知识和大量的时间。机器学习应用的本质基本上就是特征工程。 ——Andrew Ng # 1 特征生成的作用  特征生成是特征提取中的重要一步,作用在于: - 增加特征的表达能力,提升模型效果;(如体重除以身高就是表达健康情况的重要特征,而单纯看身高或体重对健康情况表达就有限。) - 可以融入业务上的理解设计特征,增加模型的可解释性; ## 2 数据情况分析 本文示例的数据集是客户的资金变动情况,如下数据字典: ``` cust_no:客户编号;I1 :性别;I2:年龄 ;E1:开户日期; B6 :近期转账日期;C1 (后缀_fir表示上个月):存款;C2:存款产品数; X1:理财存款; X2:结构性存款; label:资金情况上升下降情况。 ```  这里安利一个超实用Python库,可以一键数据分析(数据概况、缺失、相关性、异常值等等),方便结合数据分析报告做特征生成。...
## 前言 **机器学习** 作为人工智能领域的核心组成,是计算机程序学习数据经验以优化自身算法,并产生相应的“智能化的”建议与决策的过程。 一个经典的机器学习的定义是: > A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its...
# 1 特征选择的目的 机器学习中特征选择是一个重要步骤,以筛选出显著特征、摒弃非显著特征。这样做的作用是: - 减少特征(避免维度灾难),提高训练速度,降低运算开销; - 减少干扰噪声,降低过拟合风险,提升模型效果; - 更少的特征,模型可解释性更好; # 2 特征选择方法 特征选择方法一般分为三类:  ## 2.1 过滤法--特征选择 通过计算特征的缺失率、发散性、相关性、信息量、稳定性等指标对各个特征进行评估选择,常用如缺失情况、单值率、方差验证、pearson相关系数、chi2卡方检验、IV值、信息增益及PSI等方法。 ### 2.1.1 缺失率 通过分析各特征缺失率,并设定阈值对特征进行筛选。阈值可以凭经验值(如缺失率 threshold)] ``` - Chi2检验 经典的卡方检验是检验类别型变量对类别型变量的相关性。  Sklearn的实现是通过矩阵相乘快速得出所有特征的观测值和期望值,在计算出各特征的...
## 1 信贷风控简介 金融业务下沉的同时,其风险也在不断扩张,基于新技术和新场景的诈骗手段不断升级,欺诈方式更具场景化、专业化、智能化。**信贷风险是还款能力与还款意愿综合考量**,而申请信用评分并不能良好地识别欺诈意图,在此背景下,反欺诈成为了金融系统中必不可少的一环。  ## 2 反欺诈流程  ## 3 反欺诈评分建模 以小微企业贷款申请反欺诈架构为例:  ### 3.1 欺诈定义 欺诈是指故意歪曲事实,诱使他人依赖于该事实而失去属于自己的有价财产或放弃某项法律权利。在金融欺诈场景由于信息不对称、欺诈形式的隐秘复杂性等原因,常没有比较确切的欺诈定义。对于个人贷款场景反欺诈的的重点是个人虚假信息欺诈,而对于小微企业贷款场景反欺诈的的重点是企业经营欺诈,常用的信贷欺诈标签定义如: - 人工核实的欺诈名单 - 催收失联 - 贷后催收标记 - 早期逾期 - 首逾 - 逾期团伙...
#1 赛题  # 2 赛题分析 ## 2.1 赛题背景 随着科技发展,银行陆续打造了线上线下、丰富多样的客户触点,来满足客户日常业务办理、渠道交易等客户需求。面对着大量的客户,银行需要更全面、准确地洞察客户需求。在实际业务开展过程中,需要发掘客户流失情况,对客户的资金变动情况预判;提前/及时针对客户进行营销,减少银行资金流失。本次竞赛提供实际业务场景中的客户行为和资产信息为建模对象,一方面希望能借此展现各参赛选手的数据挖掘实战能力,另一方面需要选手在复赛中结合建模的结果提出相应的营销解决方案,充分体现数据分析的价值。 ## 2.2 赛题分析与理解 通过对赛题的分析与理解,本次比赛的任务是:从用户各个季度的基本资料、资金情况及行为信息,建立客户的流失预警模型,挖掘客户流失的原因,辅助业务加强客户维护及营销,提高客户的粘度,减少客户/资金的流失。 本次建模的目标是根据用户前两个季度的历史数据,预测下一季度用户的标签(-1/0/1,标签存在递进关系)。问题转换成三分类问题,从1)aum_m(Y)、2)behavior_m(Y)、3)big_event_Q(Z)、4)cunkuan_m(Y)、5)cust_info_q(Z)表中构建特征,评估指标为Kappa,其本质的考量是分类一致性(准确)且无偏倚。 # 3 建模方案  ## 3.2 特征工程 ### 3.2.1 用户信息特征 数据源表:cust_info_q(第 Z 季度的客户信息) 数值型如家庭年收入,年龄等直接入模。发现不同标签下年龄分布差异较大。 ...