webooru 人工智能基础之计算机视觉综述

人工智能基础之计算机视觉综述 - 知乎

Open madobet opened this issue 4 years ago • 0 comments

上一篇文章对人工智能最基础的东西进行了介绍，接下来对其中的几个重要领域进行更深入的描述。首先是计算机视觉。计算机视觉是机器认知世界的基础，也是最主要的人工智能技术之一。

一、定义

【百度百科】计算机视觉是一门研究如何使机器 “看” 的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中 “感知” 的科学。

人类认识了解世界的信息中 91% 来自视觉，同样计算机视觉成为机器认知世界的基础，终极目的是使得计算机能够像人一样 “看懂世界”。目前计算机视觉主要应用在人脸识别、图像识别方面（包括静态、动态两类信息）。

与计算机视觉容易混淆的另一个概念是机器视觉，这两者其实有很大不同。

机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过图像摄取装置将被摄取目标转换成图像信号，传送给专用的图像处理系统，得到被摄目标的形态信息，根据像素分布和亮度、颜色等信息，转变成数字化信号；图像系统对这些信号进行各种运算来抽取目标的特征，进而根据判别的结果来控制现场的设备动作。

从学科分类上，二者都被认为是 Artificial Intelligence 下属科目，不过计算机视觉偏软件，通过算法对图像进行识别分析，而机器视觉软硬件都包括（采集设备，光源，镜头，控制，机构，算法等），指的是系统，更偏实际应用。

二、计算机视觉的发展历程

　　从 2006 年开始，在将近 10 年的时间里，整个计算机视觉界发生了一个比较本质的变化，也是人工智能带来的核心本质的变化——深度学习的出现。深度学习的出现真正改变了计算机视觉之前的定义。那么，这种改变到底是怎样带来的，它对我们解决现在的特定问题会带来什么样的影响呢？要解决这样的问题，先要看一下整个计算机视觉的发展历程。

　　计算机视觉的发展历史可以追溯到 1966 年，在这一年有一个非常有名的人工智能学家，叫马文 · 明斯基。在 1966 年夏天，明斯基给他的学生布置了一道非常有趣的暑假作业，就是让学生在电脑前面连一个摄像头，然后想办法写一个程序，让计算机告诉我们摄像头看到了什么。这道题太有挑战了，其实它代表了计算机视觉的全部：通过一个摄像头让机器告诉我们它到底看到了什么。

　　所以，1966 年被认为是计算机视觉的起始年。

　　70 年代，研究者开始去试图解决这样一个问题，就是让计算机告知他到底看到了什么东西。当时，大家认为要让计算机认知到底看到了什么，可能首先要了解人是怎样去理解这个世界的。当时有一种普遍的认知，认为人之所以理解这个世界，是因为人是有两只眼睛，他看到的世界是立体的，他能够从这个立体的形状里面理解这个世界。在这种认知情况下，研究者希望先把三维结构从图像里面恢复出来，在此基础上再去做理解和判断。

　　80 年代，是人工智能发展的一个非常重要的阶段。当时，在人工智能界的逻辑学和知识库推理大行其道，大家开始做很多类似于现在的专家系统，计算机视觉的方法论也开始在这个阶段产生一些改变。在这个阶段，人们发现要让计算机理解图像，不一定先要恢复物体的三维结构。例如：让计算机识别一个苹果，假设计算机事先知道对苹果的形状或其他特征，并且建立了这样一个先验知识库，那么计算机就可以将这样的先验知识和看到物体表征进行匹配。如果能够匹配上，计算机就算识别或者理解了看到的物体。所以，80 年代出现了很多方法，包括几何以及代数的方法，将我们已知的物品转化成一些先验表征，然后和计算机看到的物品图像进行匹配。

　　90 年代，人工智能界又出现了一次比较大的变革，也就是统计方法的出现。在这个阶段，经历了一些比较大的发展点，比如现在还广泛使用的局部特征。研究者找到了一种统计手段，能够刻画物品最本质的一些局部特征，比如：要识别一辆卡车，通过形状、颜色、纹理，可能并不稳定，如果通过局部特征，即使视角、灯光变化了，也会非常稳定。局部特征的发展，其实也导致了后来很多应用的出现。比如：图像搜索技术真正的实用，也是由于局部特征的出现。我们可以对物品建立一个局部特征索引，通过局部特征可以找到相似的物品。其实，通过这样一些局部点，可以让匹配更加精准。

　　到 2000 年左右，机器学习开始兴起。以前需要通过一些规则、知识或者统计模型去识别图像所代表的物品是什么，但是机器学习的方法和以前完全不一样。机器学习能够从我们给定的海量数据里面去自动归纳物品的特征，然后去识别它。在这样一个时间点，计算机视觉界有几个非常有代表性的工作，比如：人脸识别。你要识别一个人脸，第一步需要从图片里面把待识别的人脸区域给提取出来，我们一般叫做人脸检测。像在大家拍照的时候，会看到相机上有个小方框在闪，那其实是人脸识别必要的第一步工作，也就是人脸框的检测。在以前，这是非常困难的工作，但是在 2000 年左右，出现了一种非常好的算法，它能够基于机器学习，非常快速的去检测人脸，我们称之为 Viola&Jones 人脸检测器，它其实奠定了当代计算机视觉的一个基础。

　　当然，机器学习的出现其实是伴随着一个必要条件出现的，就是在 2000 年左右，整个互联网的出现和爆发，产生了海量的数据，大规模数据集也相伴而生，这为通过机器学习的方法来做计算机视觉提供了很好的土壤。在这期间，出现了大量学术官方的，针对不同领域评测的数据集。比如像刚刚谈到的人脸检测，这里面最具有代表性是一个叫 FDDB 的数据集。这个数据集包含了超过 5000 多张人脸数据，每一张人脸，都人为的用框给框出来，机器就可以从这些框好的数据里面，通过一些机器学习的手段去学习从任何一张图片中找到人脸区域。

　　另外，大家可能耳熟能详的一个数据集叫 LFW。提到人脸识别，大家可能都会听到一句话，说人脸识别比人做得都要准确。其实这句话是有一定问题的。在很多的实际场景里面，人脸识别连人的百分之六七十可能都达不到。那么，在什么情况下，它比人准呢？其实就是在 LFW 上。LFW 数据集里面有 1 万多张人脸和 5000 多个人的数据，每个人都有在不同情况下拍摄的真实场景的多张人脸。基于这样的一个数据集，我们可以在上面评估人脸识别的精度。人脸识别领域发展非常快，尤其是最近几年深度学习的兴起后，这个数据基本上快被刷爆了。人在 LFW 上面的识别正确率大概是 97.75%，而机器已经在 LFW 上可以做到 99.75% 甚至更要高。

　　在这期间，还出现了其他非常有影响力的数据集，其中比较有代表性的就是 IMAGEMET。这是由非常著名的教授李飞飞发起的一个项目，她通过众包的方式，大概标注 1400 万张图片，分了大概 2 万多个类别，这些类别包罗万物，比如像动物，里边可能分为鸟类、鱼类等；植物，里面可能会分为树和花。她的理想很宏大，就是希望提供这样一个数据集，为计算机视觉算法提供一个数据土壤，让未来的机器能够认识世界上的一切物品。

　　到 2010 年代，进入了一个最激动人心的年代，它就是深度学习的年代。深度学习从本质上给整个人工智能带来了一次革命。在 80 年代，有人做了一个猫的实验。他们在猫脑袋上开了一个洞，然后在猫的前面放各种各样的物品，观察猫在不同物品下的反应。通过实验发现，当我们放一些形状非常类似的物品时，猫会表现出同样的刺激反应，这就表明了人的认知是分层的。在早期多层神经网络经历 2000 年左右的一个低谷后，2006 年 Hinton 教授在《科学》发表了对于深层神经网络的训练方法，带来了深度学习的蓬勃发展。

三、市场现状

学术上的突破带来了商业上的繁荣，从 2010 年开始，计算机视觉开始成为国内外各个公司关注的焦点，不管是初创企业还是巨头纷纷开始布局。

初创企业方面，国内计算机视觉创业热度递增且深入行业，但整体仍处于早期阶段。

巨头方面，国外巨头采用自研和收购双管齐下的方式，将视觉技术广泛应用于自身产品升级，并基于自身基因打造技术服务平台和新品类持续提升影响力。

国内巨头百度相对激进，阿里巴巴、腾讯基于自身产品进行功能试水

综上可以看出，创业公司以多点垂直化企业服务为切入点，国内外巨头则一方面利用资源优势积极进行底层架构建设，并将技术广泛应用到已有的产品升级中，另一方面利用资金优势大量收购优秀的技术和数据创业公司，迅速弥补技术短板、数据短板和人才短板。与此同时，巨头们还热衷于创新前沿产品的研发，以及搭建开源平台帮助创业公司迅速起步，持续不断地提升业内影响力。

四、技术应用场景

1. 安全 / 娱乐 / 营销成最抢先落地的商业化领域

计算机视觉技术已经步入应用早期阶段，不仅渗透到传统领域的升级过程中，还作为最重要的基础人工智能技术参与到前沿创新的研究中。其中，计算机对静态内容的识别应用主要体现在搜索变革和照片管理等基础服务层面，意在提升产品体验；伴随内容形式的变迁（文字→图片→视频），动态内容识别的需求愈加旺盛，安全、娱乐、营销成为最先落地的商业化领域。

Analysys 易观认为，这三类领域均有一定的产业痛点，且均是视频内容产出的重地，数据体量巨大，适合利用深度学习的方式予以改进。与此同时，行业潜在的商业变现空间也是吸引创业者参与的重要原因。

另一方面，当前计算机视觉主要应用于二维信息的识别，研究者们还在积极探索计算机对三维空间的感知能力，以提高识别深度。

2. 从软硬件两个层面优化安防人员的作业效率和深度

安防是环境最为复杂的应用领域，通常的应用场景以识别犯罪嫌疑人、目标车辆（含套牌车 / 假牌车）以及真实环境中的异常为主。

传统安防产品主要功能在于录像收录，只能为安防人员在事后取证的环节提供可能的线索，且需要人工进行反复地逐帧排查，耗时耗力；智能安防则是将视频内容结构化处理，通过大数据分析平台进行智能识别搜索，大大简化了工作难度，提高工作效率。

Analysys 易观认为，计算机视觉的应用从行业痛点出发，以软硬件的方式大大优化了安防人员的作业效率与参考深度，是顺应行业升级的利好。不过，在实际应用过程中，对公安、交警、金融等常见安防需求方而言，更强的视觉识别效果往往意味着更多基础成本（存储、带宽等）的投入，安防厂商的未来将不只以技术高低作为唯一衡量标准，产品的实用性能与性价比的平衡才是进行突围、实现量产的根本，因此市场除了有巨大的应用空间外，还会引发一定的底层创新。