
#百人创作先锋团#人工智能三要素
数据、算法和算力是人工智能时代前进的三大马车,也是其核心驱动力和生产力。其中,大数据是人工智能持续发展的基石,算法为人工智能应用落地提供了可靠的理论保障,算力是人工智能技术实现的保障。
数据
从软件时代到互联网,再到如今的大数据时代,数据的量和复杂性都经历了从量到质的改变,大数据引领人工智能发展进入重要战略窗口。人工智能的核心在于数据支持。首先,大数据技术的发展打造坚实的素材基础。大数据具有体量大、多样性、价值密度低、速度快等特点。大数据技术能够通过数据采集、预处理、存储及管理、分析及挖掘等方式,从各种各样类型的海量数据中,快速获得有价值的信息,为深度学习等人工智能算法提供坚实的素材基础。人工智能的发展也需要大量的知识和经验,而这些知识和经验就是数据,人工智能需要有大数据支撑,反过来人工智能技术也同样促进了大数据技术的进步,两者相辅相成,任何一方技术的突破都会促进另外一方的发展。
算法
人工智能算法已经能够完成智能语音语义、计算机视觉等智能化任务,在棋类、电子游戏对弈、多媒体数据生成等前沿领域取得了一定进展,为人工智能应用落地提供了可靠的理论保障。
人工智能算法需要学习的内容,是能够表征所需完成任务的函数模型。该函数模型旨在实现人们需要的输入和输出的映射关系,其学习的目标是确定两个状态空间(输入空间和输出空间)内所有可能取值之间的关系。算法通过不断缩小函数模型结果与真实结果误差来达到学习目的,一般该误差称为损失函数。损失函数能够合理量化真实结果和训练结果的误差,并将之反馈给机器继续做迭代训练,最终实现学习模型输出和真实结果的误差处在合理范围。机器学习主要完成三件任务,即分类、回归和聚类。目前多数人工智能落地应用,都是通过对现实问题抽象成相应的数学模型,分解为这三类基本任务进行有机组合,并对其进行建模求解的过程。
人工智能实际应用问题经过抽象和分解,主要可以分为回归、分类和聚类三类基本任务,针对每一类基本任务,人工智能算法都提供了各具特点的解决方案。
人工智能主要算法分类
回归任务 | 分类任务 | 聚类任务 |
线性回归(正则法) | 逻辑回归(正则化) | K均值 |
1)回归任务的算法。回归是一种用于连续型数值变量预测和建模的监督学习算法。目前回归算法最为常用的主要有四种,即线性回归(正则化)、回归树(集成方法)、最邻近算法和深度学习。
2)分类任务的算法。分类算法用于分类变量建模及预测的监督学习算法,分类算法往往适用于类别(或其可能性)的预测。其中最为常用的算法主要有五种,分别为逻辑回归(正则化)、分类树(集成方法)、支持向量机、朴素贝叶斯和深度学习方法。
3)聚类任务的算法。聚类算法基于数据内部结构来寻找样本集群的无监督学习任务,使用案例包括用户画像、电商物品聚类、社交网络分析等。其中最为常用的算法主要有四种,即K均值、仿射传播、分层/层次和聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)。
近年来,以深度学习算法为代表的人工智能技术快速发展,在计算机视觉、语音识别、语义理解等领域都实现了突破。但其相关算法目前并不完美,有待继续加强理论性研究,也不断有很多新的算法理论成果被提出,如胶囊网络、生成对抗网络、迁移学习等。
1)胶囊网络是为了克服卷积神经网络的局限性而提出的一种新的网络架构。卷积神经网络存在着难以识别图像中的位置关系、缺少空间分层和空间推理能力等局限性。受到神经科学的启发,人工智能领军人物Hinton提出了胶囊网络的概念。胶囊网络由胶囊而不是由神经元构成,胶囊由一小群神经元组成,输出为向量,向量的长度表示物体存在的估计概率,向量的方向表示物体的姿态参数。胶囊网络能同时处理多个不同目标的多种空间变换,所需训练数据量小,从而可以有效地克服卷积神经网络的局限性,理论上更接近人脑的行为。
2)生成对抗网络(GAN:Generative Adversarial Networks)是于2014年提出的一种生成模型。该算法的核心思想来源于博弈论的纳什均衡,通过生成器和判别器的对抗训练进行迭代优化,目标是学习真实数据的分布,从而可以产生全新的、与观测数据类似的数据。与其他生成模型相比,GAN有生成效率高、设计框架灵活、可生成具有更高质量的样本等优势,2016年以来研究工作呈爆发式增长,已成为人工智能一个热门的研究方向。
3)迁移学习是利用数据、任务或模型之间的相似性,将学习过的模型应用于新领域的一类算法。迁移学习可大大降低深度网络训练所需的数据量,缩短训练时间。其中,Fine-Tune是深度迁移学习最简单的一种实现方式,通过将一个问题上训练好的模型进行简单的调整使其适用于一个新的问题,具有节省时间成本、模型泛化能力好、实现简单、少量的训练数据就可以达到较好效果的优势,已获得广泛应用。
算力
在人工智能的三个基本要素中,算力的提升直接提高了数据的数量和质量,提高了算法的效率和演进节奏,成为推动人工智能系统整体发展并快速应用的核心要素和主要驱动力。
人工智能计算具有并行计算的特征,按照工作负载的特点主要分为训练(Training)和推理(Inference)。传统的通用计算无法满足海量数据并行计算的要求,于是以CPU+GPU为代表的加速计算应运而生并得到了快速的发展,成为当前主流的人工智能算力平台,尤其是在面对训练类工作负载时具有很高的效率和明显的生态优势;推理类工作负载具有实时性要求高、场景化特征强、追求低功耗等特征,在不同的应用场景下呈现明显的差异化,除了GPU加速计算解决方案以外还出现了众多新的个性化算力解决方案,比如:基于FPGA、ASIC、ARM、DSP等架构的定制芯片和解决方案,其计算平台呈现明显的多样化特征。
算力的提升是个系统工程,不仅涉及芯片等所有硬件组件,同时也要根据数据类型和应用的实际情况对计算架构、对资源的管理和分配进行优化。目前提升算力的手段主要是两种,一种是与应用无关的,通过对架构和核心组件的创新,提升整体系统的算力水平;另一种是与应用强相关的,通过定制芯片、硬件和系统架构,为某个或某类应用场景和工作负载提供算力。
文章转载自公众号:智车Robot
