人工智能生成内容(AIGC)在自动驾驶领域的应用

发布于 2023-4-4 11:37
浏览
0收藏

人工智能生成内容的发展历程与概念

 1950年,艾伦·图灵(Alan Turing)在其论文《计算机器与智能(Computing Machineryand Intelligence)》中提出了著名的“图灵测试”,给出了判定机器是否具有“智能”的试验方法,即机器是否能够模仿人类的思维方式来“生成”内容继而与人交互。某种程度上来说,人工智能从那时起就被寄予了用于内容创造的期许。经过半个多世纪的发展,随着数据快速积累、算力性能提升和算法效力增强,今天的人工智能不仅能够与人类进行互动,还可以进行写作、编曲、绘画、视频制作等创意工作。2018年,人工智能生成的画作在佳士得拍卖行以43.25万美元成交,成为世界上首个出售的人工智能艺术品,引发各界关注。随着人工智能越来越多地被应用于内容创作,人工智能生成内容(Artificial Intelligence Generated Content,简称AIGC)的概念悄然兴起。

1.1 AIGC历史沿革

AIGC的发展大致可以分为三个阶段,即:早期萌芽阶段(20世纪50年代至90年代中期)、沉淀积累阶段(20世纪90年代中期至21世纪10年代中期),以及快速发展阶段(21世纪10年代中期至今)。


早期萌芽阶段(1950s-1990s),受限于当时的科技水平,AIGC仅限于小范围实验。1957年,莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Isaacson)通过将计算机程序中的控制变量换成音符完成了历史上第一支由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲(Illiac Suite)》。1966年,约瑟夫·魏岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(Kenneth Colby)共同开发了世界第一款可人机对话的机器人“伊莉莎(Eliza)”,其通过关键字扫描和重组完成交互任务。80年代中期,IBM基于隐形马尔科夫链模型(Hidden Markov Model,HMM)创造了语音控制打字机“坦戈拉(Tangora)”,能够处理约20000个单词。80年代末至90年代中,由于高昂的系统成本无法带来可观的商业变现,各国政府纷纷减少了在人工智能领域的投入,AIGC没有取得重大突破。


沉淀积累阶段(1990s-2010s),AIGC从实验性向实用性逐渐转变。2006年,深度学习算法取得重大突破同时期图形处理器(Graphics Processing Unit,GPU)、张量处理器Tensor Processing Unit,TPU)等算力设备性能不断提升,互联网使数据规模快速膨胀并为各类人工智能算法提供了海量训练数据,使人工智能发展取得了显著的进步。但是AIGC依然受限于算法瓶颈,无法较好地完成创作任务,应用仍然有限,效果有待提升。2007年,纽约大学人工智能研究员罗斯·古德温装配的人工智能系统通过对公路旅行中的一切所见所闻进行记录和感知,撰写出小说《1 The Road》。作为世界第一部完全由人工智能创作的小说,其象征意义远大于实际意义,整体可读性不强拼写错误、辞藻空洞、缺乏逻辑等缺点明显。2012年,微软公开展示了一个全自动同声传译系统,基于深层神经网络(Deep Neural Network,DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。


快速发展阶段(2010s-至今),自2014年起,随着以生成式对抗网络(Generative Adversarial Network,GAN)为代表的深度学习算法的提出和迭代更新,AIGC迎来了新时代,生成内容百花齐放,效果逐渐逼真直至人类难以分辨。2017年,微软人工智能少女“小冰”推出了世界首部100%由人工智能创作的诗集《阳光失了玻璃窗》。2018年,英伟达发布的StyleGAN模型可以自动生成图片,目前已升级到第四代模型StyleGAN-XL,其生成的高分辨率图片人眼难以分辨真假。2019年,DeepMind发布了DVD-GAN模型用以生成连续视频,在草地、广场等明确场景下表现突出。2021年,OpenAI推出了DALL-E并于一年后推出了升级版本DALL-E-2,主要应用于文本与图像的交互生成内容,用户只需输入简短的描述性文字,DALL-E-2即可创作出相应极高质量的卡通、写实、抽象等风格的绘画作品。

人工智能生成内容(AIGC)在自动驾驶领域的应用-汽车开发者社区

图1 AIGC发展历程

1.2 AIGC的概念

AIGC既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合。


AIGC根据面向对象、实现功能的不同可分为三个层次。一是智能数字内容孪生,其主要目标是建立现实世界到数字世界的映射,将现实世界中的物理属性(如物体的大小、纹理、颜色等)和社会属性(如主体行为、主体关系等)高效、可感知地进行数字化。二是智能数字内容编辑,其主要目的是建立数字世界与现实世界的双向交互。在数字内容孪生的基础上,从现实世界实现对虚拟数字世界中内容的控制和修改,同时利用数字世界高效率仿真和低成本试错的优势,为现实世界的应用提供快速迭代能力。三是智能数字内容创作,其主要目标是让人工智能算法具备内容创作和自我演化的能力,形成的AIGC产品具备类似甚至超越人的创作能力。以上三个层面的能力共同构成AIGC的能力闭环。


AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求;同时能够创新内容生产的流程和范式,为更具想象力的内容、更加多样化的传播方式提供可能性,推动内容生产向更有创造力的方向发展。AIGC通过支持数字内容与其他产业的多维互动,为各个行业发展提供新动能。

AIGC的技术体系

AIGC作为人工智能技术和产业应用的要素之一,随着技术能力的不断迭代升级,正在降低内容创作门槛、释放创作能力,未来将推动数实融合趋势下内容创作的范式转变。

2.1 AIGC的技术升级

人工智能算法的不断迭代是AIGC发展进步的源动力,从技术演进的角度出发,可将AIGC技术可大致划分为传统基于模板或规则的前深度学习阶段和深度神经网络快速发展的深度学习阶段。


早期的AIGC技术主要依据事先指定的模板或者规则,进行简单的内容制作与输出,与灵活且真实的内容生成有较大的差距。该时期的人工智能算法并不具备强大的学习能力,而是大多依赖于预先定义的统计模型或专家系统执行特定的任务。通过巧妙地规则设计,早期AIGC技术可以完成简单线条、文本和旋律的生成。


深度神经网络在学习范式和网络结构上的不断迭代极大的提升了人工智能算法的学习能力,从而推动了AIGC技术的快速发展。不同于传统人工智能算法,深度学习中的损失函数和梯度下降算法可以灵活快速的调整深度神经网络中的参数,从而实现从数据中进行学习功能。


深度神经网络的结构升级是推动AIGC快速发展的另一主要因素。实验证明,深度神经网络的学习能力和模型大小呈正相关,伴随着模型参数量的增加,相对应深度神经网络的能力一般会取得大幅提升。但是,随意地增加神经网络规模是行不通的,越大规模神经网络往往意味着更大的训练难度,因此深度神经网络的结构设计显得尤为关键。从早期的玻尔兹曼机,多层感知机,卷积神经网络,到深度残差网络和Transformer大模型,网络结构进化带来了深度学习模型参数量从几万到数千亿跃升,模型层数也从开始的个位数逐步发展到成百上千。深度学习模型规模上的量变引起了AIGC技的质变,在新型网络结构的加持下,上述的生成对抗网络等算法开始能生成超高清晰度的视频,高质量的文本段落和优美灵动的乐曲旋律。另一方面,研究者们在深度神经网络结构的设计中引入包含语义的隐式表达和物理知识,以降低模型的训练难度、增强生成内容的丰富程度。例如,研究者发现通过在神经网络的每一层引入隐式表达,能够极大地提升内容生成算法的可控性和生成效果。另外,在三维数据的生成任务中,神经辐射场在网络结构设计时充分考虑了物理世界的固有约束,极大提升了三维渲染效率和效果。

2.2 AIGC的大模型架构

超级深度学习近年来的快速发展带来了深度神经网络技术在大模型和多模态两个方向上的不断突破,并为AIGC技术能力的升级提供了强力的支撑和全新的可能性。近年来,研究界在大规模深度网络、多模态人工智能方面的探索表明大模型具备易扩展性,能够实现跨模态的知识沉淀,以大模型为基础模型,通过大模型小型化技术使得人工智能在小数据集场景下也能具备优秀的理解、生成和泛化能力,具有超大规模、超多参数量的多模态大型神经网络将引领AIGC技术升级正在成为学界、产业界共识。


在日常生活中,视觉和语言是最常见且重要的两种模态,视觉大模型可以构建出人工智能更加强大的环境感知能力,而语言大模型则可以学习到人类文明的抽象概念及认知能力。然而AIGC技术如果只能生成单一模态的内容,那么AIGC的应用场景将极为有限、不足以推动内容生产方式的革新。多模态大模型的出现,则让融合性创新成为可能,极大丰富了AIGC技术可应用的广度。对于包含多个模态的信息,多模态大模型则致力于处理不同模态、不同来源、不同任务的数据和信息,从而满足AIGC场景下新的创作需求和应用场景。


多模态大模型拥有两种能力,一个是寻找到不同模态数据之间的对应关系,例如将一段文本和与之对应的图片联系起来;另一个是实现不同模态数据间的相互转化与生成,比如根据一张图片生成对应的语言描述。为了寻找到不同模态数据之间的对应关系,多模态大模型将不同模态的原始数据映射到统一或相似语义空间当中,从而实现不同模态的信号之间的相互理解与对齐,这一能力最常见的例子就是互联网中使用文字搜索与之相关图片的图文搜索引擎。在此基础上,多模态大模型可以进一步实现不同模态数据间的相互转化与生成,这一能力是进行AIGC原生创作的关键。


如图2所示,只需给定用户简单手绘的语义图或是素描图,多模态大模型学习模型便能够创作出逼真的风景图像,同时,当给定具体文本语义时,图像中的内容也将随之改变,展现出不同的季节亦或是“黄昏时河道干涸”的场景。

人工智能生成内容(AIGC)在自动驾驶领域的应用-汽车开发者社区

图 2 AIGC 多模态大模型生成结果图


再以OpenAI最新提出的多模态大模型DALL-E2为例,给定一个已有的场景图像,该模型能够在指定位置添加指定的目标主体,如图3所示,当要求在沙发上(位置3处)添加一只柯基狗时,算法可以在指定位置添加不同形态的真实的柯基;当要求在左侧画框中(位置1处)添加一只柯基时,算法先是成功的识别出该位置是一幅画,并创作了符合相应画风的柯基狗5。基于多模态大模型,AIGC具备了更加接近于人类的创作能力,并真正的开始展示出代替人类进行内容创作,进一步解放生产力的潜力。

人工智能生成内容(AIGC)在自动驾驶领域的应用-汽车开发者社区

图3  OpenAI AIGC多模态大模型DALL E 2生成结果图


对于人工智能而言,能够高质量的完成多模态数据的对齐、转换和生成任务意味着模型对物理世界具备了极为深刻的理解。从某种程度而言,基于多模态大模型的AIGC是人工智能算法迈向通用人工智能的重要一步。

2.3 AIGC技术的能力

AIGC技术被广泛应用于音频、文本、视觉等不同模态数据,并构成了丰富多样的技术应用。本节归纳AIGC变革内容创作方式的三大前沿能力(如图4所示),分别是智能数字内容孪生能力,智能数字内容编辑能力和智能数字内容创作能力。

人工智能生成内容(AIGC)在自动驾驶领域的应用-汽车开发者社区

图 4 AIGC 的三大前沿能力


构建数字内容孪生能力



现实场景中数据采集、传输和储存中可能遇到的多种限制,原始的数字内容经常会存在缺失或者损坏等问题。智能增强技术旨在消除上述过程中的干扰和缺失问题,根据给定的低质量原始数据生成经过增强后的高质量数字内容,力求在数字世界中孪生并重构完整逼真的客观世界。在计算机视觉任务中,智能增强技术多被用于修复并增强由采集设备或环境因素引起的视觉内容受损,例如低分辨率、模糊、像素缺失等。同理,对于有缺陷的文本和音频数据,相关的智能增强技术被用于解决片段缺失、脉冲干扰和音频失真等问题,在实际生产生活中为相关应用生成复原高质量的数字内容。


除了对各种模态数据内容的修复和增强,近年间,数字内容孪生中智能增强技术在三维视觉领域取得了快速地发展。数字图像是三维世界在摄影设备上的二维投影,传统的数字化记录了拍摄影像的色彩信息,但却无法保留三维世界中的深度、材质和光照等信息。现有的数字孪生技术,可以利用对同一场景拍摄的多张照片,重构并生成相应的三维内容。最近,谷歌等多家国内外科技公司正探索使用互联网上商家和用户上传的照片,生成并渲染不同餐厅、街道和景点的三维全景。通过数字内容孪生中的智能增强技术,算法可以过滤剔除不同照片中天气、时间、行人等扰动信息,专注于生成并渲染不同场所的全时间段三维全景。


数字内容孪生技术通过对真实世界中内容的智能增强和转译,将现实世界的物理属性(如物体的大小、纹理、颜色等)和社会属性(如主体行为、主体关系等)高效、可感知地进行数字化,实现现实世界到数字世界的映射,构建了在数字世界中重现现实场景的能力。通过数字内容孪生技术,不同行业的从业者可以更好地在数字世界中进行内容的组织和展示。


理解与控制组成内容编辑能力



在数字内容孪生技术的基础上,智能数字内容编辑的相关技术构建了虚拟数字世界与现实物理世界间的交互通道。一方面,对数字内容的编辑和控制,例如数字人技术,可以直接作用于物理世界,实现实时的反馈和互动,起到对现实世界中主体陪伴或服务等功能;另一方面,数字内容编辑技术是实现数字仿真的基础。例如在自动驾驶仿真场景中,通过智能编辑,可以实现对同一道路上不同车况和天气状况的控制。基于数字内容仿真,算法模型可以在数字世界中学习到相应的知识和技能,这些知识可以被用来反哺解决现实世界中的问题。


数字内容编辑技术在内容孪生技术的基础上,具备了对现实世界内容进行语义理解和属性操控的能力,从而构建了数字世界对现实世界内容的影响和反馈。在数字世界中的操作和尝试将不受限于场地、成本、资源消耗等客观约束,所得到的经验知识也能够更好地反馈给现实世界,提升生产生活的效率。


模仿与概念学习造就内容创作能力


上述的数字内容的孪生和编辑能力主要面向客观世界中的真实内容,通过对现实内容的智能孪生、理解、控制和编辑,AIGC算可以快速准确地将现实世界的内容映射到虚拟世界中,并通过控制仿真等方法,对现实世界产生正向的反馈和帮助。更进一步,数字内容的智能创作旨在让人工智能算法具备类似甚至超越人的创作能力。


现有的人工伴随着深度神经网络的快速发展,人工智能模型的规模和能力都在不断被刷新,凭借着数据内容的快速增长,算力的爆发以及算法模型的不断迭代,数字内容创作技术突破到了一个新的高度,规模上不断变大,逐步趋近并开始超过人脑的神经元个数,能力上不断增强,展现出强大的多模态理解和生成能力。伴随着深度神经网络的快速发展,人工智能模型的规模和能力都在不断被刷新,凭借着数据内容的快速增长,算力的爆发以及算法模型的不断迭代,数字内容创作技术突破到了一个新的高度,规模上不断变大,逐步趋近并开始超过人脑的神经元个数,能力上不断增强,展现出强大的多模态理解和生成能力。

AIGC在智能驾驶方面的应用

随着AIGC核心技术的不断发展,其内容孪生、内容编辑、内容创作三大基础能力将显著增强。随着渲染技术、仿真加速、XR套件及开发组件等技术的提升,基于内容孪生的数字孪生能力可以将现实世界更逼真地复制到虚拟世界,并依托新一代传感器以及云边端协同作业,进行实时动态更新。依托内容编辑的数字伴生能力将进一步打通现实世界与虚拟世界的双向通道。通过现实世界与虚拟世界的双向联通,将现实世界的物理问题抽象化与数字化,进而转化为虚拟世界的计算问题,并将计算的最优解以物理形式输出至现实世界。


通过人工智能合成虚拟物理场景。AIGC生成3D模型、纹理和其他资产,这些资产可用虚拟世界和体验。还用来创建互动体验,如虚拟代理,用来与用户进行互动。在这个环境中,自动驾驶技术可以模拟真实世界的环境,从而更好地测试和开发自动驾驶技术。虚拟世界中可以模拟真实世界的道路、交通标志、交通流量等,从而为自动驾驶技术提供一个安全、可靠的测试环境。


在现实世界中的自动驾驶汽车上,激光雷达、毫米波雷达、车载摄像头等硬件设备的设计、测试是一个复杂的过程,且硬件设备制造出来后,想进行升级及更新,需要消耗大量的人力、物力,硬件设备更新很慢。在虚拟世界中,所有的硬件的设计都将是一行行代码,不需要用实体化的测试车去进行路测。


自动驾驶需要大量的道路数据进行喂养,为了确保自动驾驶出行的安全性,一套自动驾驶系统至少需要有180亿公里的道路测试,只有获得足够多的道路数据的学习和测试,自动驾驶软件系统的安全性才可以得到足够的保障。由于现实生活中,人们生活需要,且出于保障道路行人的安全,自动驾驶道路测试并不能达到需求,虽然很多城市已经开设了自动驾驶测试区,但场景单一、道路环境无法全覆盖等现实情况依然存在,这就使得在现实生活中进行自动驾驶道路测试是无法获取各种道路状况的测试数据。在虚拟世界中,各种场景均可实现,大量的道路数据就可以很快地获取到,可以快速获得可商用化的自动驾驶系统。另外,只要能够确保测试效果精确,RoboTaxi公司可以给虚拟测试车无限“加速”,在不影响测试结果的情况下让测试变得更加高效。

人工智能生成内容(AIGC)在自动驾驶领域的应用-汽车开发者社区

自动驾驶汽车除了要能在道路上安全行驶外,还需要能够应对各种突发状况,如鬼探头等现象,在现实的道路环境中经常存在,自动驾驶汽车在没有人类驾驶员的控制下,在遇到这类情况时,会出现什么情况?现实中的碰撞测试,使用与人类相似的假人,来进行自动驾驶汽车的相关测试,如果假人行为动作与真人有很大的差别,会对自动驾驶汽车碰撞测试造成很大的误差。在虚拟世界中,就可以很好的进行相关的测试,如使用真人模拟形象来直接作为测试目标,这样可以更好地捕捉和反馈出自动驾驶汽车在进行碰撞测试时的实际效果,如是否能及时反应,如果出现碰撞后,行人的受伤害程度及车辆损坏程度等信息都可以获得反馈。如果自动驾驶测试不会威胁到人们的生命安全,那么它的研发门槛也将被大幅降低。

人工智能生成内容(AIGC)在自动驾驶领域的应用-汽车开发者社区

总之,自动驾驶汽车相关的设计和测试都可以在虚拟世界实现,有效节约了现实生活中的资源,并且相关的设计测试数据也可以在现实生活中进行实际的生产,促进自动驾驶技术的快速提升。 


文章转载自公众号:智车Robot

分类
收藏
回复
举报
回复
相关推荐