文本挖掘公众对自动驾驶的认知

发布于 2023-3-6 16:51
浏览
0收藏

自动驾驶取得突破的关键因素是大众的接受程度。社会媒体平台可以提供一个机会来评估公众对自动驾驶汽车技术的接受程度和意见。方法: 使用 Twitter Archiving Google Sheet,收集带有特定主题标签的推文。Tableau 和 Gephi 用于可视化和汇总社交媒体网络。通过使用R Studio,进行了词频、联想和情感分析。结果: 社交媒体网络和情绪分析为公众对自动驾驶的认知提供了许多新发现。总结: 来自社交媒体的信息可以补充数据来源,并提供对公众意图的直接洞察力。此外,需要更复杂的机器学习技术,以准确衡量公众对自动驾驶的意见变化。

1 引言

车辆自动化技术的最新发展使我们越来越接近自主和自动驾驶车辆(Panagiotopoulos & Dimitrakopoulos, 2018)。每年的全球道路交通事故统计显示,每年有近125万人死于道路交通事故,平均每天有3287人死亡,还有2000-5000万人受伤或致残(ASIRT,2019)。自动驾驶汽车技术可以减少这些碰撞,但它们也带来了新的挑战。一些人对它持乐观态度,因为它可以帮助大幅减少道路死亡事故,因为超过90%的道路事故来自人为错误, 然而,另外一些人对它本身的故障和错误有重大的安全顾虑 (Hulse等人,2018)。因此,信任自动驾驶汽车被视为对其传播至关重要(Strauch 等人,2019 年)。


与调查相比,Twitter等社交媒体平台与普查相比不太受控,但代表了更广泛的样本,并提供了几乎实时的感知指数(Jefferson & McDonald,2019)。社交媒体,尤其是Twitter的独特之处在于,它通过可以实时发生的对话将撰稿者和受众联系起来(Segerberg & Bennett, 2011)。社交媒体应用程序编程接口 (API) 可以围绕特定主题标签和关键字收集数据,并揭示围绕当前问题或事件形成的主题标签公众。所有上述特点使推特成为收集实时和最新数据的最佳场所,以分析和做任何针对现实生活情况的研究。


情感分析或意见挖掘,一直是自然语言处理(NLP)中最活跃的研究领域之一。自成立以来,它已经大大扩展了NLP的研究,引入了许多以前没有研究过的挑战性的研究问题(刘,2015)。由于篇幅限制,Twitter用户通常都是直奔主题。


因此,对推文的情感分析往往更容易达到较高的准确度。在这种情况下,从文本分析的角度进行情感分析,我们主要是想了解公众对自动驾驶的态度及其极限性或情感。


尽管推特作为一个数据源很有潜力,但很少有交通研究人员调研其用于分析关于自动驾驶的公众意见。迄今为止,对自动驾驶的研究仅限于使用封闭的培训课程或模拟器,以及比较自己驾驶时与乘坐时的行为和评估(Strauch等人,2019)。事实上,来自 Twitter 的数据可以补充和扩展公众认知的情况。本研究的目的是通过社交媒体网络和情感分析进一步探讨自主驾驶的推文挖掘,了解现实世界中的真实对话。

2 文献综述

在大数据背景下,社交网络代表了一个新兴的具有挑战性的领域:人们的自然语言表达可以很容易地通过短文本消息进行报告,迅速创造出巨大维度的独特内容,必须对这些内容进行高效和有效的分析,为决策过程提供可执行的信息(Pozzi,2016)。在这种情况下,数据科学已经变得很流行,因为它能够在一瞬间或只是一个查询中揭示大型数据集的大量信息。


文本挖掘考虑到了信息检索,分析和研究词频以及模式识别,以帮助可视化和预测分析。它被应用于分析各种领域的决策者的文本信息,如医疗保健(Dreisbach等,2019)、招聘广告(Pejic-Bach等,2020)、客户服务(Mahr等,2019)、在线评论(Guerreiro & Rita,2019)和交通事故(Krause & Busch,2019)。情感分析是对提取信息的研究,以识别反应、态度、背景和情绪,指的是应用NLP和文本分析技术来识别和提取推文中的主观信息的做法。它已被用于分析非正式的短文和跟踪情绪,但Twitter平台的数据没有被考虑在内(Kiritchenko等人,2014;Mohammad等人,2015)。


近年来,针对汽车自动驾驶系统的感知和采用的公众舆论和用户接受度进行了各种调查。除此以外,Panagiotopoulos & Dimitrakopoulos(2018)将技术接受度模型扩展到调查消费者对自动驾驶的意向。Strauch等人(2019年)利用现场和模拟器中的凝视行为和信任评级进行了两项实验调查,以扩展真实的自主驾驶。然而,从互联网上,尤其是社交媒体博客中表达的观点中获得重要见解对于自动驾驶研究也至关重要。


Jefferson & McDonald(2019)研究了自动驾驶汽车社交网络推文分析,但他们只是专注于特斯拉自动驾驶汽车的碰撞,未能进行情绪分析。其他一些初步工作正在进行中,分析有关自动驾驶的推文(Kohl等人,2017;Li等人,2018),然而更全面的分析应通过文本挖掘进一步进行。


统计表示法可以有效地捕获与各种特定参数有关的社交媒体信息,而文本挖掘的目的是捕获与各种主题内容有关的信息,并呈现一个连贯的概述(Cambria等人,2017)。权威部门的数据库往往忽视了对公众态度的记录,这可能会导致估计的不准确。问卷和在线调查可以收集主观的结果,但不能及时反映公众对技术的看法。驾驶模拟器实验作为虚拟场景并不适合用来评估公众对自动驾驶的心理因素。在这种情况下,使用社交媒体数据来调查公众对自动驾驶的看法应是一种探索性的设想。

3 方法

数据收集和预处理

选择了Twitter归档谷歌表(TAGS 6.1版)来收集感兴趣的推文。从2020年1月21日到2020年2月14日,对7761条推文进行了抽样调查,重点是自动驾驶,使用的标签是#自动驾驶、#自动驾驶汽车、#交通事故和#交通肇事。以下信息被储存在谷歌电子表格中:推特用户名、推文内容、推文生成时间、用户关注者数量和用户好友数量。


进行预处理是为了将非结构化的原始文本转化为更适合识别模式的格式(Feldman & Sanger, 2007)。使用'tm'包来创建语料库(Feinerer & Hornik, 2019)。通过去除后缀和将单词还原为基本形式,进行词根处理以提高挖掘出的文本的准确性。并采取了锻压的方式来清理数据,去除冗余,并以一种使分析更容易的方式组织数据。使用了'tidyr'和'dplyr'包作为大型的数据处理工具。文档术语矩阵有助于描述术语在文档集合中出现的频率。词频显示了数据集中最常用的词到最不常用的词,使用了出现次数的汇编。

社交媒体和情绪分析

Tableau Desktop专业版(Tableau Software Inc, Seattle, WA)被用作数据分析工具,以便从推文中获得有意义的结果。


在本研究中,Tableau对推文的基本统计数据进行了检查制表,包括推文内容、时间趋势、转发、推文覆盖率、用户活跃度、用户可见度。开源网络可视化软件(Gephi 0.9.1版)被用来绘制虚拟集群。在 Forceatlas2 算法的操作下,Twitter 用户之间的联系由网络软件生成为空间图(Jacomy 等,2014)。


syuzhet "软件包被加载到R Studio(R studio软件公司,波士顿,马萨诸塞州)来分析极性,它可以被转换成分类变量 "积极"、"中性"、"消极"。使用 "syuzhet "库中的 "get_nrc_sentiment "函数来获得情绪分析,并将情绪分为8个类别。该函数计算了情绪的出现:"愤怒"、"期待"、"厌恶"、"恐惧"、"喜悦"、"悲伤"、"惊讶"、"信任 "的情绪得分。被称为图形语法的 "ggplot2 "包被用来进一步可视化我们的情感分析结果(Wickham & Chang, 2019)。“词云 ”软件包被用来找出最常与每种情绪以及每种极性相关的词。用'findassocs'功能对独立的单词关联进行分析,提供了超越典型实验结果的自主驾驶信息。

4 结果

社交媒体可视化分析

在研究期间,图 1 显示了三种类型的推文(@提及、原始推文和转推推文)。这三者的波动总体上基本是同步的。峰值表示该主题感兴趣的具体事件。在研究期间,转发的几乎是最多的。被转发最多的推文发布了一项新兴技术,它可以帮助司机 "看到看不见的东西"。而最受欢迎的原创推文涉及中国自动驾驶技术的预期发展。图1中插入了上述的推文文本。

文本挖掘公众对自动驾驶的认知-汽车开发者社区

图1:每小时推文的时间变化趋势


图2显示了Twitter用户认为最值得分享的前5条信息,传播范围和最受关注的用户。转推表示在推文上转推活动的频率。推文覆盖率代表每条推文可能达到的关注者数量。


关注最多的用户可能不是最活跃或最引人注目的,但他们的大量关注者可能会使他们具有影响力。

文本挖掘公众对自动驾驶的认知-汽车开发者社区

图2:转发、推特覆盖率和推特粉丝数

绘制社区网络图

如图3和图4所示,可见用户和活跃用户显示了推文数量的静态统计,而用户可见度和每天的活跃度则描述了用户行为的动态变化。在研究期间,最活跃的用户是 "Robotconsumer",它是一个传播机器人相关新闻和产品评论的媒体账户。"mikequindazzi "是可见度最高的一个,它的主人是数字联盟的销售主管。用户可见度和活动天数的分布表明用户在时间上的不同偏好和习惯。

文本挖掘公众对自动驾驶的认知-汽车开发者社区

图3:最活跃的用户和每天的用户活动情况

文本挖掘公众对自动驾驶的认知-汽车开发者社区

图4:每天可见度最高的用户和用户的可见度


在自动驾驶社区可视化的基础上,一些主要的网络趋势出如图5所示。圆点代表用户账户,边缘代表连接。可以看到六个主要的、不同的集群,分别以 "thomas_harrer"、"mikequindazzi"、"selfdriving360"、"spirosmargaris"、"pawlowskimario "和 "haroldsinnott "作为核心。他们要么是发布有关人工智能新闻的媒体帐户,要么是对新兴技术特别是自动驾驶汽车感兴趣的个人用户。这些账户也显示在图4中,代表了传播自动驾驶汽车技术的不同角色。

文本挖掘公众对自动驾驶的认知-汽车开发者社区

图5:Twitter自动驾驶汽车网络社区地图

词频和联想

词频是指该词在数据集中的使用次数。图6显示了代表推文文本中出现频率最高的100个词的词云。“自动 "一词出现了4494次,是与该标签直接相关的最高次数。其他如 "物联网"、"驾驶"、"司机"、"安全 "和 "车辆 "等词也很关注自动驾驶汽车的研究主题。

文本挖掘公众对自动驾驶的认知-汽车开发者社区

图6:推文中词干的频率


关联分析基于“安全”、“事故”和“物联网”与其他术语。相关系数排名前5位的情况见图7。与“安全”、“事故”和“物联网”相关的一组词分别描述了与自动驾驶相关的三种不同场景。与 "安全 "相关的场景质疑无人驾驶的安全性。在与 "事故 "相关的场景中,自动驾驶汽车可能导致交通事故,这一点令人非常担忧。中国的目标是在2020年完成第一条智能高速公路,以支持 "自动驾驶",这产生了与 "物联网 "相关的场景。

文本挖掘公众对自动驾驶的认知-汽车开发者社区

图7:特定术语的关联分析

极性与情感分析

情感分析中的极性是指识别推文文本中的情感取向(正面、中性和负面)。中立极性的情绪得分(3749分)略高于正面极性(3491分),负面极性的情绪得分(521分)最低。我们可以得出结论,如图8所示,对自动驾驶汽车技术的主要情感取向是积极的。毫无疑问,自动驾驶的安全问题,例如事故或碰撞,会导致负面影响。然而,关键术语“中性情绪”的含义仍然存在分歧,仍然需要探索适当的解释。

文本挖掘公众对自动驾驶的认知-汽车开发者社区

图8:三种不同极性的情绪分数


使用“nrc”词典进行情绪分析如图 9 所示。在挖掘出的推文数据集中,"信任 "情绪占主导地位,得分达到2,053分。紧随其后的是 "期待"、"喜悦 "和 "恐惧 "情绪,得分分别为1,472、749和733。

文本挖掘公众对自动驾驶的认知-汽车开发者社区

图9:八种不同情绪的情绪分数

5 探讨

本研究的目的是通过社会媒体网络和情感分析,进一步探索关于自动驾驶汽车技术的推文的文本挖掘。转发占据了所有数据集的大部分,这确保了有价值的信息得到更多曝光。图1显示,许多人工智能和新兴技术被转发。图2解释了值得转发的信息已经被许多拥有大量粉丝的网络用户转发。组织或机构的推文主导了无数信息的传播。如图3和图4所示,前10个活跃账户中的大多数是商业或营利性机构。排名前十的可见账户大多来自组织或机构,而不是个人用户。如图5所示,Twitter自动驾驶汽车网络社区地图生动地呈现了Twitter对话网络。


词频和关联呈现了自动驾驶汽车技术的关键词分析(见图6和7)。图8和图9中描述了全面的情感分析,这是本研究的一个亮点。中立和积极两极的情绪得分几乎相等,而 "信任 "和 "期待 "占据了公众情绪的大部分。这可能表明,新兴技术尤其是自动驾驶技术吸引了公众的目光。此外,"中性情绪 "这一关键术语仍然存在差异,这将成为未来研究的一个方向。

6 未来的工作

这项探索性研究仍有一些局限性,可以在今后的工作中加以改进。增加更多的相关标签和延长研究时间来丰富推文数据集是必要的。接下来,进一步探索NLP,以了解不同和复杂语境下的文本语义。进行情感分析,包括对背景、主观性和语气、比较、讽刺。此外,时间序列方法也可以用来研究情绪随时间的变化,既可以了解情绪在事件中的作用,也可以了解流行度随时间的变化(Weller等人,2014)。最后,可以应用各种机器学习 (ML) 方法从一组输入特征中获得正确的情感值,例如一元词或二元词的词频、情绪或主题标签 (Hofmann & Chisholm, 2016)。结合机器学习来创建分类器和训练关于自动驾驶汽车技术的推文样本是一个新兴的研究方向。

7 总结

使用文本挖掘来分析推文是研究公众对自动驾驶的看法的一种新方法。它支持对围绕自动驾驶汽车的公众意见和想法进行实时评估,鉴于快速变化的技术,这些意见和想法可能会迅速改变(Roberts & Lee,2014)。推特文本分析在实际数据和从原始推文中获得的正确结论之间留下了很大的想象空间。Twitter 数据可以在及时性、成本以及感知影响自动驾驶的因素的社会性质的能力方面补充其他数据源。它作为一个支持性工具,将技术发展和公众对自动驾驶汽车的看法可视化,并使未来的研究更加合理。


文章转载自公众号:智能汽车开发者平台

分类
收藏
回复
举报
回复
相关推荐