摘要
通过分析自动驾驶技术领域专利的引用信息和文本信息,结合社区发现、LDA(latent Dirichlet allocation)主题建模、主路径分析方法,针对自动驾驶专利数据集的特点建立分析框架进行自动驾驶技术演化分析。应用上述方法可以有效识别自动驾驶技术领域的主题分布,弥补传统单一方法不能反映技术全貌的缺陷。我国需重点突破多源传感器融合感知、复杂环境智能决策控制、车路协同、人机交互等关键技术;在测试和自动泊车技术上处于技术领先;在定位、高精度地图、执行机构、运动控制、硬件计算平台技术上处于技术跟随。
关键词
自动驾驶与汽车电动化、共享化的趋势相结合,将有效预防交通事故,提高出行效率。目前自动驾驶技术在传感器、通信标准等方面出现了一些技术路径的差异,明确自动驾驶技术的发展路径与趋势有助于相关标准和法律法规的制定。研究自动驾驶的发展路径、趋势和中外技术差距从微观上可以帮助企业制定技术研发目标,从宏观上有助于进行自动驾驶技术的专利布局,以突破技术领先国家的技术壁垒。
专利文献是记录技术发展的载体,利用专利文献进行技术演化分析是一种高效、有力的途径。本研究通过对专利文献非结构化文本的深度挖掘,通过社区发现、LDA(latent Dirichlet allocation)主题模型、主路径分析方法,能更细致地展现自动驾驶的研究现状和未来研究热点,为技术研发的正确决策提供参考。
对自动驾驶技术的研究分为基于科学文献的综述和基于专利文献的计量分析两类。基于科学文献的研究是对自动驾驶技术的发展历程进行梳理,对自动驾驶的研究现状和关键技术进行分
利用专利中的信息进行方法分类,可以将专利技术演化分析分为基于专利分类号、基于专利引用和基于专利文本的技术演化分析方法。基于分类号的专利分析显示较为宏
目前自动驾驶技术演化研究主要集中于基于科学文献的研究。科学文献反映技术在萌芽期的发展情况,基于科学文献的技术演化研究具有较强主观性,且样本量小,研究视角受限,缺乏全局视角。虽已有少量研究利用专利地图和文本挖掘进行,但前者存在不能有效利用专利非结构化信息的不足,后者存在发展路径和未来趋势展示模糊的缺点。针对自动驾驶专利数据集的特点,需要考虑构建一种适用的技术演化分析框架。本研究通过确定自动驾驶技术体系,结合直接检索和间接检索搜集自动驾驶技术领域的专利,以Derwent Innovation专利数据库里73 421条专利数据作为分析基础,对专利文本和引用信息进行深度挖掘,可以客观地展现技术演化过程。在技术演化方法上针对自动驾驶专利数据集的特点,结合社区发现、LDA主题模型和主路径分析方法,可以获得较为准确的技术路径信息,最后通过技术强度分析确定我国的领先和跟随技术。
自动驾驶技术是一个近年来发展迅速的交叉学科,技术体系包括车辆关键技术、信息交互技术和基础支撑技
检索式制订分为直接检索和根据技术体系的间接检索,直接检索对自动驾驶、辅助驾驶、无人驾驶进行检索,检索式为:
TAB=(("self-driving" OR "automatic driving" OR "automated driving" OR "autonomous") AND (car OR cars OR vehicle* OR automobile*)) NOT TAB=(aerial ADJ vehicle* OR underwater ADJ vehicle* OR air ADJ vehicle* OR flight ADJ vehicle* OR airplane* OR "electric" OR "space" OR aircraft* OR "air" OR "aviation" OR aeronautical OR aerobat* OR aerocraft* OR flying ADJ machine*)
TAB=(DRIV* ADJ ASSIST* OR ADAS)
TAB=(("driverless" OR "unmanned" OR "pilotless" OR "unpiloted") AND (car OR cars OR vehicle* OR automobile*)) NOT TAB=(aerial ADJ vehicle* OR underwater ADJ vehicle* OR air ADJ vehicle* OR flight ADJ vehicle* OR airplane* OR "electric" OR "space" OR aircraft* OR "air" OR "aviation" OR aeronautical OR aerobat* OR aerocraft* OR flying ADJ machine*)
然后根据技术分支分别制定检索式进行间接检索。通过对专利分类号和申请人进行验证,经过多次优化确定检索式。
专利检索数据库选择Derwent Innovation,检索时间为2019年11月30日,共检索到73 421项专利。
自动驾驶技术专利数据集存在以下特点:①节点数量大,引用关系多,直接应用主路径分析生成的技术路径不能反映技术全貌,需要对引用网络分层次进行分析。由于网络中节点数量多,需要更高计算效率的社区发现算法。②技术领域交叉,社区发现后的社区覆盖多个研究主题,用一个主题描述社区的研究内容与实际情况不符,需要对社区的多个研究主题概率分布进行研究。
为了解决主路径方法不适用于直接分析大型引用网络的问题,对引用网络首先进行社区发现,将大型引用网络划分为小型的社区,使主路径分析适用。一个社区包含大量专利节点,为了定量描述社区的研究主题分布,在模型中根据专利文本信息建立LDA主题模型。采用结合社区发现、LDA主题模型、主路径分析方法的技术演化分析方法,制定适用于自动驾驶专利数据集的分析框架。根据自动驾驶技术专利数据集的引用关系构建专利引用网络,选择BGLL(Blondel VD, Guillaume JL, Lambiotte R, Lefebvre E (2008) fast unfolding of communities in large networks)算法替代传统算法进行社区发现,将大型引用网络分为小型的社区。通过专利文献训练建立LDA主题模型。计算不同社区的主题概率分布,然后计算社区间的语义相似度。将语义相似度作为边权重将社区聚类,同类社区的研究主题近似,对比分析主题近似的社区的主路径,通过主路径专利主题概率分布计算技术强度。综上所述,研究方法如

图1 研究方法
Fig.1 Research methods
根据检索到的专利数据集构建专利引用网络。引用网络使用网络可视化处理软件Gephi进行构建,在剔除了原数据集中没有发生引用关系的孤立专利节点后,引用网络共有26 113个专利节点。
社区结构是大规模网络中存在的基本结构,是节点子团的组合。子团内部节点连接紧密,子团外部连接稀疏。把同一类型的节点和这些节点之间的边所构成的子团称为社
社区发现通过Python工具包CDlib进行实现,CDlib用于从复杂网络中提取、比较和评估社区。根据引用关系共发现了2 395个社区,其中包含大量节点数量小于10的小型社区。按照节点数对社区划分结果进行统计分析,当网络研究社区节点数量较少时,研究社区的影响力较小,同时主路径分析将不能发现具有分析价值的技术发展路径,因此对节点数量大于200的29个社区进行主路径分析。按节点数量大小,前29个社区包含节点共16 477个,占网络总节点数的63%,如
LDA主题模型是由Blei
LDA模型建模首先确定主题数k,本研究中确定最佳主题数的方法为:先通过LDA可视化工具PyLDAvis观察不同主题数下主题建模后的主题分布情况,确定主题数的范围。在可视化图中,主题圆圈的大小表示主题流行度,圆圈之间的距离表示主题距离,通过多维缩放呈现在图中。当主题数过小时,一个主题中可能包括多个语义不同的主题;当主题数过大时,不同的主题产生语义近似的现象,反映在可视化图中即主题距离过小;然后在确定的主题数范围中计算主题连贯性。本研究通过计算CUMass值(评价最佳主题的指标)确定最佳主题
主题建模通过Python的Gensim包实现,参数设置为:α= ‘asymmetric’(50/k),eta=’auto’,迭代次数为500次。
不同主题数k值下的可视化图如

图2 不同主题数k取值的主题可视化图
Fig.2 Topic visualization graph with different topic number k values

图3 不同主题数k对应的CUMass值
Fig.3 CUMass value for different topic number k values
语义相似度的常用计算方法为计算余弦相似
(1) |
式中:Pi,a为a社区第i个主题的概率值;Pi,b为b社区第i个主题的概率值;K为研究主题集合。
由于主题分布是一个各元素和为1的向量,而余弦相似度只考虑向量方向上的相似性,所以将余弦相似度用于语义相似度计算会出现计算结果偏大的现象,因此考虑选择调整后的余弦相似度作为语义相似度的度量,同时考虑向量方向和量纲上的相似性,调整方式为将原公式中的主题概率值分别减去专利训练集中的主题概率值,计算公式为
(2) |
式中:为训练集中第i个主题的概率值。
首先通过LDA主题模型计算社区的主题分布,一个社区包含多个研究主题。社区的主题概率分布如
按照统计的节点数排序,对前29个社区进行语义相似度计算。将社区间的语义相似度作为边权重,建立社区语义关系网络,通过Gephi的模块化功能,将29个社区聚类,聚类结果见
生成主路径的方法有搜索路径链接数方法(search path link count,SPLC)、搜索路径节点对(search path node pair,SPNP)方法和搜索路径数(search path count,SPC)方
通过SPC方法对上述29个社区进行主路径分析。主路径分析通过社会网络分析软件Pajek实现。路径编号与社区编号一致。主路径专利共260件,其中感知领域主路径节点共66个,规划与决策领域主路径节点共58个,控制与执行领域主路径节点共107个,通信领域主路径节点共29个。根据路径下节点的研究内容归纳该路径的技术主题。
路径1、7、9、11、13、18、23是关于感知的路径。具体见
传感器使用方案实现从单目相机到广角相机到摄像头到测速测距雷达和相机混合的转变。由于单一种类的视觉传感器具有局限性,多源传感器融合成为传感器使用的趋势,此外也出现了一些利用地图的先验信息进行识别的方案,如根据地图中的物体尺寸识别物体并测距,组合电子地图信息识别交通信号与标志。
识别方法经历了根据颜色特征到根据颜色、形状、方向特征融合再到根据语义分割的转变。基于机器视觉的图像识别成为新的研究方向,如基于机器视觉的车载交通信号灯标志识别。随着深度学习的发展,将深度学习应用于图像感知能获得丰富的特征信息,应用深度学习的图像处理成为新的趋势,如基于深度学习的非标准车特征提取与处理。
路径2、3、5、8、22是关于规划与决策的路径。主要研究内容包括风险和不确定性评估、行为预测、驾驶风格识别、全局规划、局部规划、行为决策、任务决策和远程协助。具体见
其中研究集中的领域是风险和不确定性评估、路径规划和测试与仿真。风险和不确定性评估包括评估巡航的安全性、检测车辆是否卡死、轮胎状况检测等。路径规划算法的应用经历传统算法到智能算法再到启发式算法的转变。测试方法经历基于用例、基于场景和基于公共道路的转变。
远程协助提供了更强的计算能力和更快的计算速度,计算模块呈现从车载转移到云端的趋势。路径规划出现单纯依靠GPS信息到融合环境信息和地图信息的变化。从研究目标来看,决策规划目前需要克服复杂极端场景带来的挑战,例如可见度低、环境拥挤等场景。
路径6、14、15、16、17、19、20、24、25、26、27、28、29是关于控制与执行的路径。具体见
其中自适应巡航控制经过定速巡航、普通自适应巡航、带跟停功能自适应巡航、带排队功能自适应巡航的发展,自适应巡航控制的一个发展趋势是协同式自适应巡航,出现与车对车通信、车路协同技术融合的趋势;从演化目标来看,自适应巡航技术的研究热点目前集中在如何综合考虑安全性和燃油经济性。
纵向控制由防抱死制动系统发展到牵引力控制系统,可以减轻打滑,保证行驶安全性,改善汽车在光滑路面行驶。
自动驾驶的人机交互技术方面关注车与车内用户、行人、周围车辆内的用户进行交互沟通,提供自动驾驶车辆的操作指示以帮助其他驾驶员和行人预测自动驾驶车辆的移动,使观察者对自动驾驶车辆运动更为舒适,使车内驾驶员适应辅助驾驶系统的干涉。人机交互目前主要依靠图形界面与用户沟通。主动检测乘员状态、感知用户情境以适应用户需求;通过照明系统为行人、前方车辆提供视觉信息成为人机交互技术的发展趋势。
路径4、10、21是关于通信的路径。具体见
通信领域研究内容经历从车对车(V2V)通信、车对一切(V2X)通信的转变,主要研究内容包括证书吊销列表的接收和发送、安全消息如车辆位置、移动方向、速度的广播、基站和用户设备配置。通信方式经历了可读存储设备、车辆自组织网络VANET、4G、5G、LTE蜂窝网络通信的转变。
通信领域发现的主路径可以总结为C‒V2X和DSRC两种路径。DSRC由于标准建立早且标准健全,已经在电子收费、防撞预警等领域得到应用。 C‒V2X是基于蜂窝通信的V2X技术,伴随着5G和LTE通信的发展成为DSRC的有力补充。
技术强度用于衡量在关键专利布局的数量占比和主题强度。对主路径分析中的260件专利按照申请国家进行统计,其中在中国申请的专利数量为66件,在美国申请的专利数量为107件,在日本申请的专利数量为47件,共占主路径专利数量的84.6%,由于中国、美国、日本申请的主路径专利数量较多,因此对比中美日三国的自动驾驶技术强度。根据建立的LDA主题模型,分别计算中国、美国、日本主路径专利的主题强度。主题强度分布即为LDA主题计算下的主题概率分布θd。技术强度Ti的计算公式为
式中:i=1,2,3分为表示中国、美国、日本; θdi表示i国主路径专利的主题概率分布;Ni/N为影响力系数,Ni为i国主路径专利数量,N为主路径专利总量。
中国、美国、日本技术强度对比如

图4 中国、美国、日本自动驾驶技术强度对比
Fig.4 Comparison of the technical strength of automatic driving technology between China, the United States, and Japan
以高精度地图技术为例,对国内外关键专利申请人的重点专利进行实例研究,以同族专利数量衡量专利重要程度。我国百度公司的专利“一种车道线数据的处理方法及装置”(专利号:CN105260699A)和“一种高精度地图数据的处理方法和装置”(专利号:CN105260988A)侧重于高精度地图数据的处理和采集,属于高精度地图的生成技术。谷歌(专利号:CN111295629A、CN105210128A)、福特(专利号:CN106546977A、CN106546977A)、丰田(专利号:CN108241371A、CN107784826A)这些国外公司的重点技术侧重于高精度地图在实际驾驶场景下的应用。因此,我国专利申请人需要加快在高精度地图应用领域的专利技术布局。
为了获得更加丰富的自动驾驶技术演化路径和技术信息,通过利用结合专利引用和文本信息的方法,构建专利引用网络,通过BGLL社区发现算法对引用网络进行社区发现,通过SPC方法对社区中的主路径进行分析。借助LDA主题模型对专利的文本信息进行挖掘分析,计算社区的主题分布,对语义相似的社区的主路径进行对比分析,最后计算主路径专利的主题概率分布以对比技术强度。
研究将自动驾驶领域划分为21个研究主题,其中运动控制、通信与网路、自动泊车、车路协同、执行机构是热点研究主题。对29个社区进行语义相似度计算和主路径分析,感知领域呈现多源传感器融合、应用深度学习的趋势;规划与决策呈现计算模块从车载端转移到云端,需要应对复杂极端环境趋势;控制与执行领域呈现与车对车、车路协同技术融合的趋势;通信领域识别出C‒V2X和DSRC两种路径,C‒V2X成为DSRC的有力补充。通过技术强度分析,我国在自动泊车技术和测试技术上处于技术领先,在高精度地图、定位、执行机构、运动控制、硬件计算平台与国际先进水平相比存在差距。
针对以上技术演化分析结论,目前我国自动驾驶领域应当顺应技术趋势,重点突破多源传感器融合感知、复杂环境智能决策控制、车路协同、人机交互等关键技术,在人机交互技术方面需要考虑自动驾驶新场景下为行人、司机、道路带来的新的问题,如自动驾驶场景下行人如何辨别自动驾驶车辆的技术,通过车灯传递车辆自动驾驶状态信息等;着力提升在国际竞争中位于落后的技术,补足高精度地图与定位、控制算法和硬件、车载芯片及操作系统等细分技术;完善在国际竞争中处于技术领先的细分技术,如自动泊车和测试技术,提升国际视野,抢占市场先机,推动C‒V2X相关标准的实施以促进 C‒V2X技术路径的发展。
作者贡献声明
陈 力:提出论文框架,指导数据分析,论文修改。 肖晨剑:论文撰写。 常旭华:论文修改。
参考文献
ZHANG X, GAO H, GUO M, et al. A study on key technologies of unmanned driving[J]. CAAI Transactions on Intelligence Technology,2016, 1(1): 4. [百度学术]
李克强,戴一凡,李升波,等. 智能网联汽车(ICV)技术的发展现状及趋势[J]. 汽车安全与节能学报,2017, 8(1): 1. [百度学术]
LI Keqiang, DAI Yifan, LI Shengbo, et al. Development status and trend of intelligent connected vehicle (ICV) technology[J]. Journal of Automobile Safety and Energy Saving, 2017, 8(1): 1. [百度学术]
章帆,王雪娇. 基于专利的无人驾驶汽车技术景观分析[J]. 科技管理研究, 2017, 37(5): 33. [百度学术]
ZHANG Fan, WANG Xuejiao. Landscape analysis of driverless vehicle technology based on patent[J]. Research on Science and Technology Management, 2017, 37(5): 33. [百度学术]
李昌,伊惠芳,吴红,等. 无人驾驶汽车专利技术主题分析——基于WI-LDA主题模型[J]. 情报杂志, 2018, 37(12): 50. [百度学术]
LI Chang, YI Huifang, WU Hong, et al. Subject analysis of driverless vehicle patent technology — based on wi-lda subject model [J]. Intelligence Magazine, 2018, 37(12): 50. [百度学术]
JUN S. IPC code analysis of patent documents using association rules and maps — patent analysis of database technology[M]. Berlin, Heidelberg:Springer , 2011. [百度学术]
LEE W S, HAN E J, SOHN S Y. Predicting the pattern of technology convergence using big-data technology on large-scale triadic patents[J]. Technological Forecasting & Social Change, 2015, 100(7):317. [百度学术]
ChO T S. Patent citation network analysis of core and emerging technologies in Taiwan: 1997—2008[J]. Scientometrics,2011, 89(3): 795. [百度学术]
JI J, BARNETT G A, CHU J. Global networks of genetically modified crops technology: a patent citation network analysis[J]. Scientometrics, 2019, 118(2): 737. [百度学术]
王亮,张绍武,丁堃,等. 基于HDP的汽车专利主题演化研究[J]. 情报学报, 2014, 33(9): 944. [百度学术]
WANG Liang, ZHANG Shaowu, DING Kun, et al. Research on the evolution of automobile patent theme based on HDP[J]. Journal of Information Technology, 2014, 33(9): 944. [百度学术]
CHEN H, ZHANG G, ZHU D, et al. Topic-based technological forecasting based on patent data: a case study of Australian patents from 2000 to 2014[J]. Technological Forecasting & Social Change, 2017, 119: S278118348. [百度学术]
陈亮,张志强. 技术演化研究方法进展分析[J]. 图书情报工作, 2012, 56(17): 59. [百度学术]
CHEN Liang, ZHANG Zhiqiang. Analysis on the progress of research methods of technology evolution[J]. Library and Information Work ,2012, 56(17): 59. [百度学术]
胡阿沛,张静,张晓宇. 基于专利文献的技术演化分析方法评述[J]. 现代情报, 2013, 33(10): 172. [百度学术]
HU A’pei, ZHANG Jing, ZHANG Xiaoyu. Review on technology evolution analysis methods based on patent documents[J]. Modern Intelligence, 2013, 33(10): 172. [百度学术]
CHEN S, HUANG M, CHEN D. Identifying and visualizing technology evolution: a case study of smart grid technology[J]. Technological Forecasting and Social Change,2012, 79(6): 1099. [百度学术]
刘小玲,谭宗颖. 基于专利网络的技术演进研究方法探索[J]. 科学学研究, 2013, 31(5): 651. [百度学术]
LIU Xiaoling, TAN Zongying. Exploration on research methods of technology evolution based on patent network[J]. Scientific Research, 2013, 31(5): 651. [百度学术]
陈亮,杨冠灿,张静,等. 面向技术演化分析的多主路径方法研究[J]. 图书情报工作,2015, 59(10): 124. [百度学术]
CHEN Liang, YANG Guancan, ZHANG Jing, et al. Research on multi master path method for technology evolution analysis[J]. Library and Information Work, 2015, 59(10): 124. [百度学术]
GIRVAN M, NEWMAN M E. Community structure in social and biological networks[J]. Proceedings of the National Academy of Sciences, 2002, 99(12): 7821. [百度学术]
NEWMAN M E. Fast algorithm for detecting community structure in networks[J]. Physical review E,2004, 69(6): 66133. [百度学术]
BLONDEL V D, GUILLAUME J, LAMBIOTTE R, et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2008(10): P10008. [百度学术]
BLEI D M, NG A Y, JORDAN M I, et al. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2012, 3: 993. [百度学术]
MIMNO D M, WALLACH H M, TALLEY E M,et al. Optimizing semantic coherence in topic models[C]// Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh: Association for Computational Linguistics, 2011: 262-272. [百度学术]
颜端武,苏琼,张馨月. 基于时序主题关联演化的科学领域前沿探测研究[J]. 情报理论与实践, 2019, 42(7): 144. [百度学术]
YAN Duanwu, SU Qiong, ZHANG Xinyue. Research on frontier detection in scientific field based on temporal topic correlation evolution[J]. Information Theory and Practice, 2019, 42(7): 144. [百度学术]