摘要
针对自动驾驶测试数据兼具连续与离散变量,且包含时间戳和经纬度等间接信息特征的特点,利用特征挖掘过滤、连续变量离散化、驾驶模式加权等方法对传统信息熵方法进行适应性调整,提出基于特征工程的驾驶模式加权信息熵方法,确定自动驾驶测试数据信息量;引入信息量构建数据消费者效用方程,提出考虑信息量和平台利润率约束的改进型Stackelberg博弈数据定价模型。以上海市自动驾驶实际测试数据开展典型案例分析,结果表明,基于改进型Stackelberg博弈的数据定价模型可有效评估数据信息量,合理分配数据生产者、数据平台和数据消费者交易三方的利润率,并显著提升数据交易量和数据交易三方总效用,从而增强自动驾驶测试数据交易市场的活力。
我国“十四五”规划纲要指出,要加快数字化发展,促进数据交易流通,推动数字经济和实体经济深度融合,推进数字产业化。“数据二十条
数据是信息的载体,其使用过程带来的预期收益直接取决于数据中包含的信息量,因此数据信息量是数据价值评估的核心指
但现有数据定价模型尚存在不足之处。首先,基于信息熵的数据信息量评估多以机器学习离散数据集为主,且数据集中通常仅包含直接信息特
本文提出了考虑信息量和平台利润率约束的改进型Stackelberg博弈自动驾驶测试数据定价模型,包含数据信息量评估以及数据定价两部分。在数据信息量评估环节,提出了基于特征工程的驾驶模式加权信息熵方法,对传统信息熵方法进行了适应性调整,包括特征的挖掘和过滤、连续变量离散化、驾驶模式加权等步骤。然后将评估所得信息量作为数据交易量的度量单位和数据价值评估的重要指标,进行数据的交易定价。在数据定价环节,构建了考虑信息量和平台利润率约束的改进型Stackelberg博弈数据定价模型。最后,基于上海市自动驾驶实际测试数据开展典型案例分析和模型验证。

图 1 基于改进型Stackelberg博弈的自动驾驶测试数据定价模型框架
Fig. 1 Structure of autonomous vehicles testing data pricing model based on evolved Stackelberg game
传统信息熵主要分为离散数据集信息熵、连续变量信息熵两类。
(1)离散数据集信息熵:对于有条记录的离散数据集,将每行记录视为一个向量,这些向量共有个不同的取值,每个取值的概率为,则数据集的信息熵定义为
(1) |
式中: 为对数的基,当取值为2时,信息熵的度量单位为,后文默认取值为2。
(2)连续变量差分信息熵:对于有条记录的变量,共有个不同的取值,其概率密度函数为,则该变量的信息熵定义为
(2) |
自动驾驶测试数据集中的时间戳不会重复,因此在有条记录的自动驾驶测试数据集中,将每行记录视为一个向量,这些向量有个不同的取值,每个取值的概率为,代入
(3) |
从
直接信息特征:数据集中可被直接使用创造价值的特征,如自动驾驶测试数据集中速度、加速度、驾驶模式等。
间接信息特征:数据集中无法被直接使用,需要经过数据挖掘获取潜在的直接信息特征,才能被使用创造价值的特征,如自动驾驶测试数据集中的时间戳、经纬度等特征。
潜在直接信息特征:基于间接信息特性挖掘得到,可以直接被使用创造价值的特征,例如自动驾驶测试数据集中,基于时间戳挖掘得到的高峰/非高峰标签,以及基于经纬度挖掘得到的测试环境风险度等。
(1)特征工程:首先进行潜在直接信息特征挖掘,梳理自动驾驶测试数据集中时间戳、经纬度等非直接信息特征,并根据数据使用者的需求,挖掘补充潜在直接信息特征,如高峰/非高峰标签、测试环境风险度等;然后进行特征筛选,仅考虑直接信息特征、潜在直接信息特征进行后续的信息熵计算。
(2)连续变量离散化:对于每个连续变量,基于
(3)基于驾驶模式加权信息熵计算方法,对分箱后的离散数据集进行信息熵计算。
对于自动驾驶测试数据,其自动驾驶、人工驾驶模式下数据的价值有明显的差异,因此本文将驾驶模式权重引入到
对于有条记录的离散数据集,将每行记录视为一个向量,这些向量共有个不同的取值,每个取值的概率为,对应的驾驶模式为,则数据集的驾驶模式加权信息熵定义为
(4) |
式中:为驾驶模式权重,自动、人工驾驶模式下的权重根据数据消费者的需求确定。
(1)交易参与方:数据生产者、数据平台、数据消费者。其中数据生产者负责采集、存储测试数据,将原始数据出售给数据平台;数据平台根据数据消费者的需求进行数据加工,将加工后的数据出售给数据消费者;数据消费者从数据平台购买数据,并使用数据创造价值。考虑自动驾驶测试数据交易市场中仅存在一个垄断的数据交易平台的情
(2)交易流程:①数据生产者进行原始定价;②数据平台确定分销价格;③对于给定的分销价格,结合自身的数据需求量,数据消费者确定其数据购买量(即信息量大小);④数据平台从数据生产者购买相应信息量的数据,加工后出售给数据消费者。
(3)决策逻辑:数据所有者、数据平台、数据消费者均追求自身效用的最大化,其中数据平台受制于平台型经济的监管,其最大利润率会受到限制。
(4)数据量交易单位:数据信息量,使用基于特征工程的驾驶模式加权信息熵方法进行确定。
(5) |
(6) |
(7) |
式(
定义信息采集效率,可通过降低人工驾驶时长占比、丰富测试场景等方式提高信息采集效率,从而降低。数据生产者利润率为其利润除以数据的采集、存储、传输成本,计算方法如下:
(8) |
采用后向归纳法求解上述3层Stackelberg博弈模型的平衡
(17) |
令,可以得到令达到极大值的数据购买量为
(18) |
当的二阶导小于0时,是全局最优解,因此验证对于的二阶导的正负性,即
(19) |
可以看出显然小于0,因此可判断是使达到最大值的全局最优解。
将代入,可以得到
(20) |
限制数据平台的利润率为,则令,可以得到
(21) |
求解
(22) |
将、代入
(23) |
令,可以得到令达到极大值的原始定价为
(24) |
当的二阶导小于0时,是全局最优解,因此对二阶导的正负性进行验证,即
(25) |
可以看出显然小于0,因此可判断是使达到最大值的全局最优解。
因此可以得到上述Stackelberg博弈模型的平衡点如下:
(26) |
选取上海市2021年1―3月某自动驾驶车辆测试数据,数据量约5.1万条,其中自动驾驶模式数据约4.1万条,数据字段包括车辆编号、经纬度、时间戳、速度、加速度、驾驶模式(自动驾驶/人工驾驶)等,时间颗粒度为1 s。
为了在案例分析中验证数据信息量评估结果的有效性,对案例数据集进行了机器学习的训练。核心假设是根据大量机器学习经验,输入分类器的有效信息越多,分类器的分类准确率就越
分类器选取:选取机器学习中常用的决策树(DT)、Logistic回归(LR)、随机森林(RF)、支持向量机(SVM)在不同数据比例的子数据集进行有监督训练。
训练目标:自动驾驶测试数据的核心价值是体现自动驾驶的特征,在尽可能接近驾驶能力边界的条件下,暴露关键的测试问题,服务于风险的预测和管理,因此本文选取现阶段研究中最常见的脱离预
准确率验证方法:十折交叉验证法,即用10次结果准确率的平均值作为对算法准确率的估计。
潜在直接特征挖掘:基于时间戳补充高峰/非高峰特征,基于经纬度补充道路环境风险度特征。
驾驶模式权重:将自动驾驶模式权重设置为1,人工驾驶模式权重设置为0。
图

图 2 常用分类器准确率及对应信息熵
Fig. 2 Accuracy of commonly used classifiers and corresponding information entropy
基于合作车企的自动驾驶测试的实际测试情况估算,设置。在的基础上乘以折减系数估算,约为的1/10,。基于当前互联网平台型企业的利润率水平,设定。和是模型的拟合参数,需要基于自动驾驶测试数据的实际交易信息进行拟合确定。本文初步设置(假设数据消费者针对1 bit信息量的数据,可获取采集成本3倍的效用),(假设数据无额外价值系数)。本文通过分析参数变化对数据交易量、系统总效用、三方利润率的影响,展示改进型Stackelberg博弈数据定价模型的合理性。后续可随着自动驾驶测试数据实际信息的开展进一步校准。
数据消费者的信息需求量级为byte、KB、MB、GB、TB的情况,即。
从

图 3 数据消费者数据需求量级对数据交易量的影响
Fig. 3 Impact of data consumer demand on data transaction volume
后文的分析中包含了两个模型下数据交易量的对比,但基础Stackelberg模型的数据交易量没有明确物理单位,两个模型不具有直接可比性,因此为了使对比更加直观,后文将基础Stackelberg博弈数据定价模型中数据交易量的物理单位和基于改进型Stackelberg博弈的数据定价模型保持一致。
分析数据消费者数据价值挖掘能力提升的影响。设置425,450,475。将数据消费者的数据需求量级设置为1,其他参数保持不变。

图 4 数据价值挖掘能力对数据交易量、系统总效用的影响
Fig. 4 Impact of data value mining ability on data transaction volume and total system utility

图 5 数据价值挖掘能力对交易三方利润率的影响
Fig. 5 Impact of data value mining ability on data transaction volume and total system utility
分析数据生产者提升信息采集效率的影响,设置=[1/100,1/90,1/80,1/70,1/60,1/50,1/40,1/30,1/20,1/10] ,对应信息采集效率由低到高。将数据消费者的数据需求量级设置为1,其他参数保持不变。

图 6 信息采集效率对数据交易量、系统总效用的影响
Fig. 6 Impact of information collection efficiency on data transaction volume and total system utility

图 7 信息采集效率对交易三方利润率的影响
Fig. 7 Impact of information collection efficiency on profit rate of three parties in the transaction
(1)提出了考虑信息量和平台利润约束的改进型Stackelberg博弈自动驾驶测试数据定价模型,包含数据信息量评估和数据定价两部分。
(2)在数据信息量评估方面,针对自动驾驶测试数据兼具离散与连续变量,且包含时间戳和经纬度等间接信息特征的特点,在传统信息熵方法的基础上进行了特征挖掘筛选、连续变量离散化、驾驶模式加权等适应性调整,提出了基于特征工程的驾驶模式加权信息熵方法,用于评估自动驾驶测试数据的信息量,并在实际测试数据集上进行了验证。结果表明,相比传统信息熵方法,基于特征工程的驾驶模式加权信息熵方法评估结果和常用分类器准确率均值的变化趋势更为接近,可更有效地表征自动驾驶测试数据的信息量。
(3)在数据定价方面,将数据信息量作为数据交易量的度量单位,提出了考虑信息量和平台利润率约束的改进型Stackelberg博弈数据定价模型,并进行了实际数据驱动的验证分析。结果表明,该模型可以更合理分配3个参与方的利润率,并明显提升数据交易量以及系统的总效用,让数据生产者、数据平台分别在提升自身有效信息采集效率、数据价值挖掘能力的过程中获取更多的利益,从而增强自动驾驶测试数据数据交易市场的活力,鼓励数据的生产和消费。此外,数据平台的利润率约束可为相关平台治理型政策制定提供抓手。
作者贡献声明
涂辉招:研究框架,研究方法,论文撰写 。
刘建泉:定价模型构建。
遇泽洋:研究设计,研究方法,数据分析,论文撰写。
李 浩:定价模型构建,数据分析。
郭新宇:数据分析,论文撰写。
张韬略:研究框架。
孙立军:研究设计。
参考文献
中共中央国务院. 关于构建数据基础制度更好发挥数据要素作用的意见 [R]. 北京:中共中央国务院, 2022. [百度学术]
The Central Committee of the Communist Party of China and the State Council. Opinions on building a data infrastructure system to better play the role of data elements[R]. Beijing: The Central Committee of the Communist Party of China and the State Council, 2022. [百度学术]
BERTONCELLO M, MARTENS C, MÖLLER T, et al. Unleash the full life cycle value potential of intelligent networked vehicle data [R]. New York: Future Mobility Research Center of McKinsey 2021. [百度学术]
XU J, HONG N, XU Z, et al. Data-driven learning for data rights, data pricing, and privacy computing [J]. Engineering, 2023, 25(6):66. [百度学术]
蔡莉, 黄振弘, 梁宇, 等. 数据定价研究综述[J]. 计算机科学与探索, 2021, 15(9): 1595. [百度学术]
CAI Li, HUANG Zhenhong, LIANG Yu, et al. Survey of data pricing[J]. Journal of Frontiers of Computer Science and Technology,2021,15(9):1595. [百度学术]
熊巧琴, 汤珂. 数据要素的界权、交易和定价研究进展 [J]. 经济学动态, 2021(2): 143. [百度学术]
XIONG Qiaoqin, TANG Ke. Research progress on the right delimitation, exchange and pricing of data[J]. Economic Perspectives, 2021(2): 143. [百度学术]
韩海庭, 原琳琳, 李祥锐, 等. 数字经济中的数据资产化问题研究 [J]. 征信, 2019, 37(4): 72. [百度学术]
HAN Haiting, YUAN Linlin, LI Xiangrui, et al. Study on data capitalization in the digital economy[J]. Credit Reference, 2019, 37(4): 72. [百度学术]
LI X, YAO J, LIU X, et al. A first look at information entropy-based data pricing[C] //Proceedings of the 2017 IEEE 37th International Conference on Distributed Computing Systems (ICDCS). Atlanta:IEEE, 2017: 2053-2060. [百度学术]
SHEN Y, GUO B, SHEN Y, et al. Pricing personal data based on information entropy[C] //Proceedings of the Proceedings of the 2nd International Conference on Software Engineering and Information Management. New York:Association for Computing Machinery, 2019:143–146. [百度学术]
SARKAR P. Data as a service: a framework for providing reusable enterprise data services [M]. New York: Wiley-IEEE Computer Society, 2015. [百度学术]
ZHANG M, ARAFA A, HUANG J, et al. Pricing fresh data [J]. IEEE Journal on Selected Areas in Communications, 2021, 39(5): 1211. [百度学术]
刘枬, 郝雪镜, 陈俞宏. 大数据定价方法的国内外研究综述及对比分析 [J]. 大数据, 2021, 7(6): 89. [百度学术]
LIU Zhan, HAO Xuejing, CHEN Yuhong. A review and comparative analysis of domestic and foregin research on big data pricing methods[J]. Big Data Research, 2021, 7(6): 89. [百度学术]
KOUTRIS P, UPADHYAYA P, BALAZINSKA M, et al. Query-based data pricing [J]. Journal of the ACM (JACM), 2015, 62(5): 1. [百度学术]
LI C, MIKLAU G. Pricing aggregate queries in a data marketplace[C]//Proceedings of the WebDB. Scottsdale: [s.n.], 2012: 19-24. [百度学术]
LI C, LI D Y, MIKLAU G, et al. A theory of pricing private data [J]. ACM Transactions on Database Systems (TODS), 2014, 39(4): 1. [百度学术]
江东, 袁野, 张小伟, 等. 数据定价与交易研究综述 [J]. 软件学报, 2023, 34(3): 1396. [百度学术]
JIANG Dong, YUAN Ye, ZHANG Xiaowei, et al. Survey on data pricing and trading research[J]. Journal of Software, 2023, 34(3): 1396. [百度学术]
刘枬, 徐程程, 陈俞宏. 基于效用理论的数据定价方法研究 [J]. 价格理论与实践, 2022, 461(11): 164. [百度学术]
LIU Zhan, XU Chengcheng, CHEN Yuhong. A study on data pricing model using utility method[J]. Price:Theory & Practice, 2022, 461(11): 164. [百度学术]
尹传儒, 金涛, 张鹏,等. 数据资产价值评估与定价:研究综述和展望 [J]. 大数据, 2021, 7(4): 14. [百度学术]
YIN Chuanru, JIN Tao, ZHANG Peng, et al. Assessment and pricing of data assets:research review and prospect[J]. Big Data Research, 2021, 7(4): 14. [百度学术]
JIAO Y, WANG P, NIYATO D, et al. Profit maximization auction and data management in big data markets[C]// Proceedings of the 2017 IEEE Wireless Communications and Networking Conference. San Francisco:WCNC, 2017: 1-6. [百度学术]
CAO X, CHEN Y, LIU K R. Data trading with multiple owners, collectors, and users: an iterative auction mechanism [J]. IEEE Transactions on Signal and Information Processing over Networks, 2017, 3(2): 268. [百度学术]
AGARWAL A, DAHLEH M, SARKAR T. A marketplace for data: an algorithmic solution[C]// Proceedings of the Proceedings of the 2019 ACM Conference on Economics and Computation. New York:Association for Computing Machinery, 2019: 701–726. [百度学术]
LIU K, QIU X, CHEN W, et al. Optimal pricing mechanism for data market in blockchain-enhanced internet of things [J]. IEEE Internet of Things Journal, 2019, 6(6): 9748. [百度学术]
XU C, ZHU K, YI C, et al. Data pricing for blockchain-based car sharing: a stackelberg game approach[C]// Proceedings of the GLOBECOM 2020-2020 IEEE Global Communications Conference. Taipei:IEEE, 2020: 1-5. [百度学术]
MEI L, LI W, NIE K. Pricing decision analysis for information services of the internet of things based on Stackelberg game [M]. Berlin, Heidelberg:Springer, 2013. [百度学术]
彭慧波, 周亚建. 数据定价机制现状及发展趋势 [J]. 北京邮电大学学报, 2019, 42(1): 120. [百度学术]
PENG Huibo, ZHOU Yajian. Data pricing mechanism status and development trends[J]. Journal of Beijing University of Posts and Telecommunications, 2019, 42(1): 120. [百度学术]
张小伟, 江东, 袁野. 基于博弈论和拍卖的数据定价综述 [J]. 大数据, 2021, 7(4): 61. [百度学术]
ZHANG Xiaowei, JIANG Dong, YUAN Ye. A survey of game theory and auction-based data pricing[J]. Big Data Research, 2021, 7(4): 61. [百度学术]
DUA D, GRAFF C. UCI Machine learning repository[R]. Irvine: University of California, 2019. [百度学术]
YU H, ZHANG M. Data pricing strategy based on data quality [J]. Computers & Industrial Engineering, 2017, 112: 1. [百度学术]
涂辉招, 崔航, 鹿畅, 等. 面向自动驾驶路测驾驶能力评估的避险脱离率模型 [J]. 同济大学学报(自然科学版), 2020, 48(11): 1562. [百度学术]
TU Huizhao, CUI Hang, LU Chang, et al . A risk-avoiding disengagement frequency model for assessing driving ability of autonomous vehicles in road testing[J]. Journal of Tongji University(Natural Science), 2020, 48(11): 1562. [百度学术]