摘要
为解决文本类地铁应急处置流程存在的流程顺序关系不明确、流程执行人员模糊等问题,提出了基于BiLSTM-CRF(Bidirectional Long Short-Term Memory-Conditional Random Field)的地铁应急处置知识抽取与推理方法。首先,利用BiLSTM-CRF方法对地铁应急处置流程的文本资料进行命名实体识别,完成文本资料的知识抽取;其次,选用TransD模型对识别后实体数据进行知识推理,从而完成以实体和属性对为节点、关系对为边的知识图谱构建;最后,利用Neo4j图数据库对构建的地铁应急处置流程知识图谱进行了可视化展示和案例分析。研究结果表明,基于BiLSTM-CRF的知识抽取模型的精确率、召回率和F1值均达到了90%以上,且基于BiLSTM-CRF的TransD模型的推理结果准确率提升了22.92%,保证了知识图谱构建的准确性,可为地铁应急管理提供决策支持。
城市地铁系统的复杂性和其突发事件的不可预测性要求有一个清晰、高效的应急处置流程。现阶段,大多数地铁运营公司均以普通文档的形式对突发事件应急处置流程进行了保存,但没有进行系统整理和数字化存储,且文本类应急处置流程存在结构化程度低、不易快速查阅、处置流程不明确等问题,因此,为了满足应急处置准确性、便捷性和普适性的要求,对地铁应急处置流程进行建模分析,对于地铁应急管理具有十分重要的实践和理论意义。
知识图谱可以从多种类型的复杂数据中抽取实体和关系,转化为简单、清晰的“头实体—关系—尾实体”的三元组,以图数据的方式对文本数据进行结构化存储和展
知识图谱的构建采用自然语言处理(Natural Language Processing,NLP)方法对文本资料进行命名实体识别(Named Entity Recognition,NER),以实现实体标注和关系链
基于此,需要利用知识推理模型来挖掘潜在的实体关系,用于实现文本类地铁应急处置流程知识图谱的构建。现阶段,应用最为广泛的推理模型有TransE(Translation Embedding
综上,为解决地铁应急处置流程的文本数据存在结构化程度低、不易快速查阅、处置流程不明确等问题,利用BiLSTM-CRF方法对地铁应急处置流程文本进行实体识别,完成文本类地铁应急处置流程的知识抽取并进行结构化存储。在此基础上,通过知识推理将上述结构化数据以知识图谱的方式实现对文本类地铁应急处置流程的模型构建,以图形方式代替文本信息实现地铁应急处置流程的清晰可视化展示以及流程关系间的深度挖掘。
现阶段大多数地铁运营公司均以普通文档的形式对突发事件应急处置流程进行了保存。但受限于各地铁公司发展现状、中文语言灵活多变等原因,一方面导致了现有的文本类地铁应急处置流程对同一应急事件的描述存在多样化的差异,另一方面也暴露了文本描述的地铁应急处置流程存在流程顺序关系不明确、流程执行人员模糊、流程间联系不紧密等问题,以某地轨道交通火灾应急处置流程为
例1 “步骤2、确认为火灾误报警,由车站行车值班员消音处理后向环控调度报告故障;步骤3、确认为真实火灾,且为可控制火灾时,由车站人员现场灭火处理。”
例2 “步骤5、车站行车值班员报行车调度、环控调度、站长、部门安全生产专员、119,视情况拨打120、110;步骤6、值班站长启动乘客疏散应急预案,通知站台岗疏散站台乘客。”
例3 “(处置流程A)步骤4、车站行车值班员报行车调度、环控调度、站长、部门安全生产专员、119,视情况拨打120、110。(处置流程B)步骤3、指令车站将FAS主机切换到自动位置,执行相应的火灾模式。做好引导协助疏散并视情况拨打119、120、110。”
例1显示了在同一处置流程中步骤2和步骤3之间并不是标号的顺序关系,而是2个步骤不可能同时发生的互斥关系,应急处置流程顺序关系不明确导致应急处置人员按照处置流程操作时需要选择判断,一定程度上影响了应急处置效率。例2为车站值班人员的应急处置流程步骤,但其相邻2个步骤的应急处置执行人员发生变动,不易于应急处置操作的开展。例3罗列了2套应急处置流程中的一项步骤,且2个步骤之间存在先后顺序关系,表明2套流程之间存在相应的处置关系,但通常缺失对上述情况的描述,存在流程间联系不紧密的问题。
为解决上述问题,利用BiLSTM-CRF方法对地铁应急处置流程文本进行实体识别,并通过知识推理以知识图谱的方式实现文本信息的数据化存储和流程关系间的深度挖掘。
采用基于BiLSTM-CRF的地铁应急处置流程知识图谱的构建,首先需要收集基础文本资料并明确主体流程与流程间的相互关系。其次,运用BiLSTM-CRF方法将数据按照实体、关系、属性的类别进行命名实体识别,即知识抽取过程。命名实体识别后的数据经知识推理后完成实体对、关系对和属性对存储。最后,选用TransD模型进行知识推理用于明确流程实体之间的相互关系,即以“头实体—关系—尾实体”三元组的形式描述实体及其之间的关系,从而实现以实体和属性对为节点、关系对为边的知识图谱构建。三元组示例如下,文本描述内容为“地铁站台发生了火灾”,基于BiLSTM-CRF方法和TransD模型即可完成“火灾—事件地点—地铁站台”三元组的构建,其中“火灾”为头实体,“地铁站台”为尾实体,“事件地点”为关系,头实体通过关系指向尾实体,表明应急事件“火灾”发生的地点为“地铁站台”。最后,基于Neo4j平台将三元组数据以图结构方式进行展示,从而完成文本类地铁火灾应急处置流程的知识图谱的搭建。
地铁应急处置流程知识图谱通过对基础数据的知识抽取和知识推理从而实现数据存储和图谱构建,所述流程如

图1 地铁应急处置流程知识图谱构建流程信息
Fig. 1 Knowledge graph construction process information of metro emergency response process
地铁应急处置流程包含了许多步骤和环节,而BiLSTM-CRF可以同时考虑正向和逆向的上下文信息,可以充分考虑每个步骤与其前后环节之间的相互联系,从而提高命名实体识别的准确性。此外,BiLSTM-CRF可以通过多层的非线性变换去捕捉到地铁应急处置流程中的复杂语义信息,且以往研究表明BiLSTM-CRF在实现量化数据的序列标注方面有很好的效
命名实体识别是基于构建好的文本数据集而展开,其中文本数据集构建需要通过数据收集、数据清洗、实体划分、实体标注等步骤完成,也是搭建知识图谱的首要步骤。首先,将从互联网搜集到的地铁应急处置流程文本案例作为实验的数据集,其中包括上海、兰州、南昌等地铁在站台、轨道、区间、列车等场所的应急处置流程。然后对收集到原始文本数据进行清洗,处理数据中的噪声和错误,如:无关信息、特殊字符、HTML标签等,同时标准化文本数据的格式和结构,以便后续处理。其次是实体划分,将地铁应急处置流程内容赋予其对应的类别。
如
相关实体 | 涉及属性 | 存在关系 |
---|---|---|
应急事件 | 事件原因、事件等级等 | 顺序关系、因果关系、并发关系、协同关系等 |
事件地点 | 地点名称 | 并发关系、协同关系等 |
处置人员 | 人员名称,所属组织等 | 顺序关系、并发关系、协同关系、隶属关系等 |
处置组织 | 组织名称 | 顺序关系、并发关系、协同关系、隶属关系等 |
应急处置流程 | 流程名称、流程内容、流程进度等 | 顺序关系、因果关系、并发关系、协同关系、互斥关系等 |
基于此,对文本数据采用BMEO标注方法进行实体标注,其中B表示实体的开头,M表示实体的中间部分,E表示实体的结尾,O表示非实体数据。根据地铁应急处置流程知识图谱构建需求定义相关标注符号如
实体名称 | 标注符号 |
---|---|
地铁应急事件 | OBJE(Object) |
应急处置流程 | PROCE(Process) |
事件地点 | PLACE(PLACE) |
事件原因 | CAUSE(CAUSE) |
处置人员 | NAME(NAME) |
处置组织 | ORG(Organization) |
索引编号 | 标注 | 索引编号 | 标注 |
---|---|---|---|
1 | B-NAME | 12 | O |
2 | M-NAME | 13 | O |
3 | M-NAME | 14 | O |
4 | M-NAME | 15 | O |
5 | E-NAME | 16 | O |
6 | O | 17 | O |
7 | O | 18 | O |
8 | B-OBJE | 19 | O |
9 | E-OBJE | 20 | B-ORG |
10 | O | 21 | M-ORG |
11 | O | 22 | E-ORG |
根据上述实体划分和实体标注的方法,将每一个地铁应急处置流程文本标注为原文序列、索引序列、命名实体序列、关系序列,组成一个序列集合。对上述序列进行编码得到具有相同纬度、长度为样本字符的长度、由特征向量组合而成的文本词序列向量。在此基础上,将文本词序列向量引入BiLSTM-CRF中,完成命名实体标注用于地铁应急处置流程图谱的构建,BiLSTM-CRF流程见

图2 BiLSTM-CRF命名实体识别流程
Fig. 2 Flowchart of BiLSTM-CRF named entity recognition
(1)输入层是由文本词序列向量经Word2vec工具转化为词向量序列而来,Word2vec词向量工具将预处理的词序列转换为低维且计算机可处理的词向量,并含有初始语义信
(2)BiLSTM层(即前向LSTM层和后向LSTM层)对输入的词向量进行语义信息建模,并进行前后向拼接后输出。在该层中,每一个即为一个LSTM,LSTM神经元结构如

图3 LSTM神经元结构
Fig. 3 Structure of LSTM neuron
(1) |
(2) |
(3) |
(4) |
(5) |
(6) |
式中:、和分别为遗忘门限、输入门限和输出门限的输出;、和为在3个门限的输出权重;、和为在3个门限的输出权重;和分别为实时序列特征的权重;、、和分别为计算3个门限和实时序列特征时的偏差量。
(3)输出层就是将前向LSTM和后向LSTM输出信息拼接,作为BiLSTM的输出,即输入词向量的相对应的标注概率分布。
(7) |
(4)CRF层通过转移概率矩阵用于修正BiLSTM输出,最后得到文本序列的最优标记。假设对于文本序列的预测标签序列为,它的最佳得分计算步骤为
(8) |
式中:为标签之后是标签的概率,即转移概率矩阵;为第个字符映射到第个标签上的概率,即BiLSTM的输出概率矩阵。
最后,CRF层会将得分最高的标注序列输出,从而实现命名实体识别完成知识抽取,从而实现从文本数据抽取实体的过程。
TransD模型通过计算实体间(头实体和尾实体)之间的相似性,从而实现三元组的关系搭建,即实体关系抽取过程。TransD模型将知识图谱中的实体编码为关系空间中的低维嵌入向量,从而实现实体在向量空间中的映射,而每个实体关系对都被视为嵌入空间中的平移。
如
(9) |
(10) |
式中:为单位矩阵。上述公式表明映射矩阵是由实体和关系共同决定的,因此投影向量可以表示为
(11) |
(12) |
TransD模型得分函数定义为
(13) |
式中:是L2范数,表示向量各元素的平方和然后求平方根,用于描述空间上2个向量矩阵的直线距离。

图4 TransD模型原理
Fig. 4 Schematic diagram of TransD model
为了防止模型过拟合,对
(14) |
对于TransD模型而言,正确三元组期望得分越高越好,错误三元组期望得分越低越好,因此TransD模型的损失函数如
(15) |
式中:为正三元组集合,即正确三元组集合;为负三元组集合,即头实体或者尾实体是错误的三元组集合。因此,负三元组是基于正三元组实体对挑选出来的,而和是分别以tpp/(tpp+hpq)和hpq/(tpp+hpq)的概率替换而得,其中,表示每个头实体对应的尾实体数量的平均值,表示每个尾实体对应头实体数量的平均值;为超参数,用于均衡正负三元组之间的间隔。
根据上述TransD模型,即可实现在给定的或者情况下补充对应的或,从而完成知识推理的过程,实现了三元组的构建,所有三元组组合在一起即是知识图谱。
以地铁火灾应急为例,选取上述构建文本数据集中地铁火灾应急处置流程的文本数据进行命名实体识别。实验在NVIDAI GeForce RTX3060 LapTop GPU上进行,编程语言采用Python 3.6,实验所用的深度学习框架为PyTorch 1.5,同时使用了Word2vec 0.3.1作为词嵌入工具。实验选取其中50%数据,总计1 184份段落文本、182 576字节数,作为命名实体识别的训练集,再选取25%数据,总计592份段落文本、92 123字节数据作为验证集,剩余25%数据,总计592份段落文本、97 684字节数据作为测试集。基于此,选取了精确率(Precision,P)、召回率(Recall,R)、F1值(F1-score,F1)来评估命名实体识别性能指标,上述3个指标被广泛应用于信息检索和统计学分类领域,常用于评价结果的质量,即表征命名实体识别的准确性。其中,精确率P和召回率R大于等于90%时,表明模型的全面性和准确性均具有较好的表现,F1值综合考虑精确率和召回率,当F1值达到80%以上时,说明模型具备较好的性能。各计算式分别为
(16) |
(17) |
(18) |
式中:为正样本预测为真数量;为负样本预测为真数量;为正样本预测为假数量。
根据上述评价指标公式和数据划分,用训练集和验证集进行模型训练和验证,并将训练好的模型在测试集上进行预测,计算结果如
数据集 | P/% | R/% | F1/% |
---|---|---|---|
训练集 | 89.45 | 88.59 | 88.35 |
验证集 | 90.72 | 90.58 | 90.19 |
测试集 | 91.74 | 90.23 | 91.47 |
基于实体识别的三元组数据集,使用TransD模型进行关系推理,并选取TransE、TransH推理模型进行推理结果对比分析。3种模型均选用随机梯度下降法更新嵌入向量,模型学习率设置为0.01,实体和关系的向量维度设定为100,正负三元组之间的最小间隔 设置为1,迭代次数为50
(19) |
(20) |
(21) |
式中:为所有三元组集合;为第个三元组的推理排名;为第个三元组是否满足m的排名要求,满足为1,否则为0。
根据指标计算公式(
构建方式 | 推理模型 | MR | MRR | |||
---|---|---|---|---|---|---|
m=1 | m=3 | m=10 | ||||
有BiLSTM-CRF | TransD | 81.74 | 0.71 | 60.65 | 72.03 | 79.47 |
TransE | 362.76 | 0.43 | 35.22 | 47.65 | 54.60 | |
TransH | 116.13 | 0.68 | 59.46 | 70.67 | 78.93 | |
无BiLSTM-CRF | TransD | 146.74 | 0.63 | 48.48 | 65.34 | 73.65 |
TransE | 386.72 | 0.41 | 32.16 | 43.46 | 51.98 | |
TransH | 161.01 | 0.62 | 53.61 | 63.72 | 70.32 |
地铁火灾应急处置流程知识图谱,是以BiLSTM-CRF的命名实体识别后的实体数据集为基础,以TransD模型推理的三元组为框架搭建而成的。Neo4j图数据库被用于地铁火灾应急处置流程知识图谱的可视化展示和数据存储,如

图5 基于BiLSTM-CRF的地铁火灾应急处置流程知识图谱示例(部分)
Fig. 5 An example of the knowledge graph of metro fire emergency response process based on BiLSTM-CRF (part)
目前面向地铁火灾应急处置流程知识图谱的研究成果极少,因此采用案例对比分析的方式来考量基于BiLSTM-CRF的地铁火灾应急处置流程知识图谱的可靠性。
以地铁气体灭火防护区(接报设备区)发生火灾时应急处置流程为例,其基于BiLSTM-CRF所构建的地铁火灾应急处置流程知识图谱如

图6 基于BiLSTM-CRF的地铁气体灭火防护区火灾单一应急处置流程知识图谱
Fig. 6 Knowledge graph of single emergency response process for fire in metro gas fire extinguishing protection zone based on BiLSTM-CRF
此外,如
当地铁发生突发事件时,执行应急处置流程的处置人员不同会导致相应的应急处置流程也有所不同。同样以地铁气体灭火防护区(接报设备区)发生火灾时应急处置流程为例,构建了同一场景下不同应急处置流程知识图谱,具体如

图7 基于BiLSTM-CRF的地铁气体灭火防护区火灾应急处置流程知识图谱
Fig. 7 Knowledge graph of fire emergency response process in metro gas fire extinguishing protection zone based on BiLSTM-CRF
不同于文本描述中由车站值班员和环控调度人员分别执行的应急处置流程,这2个流程在同一场景下相互独立,彼此之间并无直接关联。根据
为了进一步验证基于BiLSTM-CRF构建的地铁应急处置流程知识图谱的准确性和可靠性,仍以地铁火灾应急事件为例,分别计算了不同案例样本量下的三元组搭建的准确率(Accuracy,A),即搭建正确的结果占总样本的分数,具体计算如
(22) |
式中:为负样本预测为假数量。
构建方式 | 案例样本量 | 三元组搭建准确率/% |
---|---|---|
有BiLSTM-CRF | 10 | 57.51 |
20 | 69.25 | |
30 | 82.74 | |
无BiLSTM-CRF | 10 | 45.83 |
20 | 56.31 |
由
基于BiLSTM-CRF的地铁应急处置知识抽取与推理方法进行研究,解决目前文本类地铁火灾应急处置流程存在的结构化程度低、没有形成数字化存储、流程顺序关系不明确、流程执行人员模糊等问题,并利用Neo4j图数据库实现地铁应急处置流程知识图谱的可视化展示,为地铁应急管理提供辅助决策支持。实验结果表明,基于BiLSTM-CRF的知识抽取模型的精确率、召回率和F1值均大于90%。与此同时,基于BiLSTM-CRF推理模型的结果准确率比不采用BiLSTM-CRF推理模型提升了22.92%,保证了知识图谱构建的准确性。此外,基于知识图谱的地铁应急处置流程仍可开展进一步的深入研究,未来可收集更多地铁火灾应急处置流程用于完善知识图谱的构建,并可研究多种地铁应急场景下的应急处置流程知识图谱的构建,从而实现面向地铁应急的智能调度辅助决策系统的构建。
作者贡献声明
叶雨涛:数据收集、模型构建、论文撰写。
王鹏玲:方法与写作指导。
徐瑞华:写作指导。
肖晓芳:实验结果可视化。
葛健豪:实验结果可视化。
参考文献
张吉祥, 张祥森, 武长旭, 等. 知识图谱构建技术综述[J]. 计算机工程, 2022, 48(3): 23. [百度学术]
ZHANG Jixiang, ZHANG Xiangsen, WU Chhangxu, et al. Survey of knowledge graph construction techniques [J]. Computer Engineering, 2022, 48(3): 23. [百度学术]
杨晓梅, 王志华, 刘岳明,等. 遥感智能信息处理的发展及技术前景[J]. 同济大学学报(自然科学版), 2023, 51 (7): 1025. [百度学术]
YANG Xiaomei, WANG Zhihua, LIU Yueming, et al. Development and technical prospect of remote sensing intelligent information processing[J]. Journal of Tongji University(Natural Science), 2023, 51 (7): 1025. [百度学术]
GONG F, WANG M, WANG H, et al. SMR: Medical Knowledge graph embedding for safe medicine recommendation[J]. Big Data Research, 2021, 23:100174. [百度学术]
邓君, 王阮. 口述历史档案资源知识图谱与多维知识发现研究[J]. 图书情报工作, 2022, 66(7): 4. [百度学术]
DENG Jun, WANG Ruan. Research on knowledge graph and multidimensional knowledge discovery of oral history archives resources [J]. Library and information work, 2022, 66(7): 4. [百度学术]
ZHANG N, DENG S, CHEN H, et al. Structured knowledge base as prior knowledge to improve urban data analysis[J]. ISPRS International Journal of Geo-Information,2018, 7(7): 264. [百度学术]
ZHOU G, CHEN F. Urban congestion areas prediction by combining knowledge graph and deep spatio-Temporal convolutional neural network[C]// 2019 4th International Conference on Electromechanical Control Technology and Transportation (ICECTT). Guilin: [S.n.]: 2019: 105-108. [百度学术]
朱广宇, 张萌, 裔扬. 基于知识图谱的城市轨道交通突发事件演化结果预测[J]. 电子与信息学报, 2023, 45(3): 9. [百度学术]
ZHU Guangyu, ZHANG Meng, YI Yang. Prediction of evolution results of urban rail transit emergencies based on knowledge graph[J]. Journal of Electronics & Information Technology, 2023, 45(3): 9. [百度学术]
李晓健, 陈雍君, 邱实, 等. 复杂地区铁路工程建设风险知识图谱的建立与分析方法[J/OL]. [2025-01-20]. http://kns.cnki.net/kcms/detail/11.2104.u.20240619.1705.002.html. [百度学术]
LI Xiaojian, CHEN Yongjun, QIU Shi, et al. Establishment and analysis method of risk knowledge graph of railway engineering construction in complex areas[J/OL]. [2025-01-20]. http://kns.cnki.net/kcms/det ail/11.2104.u.20240619.1705.002.html. [百度学术]
林海香,胡娜娜,何乔,等. 基于建筑信息模型数据驱动的铁路设备运维多模态知识图谱构建[J]. 同济大学学报(自然科学版), 2024, 52 (2): 166. [百度学术]
LIN Haixiang, HU Nana, HE Qiao, et al. Construction of a multi-Modal knowledge graph for railway equipment operation and maintenance based on building information model data-Driven approach[J]. Journal of Tongji University(Natural Science), 2024, 52 (2): 166. [百度学术]
DONG X, GABRILOVICH E, HEITZ G, et al. Knowledge vault: a web-scale approach to probabilistic knowledge fusion[C]// the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Association for Computing Machinery. New York: Association for Computing Machinery , 2014: 601-610. [百度学术]
李新琴, 史天运, 李平, 等. 基于文本的高速铁路信号设备故障知识抽取方法研究[J]. 铁道学报, 2021, 43(3): 92. [百度学术]
LI Xinqin, SHI Tianyun, LI Ping, et al. Research on knowledge extraction method for high-speed railway signal equipment fault based on text [J]. Journal of the China Railway Society, 2021, 43(3): 92. [百度学术]
KE Jia, WANG Weiji, CHEN Xiaojun, et al. Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF[J]. Computers and Electrical Engineering, 2023:108. [百度学术]
BORDES A, USUNIER N, GARCIADURAN A, et al. Translating embeddings for modeling multi-relational data[C]// Neural Information Processing Systems, New York: Curran Associates Inc., 2013: 2787–2795. [百度学术]
WANG Z, ZHANG J, FENG J, et al. Knowledge graph embedding by translating on hyperplanes[C]// Twenty-Eighth AAAI Conference on Artificial Intelligence. Quebec: AAAI Press., 2014: 1112-1119. [百度学术]
LIN Y, LIU Z, SUN M, et al. Learning entity and relation embedding for knowledge graph completion[C]// Twenty-Ninth AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2015: 2181-2187. [百度学术]
JI G, HE S, XU L, et al. Knowledge graph embedding via dynamic mapping matrix[C]// Meeting of the Association for Computational Linguistics & the International Joint Conference on Natural Language Processing, Lecture Notes in Computer Science. Cham: Springer, 2015: 687-696. [百度学术]
MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013, 2(26): 1. [百度学术]
俞山川, 谢耀华, 陈晨, 等. 基于知识图谱推理的风险车辆识别方法研究[J]. 重庆交通大学学报(自然科学版), 2022, 41(1): 22. [百度学术]
YU Shanchuan, XIE Yaohua, CHEN Chen, et al. Risky vehicle identification method based on knowledge graph reasoning[J]. Journal of Chongqing Jiaotong University (Natural Science), 2022, 41(1): 22. [百度学术]