摘要
河道的有效管理是维持河道健康生态状况的前提条件。针对河道健康数据存在的跨部门管理、存储效率低下、语义信息被忽略等问题,提出了一种基于本体的河道健康数据存储方法。构建了河道健康领域的本体模型,设计了基于Neo4j图数据库的河道健康数据存储方法。以上海市宝山区河道为例,开发了河道健康可视化原型系统,实现了河道健康本体数据在概念、关系、属性和实例的存储与查询。设计了2种不同本体存储方式查询效率的对比试验,验证了本文方法的有效性和可行性。
健康的水环境是人类赖以生存的根本条件,是保证社会可持续发展的重要基础,也是实现生态文明、建设美丽中国的重要保障。2015年联合国提出《可持续发展目标》,强调为所有人提供水和环境卫生并对其进行可持续管
本体在多源异构数据语义异构处理上具有明显优势,国内外学者在地理学、环境学、生态学等领域做了大量本体构建研究。如Lee
本体已经被学者们应用于不同领域的数据集成与存储研究,但在河道健康领域的应用研究尚不多见。如何结合河道健康数据特点,利用领域本体对河道健康数据进行有效集成存储是值得研究的问题。本文面向河道健康数据集成和管理的实际需求,探讨一种基于本体的河道健康数据存储方法。以上海市宝山区河道为例,收集了丰富的河道健康相关数据,构建了宝山区河道健康本体案例,设计图数据库模式并实现该河道健康管理要素、河道健康评价要素以及河道健康演化过程的存储与查询,验证了本文方法的有效性。
河流健康与人类社会的发展息息相关,随着国内外河流环境的不断恶化,河流健康问题引起了相关领域内学者们的关注。20世纪末,Kar
基于上述对河道健康内涵的解析,并根据Studer

图 1 河道场景概念模型
Fig. 1 Conceptual model of river scene
从整体上看,河道健康评价指标体系需要具备明显的层次结构。从单一指标看,指标体系中的每个指标都需要客观反映出河道生态系统的健康状况。结合国内外学者、国家以及相关机构的研究基础和评价指标选取原则,建立城市中小型河道健康评价指标层次结构图(

图 2 城市中小型河道健康评价指标层次结构
Fig. 2 Hierarchy of indicators for evaluating the health of urban small and medium-sized rivers
根据河道健康内涵与河道场景概念模型设计河道健康本体概念体系,包括河道相关人物、事物与事件3个一级类。在此基础上,将河道健康本体概念细分为多个层次,具体的河道健康本体概念体系如

图 3 河道健康本体概念体系
Fig. 3 Ontology concept system of river health
一个完整的河道健康本体主要由概念、关系、属性和实例四部分组成,结合对河道健康内涵的分析,河道健康的本体应考虑3个方面:①从河道管理角度出发,需要将河道与管理者、监测站和河道相关事件的关系进行概念化、形象化的描述说明。②从河道评价角度出发,指标是衡量河道是否健康的重要标准,通过河道健康评价指标的描述及其数值展示,让公众更直观地了解河道健康状况。③从河道演化过程出发,对河道及其相关要素的过程、状态与事件在不同时间段的变化进行表达,更好体现出河道这一地理实体的时空特征。
河道健康管理本体是由河道与河道管理人员、监测站和河道相关事件构成。河道作为一个地理实体,本身具有一定的属性特征,会产生相应的事件,同时事件又会驱动河道不断发生变化。河道水质监测数据可以反映相关事件的发生。管理人员作为河道的管理者,则通过一些措施处理相关事件。
河道健康评价本体根据前文提出的城市中小型河道健康评价指标层次结构构建。河道健康评价包含水文完整、河道水质、生态系统、护岸情况和社会服务5个类,它们在语义层面上是兄弟关系。
河道健康演化本体主要由河道健康要素、过程、状态及其之间的关系组成。河道健康要素包括河道要素以及河道管理者要素,两者的演化过程存在一定联系。每个要素都有各自的发展过程,其过程具有零到多个状态。同时,不同状态之间具有一定的时间关系。
通过Neo4j图数据库对河道健康本体进行存储,实现本体到图数据库的存储。将本体转化为对应的图结构,完成本体中实体、关系和属性对应数据的存储。河道健康管理本体到图模型的映射关系如

图 4 河道健康管理本体到图模型的映射示例
Fig. 4 Mapping example of ontology to graph model for river health management
存储规则的设计有利于河道健康本体中各种实体、关系以及属性完整地存入图数据库。在河道健康管理结构中,最主要的是河道、监测以及事件要素的存储。这些要素通过映射关系主要以节点的形式存储在图数据库中,其存储规则如

图 5 河道健康管理要素存储规则
Fig. 5 Element storage rules of river health management
河道健康评价结构及其要素存储规则如

图 6 河道健康评价要素存储规则
Fig. 6 Element storage rules of river health evaluation
河道演化过程结构由河道健康对象及其状态之间的对应关系组成,构建了其演化过程结构及其要素存储规则,如

图 7 河道健康演化过程要素存储规则
Fig. 7 Element storage rules of river health evolutionary process
选取上海市宝山区作为研究区域。宝山区地处上海北部,东临黄浦江,由于沿海的地理位置,区内河道、湖泊众多,共有932条河道,河道长度为806.55km,河网密度约为2.98km·k
研究数据来源广泛、类型丰富,主要包括宝山区基础地理信息数据、宝山区地表水原始监测数据、宝山区河道健康评价数据以及宝山区河道健康元数据,如
数据类型 | 数据分类 | 具体内容 |
---|---|---|
基础地理信息数据 | 河道矢量数据 | 宝山区境内市级、区级、镇级以及村级河道编码、等级、流经地区、长度等 |
行政区划数据 | 宝山区下属区县名称、区县编码等 | |
地表水原始监测数据 | 地表水河流原始监测数据 | 城市代码与名称、河流代码与名称、断面代码与名称、监测年月等 |
河道健康评价数据 | 2019年统计年鉴数据 | 宝山区境内区级河道水质指标 |
河道健康元数据 | 河道实体数据 | 宝山区各河道相关文件名称、分类以及相关描述 |
河道管理者实体数据 | 宝山区各河道对应管理者名称、管理者描述、管理者历史行为等 | |
河道事件实体数据 | 宝山区各河道事件发生时间、地点、事件描述等 |
基于上海市宝山区河道健康相关的数据,构建该区域的河道健康可视化原型系统,系统界面如

图 8 河道健康地图可视化界面
Fig. 8 Visualization interface of river health map
系统主要功能为河道健康地图可视化和知识图谱表达。河道健康地图可视化是指河道健康有关的专题要素在时间与空间上的动态展现,如河道水质情况、河道治理情况等;知识图谱表达实现了河道健康地图中各种要素在语义上的表达,如某条河道或某个监测点的关系展示,本质是对河道健康涉及到的各种数据的形式化表达,挖掘数据之间的联系,实现数据间的语义关联。
本体的查询性能是衡量本体数据存储的重要指标。本文以河道健康管理本体为例,设计对比实验,对提出的本体数据存储模式进行验证与评估。设计了4类基本的查询问题,对应5个具体查询案例,即类查询(Q1:查询river类的兄弟类)、关系查询(Q2:查询river类与管理者类的关系;Q3:查询river类实例与manager类实例的关系)、属性查询(Q4:查询river类的所有属性)和实例查询(Q5:查询river类的所有实例)。其中关系查询中对应了2个查询案例,分别为类之间的关系查询与实例之间的关系查询。分别使用Cypher语言(一种声明式图数据库查询语言,具有丰富的表现力,能高效地查询和更新图数据)和SPARQL语言(全称为SPARQL Protocol and RDF Query Language,是为RDF开发的一种查询语言和数据获取协议,用于任何可以用RDF来表示的信息资源)进行查询,为了减少实验结果中偶然因素的影响,对于每一个查询案例都重复执行20次,然后取其均值作为最后的实验结果。最终的查询结果如

图 9 查询结果对比
Fig. 9 Comparison of query results
经过对2种查询方式的效率和稳定性进行分析,基于Neo4j存储的本体数据查询消耗时间明显低于基于OWL(Web Ontology Language,是一个基于描述逻辑的语言,用于表示和共享复杂的概念和知识结构)文件本体存储。本文提出的基于Neo4j的河道健康数据存储方法在查询效率和稳定性上具备一定的优势。通过建立原型系统与案例验证,本研究实现了河道健康有关数据在时间、空间和语义上的联动展示,为河道健康状况的监测、预警等服务提供支持,有效验证了本文基于本体的河道健康数据存储方法的有效性。
针对河道健康数据处理与应用中存在的问题,基于本体在多源异构数据的语义异构处理上的优势,提出了面向河道健康数据的存储方法。通过对河道健康内涵的解析,构建了河道场景概念模型,并在此基础上构建了河道健康领域的本体模型;然后建立了河道健康领域本体与图模型之间的映射关系,并设计了基于Neo4j图数据库的河道健康数据存储方法,实现了本体向图数据库的转换;最后以上海市宝山区河道为例,搭建了河道健康可视化原型系统,实现了对多源异构的河道健康数据的存储,验证了本文方法的有效性和可行性。
本文在河道健康本体构建及其数据存储方法上取得了一些成果,但需要指出的是,尚未考察河道健康本体推理能力,后续研究将设计相关实验,以更好突出使用本体模型相较于传统数据库的优势;此外,本文对于河道健康本体的构建主要采用人工构建方式,针对大规模数据的存储和集成则应探究更加高效的半自动化和全自动化本体构建方法。
作者贡献声明
刘晓艳:研究总体负责、主要内容撰写。
田兆炜:数据分析、本体模型构建。
周静怡:研究构思、稿件修订与审核。
赵天浩:数据存储规则设计、系统性能评价。
徐 颖:数据采集与处理。
徐家鹏:案例研究原型系统实现。
沈 婕:研究方案设计、稿件修订。
参考文献
傅伯杰. 联合国可持续发展目标与地理科学的历史任务[J]. 科技导报, 2020, 38(13): 19. [百度学术]
FU Bojie. UN Sustainable development goals and historical mission of geography [J]. Science & Technology Review, 2020, 38(13): 19. [百度学术]
张岩,张磊. 论智慧水务平台科研数据管理及人工智能技术的应用[J]. 智能建筑与智慧城市, 2020(3): 90. DOI:10.13655/j.cnki.ibci.2020.03.036. [百度学术]
ZHANG Yan, ZHANG Lei. Discussion on science research data management and application of artificial intelligence technology in smart water platform [J].Intelligent Building & Smart City, 2020(3): 90. DOI:10.13655/j.cnki.ibci.2020.03.036. [百度学术]
LEE C S, KAO Y F, KUO Y H, et al. Automated ontology construction for unstructured text documents [J]. Data & Knowledge Engineering, 2007, 60(3): 547. [百度学术]
HASSANEIN A M D E, EL HOUBY E M F . Towards a comprehensive Nile River geographical ontology model [J]. Advances in Natural and Applied Sciences, 2012, 6(6): 772. [百度学术]
王蔚华, 邹松兵, 肖洪浪, 等. 内陆河流域生态-水文本体的构建方法及应用[J]. 冰川冻土, 2014, 36(5): 1280. [百度学术]
WANG Weihua, ZOU Songbing, XIAO Honglang, et al. Eco-hydrological ontology in inland river basin: Construction method and application [J]. Journal of Glaciology and Geocryology, 2014, 6(5): 1280. [百度学术]
崔巍, 蒋天发,张德新. 用数据挖掘和本体实现空间信息系统语义互操作[J]. 武汉理工大学学报(交通科学与工程版), 2004(1): 118. [百度学术]
CUI Wei, JIANG Tianfa, ZHANG Dexin. Using data mining and ontology to realize interoperability geographic information systems [J]. Journal of Wuhan University of Technology (Transportation Science & Engineering), 2004(1): 118. [百度学术]
BELLINI P, BENIGNI M, BILLERO R, et al. Km4City ontology building vs data harvesting and cleaning for smart-city services[J]. Journal of Visual Languages & Computing, 2014, 25(6): 827. [百度学术]
宫法明, 李翛然. 基于Neo4j的海量石油领域本体数据存储研究[J]. 计算机科学, 2018. 45(S1): 549. [百度学术]
GONG Faming, LI Xiaoran. Research on ontology data storage of massive oil field based on Neo4j [J]. Computer Science, 2018. 45(S1): 549. [百度学术]
王红, 张青青, 蔡伟伟, 等.基于Neo4j的领域本体存储方法研究[J].计算机应用研究,2017,34(8):2404. [百度学术]
WANG Hong, ZHANG Qingqing, CAI Weiwei, et al. Research on storage method of domain ontology based on Neo4j [J]. Application Research of Computers, 2017, 34(8): 2404. [百度学术]
COMYN-WATTIAU I, AKOKA J. Model driven reverse engineering of NoSQL property graph databases: The case of Neo4j[C]//2017 IEEE International Conference on Big Data. [s.l.]: IEEE, 2017: 453-458. [百度学术]
KARR J R. Defining and measuring river health [J]. Freshwater Biology, 1999, 41(2): 221. [百度学术]
NORRIS R H, THOMS M C. What is river health? [J]. Freshwater Biology, 1999, 41(2): 197. [百度学术]
JOHNSON L B, BRENEMAN D H, RICHARDS C. Macroinvertebrate community structure and function associated with large wood in low gradient streams [J]. River Research and Applications, 2003, 19(3): 199. [百度学术]
ROGERS K, BIGGS H. Integrating indicators, endpoints and value systems in strategic management of the rivers of the Kruger National Park [J]. Freshwater Biology, 1999, 41(2): 439. [百度学术]
STUDER R, BENJAMINS V R, FENSEL D. Knowledge engineering: Principles and methods [J]. Data & Knowledge Engineering, 1998, 25(1/2): 161. [百度学术]