宁夏葡萄酒产业已成为宁夏扩大对外开放、发展现代农业、改善生态环境、巩固脱贫成果,推进城乡融合发展和农业供给侧结构性改革的重要产业,作为自治区“六特”产业之首[1]。然而,其在发展过程中仍面临一系列问题,产区酒庄在信息化建设过程中,产生大量有关葡萄园种植管理、葡萄酒酿造、窖藏、销售的数据,这些数据来源于不同的业务系统,数据独立、分散、异构,得不到有效利用[2]。因此,针对性地有一些解决措施,如完善和优化产区营销体系[3],提高消费者对区域品牌的忠诚度[4-5],将酒庄应结合产区特色提高产业软实力。然而,现有研究仅给出了宏观层面的建议措施,缺乏操作层面所需要的技术支持。
知识图谱(knowledge graph,KG)是一种含有丰富语义信息的网络图,可以对分散的数据进行整合和规范,提供有价值的信息,为下游的应用提供数据支持[6],其主要有三部分组成:实体、关系和属性,这些数据存储在图数据库中,以可视化的方式进行数据展示。知识图谱是实现大数据资源化、知识化和普适化的有效工具,作为知识的表示形式,已经在语义搜索、智能问答、数据分析等方面发挥出越来越大的价值[7-9],目前已有应用于农业方面的研究报道,杨硕等[10]通过搭建葡萄种植多模态的知识图谱,构造葡萄种植问答数据集开展试验以增强知识问答准确性,许多等[11]基于一种农业时空多模态的知识图谱输出农业时空多模态的结果指导农业施肥比例,实现田间养分精细化管理。我国对葡萄酒产业的知识图谱研究匮乏,亟需构建针对贺兰山东麓葡萄酒产业发展的知识图谱,指导产区葡萄酒产业发展。
本文从数据获取、本体层构建、知识抽取、知识融合以及应用层五个方面进行设计,提出面向贺兰山东麓葡萄酒产业构建垂直领域知识图谱的方法。基于知识图谱,深度挖掘并融合全产业链数据,在专家问答系统和自动客服两个方面提供知识服务。以期提高宁夏产区葡萄酒产业数字化水平,早日实现贺兰山东麓葡萄酒产业“当惊世界殊”的目标。
知识图谱构建过程包括五部分:数据获取、本体层构建、知识抽取、知识融合以及应用层。知识图谱的逻辑框架包括模式层和数据层两部分。根据构建领域知识图谱模式层和数据层的先后,可以将其分为自顶而下、自底而上和混合方式。其中自顶而下的方式常用于构建领域知识图谱,先构建知识图谱的本体模型,然后对本体模型定义的实体、属性、关系进行知识的抽取[12]。
数据获取是从数据源获取数据的过程,对获取的数据进行预处理,清理噪声数据、冗余数据、缺失数据、不确定数据以及不一致数据[13]。知识图谱本体层用来描述知识图谱的概念模板,实现对数据的规范与整合。本体层位于数据层之上,通过本体库来规范数据层之间的关系。知识抽取是实现自动化构建大规模知识图谱的重要技术,其作为构建知识图谱的关键步骤,命名实体识别(named entity recognition,NER)以及关系抽取(relation extraction,RE)作为信息抽取的两项关键部分[14]。通过该技术得到属性三元组(实体,属性,属性值)和关系三元组(实体,关系,实体)[15],三元组是知识图谱的基本组成单元。由于经过知识抽取得到的三元组均独立且分散,部分三元组存在重复,同一实体名称不能指向同一现实实体,三元组之间的关联不明确,整理三元组,进行知识融合。知识融合是解决知图谱异构问题的有效途径,其可以融合各个层面的知识,包括融合不同知识库的同一实体、多个不同的知识图谱、多源异构的外部知识等,并确定知识图谱中的等价实例、等价类及等价属性,实现对知识图谱的更新[16]。应用层指把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制展示出来,为复杂问题提供切实、有价值的决策参考,应用主要集中在专家问答、自动客服、农业信息检索等。
贺兰山东麓葡萄酒产业知识图谱构建需要面向“产前(葡萄园管理)-产中(酿造)-产后(销售)”全产业链,专业性较强,贺兰山东麓葡萄酒产业知识图谱的构建流程见图1。由图1可知,对产区各类数据进行收集整理,在专家指导下构建知识图谱模式层,对实体、属性和关系进行定义,以此确定层级清晰的知识结构。对部分数据进行人工标注作为训练集,通过深度学习方式进行知识抽取,将其转化为三元组,作为知识的基本单元,通过知识融合层,对三元组实体进行消歧,得到贺兰山东麓葡萄酒产业知识库,把数据导入到Neo4j图数据库,最终形成贺兰山东麓葡萄酒产业的知识图谱。
图1 贺兰山东麓葡萄酒产业知识图谱的构建流程
Fig.1 Construction of knowledge graph of wine industry in the eastern foothills of Helan Mountain
构建贺兰山东麓葡萄酒产业知识图谱,首先通过葡萄种植酿造领域网站、种植酿造百科全书、酒类供应平台和综合电商平台进行数据收集。由于贺兰山东麓产区和全国其他产区在政策、自然地理等方面存在很大差异,因此将宁夏葡萄酒产业政策文件作为收集的数据集。根据产区土壤,气候条件,选择适合产区发展的葡萄品种,指导酒庄科学、绿色、智慧种植,为其提供专业化服务。将数据按照产业链划分,分为三类:产前数据、产中数据、产后数据。产前数据和产中数据分别来自于葡萄种植和酿造领域专业书籍[10]。针对此类数据,将其转换为电子文档,人工剔除目录、参考文献和封面等与产业数据无关的内容。产后数据来自于电商类平台、产区葡萄酒管理委员会网站以及酒庄官网。采用Python3.7的Scrapy框架爬取此类数据,剔除冗余、与产业知识关联度低的内容[17]。
知识图谱本体层用来描述贺兰山东麓葡萄酒产业知识图谱的概念模板。语义丰富、结构清晰的领域本体对下游任务以及后续的数据填充至关重要。目前在葡萄酒产业领域还没有公开的完整领域的知识本体。由于涉及专业知识深,在领域专家指导下构建产区葡萄酒产业本体模型,实现对数据的规范与整合。本体模型是对产业类目结构的细化,展现了实体之间的关系及属性。采用六步“循环法”构建产区葡萄酒产业知识图谱本体模型[18]。主要步骤如下:
①需求分析:根据“专家问答”和“自动客服”两个应用场景,构建的知识图谱领域为产区葡萄酒产业,知识范围包括葡萄园管理、酿造以及销售三部分。②选择可复用的本体:查阅葡萄酒产业相关的高质量文献,改进并复用葡萄种植领域的本体,包括葡萄品种、病害、虫害、栽培技术、地点六个子领域,以及病害、栽培技术对应的子要素[7]。③建立领域核心概念集:根据步骤①确定的知识范围,分析包含的概念及术语,葡萄园管理包含果园风土、葡萄品种、水肥管理、整形修剪、病虫害防治等52个核心概念。酿造包含发酵前果实处理、发酵、陈酿、装瓶等27个核心概念。销售包含文化、价格区间、商品名称、酒庄名称、感官属性等71个核心概念。④建立概念分层结构:分析概念间存在的层级关系,例如葡萄园管理分为果园风土、葡萄品种、水肥管理、整形修剪、病虫害防治、灾害预防和采收7个子类,酿造分为发酵前果实处理、发酵、陈酿和装瓶4个子类,销售分为价格区间、商品名称、酒庄名称、感官属性等子类。每一子类分为若干小类,依次递推。首先根据步骤①~④确定了葡萄酒产业类目结构,见图2a。⑤定义本体属性:确定了概念分层结构后,进一步定义和描述概念类的对象属性和数据属性,对象属性描述类间关系,例如,三元组(产区,管理,酒庄)表明“管理”的定义域为“产区”(头实体),值域为“酒庄”(尾实体)。数据属性描述概念类与数据之间的关系,例如,三元组(商品,感官属性,xsd:string)表明“商品”的属性“感官属性”的定义域为“商品”类,值域为string类型。⑥根据本体属性构建本体模型:实体属性以及实体间关系的数量决定知识图谱的丰富程度。进一步描述了类的对象属性和数据属性,根据步骤⑤~⑥构建葡萄酒产业本体模型,见图2b。
图2 贺兰山东麓葡萄酒产业类目结构(a)及知识本体模型(b)
Fig.2 Category structure (a) and knowledge ontology model (b) of wine industry in the eastern foothills of Helan Mountain
由图2b可知,圆形代表实体类型,矩形代表属性,箭头代表实体之间的关系,本体模型包括12个实体和它们之间的12种关系。“酒庄”有3种数据属性,分别为“列级”、“地理位置”和“文化理念”。“品牌”有“商品内涵”数据属性。“商品”有3种数据属性,分别为“感官属性”、“荣誉”、“价格区间”。根据领域专家意见对知识本体模型进行迭代改进。
由于产区葡萄酒产业知识图谱属于领域知识图谱,知识范围以及下游任务明确[19],因此采用自顶而下的方式进行知识抽取。基于贺兰山东麓葡萄酒产业的数据特点,对于B2C网站中关于葡萄酒属性的结构化数据,采用将数据库转换为RDF(relational database to RDF,D2R)方法将其映射为知识图谱中的数据,进而转化为三元组[20],对于农业网站中的表格数据的半结构化数据,采用封装(Wrapper)的方式进行知识抽取[21]。对于政府政策文件,产区地理特点的非结构化数据,采取深度学习的抽取方法。为更加清晰的划分实体边界,采用BIEO的实体标注方式。对于嵌入层,首先基于BERT模型对每个字符编码,使其能够融合更多上下文语义信息[15]。对于编码层,基于目前主流的双向长短期记忆(bidirectional long short-term memory,BILSTM)网络进行深层次特征提取,该模型克服了传统循环神经网络(recurrent neural network,RNN)梯度消失和梯度爆炸问题[22]。对于解码层,通过条件随机场(conditional random field,CRF),其考虑邻域中标签之间的相关性并联合解码,提高序列标签的正确性[14]。因此构建产区知识图谱采用BERT+BILSTM+CRF模型进行实体抽取,模型结构如图3所示。
图3 BERT+BILSTM+CRF模型结构
Fig.3 BERT+BILSTM+CRF model structure
知识融合主要包括实体对齐和实体消歧两个关键技术。实体对齐是知识融合的主要部分,旨在发现相同语义的实体。实体对齐的方法有三种分别是传统概率论模型、机器学习和神经网络。传统概率模型根据属性相似性,将实体对齐任务看成概率分类模型,通过计算相似度进行实体对齐。在机器学习中,将实体对齐看成二分类任务,主要分为监督学习和无监督学习。在监督学习中,通过人工标注对预料进行训练,在未标注的预料中对齐分类,实现实体对齐。本文通过神经网络的方法实现实体对齐,将知识表示为低维嵌入,通过计算低维嵌入之间的相似性实现对齐实体。
实体消歧指的是对消除不同文本中实体指称的歧义,将其映射到实际的实体上,即消除一词多义的问题。在得到的三元组中往往存在着不同的实体指称指向同一个实体,同一个实体存在着多个指称的问题,通过实体消歧可以有效的清洗实体间模糊关系,提高下游知识检索的效率与质量,结合贺兰山东麓葡萄酒产业的特点,本文基于语义和上下文相似度的命名实体消歧方法,计算各个指称的语义相似度,提高实体消歧性能[23]。
经过知识抽取和知识融合两个步骤后,得到贺兰山东麓葡萄酒产业的知识库。然后对知识进行存储,与传统的SQL等关系型数据库相比,图数据库是一种针对知识图谱而设计的数据存储技术,显著提升了知识关系的可读性[24]。Neo4j图数据库利用图形结构存储数据,通过Cypher语句查询多维关系,主要包括节点、关系和属性三部分,能够存储更丰富的语义信息,对大量复杂的数据关系存储和管理[25]。近年来,Neo4j图数据库在知识图谱中数据存储占据绝对优势[26]。因此,本文采用Neo4j图数据库作为存储贺兰山东麓葡萄酒产业知识的工具。将处理好的数据导入到Neo4j数据库,将其连接到下游具体任务。
通过以上步骤初步构建了贺兰山东麓葡萄酒产业知识图谱,产区知识并非一成不变,伴随着酿造技术升级、酒庄产品更新和消费市场变化,需要增删属性和实体,对数据库不断更新迭代,使语义网络保持时效性与丰富性。得到贺兰山东麓葡萄酒产业知识图谱之后,基于知识图谱开发相关应用,提供专家问答、自动客服两项关键服务,使其为贺兰山东麓葡萄酒产业发展发挥更大的价值。
基于贺兰山东麓葡萄酒产业知识图谱的专家问答系统,有助于帮助酒庄快速、精准地解决种植及酿造领域的专业问题,能够对产业发展提供指导与决策支持[27]。贺兰山东麓葡萄酒产业知识图谱汇集了大量的果园风土、葡萄品种、水肥管理、整形修剪、病虫害防治、灾害预防和采收专业知识、发酵前果实处理、发酵、陈酿和装瓶等相关数据,在此数据基础上进行知识推理。可以对酒庄种植中的病虫害,提供所需药物的种类,剂量以及施药时间的相关指导[28],对可能发生的灾害做出预警[29],降低损失。酒庄工作人员只要输入易读的自然语言,便可得到针对性答案,对种植及酿酒出现的问题提供专业解答,极大程度提高产区种植与酿造的知识检索效率。同时,基于销售过程中产生的数据,进行大数据分析,深度挖掘消费者需求,识别产区葡萄酒在销售环节出现的问题,协助产区酒庄优化营销策略。产区葡萄酒产业知识图谱对产区发展提供决策支持,解决产区人才缺乏,促进产区发展。作为数字农业的一部分[30],问答系统对于促进产区葡萄酒产业的数字转型具有重要意义。
基于贺兰山东麓葡萄酒产业知识图谱的构建,将种植、酿造、销售等过程融合在一起,避免单一领域知识图谱的局限性[27],支持葡萄酒产业知识的精准检索以及关联知识的相关推送,满足消费者对个性化、多维性、动态性知识的需求[31],使消费者更加了解产区历史文化、风土人情、酒庄故事,以及产区产品。贺兰山东麓葡萄酒知识图谱汇集了大量的产品感官属性,如外观、香气、味道,以及文化属性,如酒庄历史、商标内涵和酒庄设计等知识,消费者通过输入对葡萄酒的偏好,即可得到满足其需求的产品推荐。同时提供存酒、醒酒、酒具选择、红酒礼仪、餐酒搭配等知识,自动客服系统可以与消费者互动交流,提高消费者体验感。基于产区葡萄酒产业知识图谱的自动客服,一方面,可以提供更加精细化、专业化的解答,另一方面,同时处理多个消费者的问题,提高客服平台运行效率,降低酒庄人工成本。消费者了解到葡萄酒所属酒庄的历史,酒庄建筑设计风格,酿酒工艺,不仅真切感受到一瓶酒从栽培种植到最终餐桌的全过程,而且可以提高产区葡萄酒品牌认同感及文化软实力。
本文面向贺兰山东麓葡萄酒产业发展实情,提出了构建产区产业知识图谱设计思路。将数据按照产前(葡萄园管理)、产中(酿造)、产后(销售)分类,构建的跨领域知识图谱将栽培、种植、酿造、物流、销售等过程融合在一起,避免单一领域知识图谱的局限性。针对不同的数据类型,采取不同的知识抽取方式得到三元组。对得到的三元组进行知识融合,得到知识库。将知识存储于Neo4j数据库,建立语义网络,最终得到贺兰山东麓葡萄酒产业知识图谱。
本知识图谱为产区发展提供更多的理论指导。对于消费者而言,基于知识图谱的自动客服功能,不仅满足更加多样化的消费需求,检索到适合自己需要的产品,在消费过程中,还可以了解葡萄酒的生产工艺及酒庄文化。对于酒庄而言,可以解决种植酿造技术人才稀缺问题,通过专家问答系统,可以找到针对性的解决措施。对于产区而言,有助于农业大数据分析,提高产区葡萄酒产业数字化水平。产区坚持科技支撑、创新发展,综合运用大数据技术,采集关键环节数据,构建数字化智能系统,实现葡萄酒生产、销售、流通全产业链条数字化。随着产区葡萄酒产业的发展,相关数据也会实时更新。持续关注本体构建,保证知识图谱的鲁棒性与专业性。
[1]植凤寅,唐志刚.“金融活水”润泽黄河流域生态保护[J].中国金融,2024(8):42-44.
[2]宁夏回族自治区人民政府办公厅.宁夏贺兰山东麓葡萄酒产业高质量发展“十四五”规划和2035年远景目标[EB/OL].(2022-02-08).https://www.nx.gov.cn/zwgk/qzfwj/202202/t20220208_3316559.html.
[3]穆维松,冯俞萌,吴晓倩,等.宁夏贺兰山东麓产区葡萄酒营销模式分析与发展建议[J].中国酿造,2022,41(8):246-251.
[4]张卫,李强.宁夏贺兰山东麓葡萄酒品牌策略研究[J].中国酿造,2024,43(1):267-270.
[5]王晶,吴晓丽,潘静,等.贺兰山东麓葡萄产业发展现状及品牌升级路径[J].中国果树,2022(2):93-98.
[6]YAN J H,WANG C Y,CHENG W L,et al.A retrospective of knowledge graphs[J].Front Comput Sci,2018,12(1):55-74.
[7]聂啸林,张礼麟,牛当当,等.面向葡萄知识图谱构建的多特征融合命名实体识别[J].农业工程学报,2024,40(3):1-10.
[8]王昊奋,漆桂林,陈华钧.知识图谱:方法、实践与应用[M].北京:电子工业出版社,2019:30.
[9]中国中文信息学会语言与知识计算专委会.知识图谱发展报告[R].(2022-08).https://www.cipsc.org.cn/DevelopmentReport/index.aspx
[10]杨硕,李书琴.多模态知识图谱增强葡萄种植问答对的答案选择模型[J].农业工程学报,2023,39(14):207-214.
[11]许多,鲁旺平,许瑞清,等.基于农业时空多模态知识图谱的水稻精准施肥决策方法[J].华中农业大学学报,2023,42(3):281-292.
[12]刘明鹏,王忠明,马文君.基于本体的造林树种知识图谱构建与应用[J].北京林业大学学报,2023,45(8):109-122.
[13]陈晓红,寇纲,刘咏梅.商务智能与数据挖掘[M].北京:高等教育出版社,2018:31-32.
[14]王红,李浩飞,邸帅.民航突发事件实体识别方法研究[J].计算机应用与软件,2020,37(3):166-172.
[15]胡杰,李源洁,耿號,等.基于深度学习的汽车故障知识图谱构建[J].汽车工程,2023,45(1):52-60,85.
[16]田玲,张谨川,张晋豪,等.知识图谱综述——表示、构建、推理与知识超图理论[J].计算机应用,2021,41(8):2161-2186.
[17]吴赛赛,周爱莲,谢能付,等.基于深度学习的作物病虫害可视化知识图谱构建[J].农业工程学报,2020,36(24):177-185.
[18]张文秀,朱庆华.领域本体的构建方法研究[J].图书与情报,2011(1):16-19,40.
[19]WANG Y,WANG Y.Citrus ontology development based on the eightpoint charter of agriculture[J].Comput Electron Agr,2018,155:359-370.
[20]张永威,张岩,唐新余,等.关系型数据的知识抽取和RDF转换框架及实现[J].计算机工程与应用,2022,58(17):213-223.
[21]付雷杰,曹岩,白瑀,等.国内垂直领域知识图谱发展现状与展望[J].计算机应用研究,2021,38(11):3201-3214.
[22]刘佳,边俊伊.基于混合深度学习的藏医古籍命名实体识别研究[J].现代情报,2023,43(11):37-46.
[23]ZHU G G, IGLESIAS C A.Exploiting semantic similarity for named entity disambiguation in knowledge graphs[J].Expert Syst Appl,2018,101:8-24.
[24]BESTA M,GERSTENBERGER R,PETER E,et al.Demystifying graph databases:Analysis and taxonomy of data organization,system designs,and graph queries[J].ACM Comput Survey,2023,56(2):1-40.
[25]赵雪芹,杨一凡,于文静.基于Neo4j图数据库的工程档案知识图谱构建及应用[J].档案与建设,2022(5):48-51.
[26]闫丽华.基于知识图谱的葡萄病虫害自动问答系统[D].杨凌:西北农林科技大学,2022.
[27]穆维松,刘天琪,苗子溦,等.知识图谱技术及其在农业领域应用研究进展[J].农业工程学报,2023,39(16):1-12.
[28]杨喆,许甜,靳哲,等.基于知识图谱的羊群疾病问答系统的构建与实现[J].华中农业大学学报,2023,42(3):63-70.
[29]唐荻音,丁奕州,王轩,等.知识图谱技术在预测与健康管理中的应用现状与研究展望[J].电光与控制,2024,31(2):1-11.
[30]侯琛,牛培宇.农业知识图谱技术研究现状与展望[J].农业机械学报,2024,55(6):1-17.
[31]闫永兰,张凯.大数据时代基于知识融合的客户服务模式及实施策略[J].商业经济研究,2022(11):63-65.
Construction of knowledge graph of wine industry in the eastern foothills of Helan Mountain in Ningxia