当前位置:首页 > 审计科研

AI赋能科技强审 大语言模型助推审计监督高质量发展

发布日期: 2025- 06- 06 11: 46 访问次数: 信息来源: 杭州市审计局
分享到:

单位:杭州市淳安县审计局

作者:余浩强、徐亮平、余文桦

摘要:习近平总书记在二十届中央审计委员会第一次会议中强调要如雷贯耳,坚持依法审计。如何提升法律法规的精准高效引用是实现助推审计监督高质量发展的重要路径。2023年以来国内人工智能技术跃迁式发展,各类大语言模型涌现,其中大模型的Langchain与大语言模型架构的本地知识库问答系统的技术路径带给课题组启发。本课题主要研究大语言模型辅助审计工作者完成智能法规索引,通过对法律法规系统整理、优化匹配算法、关联知识图谱等技术手段以提高大语言模型反馈的准确率。审计监督应当运用好数字技术和人工智能,积极探索智能审计发展,切实推进审计全覆盖。

一、引言

依法审计,是全面推进依法治国的必然要求和重要途径。习近平总书记在二十届中央审计委员会第一次会议中强调审计工作要做到三个如:一是如臂使指;二是如影随形;三是如雷贯耳,其中如雷贯耳要求必须苦练内功,坚持依法审计,发扬斗争精神,增强斗争本领,打造经济监督的“特种部队”,把问题查准、查深、查透。

一线审计人员在工作中频繁进行法律法规检索以确定法规依据,在主流搜索网站、法律文书网或者本地法规文件检索工具中,普遍面临着“单词检索”“检索结果范围偏广”“检索结果偏离审计领域”等诸多弊病。现阶段涌现的各类大语言模型,是人工智能领域一个重要组成部分,不仅可解决上述检索痛点,还有“对话问答式检索”“智能判断定性依据”等诸多优势。

时至今日,人工智能技术趋于成熟,大语言模型已在医疗、教育、法务系统中生产运用并已产生实效。大型语言模型是一种基于深度学习的自然语言处理技术,能够生成人类水平的自然语言文本。而知识图谱则是一种用于表示和管理知识的图形化数据结构,它将实体、属性和关系等信息以节点和边的形式组织起来,形成一个完整的知识体系。虽然大型语言模型和知识图谱各自都有其独特的应用场景和优势,但它们并不是互相替代的关系,而是可以相互补充和结合的。因此,研究大型语言模型与知识图谱的融合对智能审计研究领域具有重要现实意义。课题组积极探索人工智能技术在审计工作中智能法规检索实现方式,为广大审计工作者提供经验及思路,奋力谱写中国式现代化浙江新篇章。

二、AI强审理论框架

(一)审计业务流程分析

从审计实践看,我国国家审计的主要审计类型可分为:政府本级各部门和下级政府预算执行、决算和其他财政收支情况审计;领导干部责任审计,包括经济责任审计与自然资源资产离任审计,领导干部指行政机关、事业单位、国有金融机构、国有企业或国有资本占主导地位的企业等单位的主要领导;专项审计调查;重大政策跟踪审计;政府投资审计。

不同审计类型的审计业务流程总体遵循以下框架:审计计划阶段、审计准备阶段、审计实施阶段、审计报告阶段、审计整改督查阶段。标准化的审计业务流程有助于规范审计行为、提高审计效率、保证审计质量、防范审计风险。




图1 审计项目流程图

(二)审计业务流程中适用AI情况分析

审计业务中,AI不仅能应对诸多机械性、单一性、重复性工作,也能在科学训练下进行一些生成式、查询匹配式工作。如审前调查环节中的互联网环境中搜索被审计单位的正负面资料,审计实施环节审查围标串标过程中的文本相似度分析,审计实施环节大数据审计中的一些语句编写及查询操作;审计文书环节中智能生成审计通知书、审计报告等文书模板,根据审计取证单智能生成审计底稿,审计报告环节对审计问题适配违反法律法规的判定等。课题组基于审计业务流程各阶段适配各人工智能(AI)技术进行了系统性分析,详见表1:




表1 AI赋能审计监督全业务流程分析

(三)AI赋能审计法规智能检索可行性分析

1.技术性分析

从技术层面分析,融合人工智能(AI)技术到国家审计工作中是完全可行的,并且具有以下几个方面的技术优势:

(1)数据处理能力。AI技术能够处理和分析大规模的数据集,这对于审计工作中对财务记录和其他相关数据的分析至关重要。

同时AI算法擅长识别数据中的模式和趋势,这有助于审计人员快速发现潜在的异常或错误。

(2)自动化流程。AI可以自动化许多审计任务,如数据录入、核对和初步分析,从而释放审计人员从事更复杂的分析工作。

AI系统在执行重复性任务时能够保持高度的准确性和一致性,减少人为错误。

(3)自然语言处理。AI的自然语言处理能力可以帮助审计人员理解和分析非结构化数据,如合同文本、报告和其他文档。一是可以进行文本规范性检查,如审计文书格式、标点校验。二是法律法规匹配,使用AI技术的学习能力,让其学会对审计查出问题自动匹配结果符合相关法规和标准。

2.经济性分析

目前市面上较为成熟的与法律法规相关的自然语言理解类AI产品有北大法宝和ChatGLM。北大法宝旗下出版“法宝新AI”,该功能采用自然语言处理、知识图谱等前沿技术对法律词汇进行识别、联想和可视化辅助检索,快速提炼并定位专业法律词汇,缩短检索操作时间。使用“法宝新AI”需开通会员账号,官网报价是单人3600元/年,且单账号错峰登录使用,以200人计算,一年费用72万元。清华大学旗下ChatGLM大语言模型ChatGLM-130B,采购价为120万元/年,且为通用大模型,若对审计领域二次研发,则还需一笔费用。

上述两个代表性的法律服务,并不能特定针对审计行业开发,因此在实际运用中,审计领域适配程度有待提升。相比之下,采用专业技术团队对开源大模型进行适配审计领域研发,成本耗费更加经济,且研发过程中对审计知识体系与AI交互反馈更加适用于浙江审计情况。

另外,数据安全无法简单地用经济费用对比进行衡量。

3.安全性分析

人工智能不论是自然语言理解,还是计算机视觉、自动程序设计等,部署方式都可归为本地部署和云端部署。以大语言模型为例,一是本地部署架构,核心风险项是大模型或者库存在“开源陷进”。即可能存在后台互联网传输数据情况,在使用这类大模型或库处理审计相关工作时会存在数据安全隐患;二是云端部署架构,这类架构中使用的大语言模型主要是部署在上级审计机关的设备中,利用专网环境为下级审计机关提供计算服务,在这样的架构下,注重各环节的等保密评工作后安全性会得到保障;三是在线访问,即直接在大模型网站上注册使用其服务,这样的方式风险极大,因为目前开放的网站访问式大语言模型几乎都会对用户上传的数据进行分析作为训练和迭代语料,若这些数据设计审计秘密,后果不堪设想。

为数据安全,目前理论的两种方案概述如下:

1.端口统一部署:即大语言模型在厅级部署,审计人员通过专网环境传输与大语言模型的提问与解答。输入问题时进行涉密检测,使用专网环境传输,大模型处理后结果以法规名及条数反馈输入问题,同时在传输过程中可以对法规名称、条款序号使用加密技术,达到数据安全双保险。

2.审计人员本地运行:即在审计人员的终端离线部署大模型,并定期更新升级确保用户体验。采用离线部署大模型,一是对于审计人员终端设备需要具有一定性能,可以采用硬件升级、优化系统等形式;二是量化大模型,减少占用内存、显存等。通过离线部署方式,将数据泄露风险降到最低。

三、课题研究理论分析

(一)背景意义

1.政治站位。依法审计,是全面推进依法治国的必然要求和重要途径。习近平总书记在二十届中央审计委员会第一次会议中强调审计工作要做到三个如:一是如臂使指;二是如影随形;三是如雷贯耳。其中如雷贯耳要求必须苦练内功,坚持依法审计,做实研究型审计,发扬斗争精神,增强斗争本领,打造经济监督的“特种部队”,把问题查准、查深、查透。

习近平总书记在中共中央政治局第九次集体学习时强调人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。

《浙江省审计事业发展“十四五”规划》中有实现科技强审目标,审计“整体智治”基本实现,新一代信息技术与审计深度融合,审计机关数字化转型加快推进。这就要求强化数据赋能,充分运用现代信息技术开展审计,实现审计数据资源集中化、业务数字化、方式智能化和决策科学化,科技强审“智治”机制基本建成。

2.审计历史沿革。1982年12月4日,中国实行审计制度被写入《中华人民共和国宪法》,中国特色社会主义审计事业的长远发展自此奠定了基础[2]。《中华人民共和国宪法》确立了中国的审计体制,也确立了中国审计监督的基本原则。审计机关坚持依法审计、独立审计的原则,依照法律规定独立行使审计监督权,不受其他行政机关、社会团体和个人的干涉。据此,国务院于1983年9月15日正式成立了中华人民共和国审计署,中国的审计事业正式步入正轨。1994年8月31日,《中华人民共和国审计法》正式颁布,1995年1月1日正式实施,审计法的出台实施进一步健全了审计监督机制,完善了审计监督职责,强化了审计监督手段,规范了审计监督行为。2018年,为加强党中央对审计工作的领导,构建集中统一、全面覆盖、权威高效的审计监督体系,更好发挥审计监督作用,组建中央审计委员会,作为党中央决策议事协调机构。2022年党的二十大报告提出:加强《中华人民共和国宪法》实施和监督,健全保证《中华人民共和国宪法》全面实施的制度体系,更好发挥《中华人民共和国宪法》在治国理政中的重要作用,维护《中华人民共和国宪法》权威[3]。健全党统一领导、全面覆盖、权威高效的监督体系。党的二十大报告指出,坚持依法治国、依法执政、依法行政共同推进,坚持法治国家、法治政府、法治社会一体建设。从法治政府建设来看,让权力在阳光下运行,规范政府行为走向法治轨道,这一目标的实现,离不开对政府行为的监督。审计监督则是立足于行政系统内部,从专业角度出发,推动法治政府的实现,扮演着重要角色。

审计机关从无到有,从最开始的财政收支审计,相关联法律法规较为单一,常见有如《中华人民共和国会计法》《中华人民共和国税收征收管理法》《中华人民共和国预算法》《中华人民共和国政府采购法》《中华人民共和国企业国有资产管理法》等法律。

1999年5月,中共中央办公厅、国务院办公厅印发《县级以下党政领导干部任期经济责任审计暂行规定》和《国有企业及国有控股企业领导人员任期经济责任审计暂行规定》,审计工作涉及的法律法规范围大幅度拓宽。

2015年4月,中共中央、国务院印发的《关于加快推进生态文明建设的意见》第25条提出“对领导干部实行自然资源资产和环境责任离任审计”,审计融入了自然资源相关法律法规。审计工作围绕公共资金、国有资产、国有资源和领导干部履行经济责任情况以实际行动践行审计全覆盖,全面履行审计监督职责,极大推动了审计监督发挥推进国家治理体系和治理能力现代化的功能。

2023年是审计机关成立40周年,审计工作者们40年辛勤耕耘已汇集了海量的审计取证单、审计报告、审计方案等珍贵的审计领域知识结晶,是审计事业高质量发展的璀璨瑰宝。

(二)审计工作者诉求

审计工作主要涉及法律法规收集工作,主要可分为三个阶段。

1.审前调查阶段必备工作,审前调查是审前准备阶段的一项重要内容,是指在下发审计通知书之前,就审计的内容、范围、方式和重点,到被审计单位及相关单位进行调查了解其基本情况,以掌握第一手资料的一项活动。除了三定方案,法律法规依据也是权威的规范被审计单位权力运行的政策依据,通过与被审计单位相关的法律法规收集,逆推被审计单位的职责边界,同时根据其权力运行限定条款或硬性要求,初定审计方案内容版块,可为审计工作的开展起到事半功倍的效果。

2.审计取证阶段,该阶段是审计工作中最核心的一环,审计工作者以取证单为载体,将审计查出的问题以“问题事实、定性、法规依据”记录在取证单上,是形成审计报告最基础的单元,是审计工作质量好坏的核心因素,也是审计风险控制的关键节点。其中取证单一般分为基本情况取证单和问题类取证单,基本情况取证单作用是记录被审计单位审计事项的基本信息,作为审计底稿及审计报告的信息来源支撑,这类取证单不涉及法规依据。问题类取证单则要求反映审计发现的问题,对于表述问题的来龙去脉要准确,相关数据要精准,同时要找准问题定性及法规依据,是审计报告、审计移送、审计决定等审计文书的第一手资料,因此在选取问题定性及法规依据时应慎之又慎。

3.报告撰写阶段,审计报告撰写要求每项问题对应定性定责,并应用对应的法律法规,这部分工作与取证单编写阶段重合度较高。部分审计报告问题涉及多张基本情况取证单与问题类取证单组合情况,因此还需要再次核验法规依据。同时,审计报告质量把控会有的法规复核一环,最主要的工作是对于反映问题的法规复核,这一步中,同样需要对法律法规进行核对。

(三)课题实现意义

审计机关成立40余年,已汇集海量的审计领域专业知识,以传统的学习实践方式,是难以将审计领域知识结晶融会贯通并用于实际的审计工作中。其中审计问题与法律法规引用工作与审计质量息息相关,引用精准与否直接影响审计报告质量,也与审计风险呈负相关关系。时至今日,人工智能技术趋于成熟,大语言模型已在医疗、教育、法务系统中生产运用并已产生实效,课题组也在积极探索人工智能技术在审计工作中的运用,填补大语言模型在审计领域科研短板,助力加速审计现代化的进程,推动审计高质量发展。

四、AI审计法规检索系统前期准备工作

(一)法规检索数字化发展现状的调研

随着科技发展,时代的进步,审计工作者对于法律法规检索数字化发展也历经了几次变迁,从最开始的自主检索,到互联网网络搜索,已经极大提升了工作质效。为了进一步贯彻依法治国,全国人大常委会牵头组建国家法律法规数据库,法治工作迈向新台阶,再到审计署为了数字化赋能科技强审,推动中国时代经济出版社研发审计问题定性检索系统,为每一位审计工作者提供坚强的数字化支撑。

1.自主检索。审计法规检索工作从最开始的翻阅纸质法律法规文件、审计相关法规汇编等书籍手册,到计算机普及,审计工作者汇集各类电子版法律法规及审计相关法规汇编。同时计算机的出现,增加了审计方案、取证单、报告等审计资料的汇集,利用计算机自带搜索程序或自编写的计算机检索小程序,可以达成审计法规知识的快速准确检索。自主检索方式虽然架构简单,前期积累过程相对漫长,但操作简单方便,搜索到的内容“含金量”极高,一般都可直接套用。

2.网络搜索。一是通过百度等搜索引擎搜索。以百度为例,随着近年来互联网搜索技术的不断发展,百度对较长审计问题作出较精确的匹配识别,加之互联网不断汇集的海量审计知识,可较准确地根据输入审计问题搜索到相对应的法律法规。其优点是方便快捷,时效性高,缺点是搜索引擎最终呈现的结果和内容可能太发散,还需要审计工作者进一步甄别利用,且存在部分法律法规被收录网站要求付费下载弊端。二是通过知网等论文网站搜索。以知网为例,审计工作者在知网中可以精准或模糊检索论文标题、内容、期刊等,搜索到与审计工作相关的论文。其优点是搜索到的信息相对搜索引擎更加权威、专业,缺点是实效性、便捷性相对较低。

3.国家法律法规数据库,是由全国人大常委会牵头,自2011年十一届全国人大常委会研究立项开始,历经三届全国人大常委会,于2021年2月24日国家法律法规数据库正式上线。该数据库总共收录了17693件法律法规条文,其中《中华人民共和国宪法》和现行有效法律275件,法律解释25件,有关法律问题和重大问题的决定147件,行政法规609件,地方性法规、自治条例和单行条例、经济特区法规16000余件,司法解释637件,涵盖了中国特色社会主义法律体系最主要的内容。国家法律法规数据库的建成是网络强国、促进法治建设与信息化工作的有机融合,为社会公众提供了便捷的法治服务,是推进全面依法治国的实际行动。对于审计工作者而言,该数据库提供了精确查询和便捷下载的功能,极大提高了法规搜索的效率,同时,该数据库附带法律效力位阶、制定机关、公布日期、施行日期及时效性信息,能为审计定性、审计报告复核等工作提供重要参考依据[4]。

国家法律法规数据库作为法律法规检索平台,其功能和内容建设尽善尽美,对审计工作也提供了极大的便利。在日常审计工作中,审计工作者仍期待着进一步满足两个诉求:一是期盼法规文献内容搜索再精确。目前平台能精确对法律法规标题关键词搜索,对正文也能模糊搜索,碍于算法问题,对正文的多关键词、与正文略带偏差的描述等反馈效果不是很理想;二是期盼法律法规搜索结果与审计经验相关联。审计工作者会更多使用搜索引擎与数据库手工联动的方式搜集审计经验,如在百度中搜索审计发现的问题简述,将搜索到的法规在数据库中检索,通过审计问题与法规条文的核验后作出自己的审计判断。之所以采取这样看似复杂的操作步骤,是为了避免法律法规已失效、法律法规已修订、法规依据为外省法规而不适用等一系列问题。因此,审计工作者仍期盼着与审计业务集成化更高的一个法律法规平台。

4.审计问题定性检索系统。“审计问题定性检索系统”是由中国时代经济出版社有限公司专家团队与法律出版社及技术开发公司共同研发的审计数字创新产品。中国时代经济出版社有限公司系审计署直属单位,前身为中国审计出版社、中国时代经济出版社。为贯彻落实中宣部《关于推动出版深度融合发展的实施意见》,根据出版社媒体融合发展的总体要求,中国时代经济出版社有限公司充分利用自身专业权威的内容资源,成立数字创新部,合作研发“审计问题定性检索系统”等系列数字化内容产品,致力于服务基层审计机关开展相关审计工作。“审计问题定性检索系统”系统梳理审计常见问题、常用法律法规、审计方案思路、审计整改依据等内容,利用大数据智能关联和法规条目级快速检索技术制作的服务器端检索系统。

“审计问题定性检索系统”将审计常见问题与常用法律法规关联,为审计工作者提供了法律法规查询的基础服务,同时还提供了审计问题对应法律法规条文的查询服务。为审计工作提供了极大便利,目前系统在各省份推广过程中广受一线审计工作者好评。

(二)大型语言模型技术研究现状分析

1.大语言模型研究进展

大型语言模型(Large Language Model,缩写LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等[5,6]。近些年,研究人员通过在大规模语料库上预训练 Transformer 模型产生了预训练语言模型(PLM),并在解决各类 NLP 任务上展现出了强大的能力。并且研究人员发现模型缩放可以带来性能提升,当参数规模超过一定水平时,这个更大的语言模型实现了显著的性能提升,并出现了小模型中不存在的能力,比如上下文学习。为了区别于PLM,这类模型被称为大型语言模型(LLM)。它能够处理和理解大量非结构化数据,通过不同架构的某种组合与知识图谱中包含的结构化知识相融合,从而提高上下游任务的性能。

从 2019 年的谷歌T5到OpenAI的GPT系列[7],参数量爆炸的大模型不断涌现。 可以说,LLM模型的研究在学界和业界都得到了很大的推进,尤其2022年11月底,OpenAI的对话大模型ChatGPT出现更是引起了社会各界的广泛关注。与此同时国内大型语言模型发展也呈现出百花齐放态势。国内代表性的厂商相继发布自己的大型语言模型。从百度的“文心一言”、阿里巴巴的“通义千问”、腾讯的“混元大模型”,到近期科大讯飞刚发布的“星火大模型”等。这些模型都具备亿级训练参数,并在各自的领域发挥着巨大影响力。

2.基于大语言模型的知识图谱问答研究进展

传统知识图谱问答方法以自然语言问题为输入,以知识图谱中的答案或指向答案的形式化查询为输出,根据技术路线的不同通常可以划分为基于语义解析和基于检索排序两类方法。

基于语义解析的方法旨在将输入的自然语言问题转译为形式化查询语言。早期方法主要使用归纳逻辑编程、同步上下文无关语法、句法成分解析和依存组合语义等方法解析语义,深度学习兴起后,则能通过神经网络直接训练输入问题到目标形式化查询的映射。

基于检索排序的方法把知识库问答看作是一个语义匹配的过程,依赖表示学习模型将自然语言问题转换为低维空间中的数值向量,而知识图谱中的实体、概念、关系等也能被表示为同一语义空间的数值向量,从而将问答过程转换为语义相似性匹配过程。

近年来,预训练模型(Pre-trained Language Model,PLM)被广泛应用到知识图谱问答任务。根据使用PLM方式的不同,可将其分为表示学习阶段(representation learning)和提示学习阶段(prompt learning)。在表示学习阶段,人们关注到PLM(例如BERT、BART等)从文本语料中学习到强大的表示能力,可以将输入问题与知识图谱信息编码到统一的向量空间,提升传统方法的语义解析和检索匹配性能。到了提示学习阶段,人们发现PLM无须进一步微调就能够通过提示完成下游任务。一些基于提示工程(prompt engineering)的无监督知识图谱问答方法也相继出现[7]。

随着以ChatGPT为代表的大语言模型(Large Language Model,LLM,简称大模型)在自然语言处理领域取得成功,其展现出的自然语言理解、对话,以及调用自身知识的能力令人印象深刻。因此,大模型在知识图谱问答领域的应用逐渐脱离PLM成为一个独立的研究热点。现有知识图谱问答研究对大模型的探索主要关注以下思路:一是将大模型自身视作知识图谱,探索其调用自身知识回答问题的能力;二是使用知识图谱增强基于大模型的知识问答。

(1)大模型自身作为知识库的问答。以ChatGPT为例[8],许多大模型的训练语料包含了维基(Wikipedia)等百科知识资源,使这类大模型看上去像是一个自带自然语言交互能力的大型知识库。因此,大模型是否能够取代传统知识图谱成为一个值得讨论的问题。在开放域知识问答任务上对ChatGPT以及GPT家族进行了评估,从问答准确性、稳定性(一致性)、鲁棒性等多个测试角度进行了考察。大模型在一些问题多样性和复杂度较低的问答数据集上(例如LC-quad2、WQSP、GraphQ、MKQA等)已经追上或超越了传统模型。但进一步的面向功能的测试表明,大模型作为一个问答模型并不能为输入问题稳定地提供准确的答案,并且在处理涉及日期、数值计算等问题时表现糟糕。这意味着现阶段大模型还无法直接替代传统知识图谱处理问答任务。引入提示或思维链提示(chain-of-thought prompting),可以使大模型在原本不擅长领域回答问题的能力得到显著改善。这表明,后续围绕提示的研究可能是一个能使大模型有效应用于知识图谱问答的方向。

(2)知识图谱增强的大模型问答。研究者们已经发现大模型的内部知识存在不足或不正确的情况,但是微调大模型以更新内部知识所需的成本过于高昂。因此,将已有的、可靠的知识加入大模型是一个值得探索的方向。一些研究者探索了如何在问答交互中添加知识图谱中与问题相关的知识作为提示[9]。从已有的知识图谱中检索出与问题相关的事实(包括实体和三元组),并将这些事实作为提示添加到输入问题之前[10]。在相似的思路下,有研究者使用一个知识图谱问答(Knowledge Graph Question Answering,KGQA)模型从知识图谱中挖掘作为提示信息的三元组[11]。二者的实验结果都证明了这种方式能有效地将目标知识传递给大模型,并且显著提升了问答性能。

(三)知识图谱构建技术研究现状分析

知识图谱是一种结构化的语义知识库,通常以符号化的形式来阐述存在于物理世界中的概念与相互关系。知识图谱的基本组成单位为三元组,其表现形式主要分为两种:“实体–关系–实体”,以及实体及其相关属性–值对。不同实体之间彼此通过关系进行连接,构成一个复杂的网状知识结构。这种结构使得信息能够更加直观和有组织地表示,从而支持复杂的数据查询和语义推理,广泛应用于搜索引擎、推荐系统、自然语言处理等领域。

知识图谱发展历程大致可以分为以下三个阶段:第一阶段,基于本体论。自20世纪80年代到90年代,知识表示主要基于本体论(Ontology),即用一套共享的概念及其相互关系来定义领域或应用中的知识,形成结构化的知识体系。第二阶段,基于语义网。从20世纪90年代到21世纪初,随着物联网web技术的蓬勃发展,人们开始使用语义网技术来增强Web上的知识表示,从而增强其可理解性和可互操作性。尽管语义网技术可以实现数据的跨领域和跨平台集成和检索,但是其仍然需要人为进行编写、维护本体和元数据,使得人工成本较高,难以覆盖Web上所有领域和应用。第三阶段,基于知识图谱。自2000年至今,人工智能和机器学习技术得到了迅猛发展进步,因此知识表示开始利用知识图谱(Knowledge Graph)技术来自动地从Web网络上获取结构化和半结构化的知识,并对其进行整合、存储与利用。

(1)实体抽取研究现状

实体抽取又被称为命名实体识别,是自然语言处理领域一项关键基础任务,近年来被广泛应用于各种领域研究及应用中。在实体抽取的历史发展进程中,有三个关键的重要节点,分别为基于词典和规则的抽取方法、基于机器学习的抽取方法和基于深度学习的抽取方法。

基于词典和规则的抽取方法是最为传统的方法,该方法首先利用实体词典来匹配句子中的实体词汇,之后通过人为归纳总结的规则进行筛选、判断命名实体类型。将词典与规则相结合,可以令实体抽取的方法变得更为灵活,提高结果的准确性,其优势在于速度快,精度高,尤其适合于小规模的文本识别。但该方法也存在一些缺点:首先是词典的完备性难以保证,其次人为进行规则的总结与编写使得人力成本较高,并且对于复杂的实体关系难以进行处理,还无法适配其他语言场景。

为了规避基于规则和词典的抽取方法中的缺陷,研究人员开始使用基于机器学习的抽取方法。该方法利用大量的标注数据进行模型训练,利用训练好的模型对待识别文本进行实体抽取。机器学习算法中常用的算法有随机森林、支持向量机和隐马尔可夫模型等。基于机器学习的抽取方法,其优势在于可以通过大量数据训练以学习语义和语法特征,并从中获取不同实体特征中差异和规律。因此该方法可以获得较好的识别效果。

随着计算机软件和硬件技术的发展,基于深度学习凭借其可以自动学习文本中的语法和词汇特征成为命名实体识别的主流方法。基于深度学习的命名实体识别算法基本都引入深层神经网络(Deep Neural Net,DNN)作为语义编码器对特征提取,替代了原有的特征工程,并取得了比基于机器学习抽取方法跟好的效果。其中一些代表性的工作如下,Lample等[12]人构建了Bi-LSTM-CRF的神经网络架构模型来抽取命名实体词汇。随着BERT和Transformer的出现,研究人员开始使用BERT对句子中的token进行向量编码,然后通过分类器进行分类,获得了不错的抽取结果[13,14]。Li等提出了一种FLAT模型,该模型在Transformer的基础上添加位置编码来融合词典信息,因其支持并行计算,所以相较于之前的模型其推断速度得到了极大提高[15]。

(2)关系抽取研究现状

关系抽取方法的发展历程,也可分为三类,分别是基于传统规则和模板、基于统计机器学习和基于深度学习的方法。

基于规则和模板的关系抽取方法,主要依赖人工制定规则,并通过规则来抽取关系三元组。该方法的执行流程为:首先需要相关领域专家归纳和总结句法与语法规则或模板,之后利用规则或模板对文本进行抽取,从而获得关系三元组。该方法在特定领域上拥有不错的是被效果,但这要求构建者必须极为了解该领域知识,因此对规则或模板的构建者的专业要求较高[16]。

基于机器学习方法通常将关系抽取看作为一个分类问题。该方法的核心思想是从数据中提取特征,然后利用分类器进行关系分类。车万翔等[17]人基于SVM构建了关系抽取模型来进行关系抽取,取得了一定的效果。Bunescu等[18]通过从句法分析树中获取最短实体路径再与核函数方法相结合来进行实体关系抽取。虽然基于机器学习的方法颇有成效,但是其仍需要人为归纳特征,无法自动学习和扩展实体关系类型。

基于深度学习的关系抽取方法在训练中主要使用神经网络来提取语料中的特征,之后模型会持续进行迭代训练,最后利用训练好的模型来预测关系三元组。Gormley等[18]基于流水线方法提出了FCM模型进行关系抽取,但是该方法忽略了关系抽取的整体性。为了解决上述问题,Li等[19]基于结构化感知器提出了DS-Joint模型,并使用联合抽取方法进行关系抽取。相比与FCM模型,该模型整体性更强,并且实体与关系之间更加紧密。除了以序列形式的关系抽取方法,研究人员还利用图形式抽取三元组。例如,Zhu等[20]将句法分析树与图神经网络进行结合,将GNN应用于关系抽取领域,提出了GP-GNN模型并取得有效成果。

(四)审计知识数据收集

1982年我国审计机关成立,90年代后期政府部门开始普及计算机办公,时至今日,汇集的电子审计数据相对医疗、法律系统较少。在互联网中,有公开的医疗系统病情描述对应诊断、治疗建议数据集,法律系统案例描述对应判决数据集,但缺失审计相关的公开数据集。课题组曾探索搜集互联网中公开的审计报告搜集,但公开的审计报告相比原始版本的审计报告更为精简,部分内容有所删减,且工程量浩大,效率极低,因此并非优选。考虑到数据源可以直接影响到所构建知识图谱的质量,目前国家法律法规数据库、北大法宝、审计问题定性检索系统、北大法意、威科先行和中国法律知识资源总库中的法律资源相对质量较高。

目前课题组将国家法律法规数据库与北大法宝作为主要法规数据来源,共收集审计问题—法规依据11余万条数据。

五、AI审计法规检索系统研发

(一)AI审计法规检索系统实现路径

从技术实现角度,构建AI驱动的审计法规检索系统的一个较好的方法是采用“大模型+知识检索”模式,其中大规模预训练模型需要经过审计法规领域特定语料的“预训练+微调”过程,使大模型深度适应审计法规领域的语言特性和规范要求,建立审计语言基础。“大模型+知识检索”核心技术在于“知识图谱引导的信息检索”(Knowledge-Guided Information Retrieval),通过将知识文档分割并转换为高维向量表示,再借助高效的向量检索机制召回相关信息片段,作为上下文输入到大模型进行深度整合与高级抽象。然而,构建基于此方法的知识图谱库时面临存在许多困难,现有法律文献与规章数量极其庞大,而且每年都会出台新的规章制度和法规修订。此外,为了确保信息召回的全面性与准确性,文档被细分为句子或段落级别的多级结构进行存储,这种多粒度策略大量增加了向量数据库中知识条目的总量,对数据库的性能要求构成了一定的挑战。为应对上述挑战,可以采用触发式知识文件入库机制,结合文档解析拆分并以特定方式进行向量化处理。

当前多数研究倾向于采用大型模型集成框架Langchain内的递归策略来进行字符级文本切分,部分方案也采用通过引入监督或半监督学习机制来优化片段划分的精确性。需要注意的是,鉴于这些生成的文本片段后续需输入向量化模型进行深度推理,其设计需严格遵照该模型的最大序列长度约束条件,可以有效规避信息截断引发的语义缺失问题。在向量化模型的选择上,存在对称与非对称模型的选择。对于无需模型微调的场景,采用对称召回策略(侧重于直接匹配问题的召回)显得尤为适宜。然而,在涉及文档片段深层次知识挖掘的场景下,推荐采用非对称召回模型,该模型专注于精准捕获文档内的答案片段,从而提升知识检索的针对性与效率。

大模型微调是指在已经预训练完成的大型模型(如BERT、GPT等)上通过针对特定任务的数据集进行进一步训练。该方法基于在预训练模型上实施的一种“增量式”优化,先通过“预训练增强”来逐步积累领域特定的知识,随后执行微调步骤以实现性能的精细调整,这种方法有效减少了模型训练的时间成本与计算资源需求。具体而言,即是在预训练大模型的基础上做“增量”的“预训练”,然后再微调。

在构建AI驱动的法规检索系统框架中,我们采纳了一种两阶段策略利用大型语言模型整合知识图谱。初期阶段聚焦于模型的预训练,该过程在海量的非标注文本语料上执行,能够提取普遍的语义结构与语言规律,从而深化模型对于语言结构的洞察力及语义解析能力。预训练机制不仅使模型能够捕捉到数据内在的特征模式,还赋予了其生成流畅、连贯文本段落的能力,为后续的精调打下坚实的基础。其次,进行模型的微调,该步骤聚焦于在标注有限但目标导向明确的自然语言处理任务数据集上。这些任务涵盖了诸如文本分类、问答系统等多种实践情景,通过在这些具体应用场景的数据上进行细致调优,来提升模型在对应任务上的准确性。最终,经过预训练和微调后,模型可以被部署为应用程序,用于AI审计法规检索系统。此外,该方法还显著缓解了对大规模标注数据的依赖,有效缩减了数据标注的经济成本与时间投入,为AI技术的实际应用开拓了更为经济高效的道路。

基于上述分析,本课题研究总体框架如图2所示:

图2 基于大模型的AI审计法规检索系统研究总体框架

1.获取审计法规知识语料

基于AI审计法规检索系统对审计相关法律法规知识的需求分析,基于审计法规领域的知识结构,识别并确立了三大核心知识板块:审计违规分类知识、审计问题、审计法规条款。随后,通过对各板块内容的深入剖析提取出代表性关键词,在此基础上,设计并实现了一套关键词导向的检索机制优化查询策略,增强对审计法规知识的高效检索与精准匹配能力。

2.形成小样本高质量标注语料

采取了一种精细化策略来准备少量但高度精准的标注数据集,从而使用预训练大模型进行有效微调。

(1)标注知识关键词实体,使用目前优秀的语言模型(如ChatGPT)对知识文档进行初步标注,生成候选关键词标签。随后,这一过程辅以人工审核与修正,以确保标签的准确性和领域适用性,从而生成高质量的大模型标注语料库。

(2)审计法规问答数据集构造。基于筛选的知识文档内容,领域专家设计构建高质量的审计法规问答对,为模型提供了贴近实际应用场景的训练语料。

(3)数据集划分。将上述构造的标注数据及问答对分为两部分:其中70%用于模型的微调训练,旨在优化其理解审计法规的能力,剩余30%则作为独立的测试集,用以严格检验模型在未见数据上的泛化能力和准确性,确保模型改进的有效性和鲁棒性。

3.构建AI审计法规大模型

构建审计法规大模型的过程涉及以下几个关键步骤:

(1)基础模型候选集构建。模型选择基于三项核心指标综合评价:①能力排名:参考SuperCLUE对中文通用大模型的评估,在逻辑推理、知识广度、语言理解、内容生成及对话交互等方面的表现。②认可度:考察GitHub平台上模型相关的项目获得的星星数量,以此反映开源社区的认可程度。③开源与商用潜力:确保模型既开源又具备商业应用的可能性。目前国内主流大语言模型信息摘要见表2。最终选定Baichuan2-13B-Chat(Baichuan)、ChatGLM3-6B(ChatGLM)作为初期基础预训练大模型集,具体参数如下表3,并与当前业界热度比较高的大模型ChatGPT进行性能对比。

表2 目前国内知名大语言模型信息摘要表




表3 基座大模型基本情况

模型名称

词表量

输入序列长度

隐藏层维度

层数量

Heads数量

数据集

Baichuan2-13B

125696

4096

5120

40

40

2.6T

ChatGLM3-6B

65024

4096

4096

28

32

1.4T

审计法规大模型的构建过程如下所述:

(1)初期基础模型候选集构建。基于以下3个方面的综合考虑构建初期基础预训练大模型集:①SuperCLUE 针对中文通用大模型的逻辑推理知识百科、语言理解、生成创作、对话等各种能力的排名;②专业大语言模型技术网站中的评级;③是否开源可商用,最终选择Baichuan2-13B-Chat(Baichuan)、ChatGLM2-6B(ChatGLM)作为初期基础预训练大模型集。

(2)预训练大模型微调。LoRA微调策略,通过将模型参数矩阵降维为低秩结构,专注于关键参数的调整,以此来加速训练流程并增强模型性能。该方法具有以下优点:①资源高效,因参数规模缩减,显著降低了对计算能力和存储资源的依赖。②属于轻量级微调,微调过程时间成本减少,体现了较高的执行效率。③性能比肩全参微调,在保持与全面参数调整相近的性能水平的同时实现了上述效率提升。④模块化灵活性,生成的独立调整模块便于与其他微调技术集成,增强了方法的兼容性和扩展性。

4.基于大语言模型的AI审计法规检索系统

AI审计法规检索系统的基本工作原理是用户提出审计问题后,系统利用大规模语言模型生成内容并获取相应法规依据。针对大规模模型存在的幻象问题,采取了从数据与模型两个方向并进进行细化调整。数据处理层面,实施了标注语料去重及人工筛查的方法来排除可能产生幻象的噪声数据,模型优化层面,则融入了检索增强生成(Retrieval-Augmented Generation,RAG)技术来提升模型的领域知识理解和生成效能。

检索增强生成(Retrieval-Augmented Generation, RAG)技术是一种融合检索机制与深度学习的方法,提升语言模型在特定领域的生成能力和准确性。该技术通过结合大规模预训练模型与外部知识库的按需检索,确保生成内容的精确性与新颖性。RAG运作时,首先根据输入查询从数据库中检索相关信息,随后利用这些精准信息指导模型生成过程,不仅丰富了生成文本的上下文相关性,还有效缓解了模型因纯粹自动生成而导致的幻象问题。

(二)评测体系构建

为全面评估基于大语言模型的AI审计法规检索系统的性能表现,需要一个科学全面的测评框架。由Shahul Es等于2023年9月提出的检索增强生成评估(RAGAs)开源评估框架在业界获得了广泛认可。RAGAs能够快速对RAG系统进行综合评估,其所需输入包括:用户提出的查询问题(Question)、RAG系统生成的答案(Answer)、检索到的与问题相关的上下文文档(Contexts),以及人工标注的参考答案(Ground Truths)。在获取上述输入信息后,RAGAs 基于Faithfulness、Answer Relevancy、Context Relevancy和Context Recall等4个评估指标对RAG系统效果进行量化评分。由于本课题采用RAG框架搭建大模型检索系统,因此仅使用RAGAs中的Answer Relevancy评估指标来衡量AI审计法规检索系统的检索性能。

Answer Relevancy是评估检索答案与参考答案的语义相关度,考察答案的准确性。具体来说,当检索的答案不完整或包含不相关的信息时,系统则将获得较低分数。Answer Relevancy 的取值范围为 0~1之间,且越高越好,计算公式如公式(1)所示:

(1)

其中,q为原始问题,qi为提示LLM 生成基于该Answer的可能的第i个问题,sim(q,qi)是计算原始问题q和生成问题qi的余弦相似度。

本课题除了需要评估AI审计法规检索系统对审计问题检索法规条款的准确率,还将进一步评估所微调训练的审计大模型的性能。因此,采用了一组综合性的评价指标,包括BLUE-4、Rouge-L、Rouge-2、Rouge-1等,为审计大模型模型性能提供了一个多维度的评测视角。

BLUE-4是通过比较模型生成的文本与参考文本之间n-gram的重合度来衡量相似性,从而给出一个综合评分,反映了生成内容在细节层面的贴近程度。Rouge-L重点测量生成的文本与参考文本的最长公共子序列,适合于评估文本内容的大体框架是否相符。Rouge-2则专注于双词组合的匹配情况,有助于分析生成文本在短语层次上的精确性。Rouge-1专注于计算生成文本与参考文本之间单个词的重合度,能够反映出模型在捕捉核心词汇和基本事实信息方面的能力。

(三)大语言模型微调

随着模型规模的不断扩大,模型会“涌现”出各种能力。特别是对大语言模型来说,随着规模的扩大其在zeroshot、常识推理等能力上会有大幅度的提高。相比于规模较小的模型,大模型的微调成本和部署成本都非常高。例如GPT-3 175B模型微调需要1.2TB的显存。此外,若针对不同下游任务微调多个模型,那么就需要为每个下游任务保存一份模型权重,成本非常高。在某些场景下,甚至可能需要针对不同的用户微调不同的模型,那么模型微调和部署的成本将不可接受。

研究者提出了很多方法尝试解决大模型微调困境的方法。其中有两个主要的方向:(1) 添加adapter层(2) prefix-tuning方法。但是这两种方法都有局限性:简单来说,adapter就是固定原有的参数,并添加一些额外参数用于微调。上图中会在原始的transformer block中添加2个adapter,一个在多头注意力后面,另一个这是FFN后面。显然,adapter会在模型中添加额外的层,这些层会导致大模型在推理时需要更多的GPU通信,而且也会约束模型并行。这些问题都将导致模型推理变慢。prefix-tuning方法是受语言模型上下文学习能力的启发,只要有合适的上下文则语言模型可以很好地解决自然语言任务。但是,针对特定的任务找到离散token的前缀需要花费很长时间,prefix-tuning提出使用连续的虚拟token嵌入来替换离散token。虽然,prefix-tuning并没有添加太多的额外参数。但是,prefix-tuning难以优化,且会减少下游任务的序列长度。

为了解决这些问题,本课题采用LoRA(Low-Rank Adaptation)方法对审计法律法规大模型进行微调。LoRA是一种基于低秩矩阵分解的微调方法,其核心思想是将模型参数分解为两部分:固定部分和可训练的低秩部分。这样,在微调过程中,我们只需要更新低秩部分,而不是整个模型。

LoRA微调过程可以简单概括为以下几个步骤:

参数分解:首先,将模型的参数矩阵分解为固定部分和可训练的低秩部分。固定部分保留了原始模型的知识,而低秩部分则用于捕捉任务特定的信息。

微调:在训练过程中,只更新低秩部分的参数。这大大减少了需要训练的参数数量,从而降低了计算成本,并减少了过拟合的风险。

前向传播:在前向传播过程中,将固定部分和低秩部分组合起来,生成模型的输出。

LoRA的工作原理如下图3所示。

图3 大模型Lora微调工作原理

对于预训练权重矩阵W0∈Rd×k,可以通过低秩分解来表示其更新W0+ΔW=W0+ BA,B∈Rd×r、A∈Rr×k且秩r < min(d,k)。在训练过程中,W0被冻结且不接受梯度更新,A和B则是可训练参数。注意,W0和△W = BA都会乘以相同的输入。对于h=W0x,前向传播变为:

h=W0x+△Wx=W0x+BAx

对矩阵A使用随机高斯初始化,对矩阵B使用0进行初始化,因此△W = BA在训练的开始为0。当使用Adam优化时,经过适当的缩放初始化,调优a与调优学习率大致相同。

LoRA的优势在于其高效性和灵活性。通过仅更新低秩部分,LoRA显著减少了计算资源和训练时间的需求。同时,由于固定部分的存在,LoRA可以在保持原始模型通用性的基础上,快速适应不同任务。这种方法特别适合在大规模数据集上进行微调,因为它可以在有限的计算资源下实现高效的模型优化。

本课题的LoRA微调操作分为4步:

(1)组建微调数据集。为了充分发挥这些大模型的潜力,往往需要对它们进行微调,以使其适应特定的应用场景。在微调过程中,数据集的准备和标注是至关重要的环节。通常情况下,一个指令格式的实例数据包括一个任务描述又被称为指令、一个输入和一个输出。指令描述大模型需要完成的任务,输入是大模型需要处理的原始数据,输出是大模型对输入数据的预测结果。这种指令格式的实例数据可以帮助大模型更好地理解特定任务的需求和目标,从而提高其性能和效率。

关键词提示用于提升模型对于问题的理解能力,实验发现对于较为复杂的审计问题,由于预训练大语言模型缺乏审计垂直领域的先验知识,模型不能很好地理解其语义信息。因此我们将关键词作为输入的一部分,可以帮助模型更准确地理解用户查询的核心内容。同时可以增强模型泛化能力,通过在训练中加入关键词,模型有机会学习到关键词与相关审计问题之间的关联,这有助于模型在面对新问题时,即使问题表述有所变化,也能基于关键词的线索推断出正确的类别。

同时在训练数据中引入审计问题的变体,如使用同义词替换、句式变换、主动/被动语态转换、添加冗余信息等方式生成新的样本,组成训练数据集共7.8w条,可以让模型在训练过程中接触到更多样化的审计问题表述,提高其对不同表达形式的适应性和鲁棒性。训练语料准备情况如表4所标。

表4 训练语料准备情况表

类型

审计业务知识数据集

微调指令集

使用审计问题定性检索系统“问题-依据”问答对1.3万个。引入问题的变体,组成训练数据集共7.8w条。仅作验证测试,暂未全面构建“历史版本、上位法-本地法-相关法、审计问题—法规依据”问答对,也未进一步标引审计发现问题的时间、地域和业务领域。

(2)使用LoRA微调训练。

①加载分词器和模型参数。首先加载分词器Tokenizer,负责将原始的自然语言文本转换为模型可以理解的形式,将句子或文档切分成更小的单元,这些单元称为tokens。其次是加载大语言模型,我们采用的是THUDM/chatglm3-6b模型,以FP16精度加载,并在我们的数据集上进行训练,训练10个epoch,LoRA将使用128的秩,秩的提高有助于拟合更复杂的任务。表5给出了LoRA微调训练的硬件环境和训练配置。

表5硬件环境和训练配置表

类型

硬件环境

训练配置

微调指令集

使用1张V100-32G显卡

采用LORA微调方式进行微调训练,序列最大长度为2048 tokens,学习率为3e-4,应用BFloat16混合精度训练,迭代6轮,耗时约108小时

②模型结构的调整及训练。首先加载LoRA层的具体参数,其次是修改模型结构,通过在每个Transformer块中添加LoRA层,在不改变原有模型权重的前提下,引入低秩矩阵,这些矩阵会在训练过程中被优化以适应我们特定的审计任务。

③模型保存,将训练好的权重保存到本地磁盘中。

(3)合并LoRA参数。为了让模型的表现是正确的,需要对微调后的模型进行全面的评估,合并THUDM/chatglm3-6b的参数和LoRA层的参数成为一个新的大模型,输入测试集的数据到大模型中,得到输出的内容和正确的内容进行比对,来确认模型的表现是否有效。

(四)审计法律法规知识图谱构建

域知识图谱通常包含特定的领域知识,相比于通用知识图谱,领域知识图谱的知识广度较小,但在领域知识的深度上更深,对知识质量的要求更高。本课题采用自顶向下的方法,即首先定义知识图谱的实体、关系,再采用知识抽取算法对审计相关法律法规文本抽取出实体及实体关系,构建审计法律法规知识图谱,最后利用Neo4j图数据库实现知识图谱的存储与可视化。其具体构建流程如图4所示。

图4 审计法律法规知识图谱构建流程

1.知识图谱实体及关系定义

知识图谱是目前主流的知识表示,其以图的方式表达知识,其中图的节点知识实体,图的边表示实体关系。为构建审计法律法规领域知识图谱,首先需要定义实体,其次需要明确该领域内各实体之间的相互关系。本课题通过对审计法律法规领域进行了细致调研,总结并归纳了“法律法规”“发布部门”和“时效性”等共计10种实体类型,具体的实体类型如表6-1所示。

表6-1 审计法律法规知识图谱实体定义

实体名称

概念

law

法律法规

publishing_department

发布部门

timeliness

时效性

potency_level

效力级别

law_category

法规类别

year

年份

release_date

发布日期

implementation_date

实施日期

chapter_articles

条款

keywords

关键字

在确定实体类型种类后,还需要确定实体之间的关联关系以构成实体关系三元组。在充分考量实体类型及未来该知识图谱应用场景的基础上,本课题定义了“类别关系”“时效性关系”和“效力级别关系”等共计9种关系类型,具体的关系类型如表6-2所示。

表6-2 审计法律法规知识图谱关系定义

关系名称

头实体

尾实体

CATEGORY_OF

法律法规

法规类别

TIMELINESS_OF

法律法规

时效性

PUBLISHING_DEPARTMENT_OF

法律法规

发布部门

POTENCY_LEVEL_OF

法律法规

效力级别

YEAR_OF

法律法规

年份

RELEASE_DATE_OF

法律法规

发布日期

IMPLEMENTATION_DATE_OF

法律法规

实施日期

LAW_TO_ARTICLE

法律法规

条款

LAW_TO_KEYWORDS

法律法规

关键字

2.知识抽取

知识抽取包括实体抽取和关系抽取。在实体抽取中,由于法律法规文档存在一定的规律性,因此本课题采用规则模板以及大模型两种方式来进行实体抽取。本研究对法律法规的名称、制定机关、公布日期、施行日期、时效性、效力级别和条款等实体类型使用基于规则模板的方式来抽取实体。抽取步骤如下:首先,逐行扫描全文,得到这些规则模板中的关键字所在的索引行,并将索引行的行号记录在了数组中;其次,提取索引行所对应的属性;最终获取法律法规的属性信息。对于法律法规中的关键字实体,本研究采用大模型进行抽取。该抽取方式首先需要分别将法律法规的每个条款以及关键字抽取prompt输入到大模型中,调动大语言模型的相关知识。之后通过大模型回答得到相应条款关键字实体,最终合并归纳得到法律法规的关键字实体集。

3.知识图谱存储

本课题使用Neo4j图数据库作为知识图谱的存储数据库。对于Neo4j图数据库,其存储知识图谱的优势如下:首先,Neo4j根据图数据的特点专门优化了数据存储,从而在处理关系数据时,其处理性能可以远高于关系型数据库;其次,Neo4j为关系查询设计了专门的关系数据查询语言,从而使得该Neo4j对于关系数据的操作更为方便;最后,Neo4j不用定义表结构,这使得它在存储图结构的数据上更加灵活。

考虑到审计法律法规知识图谱在AI审计法规检索系统中的实际应用,在neo4j中存储审计法律法规知识图谱时,创建了3类实体节点类型:“法律法规”“条款”“关键字”“发布部门”“时效性”“效力级别”“年份”“发布日期”“实施日期”作为“法律法规”实体节点的内部属性。neo4j图数据库存储的实体关系包括“法律法规-条款”“法律法规-关键字”。通过对2582篇审计相关法律法规的知识抽取,neo4j存储的审计法律法规知识图谱包含了42542实体节点,其中法律法规实体2582个、条款实体35516个、关键字实体4444个。存储的实体关系共有169396条,其中“法律法规-条款”关系35516条,“法律法规-关键字”关系133880条。图5给出了neo4j审计法律法规知识图谱部分实体节点及实体关系可视化展示。

图5 审计法律法规知识图谱可视化示意图

(五)知识图谱+大语言模型架构实现

本研究设计并实现了一种AI审计法规检索系统DEMO,该系统融合了审计法规知识图谱与先进的大语言模型技术。系统的核心在于构建一个高效框架,通过整合大语言模型的强大语义理解和知识图谱的深度领域知识,推进在审计法规领域内的问答系统能力。此架构的目标是深入分析大语言模型与审计领域知识图谱的深度融合机制,通过这种深度整合,实现在审计这一专业垂直领域的高度精准问答功能,为用户高效提供专业导向的查询与,推动领域内智能信息检索的发展。

为了实现审计领域中的问答检索机制,本研究采用LangChain框架,来连接专业知识与大型语言模型(LLMs)。LangChain框架是一个专为促进语言模型应用开发的高性能工具平台。它通过整合一系列模块化工具、接口及组件,显著简化了基于大型语言模型(LLMs)的端到端系统构建过程。该框架不仅助力开发者高效管理与LLMs的交互,还支持多种组件的灵活链接与外部资源集成,为构建知识注入型LLM应用提供了强大的技术支撑,成为连接知识图谱、定制化逻辑与先进语言理解能力的桥梁,尤其适用于复杂场景下的语义处理与信息检索任务。

图6详细描绘了审计问题检索的流程。首先,该流程涉及对输入的审计问题文本进行知识图谱的过滤操作,以精准识别并提取与审计问题直接相关的知识图谱子图。随后,利用LangChain在这些特定的知识图谱子图中进行针对性的信息检索,将检索到的相关知识与审计问题一同以提示的形式输入至审计法规大模型中。最终,大模型基于这些提示,通过内部的推理机制,生成与审计问题相应的答案。

图6审计问题检索流程

AI审计法规检索具体的实现过程如图所示:①外部知识库的构建。建立了一个包含广泛审计法规的外部知识库,作为后续检索的基础。②知识向量库的构建。将知识库中的文档拆分为适合处理的文本块。接着,通过向量模型将这些文本块转换为向量形式,并创建相应的文本块向量索引,以支持高效的知识库内容搜索。③在用户查询阶段,我们对查询内容进行处理,提取关键词并转化为向量形式。然后,利用已建立的知识向量索引,通过近似最近邻检索等高效算法在知识向量库中查找与用户查询最相近的文本块向量,从而获取与用户查询内容最相关的知识片段。④答案生成。基于Prompt,使大模型结合用户查询内容和检索到的知识片段给出审计问题对应的法律法规依据。

图7 AI审计法规检索实现过程

本课题研究的AI审计法规检索系统采用LangChain实现了文本与模型进行交互,建立知识库与大语言模型间的链接。AI审计法规检索系统主界面如图8-1所示:

图8-1  AI审计法规检索系统主界面

在主界面的对话栏中输入审计问题,点击发送按钮或者键入回车键后等待后端服务器响应返回审计问题相对应的审计法规依据条款。

返回界面图8-2所示,首先展示的是与审计问题最佳匹配的参考法规依据。

图8-2法规检索返回结果:审计问题最佳匹配法规条款

下拉页面,点击其他相关问题参考,界面中将展示其他相似审计问题及其参考法规,如图8-3所示。

图8-3 法规检索返回结果:其他相似匹配法规条款

AI审计法规检索系统的LangChain实现步骤如下:

(1)加载数据集,LangChain针对不同格式的数据源内置了各种解析脚本。最终这些数据都将转换为纯txt文本格式,以实现文本标准化。

(2)文本切分,在进行文本切分时,chunk_size 用于指定切分后的文本块字数,而chunk_overlap则用于指定文本块间的重叠字数。

(3)文本嵌入,在完成文本切分之后,我们需要对其进行向量化表示,即将其映射为低维稠密向量,并将这些向量存储到向量数据库中。

(4)保存向量数据库,将数据集所有数据转化成向量并存储到Chroma数据库中,以便后续进行语义检索。(5)语义检索,采用L2(欧氏距离)作为度量,根据相似度对召回的文档进行降序排序。

最后在部署好的系统上进行测试。为了构建测试数据集,本课题采用“通义千问”大模型对已有审计问题进行复述,得到审计问题的语义等价描述,从而生成出1.3万条测试数据。为了验证大模型+知识图谱的AI审计法规检索方案的效果,分4种场景进行了实验:(1)直接使用未微调chatglm3-6b大模型进行问题检索;(2)仅使用微调chatglm3-6b大模型进行问题检索;(3)不使用大模型,仅利用知识图谱匹配进行问题检索。(4)系统采用LangChain的RAG技术,微调chatglm3-6b大模型与知识图谱相结合进行问题检索。评价指标采用准确率,即评估生成答案与参考答案的语义相关度,若生成答案与参考答案完全一致则认为正确。测试结果如下图9所示。

图9 实验结果对比

从图9实验结果中可以看出,在实验(1)中使用的大模型由于没有经过审计问题数据集的微调训练,即使大模型有一些法律法规的先验知识,也无法对审计问题生成正确答案,问题检索测试的准确率为0%,而在实验(2)中使用了经过审计问题数据集微调训练的大模型,审计问题的检索准确率能够得到很大的提升,达到78.02%,实验(2)也表明了本课题采用LoRA微调技术训练审计大模型是有效的。实验(3)采用文本匹配方法,直接对审计问题从审计法律法规知识图谱中检索出问题答案。由于审计问题描述中包括了一些答案关键字,因此仅采用知识图谱匹配进行问题检索也达到了82.72%的检索准确率。实验(4)采用了大模型+知识图谱的RAG技术,其检索准确率达到92.73%,效果好于实验(2)和实验(3)的结果。实验表明了本课题提出的大模型+知识图谱AI审计法规检索方案从技术上是有效的。

六、AI赋能科技强审保障机制

(一)工作衔接机制

1.深度挖掘与维护审计业务中的数据“宝藏”。采用计算机思维,将审计业务发现问题、定性整改系统中数据,经脱敏、涉密剔除后存储用于模型训练语料,也是架构知识图谱的素材。标准化审计发现问题、整改报告及法律法规格式、要求、术语规范等,为后续信息收集工作提前谋划。

2.齐心协力完善法规收集。在审计工作中,审前调查研究、审计实施及审计整改推动制度出台等,其中会涉及大量省、市、区、县法规制度,这部分法规在网络上搜集难易程度递增。省级层面统一谋划,发挥数据集中归集优势做好数据治理,各级审计机关各司其职积极配合补充法规政策收集。

3.建立动态反馈机制。充分利用计算机信息汇集、传输优势,法律法规检索访问后台数据汇集打标,赋予问答对权重、行业分类等参数,不仅可优化现行审计人员查询效果,也可用于大模型的调优迭代。大模型生成回答后,引入审计人员关联度反馈评判,该数据在微调、训练时用于修正大模型,做到一个动态正向更新,以让大模型对审计工作更加适配。

(二)数据安全机制

在设计AI审计法规检索系统过程中,还需要考虑系统用户数据的安全性。为此,本课题利用密码技术,从保密性与完整性设计数据安全机制,为AI审计法规检索系统提供安全保障。图10给出了AI审计问题检索系统数据安全机制的基本架构,安全机制架构由应用服务、加密存储和完整性验证3个模块组成。在AI审计问题检索系统数据安全机制框架中,通过公共API实现客户端与审计问题检索系统服务方之间的数据传输,数据安全机制保障了用户数据的访问权限和数据的机密性、完整性。

图10  AI审计问题检索系统数据安全机制

(1)应用服务模块作为基础管理层,提供了节点管理、部署管理、数据目录存储、存储管理服务等操作服务。应用服务模块除了提供基础管理服务,还提供应用服务功能,主要是提供查询检索服务,为AI审计法规检索系统提供安全服务功能。应用服务模块还可以集成其他应用服务,从而提高数据安全机制框架的扩展性。

(2)加密模块主要包括权限管理、分散存储和恢复读取功能。权限管理利用访问控制技术对用户系统访问进行限制;分散存储是对数据加密处理后的密文进行分布式保存,加密算法可以采用AES、SM1国产对称加密标准;恢复读取是对分布式保存的密文数据汇集解密还原为原来的明文数据。

(3)完整性验证模块主要包括信息监管和完整性验证2项功能。对系统访问形成日志,以便监管用户访问行为。完整性验证功能是为用户提供数据完整性证明服务。利用密码学散列算法构造鉴别码函数提供完整性检测,散列算法可以采用SHA-256、SM3国产散列算法。

(三)准确率反馈机制

为了不断提升审计法规大模型对审计问题检索的准确率,本课题将采用人类反馈强化学习(RLHF)的大模型训练范式对大模型进行后续优化。RLHF是一种强化学习方法,它将强化学习与人类反馈相结合,通过利用人类提供的反馈来指导智能系统的行为,使其能够更加高效、快速地学习任务。RLHF采用迭代优化策略来提高大模型的性能。它首先使用预训练模型进行初始化,然后反复迭代训练和微调过程。在每次迭代中,它使用微调后的模型来生成新的标签,将新标签作为监督信号用来训练模型,得到模型新的权重。通过多轮迭代,不断提升模型性能,最终使模型达到预期性能效果。因此,本课题微调审计法规大模型时,把用户使用AI审计法规检索过程作为一种反馈来指导审计法规大模型的训练学习,从而在后续使用过程中能不断对大模型进行优化调整。

RLHF的训练过程包括以下三个关键步骤:

①预训练语言模型

此阶段中,模型使用常规的监督学习方法,从大量有标签的数据中学习。这一阶段的目标是让模型能够尽可能准确地理解和生成文本。

②收集数据并训练奖励模型

在这一阶段,模型会生成一些文本,然后从审计人员那里获得反馈。这些反馈可以是关于文本的某些特定属性的评级,或者是对文本的修改建议。这个阶段的目的是让模型逐渐学会生成符合审计人员期望和要求的文本。

③利用强化学习微调语言模型

模型使用强化学习算法来优化其生成文本的方式。这一阶段中,模型会不断地生成文本,并从人类提供者那里获得反馈(这被称为奖励)。模型的目标是最大化从这些奖励中获得的总回报。这一阶段的目标是让模型能够根据人类提供者的反馈和奖励来调整其生成文本的方式,从而尽可能地提高其对审计问题检索的质量。

七、结语

随着AI时代的到来,工业生产、教育、法律、智能汽车等等各行各业都逐渐引入AI技术发挥其“新质生产力”。浙江审计现代化发展成效显著,基础数据治理扎实完备,更应积极探索研究新技术,践行我省奋力推进“两个先行”,书写浙江数字化改革审计篇章。

1.积极拥抱新技术。生成式大语言模型的兴起如人工智能研究领域海洋中的灯塔,为今后的研究指明了方向,在未来的研究中,以大语言模型迭代升级并融合多模态的人工智能将为我们带来更强的“新质生产力”。浙江审计更应秉承“勇当先行者,谱写新篇章”,抓住人工智能发展机遇,明确技术迭代发展路径,迎接开拓、完善“人工智能+审计”领域探索挑战。同时深入把握“八八战略”要义,充分融合利用浙江人才聚集、互联网产业翘楚等优势,调动各级审计机关上下齐心,共同拥抱新技术,在践行“两个先行”中做出浙江审计表率。

2.扎实基础,培养人才。浙江审计应着眼于当下,放眼于未来,在现阶段完善数据治理,扎实大数据审计基础,搭建安全可靠的专网环境。积极培育计算机审计骨干、领军人才,确保目前审计成果实战实效转化,同时积极引领探索人工智能领域研究,不仅要培育一批人工智能审计人才,也要做好数据审计人才与人工智能人才的有机衔接转化。在未来发展探索中,还要大力推动审计人员对人工智能领域新技术、新方法、新思路的学习,以保障未来数智化审计工作制度支撑体系与实践体系的一致性。

3.牢牢坚守数据安全底线。网络与数据安全是审计监督现代化的生命线,审计工作者要牢固树立“100-1=0”理念,切实提高网络与数据安全风险防范意识。审计工作中必然会接触到大量经济数据,在自然资源审计中还会接触到更为敏感的地理信息数据,因此数据处理的规范性和安全保密性重于泰山。在未来,审计工作必将迎来智能审计时代,数据处理更为无感,审计机关更应绷紧数据安全弦,一是完善AI审计数据安全制度,支持数智赋能审计工作的合规开展;二是强化审计人员数据安全意识、明晰数据传输风险点,做好指导和安全实施方案;三是设置数据安全预警机制,实时动态监测外部攻击、自身漏洞及风险行为,确保AI技术以安全可靠的方式为审计人员所用。

4.发扬长征精神,薪火相传。2024年是审计监督制度建立41周年,审计工作者40余年辛勤耕耘已汇集了海量的审计取证单、审计报告、审计方案等珍贵的审计领域知识结晶,以传统的学习实践方式,是无法将审计领域知识结晶融会贯通并用于实际的审计工作中。随着科技发展,AI技术正在以一种独特的知识汇集与处理方式为审计人员提供“大脑”式反馈,这项技术如同为每一位审计人员配备了专家团队,大大提高审计质量和效率。

AI赋能审计监督现代化是一个持续性的命题,现阶段的我们所能攻克的可能只是数据治理、挖掘、标注,模型调优、知识库建设,但中华民族生生不息,长征精神薪火相传,我们勇于尝试、积极探索、扎实数据基础、积累经验,在科技日益发达的未来,必将有新一代审计人接过这一接力棒为之奋斗。