当前位置: 首页>子站>档案新闻>业界动态

大模型在档案领域应用的实践与思考 ——从建设项目档案论文评审谈起

发布时间:2026-04-17 来源:中国档案报 字体:【大】【中】 【小】

2025年,国家档案局组织开展了建设项目档案论文征集活动,共收到100家单位推荐的1241篇论文,覆盖全国31个省(自治区、直辖市)及科技、能源、交通等多个行业,涉及国家重大建设项目、“一带一路”倡议、长江大保护等诸多领域。论文数量多、覆盖面广、行业跨度大,如何在有限时间内高效、公正、规范地完成评审,是不小的挑战。此次评审创新引入DeepSeek大模型,构建“算法初筛筑基、专家复审把关”的人机协同模式,提升了评审效率,确保了评审质量。

应用实践 

整理清洗基础数据,打牢评审工作基础。通过对1241篇论文进行精细化清洗,自动剥离作者姓名、单位等隐私信息,构建纯净、匿名的标准化语料库,为后续评审提供数据支撑。同时,依托大模型自动识别重复提交、内容空洞及不符合要求的稿件,减轻后续评审负担。 

构建评审量化标准,规范评审核心流程。结合行业特点,组织专家梳理评审经验,将其转化为可量化的指标体系,形成包含“合规性、主题度、创新度”的三维评价模型。合规层面,采用“规则模板+语义识别”双重验证,对引文规范等进行刚性约束,确保文章符合规范;主题层面,通过语义比对智能研判论文与建设项目档案领域的相关度,精准识别“文不对题”稿件;引入人工智能生成内容检测算法,识别、提示“代写”“洗稿”等学术不端行为。 

发挥大模型技术优势,大幅提升评审效率。大模型成为“前置过滤器”,负责查重、合规性检测、主题相关性判定等高耗时、重复性任务,快速识别存在“硬伤”的稿件,并凭借并行处理能力,短时间内完成所有论文的检测。专家不需耗费精力进行形式审查,而是将重点放在论文核心观点、研究方法、实践价值等审核上,深度研判论文的思想性、创新性及行业价值,确保评审结果的权威性与专业性。 

现实挑战 

大模型在档案工作领域应用前景广阔,但受其技术特性局限与档案行业特点制约,深化应用仍面临诸多现实问题。 

幻觉问题。这是大模型的核心共性问题,大模型本质是语言概率预测和生成模型,仅能学习词语关联规律,无法真正理解语言背后的现实世界,缺乏真伪辨别能力,可能编造看似合理却不真实的信息。在档案领域应用中,大模型幻觉可能导致出现虚假信息和无关内容,且错误信息若再次进入训练池会放大风险。目前“检索增强生成”等技术仅能降低风险发生概率,无法根本解决问题。 

“投毒”风险。“AI投毒”是指攻击者向训练数据或模型注入虚假、有害信息,篡改模型输出。有研究显示,训练数据中仅0.01%的虚假文本可使有害内容输出增加11.2%。在档案领域,“AI投毒”可能导致输出错误的甚至有害的内容,损害档案工作的严肃性与权威性。 

信息安全问题。档案工作对信息安全要求极高。大模型虽普遍采取“去标识化”“加密处理”等措施,但仍存在信息泄露风险。一方面,训练数据若包含未脱敏档案信息,会被模型记忆并在后续应用中无意泄露;另一方面,本地化部署或应用程序编程接口(API)若存在漏洞,易被用来窃取档案信息。 

智能体等技术带来的安全风险。智能体具备自主学习、决策、执行能力,是当前人工智能领域的热点,应用日益广泛。其应用于档案领域可能出现安全风险,如自主决策偏差致数据受损、自主学习触发有害操作、被黑客窃取篡改数据攻击系统等。 

一些单位档案基础工作较为薄弱。一方面,档案信息化建设不均衡,部分单位电子文件归档和电子档案管理推进缓慢、传统载体档案数字化率较低,无法为大模型提供充足数据。另一方面,档案数据治理水平有待提升,数据标准不统一,缺乏一定范围内的共享机制,大模型难以有效整合利用海量资源。 

相关算力资源不足、成本过高。训练和定制大模型时,需消耗大量算力,不少基层档案部门难以承担。应用大模型时,经费有限无法购置高性能算力设备,难以本地化部署,使用云端服务存在稳定性、安全性风险且需额外付费。 

相关建议 

提升档案基础工作水平,强化档案数据治理。一方面,深化档案数据资源建设,深入推进“存量数字化、增量电子化”策略,深化电子文件归档和电子档案管理。另一方面,加强档案行业数据治理,建立统一的数据标准体系,健全共享机制,推动在一定范围内互联互通,实现海量档案数据资源的有效整合与利用。 

结合数字档案馆建设,夯实算力与模型基座。完善硬件设施,提升算力支撑能力。针对基层单位,推动区域内、系统内算力资源共享,建立统一的算力服务平台,降低各单位使用成本。依托国产大模型,使用档案行业专业数据开展二次训练与优化,打造档案领域专用大模型基座,提升针对性与准确性。 

加强典型场景试点示范,推动技术规模化应用。选取档案检索、档案编研、学术论文评审等重点高频场景开展试点,探索人机协同最佳模式,积累可复制经验。档案部门、科研机构、企业开展产学研合作,解决技术、安全与管理问题,推动大模型在档案领域的场景化落地。 

加快相关政策供给,完善标准规范体系。出台大模型在档案领域应用的工作指南和标准,指导、规范大模型应用行为,明确防护标准和处置规范。加强与文博、图书等相近行业及信息技术行业的交流协作,吸收借鉴有关好经验好做法,结合档案行业特点构建相关标准规范体系,推动大模型应用的标准化、规范化。 

  

  

  

  

  

  

  

  

  

  

  

分享到:

相关链接