大模型在档案领域应用的实践与思考 ——从建设项目档案论文评审谈起

欢迎来到福州档案信息网今天是

大模型在档案领域应用的实践与思考 ——从建设项目档案论文评审谈起

发布时间：2026-04-17 来源：中国档案报字体：【大】【中】【小】

2025年，国家档案局组织开展了建设项目档案论文征集活动，共收到100家单位推荐的1241篇论文，覆盖全国31个省（自治区、直辖市）及科技、能源、交通等多个行业，涉及国家重大建设项目、“一带一路”倡议、长江大保护等诸多领域。论文数量多、覆盖面广、行业跨度大，如何在有限时间内高效、公正、规范地完成评审，是不小的挑战。此次评审创新引入DeepSeek大模型，构建“算法初筛筑基、专家复审把关”的人机协同模式，提升了评审效率，确保了评审质量。

应用实践

整理清洗基础数据，打牢评审工作基础。通过对1241篇论文进行精细化清洗，自动剥离作者姓名、单位等隐私信息，构建纯净、匿名的标准化语料库，为后续评审提供数据支撑。同时，依托大模型自动识别重复提交、内容空洞及不符合要求的稿件，减轻后续评审负担。

构建评审量化标准，规范评审核心流程。结合行业特点，组织专家梳理评审经验，将其转化为可量化的指标体系，形成包含“合规性、主题度、创新度”的三维评价模型。合规层面，采用“规则模板+语义识别”双重验证，对引文规范等进行刚性约束，确保文章符合规范；主题层面，通过语义比对智能研判论文与建设项目档案领域的相关度，精准识别“文不对题”稿件；引入人工智能生成内容检测算法，识别、提示“代写”“洗稿”等学术不端行为。

发挥大模型技术优势，大幅提升评审效率。大模型成为“前置过滤器”，负责查重、合规性检测、主题相关性判定等高耗时、重复性任务，快速识别存在“硬伤”的稿件，并凭借并行处理能力，短时间内完成所有论文的检测。专家不需耗费精力进行形式审查，而是将重点放在论文核心观点、研究方法、实践价值等审核上，深度研判论文的思想性、创新性及行业价值，确保评审结果的权威性与专业性。

现实挑战

大模型在档案工作领域应用前景广阔，但受其技术特性局限与档案行业特点制约，深化应用仍面临诸多现实问题。

幻觉问题。这是大模型的核心共性问题，大模型本质是语言概率预测和生成模型，仅能学习词语关联规律，无法真正理解语言背后的现实世界，缺乏真伪辨别能力，可能编造看似合理却不真实的信息。在档案领域应用中，大模型幻觉可能导致出现虚假信息和无关内容，且错误信息若再次进入训练池会放大风险。目前“检索增强生成”等技术仅能降低风险发生概率，无法根本解决问题。

“投毒”风险。“AI投毒”是指攻击者向训练数据或模型注入虚假、有害信息，篡改模型输出。有研究显示，训练数据中仅0.01%的虚假文本可使有害内容输出增加11.2%。在档案领域，“AI投毒”可能导致输出错误的甚至有害的内容，损害档案工作的严肃性与权威性。

信息安全问题。档案工作对信息安全要求极高。大模型虽普遍采取“去标识化”“加密处理”等措施，但仍存在信息泄露风险。一方面，训练数据若包含未脱敏档案信息，会被模型记忆并在后续应用中无意泄露；另一方面，本地化部署或应用程序编程接口（API）若存在漏洞，易被用来窃取档案信息。

智能体等技术带来的安全风险。智能体具备自主学习、决策、执行能力，是当前人工智能领域的热点，应用日益广泛。其应用于档案领域可能出现安全风险，如自主决策偏差致数据受损、自主学习触发有害操作、被黑客窃取篡改数据攻击系统等。

一些单位档案基础工作较为薄弱。一方面，档案信息化建设不均衡，部分单位电子文件归档和电子档案管理推进缓慢、传统载体档案数字化率较低，无法为大模型提供充足数据。另一方面，档案数据治理水平有待提升，数据标准不统一，缺乏一定范围内的共享机制，大模型难以有效整合利用海量资源。

相关算力资源不足、成本过高。训练和定制大模型时，需消耗大量算力，不少基层档案部门难以承担。应用大模型时，经费有限无法购置高性能算力设备，难以本地化部署，使用云端服务存在稳定性、安全性风险且需额外付费。

相关建议

提升档案基础工作水平，强化档案数据治理。一方面，深化档案数据资源建设，深入推进“存量数字化、增量电子化”策略，深化电子文件归档和电子档案管理。另一方面，加强档案行业数据治理，建立统一的数据标准体系，健全共享机制，推动在一定范围内互联互通，实现海量档案数据资源的有效整合与利用。

结合数字档案馆建设，夯实算力与模型基座。完善硬件设施，提升算力支撑能力。针对基层单位，推动区域内、系统内算力资源共享，建立统一的算力服务平台，降低各单位使用成本。依托国产大模型，使用档案行业专业数据开展二次训练与优化，打造档案领域专用大模型基座，提升针对性与准确性。

加强典型场景试点示范，推动技术规模化应用。选取档案检索、档案编研、学术论文评审等重点高频场景开展试点，探索人机协同最佳模式，积累可复制经验。档案部门、科研机构、企业开展产学研合作，解决技术、安全与管理问题，推动大模型在档案领域的场景化落地。

加快相关政策供给，完善标准规范体系。出台大模型在档案领域应用的工作指南和标准，指导、规范大模型应用行为，明确防护标准和处置规范。加强与文博、图书等相近行业及信息技术行业的交流协作，吸收借鉴有关好经验好做法，结合档案行业特点构建相关标准规范体系，推动大模型应用的标准化、规范化。

附件下载

收藏打印关闭

分享到：

大模型在档案领域应用的实践与思考 ——从建设项目档案论文评审谈起

相关链接