发布时间:2025年03月10日 09:09
信息来源:威海市档案馆
浏览次数:
2025年春节,深度求索(DeepSeek)大语言模型的问世,犹如一颗重磅炸弹,在社会各界引发强烈反响。其强大的功能和出色的表现,预示着将在全社会得到广泛应用。这一现象,也促使档案人深入思考,在新的技术浪潮下,档案工作将面临哪些机遇与挑战,又该如何应对。
对“智机文件”的档案思索
2022年11月30日,美国聊天机器人(ChatGPT)大语言模型的出现,开启了人类信息时代的新篇章,将其带入“搜索+生成”的高级阶段,推动人工智能迈向“生成式人工智能”的更高层次。自此,人工智能系统具备了自动生成各类文档的能力,涵盖文字、图片、声音、影像视频、图表及其混合体。随后,2023年3月起,中国也发布了“文心一言”等众多跨模态大语言模型,同样具备这些生成功能。
为便于表述,本文将生成式人工智能系统简称为“智机”(即具有智能或智慧的机器),把它们生成的文档称为“智机文件”。当这些新型文档出现时,档案人面临一系列亟待解决的问题。
思索一:一种新类别的档案来了吗?
在2022年10月美国聊天机器人诞生前,人类档案的制作主体是人,机器仅起辅助作用。然而,生成式人工智能的诞生改变了这一局面。如今,档案从制作者角度可分为两大类:一类是人工档案,即由人制作的档案;另一类是“智机”档案,由生成式人工智能系统、大语言模型等智能机器制作。这是档案史上前所未有的新类别,美国自2022年11月开始出现,中国从2023年3月起也有了这类档案。截至2024年年底,中国备案和上线的生成式人工智能大模型众多,注册用户达7亿以上,生成的“智机文件”至少百亿份,但目前尚未被普遍视为档案。
思索二:“智机文件”算不算档案?
对于“智机文件”是否属于档案,存在三种观点。第一种认为它并非由人形成,不应算作档案;第二种觉得它是按人的指令生成的,应算档案;第三种主张具体分析其形成后的利用情况、利用价值和归档情况,只有被应用、有价值且归档的才算档案。
作者支持第二种观点。以深度求索大模型为例,生成文档需人的指令,有人的参与,是人的想法的体现。此外,有些生成内容即便未被应用,也具有证据价值。比如,有人让机器生成制造杀人武器的方法,这些内容可作为其有不良企图的证据。还有作者在智慧档案产业园开工仪式上让大语言模型起草致辞,虽未采用,但该“智机文件”记录了作者的行为、模型的生成水平以及企业对“智机”的使用情况,反映了个人生活轨迹、时代印记。杭州电视台用数智人播音员播放新闻,深圳政务部门用“智机”生成公文,这些都充分说明“智机文件”符合档案的定义,应属于电子档案中的新类别——智机档案。
思索三:档案的概念暂时要不要做修改?
传统档案定义强调档案是法人和自然人在活动中直接形成的有保存价值的原始记录。新修订的《档案法》对档案的定义也围绕这一核心。“智机”生成的文档看似超出了法人和自然人形成的范畴,但实际上都是根据人的指令生成的。因此,可将“智机文件”看作是指令者形成的,属于法人档案或个人档案,可当作电子档案看待。基于此,现行档案概念暂时无需修改,这样在实际工作中更具操作性,待未来出现新变化或问题时再作调整。
思索四:“智机文件”要不要归档?
“智机文件”符合档案概念,具有档案的功能,应像电子档案一样全部归档。从档案的概念、内涵和本质来看,它能记录历史、传承文明,反映社会和科技发展。从成本角度,“智机文件”为电子形式,存储空间小,管理成本低。从作用上,归档后的“智机文件”未来会像电子档案一样发挥重要作用,一些标志性的“智机文件”,如我国首个大语言模型生成的首份文本、图片等,具有里程碑意义,应成为重点档案。从效果方面,如果不保存,会导致时代记忆缺失,不利于历史记录和文化传承。
思索五:要不要辨别是不是“智机文件”?
“智机文件”与人工创作的内容价值不同,应当加以辨别。国家应提倡或规定“智机文件”标明生成标识,方便人们分辨和鉴定价值,就像电视纪录片中对影视剧资料的标注一样。网上已出现标注“纳米Ai生成”的视频,这为规范“智机文件”标识提供了参考。
思索六:“智机文件”归档后,如何著录?
“智机文件”归档后的著录可根据文件形式进行。文本类按电子文件著录作者(指令人或发布者)、内容主题、文种、时间等;图片类按照片著录作者(生成者)、主题或题目、时间等;视频类按电视剧、电影著录作者(指令者、生成者、发布者等)、主题和题目、时间等;声音类按录音档案著录必要要素。初期可进行粗略著录,后续再根据实际情况完善规则。
对人工智能生成技术在档案工作中应用的思索
此前,档案界对人工智能生成技术的应用并不积极。主要原因是大家认为该技术高深,对人才要求高,研制和使用成本大。然而,深度求索“智机”的诞生改变了这一认知。其主持人并非专业大模型领域人士,团队规模不大,资金投入不多,开发时间也较短,这表明档案服务企业若愿意,可利用其开源技术,打造适合档案管理工作的专业大模型。
思索一:档案工作是否应用“智机”?
档案工作追求真实,而“智机”部分功能存在造假风险,但仍应在档案工作中应用“智机”。从档案形成角度,“智机”的声音转文字、文字翻译和非电子档案识别转化等功能,能丰富档案馆(室)的档案资源。从管理角度,“智机”可对档案安全预警、分析利用趋势、监控档案状态等,有利于档案的安全和科学管理。从利用角度,虽然“智机”可能生成虚假内容,但这些技术也是让档案“活起来”的有力手段,能提升档案展览、编研、开发的效果,实现档案数据的智慧开发,发挥档案的最大效益。从治理角度,档案行政管理工作应用“智机”可提高效率,不应用则会落后于时代。
思索二:档案工作能不能用“智机”?
“智机”在档案工作中有众多应用场景。对档案馆(室)而言,可实现自动收集、管理、统计、监控、调取、扫描识别转换、搜索、编研、展览、深度加工开发和翻译档案等功能,将传统档案馆(室)提升为智慧档案馆(室)。对档案局来说,可用于远程业务指导、法律咨询、宣传培训和科研辅助等。档案学校可借助“智机”辅助教学与科研,解决实际问题。档案服务企业利用“智机”为各类档案部门服务,建设智慧档案馆(室)、新质档案馆(室),这将是行业发展的新风口。
思索三:档案工作用得起用不起“智机”?
过去人们认为“智机”成本高,档案部门难以承受。但深度求索大模型开发成本低,仅为国外同类产品的1/20-1/30,且免费开源。美国华人李飞飞团队甚至用50美元就“蒸馏”出不错的大模型,未来“智机”成本可能更低。档案服务企业可借助深度求索模型建立智慧档案平台,每个档案馆(室)单独建系统的费用可能低于建数字档案馆(室),还可考虑建设集中式智慧档案大平台,为国家节省大量资金,这也是我国智慧档案建设的新方向。
思索四:档案中有秘密,用“智机”安不安全呢?
档案中存在秘密,使用“智机”时安全性备受关注。建设智慧档案馆(室)与数字档案馆(室)的安全原则相同,即涉密档案先不进行数据化处理,不进入数据库。一般情况下,涉密档案占档案馆(室)全部档案的10-30%,暂时不处理这部分档案,不影响其他档案的智慧管理与利用。待对涉密档案逐件鉴定解密后,再进行后续操作,这样档案部门可放心使用“智机”进行智慧档案建设。
思索五:“智机”是否会取代档案人?
在2022年10月美国聊天机器人诞生前,人类档案的制作主体是人,机器仅起辅助作用。然而,生成式人工智能的诞生改变了这一局面。如今,档案从制作者角度可分为两大类:一类是人工档案,即由人制作的档案;另一类是“智机”档案,由生成式人工智能系统、大语言模型等智能机器制作。这是档案史上前所未有的新类别,美国自2022年11月开始出现,中国从2023年3月起也有了这类档案。截至2024年年底,中国备案和上线的生成式人工智能大模型众多,注册用户达7亿以上,生成的“智机文件”至少百亿份,但目前尚未被普遍视为档案。
深度求索大语言模型的出现,为档案工作带来了新的思考方向。希望通过这篇文章,能在全国档案界引发关于“智机”与档案的深入讨论,吸引更多专业见解,推动档案人对“智机文件”的关注与收集,促进生成式人工智能技术在档案部门的广泛应用,开创全国智慧档案、新质档案的新局面。
文章来源:文章节选自《中国档案》2025年第2期