威海市档案馆业界要闻人工智能技术在录音录像档案管理中的可用性

人工智能技术在录音录像档案管理中的可用性

发布时间：2022年05月16日 15:45

信息来源：威海市档案馆

浏览次数：

摘要

数字时代带来了电子档案的海量增长，而录音录像档案成为电子档案中占比例最大的部分。传统的人工操作方式，已经不能实现对大量录音录像档案进行精确编录的工作，录音录像档案标准著录信息的有限性也不能满足档案管理与利用的需要。利用人工智能平台下的语音识别和视频内容分析技术，可以高效、准确地完成这一任务，给档案管理利用工作带来技术创新。

人工智能技术在录音录像档案管理中的可用性

录音录像档案增长与利用之间的矛盾

随着上个世纪计算机时代的到来，档案文件也从传统纸质与实物为主，逐渐进化到电子档案时代。技术进步不仅让人们的生活质量得到大幅提高，也让记录仪、高清摄像头、智能手机等各种视频采集设备全面普及。录音录像档案从传统时代的只能利用录音机、摄像机等专业设备录制，变为点点鼠标或动动手指即可批量生成的内容，录音录像档案在电子档案中所占比例越来越大。随着录音录像档案逐年增多，开始出现档案编目信息不能满足档案管理利用的问题。

2020年5月1日国家档案局开始实施《录音录像档案管理规范》，规范将录音录像文件基本著录项设定为密级、载体编号、档案门类代码、题名、责任者、工作活动名称、工作活动描述等16个基本著录项。16项基本著录大部分都是从档案管理角度出发而设置，而真正能够体现录音录像档案的内容、展示档案价值的著录项，只有“工作活动名称”“工作活动描述”两项信息。在该标准后所附的《录音录像电子文件采集登记表》中，填写这两项内容的部分，样表也只设计了2行字和6行字的著录空间，理论上最多只能填写不超过300字的内容。面对当前一个录音录像档案动辄长达几十分钟，甚至数小时的情况，这寥寥可数的300字还要分成两个部分描述，最多只能做到对录音录像的活动主题进行概要式说明，从而形成简化后的著录数据，根本无法实现对档案丰富内容的全面表达或精准描述。在档案利用实践中，很多时候无法根据这些有限的著录信息，找到录音录像档案中的重要信息或片断，而通过人工全面观看进行查找的效率又过于低下。对于需要对录音录像内容进行精准编录的情景，“对音、视频档案的整理还停留在人工视听阶段，一边看一边听一边录，比如各档案馆对采集的地方新闻联播，就通过这种办法进行条目著录，不仅效率低、内容采集不全，还费时费力。” [2]

针对这一问题，档案工作者从实践出发，提出了不同的解决思路。在音视频档案保存与利用的分类编目研究方面，张美芳提出了以文件、片段、场景和镜头为单元进行著录，更方便精准地利用信息的解决方案 [3] 。吕元智、谷俊认为视频档案资源内容揭示与描述等工作存在明显的不足，妨碍了视频档案资源的有效利用，设计了三维细粒度视频档案资源描述框架 [4] ，来加强档案资源描述。然而，面对录音录像档案爆发式增长，不可能调用相应规模的海量人力资源来实现以文件、片段、场景和镜头为单元或三维细粒度详细著录。音视频档案著录信息的有限性，与档案内容的高效检索利用之间，形成了无法避免的矛盾。

人工智能时代的音像内容分析技术

随着大数据时代的来临，深度学习技术开始兴起：在海量数据的基础上，利用人工神经网络的自学习功能，自动对音视频内容进行分析成为可能。2006年加拿大人辛顿发表了关于计算机深度学习第一篇论文，此后音视频内容分析技术进入人工智能时代。截止2015年，在语音识别方面，利用设计的深度学习语音识别模型中英双语错误率3.1%，已经超过正常人的识别能力(错误率5%)，汉语测试中机器的识别错误率只有3.7%，而一个五人小组的集体识别错误率则为4%。 [5] 国内科大讯飞、百度、腾讯、搜狗等高科技公司更是在智能手机输入法、微信等软件中，嵌入了语音输入功能，让语音识别走进人们的生活。在语音识别过程中，用户提供的大量语音信息成为人工智能识别训练的大数据集，反过来提高了语音识别效果，让人工智能语音识别更准确。在图像识别方面，受益于云计算带来的运算能力突破式进展，利用深度学习网络模型，2015年人工智能支持下的自然图像识别错误率可达3.6%，同样胜过了人眼识别5%的错误率。

人工智能时代，利用一些图像处理、模式识别或机器学习等领域的算法，来分析视频序列中的信息，以达到理解视频内容的目的，也有人称为视频内容分析。 [6] 通过对视频进行语音识别，结合基于计算机图像识别的视频镜头分割技术，计算机已经能够识别和理解一般场景下的自然语音和自然图像，将视频内容中的语音直接识别转化为文字内容，视频中的人物通过人脸识别技术直接生成基于人脸的视频索引，在避免浪费大量人工进行音视频内容分析的同时，还提高了内容的准确度。基于人工智能技术的语音识别和图形学分析，为有限著录信息与档案丰富内容之间的矛盾提供了可行的解决方案。

人工智能技术在音像录像档案处理中的应用

1.录音档案内容的文本化处理

利用人工智能平台的语音识别技术，可以将现有的录音档案进行精确识别，让整个录音的内容一字不漏地变成易于检索利用的文字形式。1个小时的录音文件，如果用人工听写的话，大约需要3-5个小时才能完成，如果有嘈杂背景音影响的话，所花时间更多。而采用人工智能技术，可以直接根据语音频率与噪音频率的不同，通过技术手段将背景噪音去除，同样的1小时音频，计算机只需要5分钟就能完成。与人每次只能识别一个文件不同，计算机可以同时对多个文件开展并行识别。计算机可以24小时不间断地工作，更不会像人一样因为劳累过度出现失误。在识别速度、识别质量、准确度、工作稳定性等多个方面，人工智能技术都拥有远超人类的优势，能够更快速地将音频信息完整转录为文字。在改变传统录音档案整理方式的同时，节省了大量的人力物力，同时还简化了采集、处理等工作流程。

2.录像档案内容的智能化分析

传统的录像档案整理，多采用内部人工分析，或者数据外包的形式，由人工进行内容识别、分析、理解、标示。在档案标准著录信息之外，最主要的工作内容就是将全部语音转化为文字，并将个别重要视频片断进行单元化分割保存。对于视频内容中可能蕴含其他重要信息或关联内容，无法通过人工进行全面处理。不同视频档案之间，即便有相关性，也会因为海量数据的存在，无法发现数据之间的联系，形成档案利用中的“孤岛”。

利用人工智能平台的识别技术，能够以关键帧、镜头、片断、人物变化、视频场景等多种标准，将视频文件分割为不同单元，根据每个单元相应的语音信息和图像信息进行全面著录。在生成全面的识别数据之后，就可以实现对视频的全内容检索，不管是视频中出现的一个人，一句话，一个场景事件，还是不同视频中出现的相似内容，都可以利用关键字检索全部内容，将这些关联部分快速聚类发现，自动形成有意义的档案单元。从而让视频档案的检索利用，从传统基于视频著录项的有限检索，转变为全内容检索利用。在对大量的视频档案进行了内容分析之后，还可以通过人工智能的自动化处理技术，把不同信息形式的档案信息进行归纳分析，建立档案内部的有机联系，给利用者提供更加完善的档案信息，从而减少“信息孤岛”给档案利用方面带来的不利影响。[7]

3.对传统档案管理利用工作的创新

以人工智能为平台的音视频分析技术，在实现了音视频档案进行全内容分析编目之后，传统的档案编研利用工作也随之改变。基于全文本内容的视频检索技术，可以快速地基于检索词，实现对视频内容的搜索查找、聚类分析、关联推荐，同时基于分析结果自动生成视频摘要。

在视频档案利用中很重要的一个工作内容，就是利用原有视频作为素材，创作新的视频。传统模式下，这一工作需要对视频档案素材进行全面观看，然后挑选其中相关的主题内容，将视频精确剪切成片断后，在电脑上用剪辑软件加上合适的过渡效果后编辑合成。整个过程耗时过多，操作复杂，效率低下。以人工智能平台为基础的视频分析管理系统，能够直接解决这一问题。以阿里巴巴旗下的北斗星团队在优酷网开展的工作为例：在对长视频进行内容分析后，可以根据生成的数据自动衡量视频内容质量，实现对视频内容的智能化评估。然后根据用户对内容的喜好度，用自动化生产的方式智能创作新的视频，实现电视电影关键剧情的识别、抽取、解构、组合，最终以故事主线为核心，智能创作预告片。在档案利用工作中，人工智能平台对视频档案进行全内容分析后，系统就可以智能化地把完整视频中不必要的情景切掉，或者根据设定的主题，将多个相关视频中的对话、场景、片断进行自动拼接，快速高效地生成新的视频，从而将人员从低效劳动中解放出来。

作者：刘涛《档案管理》2022年3期