技术中心
 
 

视频摘要生成理论及过程分析

   日期:2013-01-13     来源:互联网    
随着多媒体和计算机网络技术的快速发展,多媒体基于内容的访问、检索和交互操作的应用越来越广泛。视频作为各种媒体中形式和内容最丰富的媒体类型,越来越受到用户的青睐,然而视频信息内容的丰富性是以视频数据的无结构性和数据量巨大为代价的。因此,无法对视频数据直接进行基于内容的提取,如何高效、快速的把视频媒体中用户感兴趣的内容分析并提取出来,作为快速搜寻、过滤的重点是这些应用的技术关键。

何为视频摘要,我们可以通过一个比喻来分析。众所周知,一篇文章的摘要对这篇文章的高度概括,通过文章的摘要,我们基本可以了解全文的主要内容,我们利用文字的摘要对文献进行初选,然后再对自己感兴趣的文章进行精度。

而对于视频的摘要,我们可以理解为对视频的结构和内容进行分析,从原始视频文件中提取出有意义的部分,并将它以某种方式进行组合,形成简洁的能够充分表现视频内容的概要,是对长视频内容的简短总结,通常用一段静态或者动态的图像序列来表示,并对原始信息予以保留。

由上述分析,视频摘要的理论基础,就是从时域、空域两方面去除冗余信息,并结合视频索引技术。提供给人们一个概括原始视频主要内容,但长度却比原始视频短得多的较为精炼的关键信息。

那么,基于此理论,我们来讨论一下视频摘要的生成过程。

在此之前,我们先了解一下几个概念。视频,是多幅静止图片(图片帧)与连续的音频信息在时间轴上同步运动的混合媒体,多帧图片随时间变化而产生运动感,因此视频也被称为运动图像。而视频关键帧,是指在视频文件的一系列图像帧序列中,具有很强的代表性,能够比较准确、全面的反映一个镜头甚至整个视频内容的图片帧。

视频摘要技术,应该主要包括视频内容提取、摘要合成、摘要表现等三大技术要点。

任何视频摘要的算法,都应遵循“先分后合”的原则,要进行视频内容的理解和分析,必须首先将视频切分成合理的基本单位,这些基本单位包括场景、镜头、关键帧、元素、轨迹等。再采用模式识别或视频结构探测的方法,获取能够被计算机直接处理。或能够被人的感观直接感觉到的信息。这就是对视频内容的提取过程。

摘要的合成,应该能够与视频索引技术等相结合,通过播放速度、轨迹密度等参数,将重要的元素组合在一起,进行视频片段的重铸,形成某种形式的视频流。

摘要表现,是基于内容的视频检索和分析,考虑符合人类的感观和便于浏览的原则。其浏览方式包括视频总体摘要和单个事件轨迹摘要等。

对于视频摘要分析,它的最终目标就是让计算机视觉达到或接近人的视觉水平,由于视频内容的复杂性和人类理解的多样性,因此生成完整、准确、令人满意的视频摘要比较困难,所以目前计算机的视觉水平与人的视觉能力相差还有一段距离。但总体来说,视频摘要正在向更高级的方向发展,具有广阔的研究空间和极大的应用价值。



 
  
  
  
  
 
更多>同类技术
 
全年征稿 / 资讯合作
 
推荐图文
推荐技术
可能喜欢