数据采集,又称数据获取,通常有两种解释:一种是从数据源收集、识别和选取数据的过程。另一种是数字化、电子扫描系统的记录过程以及内容和属性的编码过程。数据采集技术广泛引用在各个领域,比如摄像头,麦克风,都是数据采集工具。
“大数据”是指一组数据集非常庞大且复杂,以致于很难利用现有的数据库管理工具进行处理。它有助于统一大型数据集,并能够从分析中得出其它信息,而不是来自具有相同数据总量的单独的较小数据集。大数据时代的来临,带来了很多现实中的难题,为了解决这些难题需要新的技术变革,需要新一代的数据库技术,业界称之为大数据技术。IDC这样定义大数据技术:大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构的变革。
由此看来,大数据产生的第一步就是大数据采集。那么对于安防行业来说,大数据产生的一个最重要的途径就是视频监控,监控摄像机也就成为最重要的大数据采集工具。
视频监控数据有两个方面的内涵--海量和非结构化。视频监控数据量规模庞大,并且随着高清化、超高清化的趋势加强,视频监控数据规模将以更快的指数级别增长;与通常讲的结构化数据不同,视频监控业务产生的数据绝大多数以非结构化的数据为主,这给传统的数据管理和使用机制带来了极大的挑战。
“除了上帝,任何人都必须用数据来说话”,美国著名管理学家、统计学家爱德华·戴明将数据提升和上帝平行的高度。视频监控业务正是一个典型的数据依赖型业务,依靠数据说话。可以说,大数据与视频监控业务有着天然的结合。综合来看,大数据与视频监控业务的结合主要体现在“存”、“看”、“用”上。
“闪存”:如果类比水库蓄水的方式,典型的网络视频监控数据存储模型是一个由小溪汇聚河流、再汇聚到水库的蓄水方式。小溪数量增多、水量增大是水库蓄水量的保证,然而传统方式下蓄水量增大将提高水库建造成本和蓄水安全的要求。而采用分布式蓄水模式,在河流中游建立多个中间蓄水池,不仅可以减少主水库蓄水压力和成本,化整为零也提高了就近用水效率。在大数据技术支撑下,网络视频监控数据存储模型可转向分布式的数据存储体系,提供高效、安全、廉价的存储方式。
“易看”:在视频监控业务中,错看漏看、来不及看等是常见的困扰点。大数据监控图像的回溯给许多安防监控管理人员带来了生理与心理的双重挑战。在大量人力投入的公安案件追溯中,都常常耳闻“看到吐”、“看到晕”等无奈和感叹。可想而知一般零售行业、金融行业等,对于视频监控图像的回溯就更为困难。在视频监控大数据趋势已经来临之际,依靠人眼去检索、查看所有视频图像数据已经不太现实。通过大数据技术实现视频图像模糊查询、快速检索、精准定位,让看变得简单迫在眉睫。
“善用”:视频监控业务中,看只是信息采集的方式之一,用才是业务应用的根本。视频监控业务的效率问题已经成为阻碍产业发展的关键瓶颈。随着视频监控摄像机覆盖广度、密度增大,视频图像数据量呈指数级上升,而视频监控数据的使用效率却在下降。
大数据背景下,视频监控遭遇几大困境
飞速增长的视频监控数据,使得传统视频监控体系架构、数据的管理方式、数据分析应用等面临新的困境。
数据量的急剧扩大和IT投资之间的矛盾
按照IT产业的法则:在满足客户需求的前提之下,往往技术成本越低,其生命力往往越强。由于数据量的急速扩大,以及随之而来的大规模计算的需求越来越多,一味采用高配硬件,使得硬件投资成为客户不可承受之重,客户越来越希望在满足需求的前提下,用中低端的硬件来替换高配硬件。
海量数据和有效数据之间的矛盾
摄像头7X24小时工作,如实记录镜头覆盖范围发生的一切,仅仅记录信息是不够的,因为对于客户来讲可能大部分信息是无效,有效信息可能只分布在一个较短的时间段内,按照数学统计的说法,信息是呈现幂律分布的,也称之为信息的密度,往往越高密度的信息对客户价值越大。
资源利用和效率之间的矛盾,串行计算和并行计算的矛盾
视频监控业务网络化、大联网后,网络内的设备越来越多,利用闲置的计算资源,实现资源的最大化利用,关乎运算的效率。在视频监控领域,往往视频分析的效率决定价值,更低的延迟、更准确的分析往往是平安城市这类客户的普遍需求。随着数据量的增加,哪怕对TB级别的数据进行对视频内容的数据分析和检索,采用串行计算的模式都可能需要花费数小时的计算,已远远不能胜任时效性的需求。视频的分析和检索,不能依赖于传统的手段,巨量数据的效率优化,并行计算是视频智能分析的唯一出路。