技术中心
 
 

结合传感器的并行处理器实现高速成像

   日期:2013-06-14     来源:互联网    

如果一幅图像的数据量相当于一千个字符,那么100,000幅图像的数据量有多大?能否设计一个数字成像系统来处理如此高帧速的图像。这样一个成像系统可以应用于机器视觉,智能视频系统,瞬间事件的科学分析,工业过程监控,互动游戏以及无人运输器和导弹的制导系统等众多领域。

2000年,来自匈牙利、西班牙和美国的科学家在布达佩斯成立了AnaLogic计算机公司。该公司的目标就是设计每秒能存储、分析和增强几千帧图像的数字成像系统。3年后,他们又在美国加利福尼亚州,伯克利城成立了AnaLogic的后继公司,Eutecus。在美国导弹防御局以及海军研究办公室的许可下,他们开发了Cellular Visual Technology(CVT).

CVT由大规模并行处理器和优化成像处理软件构成。有些实现方法使用一种创新的半导体制造工艺把图像传感器和并行处理阵列直接结合在一起,创造出一个多层芯片。图1是C-TON的照片。C-TON是第一款为商业市场设计的此类芯片。

 

公司首席技术官Dr Akos Zarandy和Dr Csaba Rekeczky 奔波于布达佩斯和伯克利之间。CVT技术的发明人,公司技术副主席,Zarandy10月份在秋季微处理器论坛上发表了关于CVT的技术介绍。这篇文章也吸取了该技术的另一名发明人,公司研发副主席Rekeczky的意见。

并非传统数字相机

Eutecus的设计与传统数字相机以及家庭摄像机大相径庭。经典的数字相机有CCD或CMOS成像传感器,这些传感器由微小感应单元组成的阵列覆盖而成。几乎每个感应单元都对应一个像素。在曝光过程中,照射到感应单元的光被转化为电。也就是说,感应单元将光子转化为电子。照射到感应单元上的光子越多,产生的电子越多,从而形成的像素越亮。经过模数转换,嵌在RISC核中的传统微处理器读取每个感应单元的值把像素聚合成图像。然后经过增强的图像被存储到照相机的闪存或其它存储媒介上之前。

传统数字相机的帧速很低,经常是几秒一帧而不是一秒几帧。处理器读取感应单元数据和聚合图像很费时间。为了解决这一问题,几乎所有的数字相机都有缓存。前一次曝光的数据就存在这些缓存中供处理器进行处理,以便相机进行下一次曝光。

家庭数字摄像机有更大的缓存。通过降低像素分辨率,它每秒可以处理25到30帧图像,满足PAL,SECAM或NTSC视频的要求。通过使用更大的成像传感器,高清晰度家庭数字摄像机可以录制更高帧速和画质更好的图像。当然,由于使用了更大的传感器,这种摄像机的价钱更高。但是,传统摄像机无法在超高帧速下录制和处理图像。

图像处理是实现高速成像的主要障碍:所有的光子几乎在同一瞬间到达各感应单元并被计入同一“时间窗”,但是聚合图像的处理器却是顺序处理这些数据。图像感应几乎是并行的,图像处理却不是。因此,从逻辑上解决该问题的方案是应用大规模并行处理。所以,每一个或每一组感应单元应该有专属的处理器。除此之外为了实现高速成像,Eutecus还应用了人眼视觉特性仿真的技术。

大规模图像并行处理

首先,我们要注意的是Eutecus为了达到梦幻般的帧速这一目标使用了大规模并行处理,但同时还是牺牲了像素的分辨率和色彩。这是在目前半导体技术水平下无法避免的。Eutecus最新的CVT感应处理器仅能处理64×64像素,8或16位灰度级或者完全黑白的图像。Eutecus相信在同样工艺结构下可以制造出处理能力达到256×256像素图像的芯片,大概是0.06兆像素。

与现今流行的10.2兆像素数字SLR (Single-lens Teflex)相比,CVT的分辨率看起来有些低。但是这种分辨率已经可以满足很多应用领域。例如,机器视觉,低分辨率的图像足以让机器人绕开小的物体和避免撞墙。在另一些应用领域中,与记录更多的细节相比,瞬间检测高速进程中变化的能力更重要。比如就有客户使用CVT成像系统研究玻璃摔碎瞬间碎片产生的过程。此外,和人类的眼睛关注视野中的细节一样,CVT可以通过对大的区域里所感兴趣的点进行快速计算来充分利用它有限的分辨率。

尽管在分辨率和色彩上做出了一些牺牲,CVT通过使用大规模图像并行处理获得的成就仍然令人印象深刻。芯片设计者可以用两种基本的方法实现这一技术。第一种方法可以传送最高帧速的图像。它是由单一芯片组成的,这种芯片使用一种3D bump bonding的技术在处理单元顶上加上图像感应单元。

如图2所示,在数以千计的微小铟凸点上,感应单元结合在处理单元顶部,构成了紧密连接在一起的多层芯片。传感器可以是传统的CMOS或CCD设备。但是,为了最大化性能,Eutecus使用了一种少见的材料—砷化铟(InGaAs)。砷化铟(InGaAs)感应器对光的敏感度比硅感应器高大约十倍,因此它们可以在更短的曝光时间中记录图像,从而满足高帧速的要求。处理器可以用传统CMOS工艺制造。

 

第2种实现CVT的基本方法是分别使用成像芯片和处理器阵列。逻辑上与第1种方法一样,但物理结构不尽相同。虽然有一个高速并行接口将成像传感器与处理阵列连接起来,但是与直接将传感器和处理器结合在一起的方法相比,这种方法还是慢了许多。受实现方式的限制,这种方法的最高帧速比第1种方法低了一到两个数量级(大约1000到10000帧每秒)。但是,两个芯片组合在一起的方式也有些好处:它可以使用更高分辨率的成像传感器,造价更低廉。而且,芯片设计者可以通过对ASIC掩膜或对FPGA编程等方式来实现并行处理器阵列。虽然FPGA只能生成少量的处理器阵列,但是可以大大减少投放市场的时间。

第3种实现CVT的方法是将成像感应单元阵列和并行处理器阵列合成在同一晶圆上,和多层芯片方式比起来,这种方式的两个阵列结合的更紧密。但是,目前的半导体技术无法实现这一方法。因为即使都使用CMOS制造,成像传感器和ASIC的设计与制造参数也不同。另外,将感应单元和处理器单元结合在一起将会降低阵列的密度,从而降低芯片的分辨率。而且,阵列单元的光通道将更小,降低了它们的敏感度。尽管如此,该方法仍是未来研究和发展的主要方向。

克服制造的缺点

传感器阵列没有什么新奇,因此我们把注意力集中到处理器阵列上。Eutecus将几十个处理单元紧密的结合在一起,各单元之间可以相互联系。图3是C-TON的图片。这一设计共有8×8,64个处理单元。其他的设计的处理器阵列大小不尽相同。(早期的有4×4阵列)。 每个C-TON芯片的单元从64个感应点接受图像数据,所以图像的分辨率是64×64。全局控制处理器是一个8位微控制器。全局控制器负责处理片外I/O以及向阵列传输程序指令。C-TON有2K的全局程序存储空间,由传统的0.18微米CMOS制造,工作频率为100MHz。它的有32位I/O总线,工作频率也是100MHz,带宽400MB/s。

每个单元内部有一个基于单指令多数据的24位处理器,其结构专门为图像处理进行过优化。一个多路复用器接收所有连接到这一单元的感应点的输出,然后将信号输送到一个通用8位模数转换器。这些模数转换器依次连接到处理器上。此外,每个单元和另一个单元共享1k局部内存,每个单元与和它相邻的单元之间有通信接口。单元之间可以通过共享内存来进行通信,每个时钟周期传输8bits数据。不相邻的单元之间没有直接联系。

需要注意的是,像C-TON那样将成像传感器和处理器结合在一起的芯片,未经处理的数据通过数以千计的铟凸点而不是由传统的I/O总线从感应器传输到处理器阵列的。每个单元和在它顶部的感应点之间有专属的I/O接口,这一巧妙的设计解决了大规模处理阵列常有的问题:如何通过大规模阵列传输数据。

另一些大规模并行设计通过阵列的边缘接收数据,通过网络传输数据。但是在“凸点键合”多层芯片中,图像数据可以瞬间到达阵列的任何一点,不用绕道没有延迟。当然,图像数据I/O输出是仍需穿过整个阵列。但是,通过在本地处理图像数据,处理单元可以减少从芯片输出的未经处理的图像数据。

阵列各层的资源分配

像C-TON这样将传感器和处理器结合在一起的芯片从抽象的角度说有多层硬件资源:成像传感器,多路复用器,ADC,处理器以及存储器。成像感应器由独立的凸点键合的晶圆组成的。多路复用器和ADC是混合信号部件,一层独立的晶圆。处理器和SRAMS占用同一层晶圆的一部分,同样使用数字CMOS技术制造。

 
  
  
  
  
 
更多>同类技术
 
全年征稿 / 资讯合作
 
推荐图文
推荐技术
可能喜欢