引 言
随着CPU速度的迅速提高,CPU与片外存储器的速度差异越来越大,匹配CPU与外部存储器的方法通常是采用Cache或者片上存储器。微处理器中的片上存储器结构通常包含指令Cache、数据Cache或者片上存储器。对于嵌入式设备上数据密集的应用,数据Cache与片上存储器相比存在以下缺陷:①片上存储器是固定的单周期访问,可在设计时(不是运行时)研究数据访问模式;而Cache还要考虑不命中的情况,因而有可变的数据访问时间,执行时间的预测更加困难。②使用Cache执行时间的不可预测性影响编译器的优化。③细颗粒的Cache对于图像编码等的规则数据访问并不合适,因而使用Cache对于嵌入式设备可能不是最优的。对于大多数应用,使用片上存储器比使用数据Cache能耗平均节省约40%,芯片面积与时间的乘积仅为Cache的46%,因而对于嵌入式多媒体处理器,片上RAM作为数据Cache的替代,功耗更低。片上存储器的有效使用对于提高嵌入式应用的速度、降低功耗具有重要的意义。
TMS320C55x(简称为“C55x”)具有极低的功耗(0.05 mW/MIPS),非常适合手持设备,现在已
经集成至TT公司专门针对3G手机的高性能多媒体处理器上。C55x片上除了24 KB的指令Cache外,还有64 KB的双端口存储器(DARAM)和96 KB的单端口存储器(SARAM)。DARAM和SARAM总共160 KB,分成20个块,每个块8 KB。本文以C55x上的视频编码器为例,讨论片上存储器的有效使用。
1 数据的片外、片上动态分配
因为片上存储器比片外存储器具有更强的数据访问能力和更低的访问功耗,所以尽可能分配数据到片上存储器;未能分配到片上的数据可在CPU处理前转移到片上;已经转移到片上的数据,应尽可能在片上保存,直到其生命期结束,以便尽可能减少数据从片外存储器到片上存储器的数据转移。在视频编码等应用中,标量、常数相对矩阵而言,通常数量较少,可以分配到片上。若分配到片外,则在运算时直接存取片外数据,CPU流水线将会停滞。直接存储器存取(DMA)可以在存储器之间、存储器与外设之间转移数据,除了DMA通道参数初始化以外,DMA转移数据和CPU处理数据可以并行进行。设置DMA通道参数需要一定的时间,用DMA来转移单个变量或常数的开销可能比直接存取更大,因此DMA适合转移具有较多数据的矩阵,并不适合片外标量的转移。包含大量元素的矩阵可以分配到片外,处理前使用DMA转移到片上存储器。
局部变量由编译器分配到软件栈上,C55x具有两个软件栈——数据栈和系统栈。C55x的栈有3种工作模式,可设置成双16比特快返回模式,以减小栈所占的存储器空间,并提高其运行速度。数据栈和系统栈在函数调用及返回时同时访问,可将这两个栈分配到DARAM块或者不同的SARAM块内。
本文中数据存储器的分配,强调从实际多媒体应用处理的基本数据块出发,分析简单、直观。多媒体算法总是将原始输入数据分成一定大小的块来处理,并产生对应该输入的最后输出。如果片上没有足够的存储器,则大量的输入数据和最后结果仅能存储在片外。对于元素较多的矩阵,可以根据算法特征,将矩阵分成若干数据子块,如H.263编码器中的宏块和搜索窗等,或者单纯根据可得到的片上存储器数最分成适当大小的子块逐个运算,然后分析数据子块的生命期和使用频率。
这里定义数据子块的生命期为首次使用到最后一次使用之间的间隔,而通常变量的生命期为定义到最后使用之间的间隔。例如,定义整型数组int MB[384],用来存储待编码宏块的数据,图像的某个宏块的数据在该宏块编码结束后,该宏块数据的生命期也就结束}然后该数组用来存储下一宏块的数据,因而变量的生命期远比存储在该变量中的某一具体数据的生命期要长。若数据子块具有不相交的生命期,则可以共享相同的片上存储器。很多数据子块在运算中多次使用,可在首次运算前转移到片上,并尽可能保存到生命期结束,即直到这些数据不再使用为止,因而这些数据仅需要一次转移。将程序执行时间看成是由很多连续的时间间隔组成的,若在下个时间间隔内需要转移新的数据到片上供CPU处理,而片上又没有足够的存储器存储这些数据,则这时将随后需要莲续频繁使用的数据保留到片上。对于随后较少使用的数据,若片外存储器还保存有该数据的备份,则这些数据可直接覆盖,等到下次使用时再从片外存储器拷贝到片上;否则,在覆盖前将数据转移到片外。在片上分配一定的缓冲区,用来存储需要再次使用的数据,可有效地减少片外存储器的访问。对于中间结果,尽量在使用前分阶段计算,使用后释放,以缩减存储中间结果的存储器需求。通过数据的这种动态分配,既可以减小或避免访问片外慢速存储器所引起的指令延迟,又可以减少片外到片上的数据转移。
在H.263视频编码器中,编码是按宏块顺序进行的。INTRA宏块编码不仅需要当前的编码宏块数据,还需要以当前宏块为中心的重建图像搜索窗。因此,根据算法特征将整帧输入图像划分成宏块,某个宏块数据在编码前转移到片上,这一宏块编码结来后就不再使用,这部分片上存储器就可释放,用来存储下一宏块数据。若在编码的同时采用DMA转移下一个宏块,则需要在片上分配两个宏块的存储器空间,用来存储编码的原始图像。
在进行INTER帧的编码时,运动搜索需要使用前一帧的重建图像作为参考。设搜索范围为[-16,+16],编码该宏块需要搜索参考图像中以编码宏块位置为中心的9个宏块,即前一帧中宏块(x,y)的重建图像,直到编码(x+1,y+1)宏块后生命期才结束。以CIF分辨率为例,不可能把一帧图像的所有重建宏块保存到生命期结束,因而部分重建图像必须暂时存储在片外。若在编码(x-1,y-1)前将重建宏块(x,y)拷贝到片上并一直保存到编码(x+l,y+1)宏块结束,则只需要在片上分配将近3个GOB的空间用来存储参考图像,就可以保证每个宏块的重建图像数据只需要一次片外到片上的转移。
半像素内插结果,用于在整像素运动搜索后作为半像素搜索的参考,因而可在整像素搜索后、半像素搜索前,围绕整像素运动矢量,对整像素运动矢量对应的匹配宏块进行内插。这样就没有必要在编码INTER帧前将整帧图像进行内插,可显著减少存储内插结果的存储器数量,从而分配在片上。
2 片上数据的存储器分配
C55x除了读指令的地址、数据总线外,还有3条用于从存储器读操作数的地址、数据总线,2条写操作数到存储器的地址、数据总线。CPU在1个周期内可完成多个操作数的读写,由于每个DARAM块或SARAM块的访问能力有限,这些操作数位于适当的DARAM或SARAM块内,才能在单周期内完成多个数据的读入或者数据的同时读写,而不产生延迟。
2.1 指令代码的分配
应用程序的指令代码可以存储在片外存储器,通过指令Cache进行访问,可以减少CPU读指令代码与CPU读/写片上存储器内数据的冲突,同时将空余更多的片上存储器空间用于数据分配。若存储程序代码和数据所需的存储器容量总和小于片上存储器容量,那么将代码分配到片外存储器与代码数据全部分配到片上存储器相比,性能降低大约10%。因此当代码和数据总和小于片上存储器容量时,应该全部分配到片上存储器。通常程序代码仅供CPU读取,并不修改;而数据经常需要同时读写,因而应尽量将代码存储在SARAM内,以便将访问能力更强的DARAM用来存储数据。在单个CPU周期内,SARAM仅有一次访问能力,同时读取指令和数据必然产生延迟,为了保证读取数据时不产生延迟,数据不能与访问这些数据的代码存储在同一SARAM块内。也就是说,当程序代码大小不是刚好整数个块时,可通过调整代码或者数据的存储器分配,避免CPU读代码与读/写数据发生冲突。
2.2 数据分配
前面已经讨论过变量和常数的分配,这里主要讨论的耗时较多的矩阵运算,通常口丁以用C语言或者汇编语言编写应用程序,C语言编译后可产生汇编代码。在汇编语言的代码中,找到处理矩阵操作数的指令,依次列举这些指令不产生延迟的矩阵分配限制,并求解满足这些限制条件的片上存储器分配。
不产生延迟的约束条件可分成两类基本约束条件:
①两变量位于DARAM块内或者两变量位于不同的块内,记为条件A(这是由SARAM块或者DARAM块访问能力产生的限制);②两变量位于不同的块内,记为条件B(这是由CPU总线的特殊结构产生的限制)。其中条件A中的两变量可在同一DARAM块内;或者不同的SARAM块内;或者一个变量在DARAM内,另一个在SARAM内。条件B指的是两变量在不同的DARAM块内;或者在不同的SARAM块内;或者一个变量在DARAM块内,另一个在SARAM块内。条件A可看成是两种条件的逻辑“或”关系:
A=B Or C
其中,条件C定义为两变量都位于DARAM块内。循环中的操作数一般表现为矩阵的一个元素,在一个应用程序中,通常有多个矩阵,矩阵中的元素应同时满足多个上述基本条件。当矩阵较多,限制条件复杂时。可以使用计算机求解数据存储器分配,以满足矩阵访问不产生延迟的条件。在这里,只需要求出满足条件的一个解,并不需要求出所有可能的解,因而对求解问题做一定的简化。
设x、y分别是矩阵X、Y的某一个元素,X、Y位于不同的块内是x、y位于不同的块内的充分条件;同样X、Y都位于DARAM内或者不同的块内是x、y都位于DARAM内或者不同的块内的充分条件。例如,X位于DARAM块,Y矩阵部分位于与X相同的DARAM内,其余位于SARAM内,也能使x、y满足条件A。
例如:N个矩阵需要同时满足N1个A类条件和N2个B类条件。从每个A类条件中任选一个条件(B或者C),最多有2N1个组合。每种组合与N2个B类条件联立求解,其中某些组合可能没有解,任意一个解都能满足不产生延迟的条件。这时任何一种组合中可能包含M(O≤M≤N1)个C类条件,其余的为B类条件。
C类条件是两个矩阵必须在DARAM块,将需要满足C类条件的所有矩阵存储器的大小相加,相同的矩阵不重复累加,结果为需要分配到DARAM的矩阵总数量。当结果超过可得到的片上DARAM数量时,这种条件组合下就没有解。
每个B类条件要求某两个矩阵必须在不同的块内,由于存在多个B类条件,事实上可能要求多个矩阵相互不在同一个块内。例如,要求矩阵A1和A2不在同一块内,矩阵A3和A1不在同一块内,矩阵A3和A2不在同一块内,这实际上是要求A1、A2、A3相互不在同一块内。若有一组矩阵,其中任何两个矩阵都必须分配在不同的存储器块内,称为“B类约束矩阵组”。若不存在一个矩阵,要求与某个B类约束矩阵组中的所有矩阵都存在B类约束关系,则称这个组为“最大B类约束矩阵组”。最大B类约束条件矩阵组中的矩阵数目就是分配这些矩阵所需的最少的存储器块数。把矩阵数最多的最大组中的各个矩阵分配到不同的存储器块中,然后按照B类约束矩阵组中矩阵数从多到少的顺序分配这个组中尚未分配的矩阵,对于具有相同矩阵数的组,则先分配未分配矩阵较少的B类约束矩阵组中的矩阵,若B类约束的矩阵同时存在C类限制,则分配到DARAM上;否则优先分配到SARAM上。若SARAM上没有足够的空间,再分配到DARAM上。最后在DARAM 上分配C类约束条件中的尚未分配的矩阵。
3 总结
上述数据存储器的分配方法只考虑了C55x中数据分配的主要方面,还有一些因素尚未涉及。例如长整型数据的分配就必须考虑数据存储器地址的对齐问题,这时数据分配的求解变得更加复杂。可以将矩阵短整型的个数规定为偶数,以简化对齐问题,所以卜述求解方法仍具有普遍的实用意义。