[[SHARC处理器]的起源和演变起源处理器温度

1简介说到要求超高性能的尖端应用,就不得不提到ADI公司的SHARC处理器。随着更高的动态范围、更高的性能和更低的成本等日益增加的市场压力,各种应用对浮点处理器的需求也在增加。本文将介绍第一个SHARC处理器背后的历史,并讨论其架构的创新,这使得该处理器在18的数字信号处理历史中始终处于领先地位。

2SHARC处理器的历史

“SHARC”是Super Harvard ARChitecture的缩写,是ADI公司给他们的浮点处理器起的名字。SHARC处理器在标准Harvard架构的基础上进行改进,不仅方便了PM(程序存储器)总线上的数据传输,还通过增加一个指令缓存优化了基于紧循环的计算过程的吞吐性能。改进后的体系结构可以同时访问数据和系数,同时执行从指令缓存中选择的指令,从而高效地实现了处理器的三总线操作模式。

众所周知,SHARC处理器源自ADSP-21020。这种浮点单指令单数据(SISD)DSP实际上是一个独立的计算核心,没有嵌入式存储器或外设。通过连接到SRAM芯片的外部总线访问PM和DM(数据存储器)存储空间,并通过JTAG接口对处理器进行编程和调试。

ADSP-21020可以工作在33MHz的时钟频率,执行一个周期的指令。ADSP-21020可以用80位累加器完成32位或40位浮点和32位定点运算,是ADI公司在1991年推向市场的突破性产品。这种内核技术是ADI公司致力于浮点性能和创新的起点。

3整合与创新:SHARC的诞生

第一个真正的SHARC处理器是ADSP-21060。ADI公司基于ADSP-21020内核产品开发了一款完全集成的处理器,包括片内SRAM和I/O处理器,用于控制集成外设的DMA流。

ADSP-21060浮点处理器于1994年进入市场,被认为是当时DSP性能和创新的顶级水平。

SHARC内核可以在一个周期内以高达40MHz的速度进行计算,并且增加了I/O处理器,可以在不增加任何内核开销的情况下,在外设和双端口4Mb SRAM存储器之间高速传输数据。

为了进一步提高最终用户的系统性能和可扩展性,ADI公司的设计团队着手创建一种机制,允许多处理器系统以极低的开销享受数据。外部端口逻辑增加了一个集群总线控制器,可以无缝地进行处理器之间的并行数据通信,每个集群最多可以有6个处理器。这项突破性技术允许系统架构师以高达240MBps的带宽将大量数据从主处理器直接传输到指定从处理器的存储器,或者使用广播模式将数据直接发送到集群中的所有从设备。

使用ADI公司的link port专利技术还可以实现处理器之间的高速通信。每个ADSP-21060集成了6个独立的链路端口,用于点对点通信,因此可以实现240MBps的额外I/O带宽。

凭借这种真正平衡的架构和扩展的功能,SHARC处理器广泛用于计算密集型应用,如医疗成像、军用雷达和电子游戏机。

拥有该功能的处理器在15年前就已经投放市场,这可能让人难以置信,但更令人惊讶的是,这款处理器还在被用户使用!这是SHARC架构性能良好可扩展性以及ADI公司对质量和用户满意度承诺的最佳证明。

4第二代SHARC处理器

第二代SHARC处理器将处理性能提升到了一个新的水平。它将内核架构扩展到单指令多数据(SIMD)系统,并将内核时钟频率提高到100MHz。ADSP-2116x系列处理器保持了与ADSP-2106x SISD处理器源代码的完全兼容,用户只需少量代码修改就可以扮演一个新增加的并行运算单元(寄存器文件+乘法器+ALU+桶形移位器)的角色,相比上一代SHARC可以使循环性能指标翻倍。

为了方便数据传输到这个新增加的运算单元而不降低周期性能,内部PM和DM数据总线宽度增加到64位,同时在ADSP-265438上集成了一个宽度为1161的48位SDRAM控制器,以增加I/O数据传输带宽,从而可以实现高达600MBps带宽的数据传输能力。

正如上一代SISD SHARC一样,第二代SHARC保留了支持集群总线系统架构的多处理器的无缝连接和通过link端口的点对点连接,使得性能升级路线图更加简单清晰。

正如上一代SISD SHARC一样,第二代SHARC系列器件广泛用于医疗、工业和军事应用,并且由于支持时分复用(TDM)和I2S格式的串行端口(SPORT)的额外集成,专业音频和高端消费电子/汽车音频设备可以快速利用处理器浮点操作提供的大动态范围。

5第三代SHARC处理器

第三代SHARC处理器开始跳出多处理器应用空间,主动迎接新的挑战。由于浮点处理在音频应用中的明显优势,SHARC技术发展的重点开始转向以最低的系统成本增加片内处理功能。

以此为目标开发和上市的第一批处理器是ADSP-2126x系列。就像ADSP-2116x一样,ADSP-2126x采用SIMD架构,最大化计算性能。除了将核心性能提升一倍至200MHz,ADSP-21266处理器也是SHARC系列中第一款内置片上掩膜ROM的产品。集成4Mb ROM降低了系统的复杂度和成本,将曾经给人“高成本”印象的浮点DSP推向了消费音频领域。

为了进一步降低硬件系统设计的复杂性,ADI公司开发了一款名为“数字应用接口”(DAI)的创新外设。与以前的SHARC和类似的竞争产品不同,这些产品固定了引脚功能,DAI允许用户将任何外设功能分配给他们想要的任何外部引脚。对于音频系统,这意味着当系统的输入和输出要求发生变化时,音频时钟域可以通过软件随时分配给引脚并路由到串行端口。这种灵活性可以显著减少支持特殊系统规格所需的外部引脚数量,有助于简化硬件设计,并帮助用户进一步降低成本。

ADSP-2136x继承了ADSP-2126x的成本节约优势,并增加了先进的音频信号链集成方法。内核性能提升60%以上,达到333MHz,内部SRAM可提升至3Mb。此外,集成了许多音频外设,如高性能异步采样速率转换器(ASRC)、SPDIF收发器和DTCP加密引擎,进一步优化了音频系统的可编程性能和BOM成本,巩固了ADI公司在音频市场的领先地位。在该系列高性能产品中,还集成了工作频率高达166MHz的32位SDRAM接口,以增加I/O带宽,同时有利于数据密集型应用使用量产存储器。

基于这种突破性的音频系统集成和高性价比的领先优势,第三代SHARC系列不仅广泛应用于专业音频领域,还广泛应用于消费音频应用(如家庭影院系统和AV放大器),并在将新一代高清音频标准(DTS Master Audio和Dolby Tru-HD)推向市场方面发挥了重要作用。

6第四代SHARC系列――ADSP-2146x

第三代SHARC处理器在优化性价比方面取得了成功,这将浮点处理器推向了对成本敏感的消费类应用,这些应用曾被认为不可能使用昂贵的浮点处理器。

ADI公司现在面临着一个有趣的挑战:如何进一步提高浮点处理器的性价比?

在定义第四代处理器时,产品开发团队关注核心价值,这些价值使SHARC始终处于浮点DSP技术的前沿:

●市场领先的性能

●建筑平衡

●性能可扩展性

●智能集成

下面将详细描述这些关键方面中的每一个。

6.1 ADSP-2146x性能增强

基于对ADSP-2136x系列内核的改进,ADI公司的SHARC开发团队设定了更高的性能目标,并采用了台积电的65纳米硅工艺,以持续优化性能和成本平衡。经过精心的工程设计和规划,ADI公司于2008年6月正式发布了ADSP-2146x系列处理器。其核心性能可达450MHz,比最接近的竞争产品几乎高出30%。然而,ADI公司的设计团队并不满足于仅仅提高性能,他们开始寻求创新的方法来大幅提高计算性能,同时最大限度地降低对功耗和成本的影响。

许多工程师使用浮点处理器提供的宽动态范围来实现各种算法,如模式检测、数据压缩/解压缩、加密/解密和自适应滤波。在许多计算密集型算法中,一些基本的信号处理单元,如FFT、FIR滤波器和IIR滤波器,已经被广泛使用,并且是大多数数字信号处理应用的基础。ADI公司专注于这些核心信号处理构建模块,开始将这些功能集成到2146x DMA架构中,以进一步增强SHARC内核的450MHz性能。

基于一个简单的编程模型,DSP工程师可以将这些“加速器”中的每一个都视为一个简单的外设。每个加速器都配置有自己的本地存储器,用于数据和系数存储,从而不会增加核心处理器的开销。此外,还有一组加速器专用寄存器用于设置加速器,包括主存储器中的系数起始地址和计数器等信息。设置完成后,程序开始按顺序运行,用户只需等待指示处理结束的中断。

FIR加速器包括一个1K字的本地存储器用于存储系数,另一个1K字的存储器用于存储延迟线数据。FIR算术单元包括四个并行的MAC(乘法和累加)单元,每个单元的工作频率是内核时钟频率的一半。通过使用80位精度累加器,算术单元可以执行32位浮点或32位定点处理。理论上,除了内核提供的2.7GFlops性能,这个引擎还可以提供1.8Gflops的处理能力。因此,与第三代产品相比,第四代产品的可用浮点性能一般会提高一倍。

FIR加速器可以在单次迭代模式下使用,这意味着完整的滤波器实现可以放入本地存储器(滤波器长度