(敏感词汇-TAM)合作是构建下一代网络的关键
本文作者:admin
点击:
2007-05-09 00:00
前言:
根据市场分析公司Infonetics的调研预测,网络基础设施的总体预估市场(TAM),从边缘到骨干,到2008年将超过200亿美元,半导体元件 TAM 为40亿美元。下一代网络的主要推动者是语音、视频和数据通信组合而成的即“三重业务”的增长,以及移动通信的快速扩充。三重业务服务将从根本上改变娱乐和信息发布渠道。但问题在于如何满足如此迫切的需求?供应链将面临哪些冲击?
有关下一代有线和无线网络的文章并不少见。同时,对下一代网络必须支持的三重服务(triple play)和移动业务的重视也不可忽视。并且这些网络的设计和开发是非常有价值的。事实上,要求迅速提升性能,并以可接受的消费价位提供这些业务,将会是一个“不成功便成仁”的课题。所以,问题在于如何满足如此迫切的需求?供应链将面临哪些冲击?
为了回答这些问题,我们必须首先概括说明下一代网络的需求。
下一代网络需求
下一代网络的主要推动者是语音、视频和数据通信组合而成的即“三重业务”的增长,以及移动通信的快速扩充。三重业务服务将从根本上改变娱乐和信息发布渠道。举例来说,电信服务提供商可以与电视广播和有线网在电视服务方面进行竞争,而有线和包交换网服务提供商(甚至是基于网络的拍卖行)将面临提供语音通信服务电信服务供应商的挑战。
网络性能、容量和服务需求的增长将导致爆炸性增长,这已被市场分析公司 Technology Futures 的研究证实(见图1)。分析预测,每秒24Mbps的接入将在2008年到2012年实现,2012年到2016年将达到100Mbps。
仅利用成熟的技术,即之前的“标准操作程序”来扩张现有网络是应对指数呈增长趋势的性能挑战的一种明显的方式。今天,业界的策略是跨跃10Gbps的包网络技术。如果在2000年,2.5 Gbps的背板数据传输速率已经足够,而今天就需要20 Gbps、40 Gbps,甚至比16x更快的速度。而且,根据ATT 2006年第四季度的一项公告,业界必须计划在2010年达到100 Gbps。
除了这些迫切的性能需求,网络必须从IPv4转换到IPv6。IPv6的主要优势是它可把网络地址的数量从232增加到 2128,,这种增长对未来防止网络扩张耗尽地址空间是非常必要的。这对于数量庞大且持续增长的消费群体尤其重要,因为他们携带的移动电话或其他的手持设备等都需要唯一的IP地址。
但是,“新”网络仍然必须建立在“旧”网络的基础上,它是真正意义上拥有不同通信服务和协议的网络集群,比如千兆以太网(GE)、10GE、通用组帧规程(GFP)、packet over SONET(POS)/点对点协议(PPP)、边缘到边缘的仿真(PWE3)、虚拟局域网(VLAN)、虚拟专用局域网服务(VPLS)、层次化 VPLS (H-VPLS)、区分服务(VLAN)、虚拟专用网络(VPN)、二层虚拟专用网(L2VPN)和三层虚拟专用网(L3VPN)。因此,网络必须保持充足的多业务交换能力,同时提供高度的可扩展性。
另外,服务和带宽的主要扩张需要网络“边缘”承担现在网络“骨干”执行的许多任务。“边缘”设备必须保证高质量服务(QoS),管理带宽和负载均衡,支持VPN等服务。为了确保符合不同服务级别的协议,“边缘”必须提供必要的高性能以支持不同级别和质量的服务和安全。因此,网络必须在“边缘”进行更快和更多的验证、策略查找和路径选择。
为了满足这些性能和可扩展性需求,网络必须进化到一个新的架构,它要比以前的网络具有更高分布式智能级别。
所以,哪种类型的硅解决方案可支持这种级别的分布式智能呢?分布式决策的制定需要下一代网络处理器单元(NPU)的普遍部署,每个NPU都需要达到40 Gbps甚至更快的处理速度,根据信息包处理任务进行具体的开发和优化。但是,要达到这个速度,NPU就必须卸载信息包处理不重要的功能。其中一个就是搜索功能。因此,解决方案必须采用下一代搜索加速器,以提供NPU所需的高搜索性能。
显然,这两个元件必须紧密结合。事实上,两者可以集成在一个硅片内的解决方案内,前提是客户能接受这种方法带来的成本和功耗。最佳的方案是将元件集成在子系统内。图2中蓝色的交换机显示了这些子系统的目标站点。
器件的重要特性
为了满足下一代网络的性能需求,网络处理器和搜索加速器必须:
● 支持高达40 Gbps汇聚和单通道传输线速,可升级到100 Gbps;
● 兼容IPv4和IPv6,所以它们必须同时支持32位和128位的地址。
搜索加速器
为了满足100 Gbps传输速率的要求,下一代搜索加速器必须以上一代加速器两倍的传输线速运行。为了充分支持NPU,它也要达到每秒十亿次的搜索速度。所以,搜索加速器必须采用一种比上一代更先进的架构。
上一代加速器的搜索性能可以简单地通过增加时钟频率来提高。遗憾的是,这也会带来功耗问题,在系统其他地方必须使用高成本的器件,同时会加剧信号扭曲和接地弹跳等信号完整性的问题,以及使信号终端匹配方法复杂化的问题。总之,电路板设计将变得更加复杂,材料成本也会增加。
直到最近,搜索加速器提供的最高搜索速度达到每秒2.5亿次搜索(MSPS)。同时,通过并行多数据库查找(SMDL)可以有效地提高每个指令的搜索速度,有时它被称作并行处理。使用四倍SMDL,并且把接口地址从当前的72位“标准”扩展到80位地址宽,以支持IPv6的需求-大量更宽搜索字(key)的宽度查找,比上一代设备在性能上有巨大的提高,见表1、表2和表3。
表1显示,搜索加速器在80和160位的搜索字(key)宽度上能达到10亿MSPS,可在更大搜索字(key)宽度上达到先前业界标准的250 MSPS。
表2比较了下一代和上一代各种查找搜索加速器的搜索性能。可以容易地看到,下一代器件可在更长的地址字内实现前一代两倍的基本搜索速度。需要注意的是,基本搜索速度是在没有并行处理条件下的搜索速度。4倍SMDL的能力是这个速度的四倍。
表3显示了IPv6查找速度提高后的结果。以前的72位搜索加速器能以24 Gbps数据速率执行IPv6的5元组查找,而下一代80位加速器可以48 Gbps,甚至理论上96 Gbps的速度进行同样的查找。
但是,基本搜索性能不只是惟一的问题。如果系统有稳定性、可用性和连续性的要求,搜索加速器也必须进一步增强NPU的性能。因此,它必须具有必须的总线奇偶性校验和自动纠错功能,以遵从严格的服务级别协议。
网络处理器
网络处理器必须为包/帧识别、语法分析、管理/计量、标记、修正、分级流量管理、状态和统计收集执行线速处理,还要管理全面的QoS。除了这些功能,网络处理器与搜索加速器要合作完成大量的包的分类工作。为了满足必要的性能和服务要求,NPU必须:
● 使用既能满足现在性能要求和规模,又能升级以适应未来需求的架构;
● 集成必要的特性,支持所有要求使用QoS的网络服务;
● 在软件灵活性和可编程能力方面取得理想的平衡。
为了达到这些性能需求,NPU必须克服传统“sea of generic cores”和“pipeline of generic cores”的局限性。其中一个局限性是,单独的generic cores不是为信息包处理应用而优化的,结果达不到需要的处理性能。另一个局限性是,NPU(多cores)总是受到内部总线竞争的影响,这不仅降低了线速性能,也严重破坏了可扩展性。拥有专属资源的特殊应用处理器内核可同时满足性能和可扩展性的要求。
流量管理是QoS的关键。为了保证质量,属于多个类的流量必须被调度到相应的网络,使用灵活的调度运算,比如严格的优先权、weighted round robin加权轮换和加权公平队列。此外,为了满足服务品质协议(SLA),NPU 必须支持细粒度流量整形。因此,多媒体流量管理依赖于分类处理和修正策略,最终的流量管理将在网络处理中进行。所以,NPU 和流量管理功能应紧密耦合,这比集成到同一个芯片更好。
为了在可利用的时间范围内开发强大的NPU应用软件,必须采用简单的和易于理解的范例-C/C++ based APIs,与当前使用的通用微处理器相似的方法。必须学习一个新操作系统或特定芯片编程语言明显是不可接受的。
战略合作是关键
如上所述,为了达到系统性能目标,NPU 及其关联的搜索加速器必须对包括硬件和软件的子系统解决方案一起进行优化。这需要器件供应商之间的合作。
我们两家公司已经面对团队的挑战。Bay Microsystems的网络处理器设计和IDT搜索加速器已为满足下一代网络的需求专门进行了合作优化。
虽然基本上是“正常交易”,两家公司以前还是有过成功的项目合作。但是,我们非常清楚,共同优化的目标只有通过紧密的合作才能实现,我们共同对解决方案负责。所以,两家公司的高级管理层决议达成战略合作关系,这不仅是当前加速器和NPU的当前需求,也是该系列产品未来的发展方向。
特别要注意的是,只有我们之间的法律协议才能协调我们与第三方的合作。合作协议本身完全是非正式的。所以,合作的成功要依靠共同的团队“做正确的事,正确地做事”,有些事是法律协议无法保障的。
我们各自的硬件和软件开发团队是合作的一个整体。(见图3)
首先,我们互相进行早期产品计划的沟通。这时的搜索加速器开发已经相当先进了,所以对NPU开发人员从哪里开始工作已经有了可靠的规范。
我们从设计流程的最顶端开始——网络的应用和服务需求。这些需求决定了子系统架构和NPU架构,以及它们的特点和时钟要求。
一个重要的目的是为搜索加速器填满每一个时钟周期。因此,通过共同仿真两个器件来规范和验证,我们优化了子系统的性能和可扩展性,比如,搜索加速器的最大延迟。NPU 也进行了功耗、可制造性、器件成本、引脚数和电路板面积的优化,从而领悟了与搜索加速器的合作关系,最终减少了客户的总体拥有成本。
两个器件之间 I/O 接口的选择是子系统性能的关键。所以,在决定哪个高速收发器逻辑(HSTL)标准才是优化解决方法之前,我们仿真和分析了许多备选项目,比如时钟速率和位宽。这种系统级仿真可使团队最大化性能和QoS因数,比如存储器带宽、优先级确定、服务认证和其他各种必须支持的搜索类型。
此外,I/O 接口的实现是在SPICE 级仿真的。因此我们确信,在制作硅原型之前,该接口可以同时满足系统级和信号级的要求。
这样严紧的共同仿真需要两家公司仿真环境和器件模型的互操作性。搜索加速器的 SystemC 模型与 NPU 的 C++ 仿真环境是不兼容的。而且,模型的时序是建立在内部执行时间的基础上,而仿真需要芯片的时钟时序。所以,IDT 修改了搜索加速器模型。Bay 团队也 “socketized”了其仿真环境来接受加速器模型,在某种意义上使其不必修改环境来适应将来的模型变化。