2007年01月16日

  固态存储(Solid State Disk)技术简称为SSD,一般可以分为二种方式:

  基于闪存的SSD:采用FLASH芯片作为存储介质,这也是通常所说的SSD。它的外观可以被制作成多种摸样,例如:笔记本硬盘、微硬盘、存储卡、优盘等样式。这种SSD固态存储器最大的优点就是可以移动,而且数据保护不受电源控制,能适应于各种环境,但是使用年限不高,适合于个人用户使用。

  基于DRAM的SSD:采用DRAM作为存储介质,目前应用范围较窄。它仿效传统硬盘的设计、可被绝大部分操作系统的文件系统工具进行卷设置和管理,并提供工业标准的PCI和FC接口用于连接主机或者服务器。应用方式可分为SSD存储器和SSD存储器阵列两种。它是一种高性能的存储器,而且它的使用寿命很长,美中不足的它需要独立供电电源来保护数据安全。

  由于采用FLASH存储介质,它内部没有机械结构,因此没有数据查找时间、延迟时间和寻道时间。众所周知,硬盘的机械特性严重限制了数据读取、写入的速度及性能。目前主流的SSD固态存储器在操作系统中表现为一块普通的HDD硬盘,用户可以完全把它作为一块硬盘来使用。

与传统硬盘相比,SSD固态存储器在以下几点优点:

  第一,数据存取速度快。

  第二,经久耐用、防震抗摔。因为全部采用了闪存芯片,所以SSD固态存储器内部不存在任何机械部件,这样即使在高速移动甚至伴随翻转倾斜的情况下也不会影响到正常使用,而且在笔记本电脑发生意外掉落或与硬物碰撞时能够将数据丢失的可能性降到最小。

  第三,SSD固态存储器工作时非常安静,没有任何噪音产生。得益于无机械部件及闪存芯片发热量小、散热快等特点,SSD固态存储器因为没有机械马达和风扇,工作时噪音值为0分贝。

  第四,SSD固态存储器比常规1.8英寸硬盘重量轻20-30克。

    如果从最早研发开始计算,SSD固态存储器的发展已经有20多年的历史,固态存储器在早期的大部分时间里,主要用在军用嵌入系统中,或者高性能计算的研究实验室中。随着科技的进步,如今固态存储技术已成为一个民用标准,三星、Sandisk、铼德、pqi等国际存储大厂分别发布了自己的相关产品,目前最高设计容量已经达到64GB,它利用SATA接口,主要针对于笔记本电脑领域。

  现今,SSD固态存储市场已经从存储市场中细分出来,技术逐步成熟和完善,而且已经在笔记本电脑及大型主机等领域得到应用。商业领域也已经涉及到金融、电信、医疗、电力、航空、邮电等行业。随着SSD固态存储器的应用逐步扩大,医疗领域也开始应用相关产品。

2006年12月14日

内存带宽对整个系统起到至关重要的作用,它关系到系统总线速度。大家在设置过程中可能会遇到一些感到迷惑的现象,有时一个较低的总线速度配以高参数的内存,其性能也许比一味追求高总线速度还要好。选购内存时,玩家也都知道,同频率下时序参数越高的内存其系统带宽也会随之增长,也就是要尽量选用CAS/tRCD/tRPD/tRAS参数值低的内存。举个例子,如果系统总线速度为400MHz,你需要搭配使用PC3200规格的DDR内存,理想的CAS值是2。如果要把系统总线超频到500MHz,同步的情况下则需要PC4000的内存。当大家选购高频率的内存时,应该会发现其CAS延迟通常都比较高,2.5或者3是比较常见的。然而CAS是最敏感的内存参数,CAS值从3降低到2,虽然只有1/3,但另一方面,如果这种情况发生在一个总线速度为500MHz的系统上,你的系统性能会提升25%之多!
 
 内存控制器:
   内存控制器是电脑上最重要的组成部件之一。它的功能是监督控制数据从内存载入/载出。如果需要,还可以对数据的完整性进行检测。
 
   芯片组决定了支持的处理器类型,通常包含几组控制器,分别控制着处理器和其他组件的数据交换。内存控制器是芯片组很常见的一部分,它建立了从内存到微处理器的数据流。如果是支持双通道模式的芯片组,就会包含两组内存控制器。AMD微处理器内部集成了内存控制器。
 
 内存参数规格:
   内存的时序参数一般简写为2/2/2/6-11/1T的格式,分别代表CAS/tRCD/tRP/tRAS/CMD的值。 2/2/2/6-11/1T中最后两个时序参数,也就是tRAS和CMD(Command缩写),是其中较复杂的时序参数。目前市场上对这两个参数的认识有一些错误,因为部分内存厂商直接用它们来代表内存性能。
 
 CMD Rate祥解:
   Command Rate译为"首命令延迟",这个参数的含义是片选后多少时间可以发出具体的寻址的行激活命令,单位是时钟周期。片选是指对行物理Bank的选择(通过DIMM上CS片选信号进行)。如果系统指使用一条单面内存,那就不存在片选的问题了,因为此时只有一个物理Bank。
 
   用更通俗的说法,CMD Rate是一种芯片组意义上的延迟,它并不全由内存决定,是由芯片组把虚拟地址解释为物理地址。不难估计,高密度大容量的系统内存的物理地址范围更大,其CMD延迟肯定比只有单条内存的系统大,即使是双面单条。
 
   Intel对CMD这个问题就非常敏感,因此部分芯片组的内存通道被限制到四个Bank。这样就可以比较放心地把CMD Rate限定在1T,而不理用户最多能安装多少容量的内存。
 
   宣扬CMD Rate可以设为1T实际上多少也算是一种误导性广告,因为所有的无缓冲(unbuffered)内存都应具有1T的CMD Rate,最多支持四个Bank每条内存通道,当然也不排除芯片组的局限性。
 
 tRAS:
   tRAS在内存规范的解释是Active to Precharge Delay,行有效至行预充电时间。是指从收到一个请求后到初始化RAS(行地址选通脉冲)真正开始接受数据的间隔时间。这个参数看上去似乎很重要,其实不然。内存访问是一个动态的过程,有时内存非常繁忙,但也有相对空闲的时候,虽然内存访问是连续不断的。tRAS命令是访问新数据的过程(例如打开一个新的程序),但发生的不多。
 
   接下来几个内存时序参数分别为CAS延迟,tRCD,以及tRP,这些参数又是如何影响系统性能的呢?
 
 CAS:
   CAS意为列地址选通脉冲(Column Address Strobe 或者Column Address Select),CAS控制着从收到命令到执行命令的间隔时间,通常为2,2.5,3这个几个时钟周期。在整个内存矩阵中,因为CAS按列地址管理物理地址,因此在稳定的基础上,这个非常重要的参数值越低越好。过程是这样的,在内存阵列中分为行和列,当命令请求到达内存后,首先被触发的是tRAS (Active to Precharge Delay),数据被请求后需预先充电,一旦tRAS被激活后,RAS才开始在一半的物理地址中寻址,行被选定后,tRCD初始化,最后才通过CAS找到精确的地址。整个过程也就是先行寻址再列寻址。从CAS开始到CAS结束就是现在讲解的CAS延迟了。因为CAS是寻址的最后一个步骤,所以在内存参数中它是最重要的。
 
 tRCD:
   根据标准tRCD是指RAS to CAS Delay(RAS至CAS延迟),对应于CAS,RAS是指Row Address Strobe,行地址选通脉冲。CAS和RAS共同决定了内存寻址。RAS(数据请求后首先被激发)和CAS(RAS完成后被激发)并不是连续的,存在着延迟。然而,这个参数对系统性能的影响并不大,因为程序存储数据到内存中是一个持续的过程。在同个程序中一般都会在同一行中寻址,这种情况下就不存在行寻址到列寻址的延迟了。
 
 tRP:
   tRP指RAS Precharge Time ,行预充电时间。也就是内存从结束一个行访问结束到重新开始的间隔时间。简单而言,在依次经历过tRAS, 然后 RAS, tRCD, 和CAS之后,需要结束当前的状态然后重新开始新的循环,再从tRAS开始。这也是内存工作最基本的原理。如果你从事的任务需要大量的数据变化,例如视频渲染,此时一个程序就需要使用很多的行来存储,tRP的参数值越低表示在不同行切换的速度越快。
 
 总结:
   或许你看完以上论述后还是有一些不解,其实大家也没必要对整个内存寻址机制了解的非常透彻,这个并不影响你选择什么规格的内存,以及如何最大程度上在BIOS中优化你的内存参数。最基本的,你应该知道,系统至少需要搭配满足CPU带宽的内存,然后CAS延迟越低越好。
 
   因为不同频率的内存的价格相差并不是很大,除了那些发烧级产品。从长远的目光来考虑,我们建议大家尽量购买高频率的内存产品。这样或许你将来升级CPU时可以节省一笔内存费用,高频率的内存都是向下兼容的。例如如果购买了PC3200 400MHz的内存,标明的CAS延迟是2.5。如果你实际使用时把频率降到333MHz,通常情况下CAS延迟可以达到2。
 
   一般而言,想要保持内存在一个高参数,如果不行可以采取降低频率的方法。但对处理器超频时,都会要求较高的总线速度,此时的瓶颈就在内存系统上,一般只有靠牺牲高参数来保持内存频率和CPU的外频同步。这样可以得到更大的内存带宽,在处理大量数据时就能明显的从中获益,例如数据库操作,Photoshop等。
 
   另外一点值得注意的是,PC3200或PC3500规格的内存,如果CAS延迟可以设为2,也能在一定程度上弥补内存带宽。因为此时CPU和内存交换数据时间隔的时间大大减少了。如果用户经常使用的程序并不需要大的带宽,低CAS延迟也会带来显著的性能提升,例如一些小型游戏和3D应用程序。
 
   总而言之,一条参数为2-2-2-5的内存绝对比3-4-4-8的内存优秀很多,总线速度越高,这种情况就越明显。

2006年5月6日

搬家于CDD个人主页

    为了适应计算机技术的飞速发展,提高内存子系统的发展空间,英特尔公布了一种全新的内存体系—FB-DIMM(Fully Buffered DIMM,全缓冲内存模组),以解决普通的DDR 与 Registered DDR内存发展的局限性。

1、以串行的方式进行数据传输
  首先,与目前的DIMM采用的是一种“短线连接”(Stub-bus)的拓扑结构不同,FB-DIMM与内存控制器之间的数据与命令传输不再是传统的并行线路,而采用了类似于PCI-Express的串行接口多路并联的设计,以串行的方式进行数据传输。


 “点对点连接”(右)与“短线连接(左)”

  在FB-DIMM架构中,每个DIMM上的缓冲区是相互串联的,之间为点对点的连接方式,数据会在经过第一个缓冲区后传向下一个缓冲区,这样,第一个缓冲区与内存控制器之间的连接阻抗就能始终保持稳定,从而有助于容量与频率的提升。


FB-DIMM系统架构图

  不过,FB-DIMM的串行总线也有其独到之处:数据的上行线路由于14组线路对构成,一个周期可传输14bit数据,而下行线路却只有10组线路对,一个周期传输10bit数据。

  这种不对等设计其实完全是根据实际需要出发,因为不管在任何时候,系统从内存中读取的数据往往比写入内存的数据要多,因此对上行线路的带宽要求也要比下行线路要高,这样不对等设计刚好起到平衡作用,在一定程度上使得读取与写入数据同步。
  同时FB-DIMM所采用的串行接口多路并联的设计还有一个优点,那就是大大增加了抗干扰能力。FB-DIMM所使用的串行总线使用差分信号技术,通过一对线路来表达一下信号,即信号是由“0”或“1”两条线路的电压差来决定,这有点类似于PCI EXPRESS总线。因此此类设计的抗干扰能力要远优于传统的单线传输信号技术,毕竟两条线路之间的电压差是保持在一个相对稳定的水准。
  因此FB-DIMM的总线可以工作在很高的频率之上:以FB-DIMM1.0版标准为例,它可以提供3.2GHz、4GHz 和4.8GHz三种数据传输率,这意味着即使是单通道FB-DIMM系统的也可以提供9.6GB/S、12GB/S和14.4GB/S的惊人带宽。
  注意:由于采用读取与写入不对称设计,因此FB-DIMM的理论读取数据带宽分别为5.6GB/S、7GB/S和8.4GB/S,而写入数据带宽则为4GB/S、5GB/S和6GB/S。
  这仅仅是单通道的情况,实际上FB-DIMM可能构建双通道、四通道或八通道架构,这时所提供的内存带宽是目前的内存所不能比似:最高带宽可以达到86.4GB/S。值注意的是,这些数值并非代表FB-DIMM内存的真正读写效能,因为FB-DIMM所采用的总线是与FB-DIMM模块上的缓冲芯片直接连接的,而不是直接与北桥芯片中的内存控制器相连接。这也意味着FB-DIMM内存模块的芯片的数据传输频率不是与总线频率一致。
  注:目前的DDR内存模块的芯片的数据传输频率是与总线频率一致的,总线频率即是内存真正的读定频率。
2、功能独特的AMB缓冲芯片
  FB-DIMM另一特点是增加了一块称为“Advanced Memory Buffer,简称AMB”的缓冲芯片。这款AMB芯片是集数据传输控制、并—串数据互换和芯片而FB-DIMM实行串行通讯呈多路并行主要靠AMB芯片来实现。
  在FB-DIMM系统中,有两种类型的串行线路:一条是负责数据写入的串行线路(称为Southbound,南区),一条是负责数据读取的串行线路(称为Northbound,北区)。这两条串行线路各由AMB芯片中的“pass-through”和“pass-through & Merging”控制逻辑负责。
  其中南、北区中传输的数据流都是采用串行格式,但AMB芯片与内存芯片仍然通过64bit(注意:位宽并不是固定不变的)并行总线进行数据交据,因此数据之间的串-并格式转换则由AMB中的转换逻辑来实现。同时在AMB中有一个数据总线接口,用来与内存芯片的连接。
  利用AMB芯片,这意味着FB-DIMM并不需要对现有的DRAM芯片作出改动,内存制造商可以直接使用成本低廉的DDR2芯片。尽管采用新型缓冲芯片会增加一些成本,但是这比起制造全新的RAM芯片来说代价要小得多。
  基本上可以这么说,除了时钟信号与系统管理总线的访问(主要与SPD打交道),其他的命令与数据的I/O都要经过位于DIMM上的内存缓冲器的中转。这也许是FB-DIMM为什么叫“全缓冲双列内存模组”的原因。

3、引脚大减,布线更简单

  另外,因为采用了串行传输的设计,使得FB-DIMM的引脚数大为减少!这样改进有什么意义呢?

   首先,FB-DIMM的针脚数量大幅度减少了。单通道FB-DIMM只有69个针脚,其中有20个用于数据,28个用于DIMM,6个用于供电,12个用于接地,还有3个用于时钟和其他用途。和单通道DDR2内存架构的240个针脚相比,FB-DIMM的69个针脚更利于PCB版图设计和布线。在下面的图片中,左边是单通道DDR2,右边是双通道FB-DIMM,可以看出FB-DIMM的PCB版图设计和布线更易于实现。

 FB-DIMM主板的布线(右)明显要比DDR2主板(左)的要简单得多

  而且FB-DIMM还能够使用长度不相等的线路,这一特性同样可以简化电路板设计。内存控制器和缓冲可以对线路长度不相等造成的信号传输时差进行补偿,电路设计师们不用为了实现线路长度相等而采用奇怪的布线方式了。
  在初始化时,内存控制器会测量每个针脚上的信号计时,通过延迟最快的信号来实现和最慢的信号之间的同步。最主要的一点是双通道的FB-DIMM配置可以在两层PCB上实现,包括电源线路在内。而单通道的DDR2需要3层PCB板来实现同样的事情。

  更多的PCB层数意味着更高的成本。FB-DIMM能够以更少的PCB层数实现相同的带宽,或者以相同的PCB层数实现高得多的带宽。但不要忘记,内存能够支持的最大容量也是一个很重要的指标。
  对于服务器来说,内存容量往往比成本更为重要。而现在每个FB内存通道可以支持8个DIMM插槽,从英特尔在IDF上发布的数据来看,一款6通道、针脚数420针的FB-DIMM内存系统可以实现了4倍于DDR2-800的带宽(40GBps对10GBps),并且能够达到48倍于DDR2的最高容量。

   480针金手指的双通道DDR2解决方案和420针6通道FB-DIMM方案,后者明显更具有吸引力,要知道FB-DIMM采用的内存芯片和DDR2-800是完全一样的。
4、可靠性更强
  FB-DIMM相对目前的内存其运行可靠得到很大增加。英特尔甚至宣称它们已经做到让FB-DIMM在100年内出现少于一次的silent data error(无记载数据错误)。
  在高容量模组上,内存芯片数量很多,而且在需要大容量内存的工作场合,内存模组的安插数量也是很多的,这使命令与寻址信号的稳定性受到了严峻考验。为此服务器内存(Reg-DIMM)往往需要加入一个ECC功能:通过增加额外的寄存器来稳定命令/地址信号,隔离外部干扰,从而增加运行的稳定性。
  在工作时,命令地址信号会先送入寄存器进行“净化”并进入锁存状态,然后再发送至内存芯片,芯片中的数据则不经过寄存器而直接传向北桥。不过ECC功能有一个缺点:由于要经过中继传输,所以内存操作的时序也会因此而增加一个时钟周期。而以上问题在FB-DIMM中得到了完善解决。
  在FB-DIMM中,指令和数据都进行完全的CRC循环冗余校验,远比目前的ECC纠错方法要先进。而且英特尔在FB-DIMM架构引入了的“Bit Lane Fail Over Correction”功能,利用此功能,当一个位宽的通道出现故障后,它就会被从系统中排除掉,即让出现故障的内存通道停止运行。此时内存控制器然后会调整CRC设置以相应降低所使用的内存带宽,这样即使一块芯片,一个DIMM插槽甚至是一条内存通道出现故障并不会造成死机,甚至不会降低内存带宽。这无疑大大增加了内存子系统的稳定性。

5、高容量

  内存能够支持的最大容量是一个很重要的指标。对于服务器来说,内存容量往往比成本更为重要。由于串行连接,可以用更少的引脚建立更多的内存通道,也是由于串行连接,还可以使通道内的芯片容量得以大幅度的增加,从而扩大了内存子系统的容量。FB-DIMM系统的最大容量达到192GB,是DDR2(8GB)的24倍。

6、灵活的架构

  FB-DIMM灵活的架构可以让内存控制器保持不变。如果需要,可将内存颗粒从DDR2升级到DDR3,内存制造商只需要对缓冲芯片做出一定的改动,并不需要更改其它架构。根据目前的展示来看,FB-DIMM至少可以采用从DDR2-533到DDR3-1600范围内的不同内存颗粒。

  理论上用户可以将DDR2颗粒直接插入一条DDR3内存模组,只要这种DDR3内存模组的缓冲芯片支持以前的信号规格,它就能够正常工作,(芯片组或处理器集成的)内存控制器根本不会受到这种变化的影响。FB-DIMM的这种特性将使得内存架构的转变过程更容易实现,需要的时间也会更短。它在不需要增加太多延迟的情况下,有效地减少了内存控制器和内存架构之间的逻辑电路,这确实是非常不错的特点。

7、美中不足:高延迟!
  不过FB-DIMM也有美中不足之处:延迟较高。?通过Intel的模拟分析表明,FB-DIMM在低带宽应用时,潜伏期会比DDR2系统长。FB-DIMM延迟的数量为3—9纳秒,每增加一个节点还会另外增加2~6纳秒。FB-DIMM延迟之所以之主要由于两方面造成的:
  一方面是由于采用串行的方式进行数据传输,存在串/并转换的过程需要占用一定的时钟周期,这也被称为“串行延迟”。总体上来说,串行延迟是FB-DIMM架构采用的数据传输方式所特有的,是不可避免的,无论如何都会出现。在FB-DIMM架构中,理论上可以通过提高工作频率来减少串行延迟的时间,而DDR2、DDR3内存的延迟时间却是随着频率提升而增加的。而且从XDR架构来看,这种串行延迟也不会对实际性能造成很大的影响!
  另一方面是由于一块AMB缓冲芯片,信号必须先被缓冲读取,然后再被执行或者传递。这就带来一个缓冲延迟的问题。针对这一缺点,英特尔给出的解决办法是“信号无需存储,立即转发”。数据将在缓冲内部通过特殊的快速通道进行传输。这将在很大程度上减小存储/转发信号带来的延迟。
  此外,FB-DIMM还能够在不同的通道上对内存进行读写,能够实现标准的共享总线架构所不能实现的一些操作。各个内存插槽可以独立运作,一部分用于读取,另一部分用于写入,这样就没有因为切换读取和写入动作所造成的延迟了。最后一点是在FB-DIMM架构中,DRAM和内存通道是同步运行的。当内存和内存通道不同步运行时,延迟也会增加,事情也会变得更为复杂。这样的复杂性会为厂商带来难题,并且会降低内存的性能。

FB-DIMM架FB-DIMM与DDR的延迟/带宽坐标图:带宽越高,FB-DIMM的延迟越低

  虽然FB-DIMM延迟较高,但是这些延迟都可以通过技术手段从架构上得到解决。而且随着容量与带宽需求的增加,高延迟反倒渐渐成为了FB-DIMM的优势,而且带宽越大,这就优势也就越明显:在同时进行读取和写入操作时,两条双通道DDR2一次只能做一个操作,而两条FB-DIMM内存至少可以组成4个通道,这意味者带宽将增加一倍,而且FB-DIMM内存可以在一个时间周期内执行8个操作,例如4个读取操作和4个写入操作。
  而且当单条模组的带宽达到4GB/S时,DDR2内存的延迟时间与FB-DIMM是一样的,此后随着带宽的增加,DDR2的延迟会渐渐增加,而FB-DIMM的延迟却呈下降的趋势。这也从别一方面证明FB-DIMM非常适合用于高端系统的内存体系。

  除以上特点外,FB-DIMM规格中还加进了对直立主板的支持。需要在服务器中将主板竖置的用户将会对此有所需要。尽管这一支持被加入到规格中,但由于FB-DIMM架构支持的布线长度大为增加,用户很可能可以避免将主板竖置。FB-DIMM规格中还具有逻辑分析界面,用户可以看到内存通道的详细情况而不用中断其操作,这个特性对于调试主板非常有用。

  从设计上看,FB-DIMM的确具备很大优势:除了技术性能之外,FB-DIMM的出现让在低成本下制造高性能、高容量内存模块成为了可能。因为FB-DIMM只是一种连接技术,它并不涉及到内存的核心技术的改变。就如QBM内存模组一样,它们都利用了现有的DRAM芯片。这无疑极具成本优势,而且英特尔在业界的影响力是无人可比的。
        不过,FB-DIMM目前仅被定位于“下一代服务器”内存,但它的最大意义是在技术上—内存架构如何从并行双路平滑过渡到串行多路模式,它对未来内存架构发展将产生不可忽略的影响。

FB-DIMM内存的技术参数

 

(1)数据传输率

  根据FB-DIMM 1.0版标准,单通道的FB-DIMM分别可以达到9.6GB/s、12GB/s和14.4GB/s的接口带宽。这三种规格的FB-DIMM的读数据带宽分别为5.6GB/s、7GB/s和8.4GB/s,写数据带宽则为4GB/s、5GB/s和6GB/s。

(2)最大DIMM模组数

  在单通道情况下,FB-DIMM内存最多可以连接8条DIMM模组。但实际上,FB-DIMM支持双通道、四通道和六通道,因而,FB-DIMM内存可以实现48条FB-DIMM模组的连接能力,内存最大容量将达到192GB。

(3)物理尺寸

  FB-DIMM内存的规格为133.5mm×30.5mm,金手指数量为240个,尽管不会完全利用,主要是考虑升级的需要。FB-DIMM上可容纳9、18或36颗内存芯片,标准方案为18颗:背面为10颗,正面8颗;AMB缓冲芯片位于正面中间,尺寸大小为24.5mm×19.5mm×21.5mm。

(4)电压和功耗

  FB-DIMM内存的供电将比传统的内存供电系统复杂些,它需要三种电压:驱动DDR2内存芯片需要1.8V、终结内存“命令/地址”需要0.9V,AMB缓冲芯片需要1.5V。与此同时,不同位置的FB-DIMM模组功耗有所不同:通道的第一条FB-DIMM模组功耗为3.4W,随着距离的增加,模组功耗呈下降趋势,最后一条模组的功耗只有2.4W。

2006年4月27日

搬家于CDD个人主页

 

1、双通道DDR技术

  双通道DDR技术是一种内存的控制技术,它和双通道RDRAM技术非常相类似,是在现有的DDR内存技术上,通过扩展内存子系统位宽使得内存子系统的带宽在频率不变的情况提高了一倍:即通过两个64bit内存控制器来获得128bit内存总线所达到的带宽。不过虽然双64bit内存体系所提供的带宽等同于一个128bit内存体系所提供的带宽,但是二者所达到效果却是不同的。双通道体系包含了两个独立的、具备互补性的智能内存控制器,两个内存控制器都能够在彼此间零等待时间的情况下同时运作。当控制器B准备进行下一次存取内存的时候,控制器 A就在读/写主内存,反之亦然,这样的内存控制模式可以让有效等待时间缩减50%。同时由于双通道DDR的两个内存控制器在功能上是完全一样的,并且两个控制器的时序参数都是可以单独编程设定的,这样的灵活性可以让用户使用三条不同构造、容量、速度的DIMM内存条,此时双通道DDR简单地调整到最低的密度来实现128bit带宽,允许不同密度/等待时间特性的DIMM内存条可以可靠地共同运作(不过这一点在实现时比较困难,要依赖于厂商的实现)。

  总的来说,双通道内存技术的特点是通过改变内存的控制方式来获得更高的带宽,它不需要内存生产商改变生产方式,是目前的技术条件下无疑是最省时省力的扩展内存带宽的办法,所以可以说双通道DDR技术给DDR带来了新的活力。

2、四倍带宽内存技术

  用四倍带宽内存技术的英文全称是Quad Band Memory,简称QBM,QBM并不是什么全新的内存架构,也不是什么全新的内存产品,与双通道DDR技术一样也是一种内存控制技术。QBM采用一种‘位填塞’机制,不需要更高时脉频率的内存组件,在不增加内存基准频率的条件下,QBM可以利用现有的DDR内存和其它组件,实现了能获得两倍数据率的配置。

  QBM与DDR一样,是通过缩短数据传输的时钟周期来提高传输带宽的,但两者有有所不同。DDR是通过在时钟频率的上下沿都存取数据来实现带宽倍增的。而QBM则是在此基础上做了一种改进。一个QBM模块由两个DDR内存模块组成,其中一个模块运行在正常频率的速度,而另外一个的模块的时钟周期比前一个模块时钟周期正好慢90度的相位差,也就是说两者的工作起始时间相差1/4个时钟周期,通过这种简单的方法来让QBM得到两倍于DDR内存的工作效率,即一个时钟周期实现了4次数据读写。QBM的两个DDR模块之间采用FET芯片进行连接,而这个FET芯片就起到场效应管的作用--当做延迟开关。这样就简单的完成了串联了两个DDR模块。

  所以从功效上看,QBM技术可以达到双通道DDR技术的效果,可以从根本上解决了目前DDR架构所面临的带宽瓶颈问题。而QBM的最大优势在于QBM利用成熟的DDR内存组件,不再需要设计更高频的内存组件,所以对于内存芯片厂商来说几乎不用对于生产线做什么调整,从普通的DDR转产QBM芯片的成本比较低。而对主板厂商来说,由于这种内存技术在内存接口和内存针脚定义等方面和我们目前的DDR内存完全一样,所以在目前的芯片组的基础上也不需要经过复杂的改造,只要将内存控制重新设计为支持QBM就可以了,原来传统的64位DDR SDRAM内存接口还是能继续使用,主板布线等设计因素几乎不用改动。

2006年4月27日

搬家于CDD个人主页

         由于DDRII是在DDR-I的基础之上发展而来的,所以谈到DDRII,我们先简单说说DDR-I。DDR-I全名为Double Data Rate SDRAM ,简称为DDR,也称SDRAM Ⅱ,是SDRAM的更新产品。虽说DDR 的核心建立在SDRAM的基础上,但在速度和容量上有了提高。首先,它使用了更多、更先进的同步电路。其次,DDR使用了Delay-Locked Loop (DLL,延时锁定回路)来提供一个数据滤波信号。当数据有效时,存储器控制器可使用这个数据滤波信号来精确定位数据,每16位输出一次,并且同步来自不同的双存储器模块的数据。DDR 本质上不需要提高时钟频率就能加倍提高SDRAM的速度,它允许在时钟脉冲的上升沿和下降沿读出数据,因而其速度是标准SDRAM的两倍。至于地址与控制信号则与传统SDRAM相同,仍在时钟上升沿进行传输。此外,传统SDRAM 的DQS接脚则用来在写入数据时做数据遮罩用。由于数据、数据控制信号与DM同步传输,不会有某个数据传输较快,而另外的数据传输较慢的skew以及Flight Time不相同的问题。此外,DDR 的设计可让内存控制器每一组DQ/DQS/DM与DIMM上的颗粒相接时,维持相同的负载,减少对主板的影响。在内存架构上,传统SDRAM 属于×8组式,即内存核心中的I/O寄存器有8位数据I/O,但对于×8组的DDR SDRAM而言,内存核心中的I/O寄存器却是16位的,即在时钟信号上升沿时输出8位数据,在下降沿再输出8位数据,一个时钟周期总共可传输16位数据。 为了保持较高的数据传输率,电气信号必须要求能较快改变,因此,DDR 改为支持电压为2.5V的SSTL2信号标准。尽管DDR的内存条依然保留原有的尺寸,但是插脚的数目已经从168Pin增加到184Pin了。

  由于DDR-I架构的局限性,当频率达到400MHz后,就很难再有所提升,所以很快就推出了DDR-Ⅱ。相对来说,作为DDR的接班人的DDR-Ⅱ在总体仍保留了DDR-I的大部分特性,相对DDR-I的设计变动并不大,主要进行了以下几点改进:

1、改进针脚设计

  虽说DDR-Ⅱ是在DDR的基础之上改进而来的,外观、尺寸上与目前的DDR内存几乎一样,但为了保持较高的数据传输率,适合电气信号的要求, DDR-Ⅱ对针脚进行重新定义,采用了双向数据控制针脚,针脚数也由DDR的184Pin变为240Pin(注:DDR-II针脚数量有200Pin、220Pin、240Pin三种,其中240Pin的DDR-Ⅱ将用于桌面PC系列。)

2、更低的工作电压

  由于DDR-II内存使用更为先进的制造工艺(DDRII内存将采用0.09微米的制作工艺,其内存容量可以达到1GB到2GB,而随后DDRII内存将会在制造上进一步提升为更加先进的0.065微米制作工艺,这样DDRII内存的容量可以达到4GB。)和对芯片核心的内部改进,DDRII内存将把工作电压降到1.8V,这就预示着DDRII内存的功耗和发热量都会在一定程度上得以降低:在533MHz频率下的功耗只有304毫瓦(而DDR在工作电压为2.5V,在266MHZ下功耗为418毫瓦)。不过降低工作电压也来了一个问题:在DDR2初始的200-266MHz的时钟速度上,当模块中组装了32个DRAM芯片时,由于DDR2的核心电压只有1.8V,使得DDR2的边沿斜率比DDR慢。边沿斜率降低的结果是:同一个更高的电压信号相比,电压信号上升时间加长,这加大了制造上的难度。

3、更小的封装

  目前DDR内存主要采用TSOP-Ⅱ封装,而在DDRⅡ时代,TSOP-Ⅱ封装将彻底退出内存封装市场,改用更先进的CSP(FBGA)无铅封装技术,它是比TSOP-Ⅱ更为贴近芯片尺寸的封装方法,并且由于在晶圆上就做好了封装布线,在可靠性方面可以达到了更高的水平。DDR II将有两种封装形式,如果数据位宽是4bit/8bit,则采用64-ball的FBGA封装,数据位宽是16bit,则采用84-ball的FBGA封装。

4、更低的延迟时间

   在DDR2中,整个内存子系统都重新进行了设计,大大降低了延迟时间,延迟时间介于1.8ns到2.2ns之间(由厂商根据工作频率不同而设定),远低于DDR的2.9ns。由于延迟时间的降低,从而使DDR2可以达到更高的频率,最高可以达到1GHz以上的有效频率。而DDR1由于已经接近了其物理极限,其延迟时间无法进一步降低,这也是为什么DDR1的最大运行频率不能再有效提高的原因之一。

5、采用了4bit Prefect架构

  DDR-Ⅱ在DDR的基础上之上新增4位数据预取的特性,这也是DDR II的关键技术之一。现在的DRAM内部都采用了4bank的结构,内存颗粒内部单元我们称之为Cell,它是由一组Memory Cell Array构成,也就是内存单元队列。目前内存颗粒的频率分成三种,一种是DRAM核心频率,一种是时钟频率,还有一种是数据传输率。

  在SDRAM中,SDRAM也就是同步DRAM,它的数据传输率是和时钟周期同步的,SDRAM的DRAM核心频率和时钟频率以及数据传输率都一样。以PC-133SDRAM为例,它的核心频率/时钟频率/数据传输率分别是133MHz/133MHz/133Mbps。

  在DDR I SDRAM中,核心频率和时钟频率是一样的,而数据传输率是时钟频率的两倍,关于这点我们都已经非常的清楚了,DDR也就是Double data rating内存可以在每个时钟周期的上升延和下降延传输数据,也就是一个时钟周期可以传输2bit数据,因此DDR I的数据传输率是时钟频率的两倍。以DDR266 SDRAM为例,它的核心频率/时钟频率/数据传输率分别是133MHz/133MHz/266Mbps。目前JEDEC标准中的DDR I SDRAM的最高标准是DDR400,它的核心频率/时钟频率/数据传输率分别是200MHz/200MHz/400Mbps。颗粒内部的基本组成单元cell的工作频率为200MHz,这个频率再提高会带来稳定性和成本方面的问题。

  而在DDR II SDRAM中,核心频率和时钟频率已经不一样了,由于DDR II采用了4bit Prefetch技术。Prefetch可以意译为"数据预取"技术,可以认为是端口数据传输率和内存Cell之间数据读/写之间的倍率,如DDR I为2bit Prefetch,因此DDR I的数据传输率是核心Cell工作频率的两部。DDR II采用了4bit Prefetch架构,也就是它的数据传输率是核心工作频率的四倍。实际上数据先输入到I/O缓冲寄存器,再从I/O寄存器输出。DDR II 400 SDRAM的核心频率/时钟频率/数据传输率分别是100MHz/200MHz/400Mbps。大家要注意的是,DDR II 400 SDRAM的核心频率和DDR I 200是一样的,但是DDR II 400的数据传输率比DDR I 200的两倍。因此,DDR-Ⅱ虽然实现了4-bit预取,但在实际效能上,与DDR是一样的。因此在相同的核心频率下,DDR-Ⅱ达到了两倍于DDR的的带宽的水平有一个前提条件,那就是DDR-Ⅱ的外部时钟频率也是DDR和SDRAM的两倍。

6、OCD功能

  OCD的英文全称为Off-Chip Driver,译为离线驱动调校,DDR-Ⅱ加入了可选的OCD功能OCD的主要用意在于调整I/O接口端的电压,来补偿上拉与下拉电阻值,从而可以提高信号的完整性。DDR II主要通过调整上拉(pull-up)/下拉(pull-down)的电阻值使DQS低电平/DQ高电平时电压相等,如果不满足要求,则通过设定突发长度的地址线来传送上拉/下拉电阻等级,从而减少DQ-DQS的倾斜来提高信号的完整性及控制电压来提高信号品质。不过,由于在一般情况下普通台式机对应用环境稳定程度并不太高,只要存在差分DQS时就基本可以保证同步的准确性,因此OCD功能在普通台式机上并没有什么作用,其优点主要体现在服务器领域。

7、ODT 功能

  ODT的英文全称为On Die Terminator,中文意思是片内终结器设计。在进入DDR时代,DDR内存对工作环境提出更高的要求,如果先前发出的信号不能被电路终端完全吸收掉而在电路上形成反射现象,就会对后面信号的影响从而造成运算出错。因此目前支持DDR主板都是通过采用终结电阻来解决这个问题。由于每根数据线至少需要一个终结电阻,这意味着每块DDR主板需要大量的终结电阻,这也无形中增加了主板的生产成本,而且由于不同的内存模组对终结电阻的要求不可能完全一样,也造成了所谓的“内存兼容性问题”。

  而在DDR II中加入了ODT功能,即是将终结电阻设于内存芯片内,当在DRAM模组工作时把终结电阻器关掉,而对于不工作的DRAM模组则进行终结操作,起到减少信号反射的作用(注:ODT的功能与禁止由北桥芯片控制,在开机进行EMRS时进行设置,ODT所终结的信号包括DQS、RDQS、DQ等等),这样可以产生更干净的信号品质,从而产生更高的内存时钟频率速度。而将终结电阻设计在内存芯片之上还可以简化了主板的设计,降低了主板的成本,而且终结电阻器可以和内存颗粒的"特性"相符,从而减少内存与主板的兼容问题的出现。

8、Posted CAS功能

  Posted CAS是为了解决DDR内存中指令冲突问题,提高DDR II内存的利用效率而设计的功能。在Posted CAS操作中,它允许CAS信号紧随RAS发送(相对于以往的DDR等于将CAS前置),CAS信号(读写/命令)能够被插到RAS信号后面的一个时钟周期,CAS命令可以在附加延迟(Additive Latency)后面保持有效。但读/写操作并没有因此而提前,仍有要保证有足够的延迟/潜伏期,为此在DDR-Ⅱ中引入“Additive Latency”概念(简称AL,主要用来代替原来的“RAS到CAS和延迟”,意为附加潜伏期),而CL(CAS Latency,CAS潜伏期–在CAS发出之后,仍要经过一定的时间才能有数据输出,从CAS与读取命令发出到第一次数据输出的这段时间,被定义为CL;由于CL只在读取时出现,所以CL又被称为读取潜伏期RL,Read Latency)也不再采用原来的x.5的设计,而采用整数设计(CL最低值为3,最高为5)。与CL一样,AL单位为时钟周期数,AL可以在0,1,2,3,4中进行设置,当AL设为0时,前置CAS无效,内存在传统DDR模式下运行。Posted CAS优点到于可以很容易解决ACT和CAS信号之间产生碰撞的冲突,从而提高了命令、数据总线的效率及实际的内存带宽。

  不过Posted CAS也存在一个问题,就是在背靠背式读取数据时,由于要经过AL加CL的潜伏期,所以会增加读取的延迟反而增加了。因此Posted CAS功能的优势只有在那些读写命令非常频繁的运作环境下才能体现,对于一般的应用来说,开启Posted CAS功能反而会降低系统的整体性能。

DDR与DDRII对照表

  

DDR SDAMR

DDR II SDRAM

时钟频率

100/133/166/200MHz

200/266/333MHz

数据传输率

200/266/333/400MBPS

400/533/667MBPS

工作电压

2.5V

1.8V

针脚数

184Pin

200Pin、220Pin、240Pin(240Pin为主流标准)

封装技术

TSOP-II/CSP

CSP(FBGA)封装

最大功率

418毫瓦

318毫瓦

预取设计

2Bit

4Bit

突发长度

2/4/8

4/8

L-BANK数量

最多4个

最多8个

CL值

1.5、2.5、3.5、3

3、4、5

AL值

0、1、2、3、4

接口标准

SSTL_2

SSTL_18

系统最高P-BANK数量

8

4

新增特性

 

COD、ODT、POSTED CAS

2006年4月27日

搬家于CDD个人主页

2006年12月13日

        正式内存规格是由JEDEC– Joint Electronioc Device Engineering Council制定的,这包括了DDR、DDR2以及准备推出的DDR3,在官方规格中DDR最高速度为DDR400,但由于制程进步,DDR(Double Data Rate)的速度已经完全超越了官方原定标准,故此后期出现了超高速DDR566并非官方规格。

  继DDR400之后,JEDEC已认定DDR2为现时主流内存标准,虽然名字上只差毫厘,但DDR2和DDR是完全不兼容的,首先DDR2的为240Pin接口比DDR的184Pin长,另外电压也比DDR的2.5v低许多,在1.8v的同频率下DDR2可比DDR低一半功耗,高频低功耗是DDR2内存的优点,而缺点则是DDR的延迟值比较高,在同频率下效能较低。

       不单在规格上不兼容,其实DDR和DDR2在技术上有得大分别。上代SDRAM(Synchronous Dynamic random access memory–同步动态随机存储器)内存的核心频率就相等于传送速度,而每一个Mhz只会有传送1 Bit的数据,可以看作是采用1 Bit Prefetch。故此SDRAM 100Mhz的频宽为100Mbps。但随着系统内部组件速度提升,对内存速度的要求增加,而内存核心工作频率的提升难度较大,因此单纯提升内存频率已经不能应付需求,因此发展出DDR技术。

  DDR与SDRAM的分别在于传统SDRAM每个周期只能读写一次,而DDR却把技术提升至在产生和衰减(上沿和下沿)时都能存取数据,每周期可以访问两次,故此DDR会比SDRAM在同一频率下效能提高一倍,而100Mhz的DDR却可达至200Mbps存取速度,由于每一个周期都要有二次的资料存取,故此DDR每一周期会传送2Bit,称为2Bit Prefetch,而DDR颗粒频率每提升1Mhz,所得的效果是SDRAM的两倍。

  而DDR 2则是承继DDR并作出改良,同样能在一个周期存取2次,但DDR 2却改良了I/O Buffer部份,以往内存颗粒的频率相等于I/O Buffer的频率,但DDR2的I/O Buffer会被提升至却内存核心频率的一倍,而DDR 2内存会在每一个周期传送4Bit的数据给I/O Buffer,比DDR每笔传送2Bit多一倍,故此在同一内存核心频率下,DDR 2的内存会比DDR速度快一倍,这技术称为4Bit Prefetch。实际上相当于将DDR的时钟频率进行了倍频。DDR 2未来提升速度的空间会比DDR强,因为每提升1 Mhz DRAM的频率,所得到的效果却是传统SDRAM的四倍。

        不过软件测试得到DDR2的频率是时钟频率Clock Frequency,而不是DRAM Core Frequency核心频率,故此DDR2 533的时钟频率还是266Mhz。实际上,PC133(SDRAM)、DDR266(PC2100)、DDRII533(PC4200)内存的核心工作频率都为133MHz。PC133的核心频率/时钟频率/数据传输率分别是:133MHz/133MHz/133Mbps;PC133表示的是核心频率。DDR266的核心频率/时钟频率/数据传输率分别是:133MHz/266MHz/266Mbps;DDR266表示的是数据传输率,PC2100指的是我们常见的内存条的带宽。DDRII533的核心频率/时钟频率/数据传输率分别是:133MHz/266MHz/533Mbps;DDRII533表示的也是数据传输率,而PC4200表示的也是我们常见内存条的带宽。

2006年4月27日

搬家于CDD个人主页

         通常DRAM是由电容与晶体管制成的,电容用来存储数据而晶体管作为数据通向系统的开关部件,这无疑加剧了制造工艺的复杂性。Innovative Silicon Inc(ISi)的新技术使得DRAM以后可以抛弃电容了,这无疑是内存技术领域的一个巨大突破。

          ISi公司创立于2002年,他们开发出了独家的Z-RAM(零电容RAM)技术,采用这种技术的DRAM单元不是采用存储在电容器中的电荷来表示信息,而是通过在一个传统绝缘硅(SOI)MOSFET的沟道下捕获电荷来存储数据,这种电荷会增大浮体效应(floating-body effect),但同时也被认为是SOI设计中的最大问题以及导致SOI高速切换的祸源。目前为止,它从未被商业上用作存储介质。

        Innovative公司存储单元的最出色之处就是结构简单。它由单个晶体管构成,其源极连接到选择线,漏极连接到位线,栅极连接到字线。当施加足够高的漏极电压时,源极电流的大小取决于存储在晶体管浮体中的电荷数量。如果在活动区出现空穴,电流将迅速增大。如果在活动区捕获了电子,电流将随电压逐步增高,并达到一个较低的最大值。

 

        Innovative还必须考虑其它问题。其中之一是被捕获的电荷不能永久存在。通过热电子电离或者能带到能带的隧道效应,可以向晶体管的浮体注入电荷,从而实现向存储单元写入数据。前一种技术速度极快,而后一种技术功耗极低,这使得Innovative公司几乎免费获得了该技术的高速和低功耗两种版本。而问题是通过重新结合,电荷会逐渐消失,因此存储单元必须不断刷新。Fazan表示,幸运的是,在工作温度下,存储单元的保持时间与传统DRAM类似,所以可以采用相同的刷新速率。它存在很多潜在问题,包括时序问题以及相邻单元之间的相互影响。

         但其优点也非常突出,例如在密度和性能方面。Innovative公司宣布已经开发出90纳米器件,读写时间低于3纳秒,一个位单元面积为0.18平方微米。目前,该公司正在制造90纳米的Mb级存储阵列。 另一个优点是该存储器可以采用普通SOI CMOS逻辑工艺制造。如果采用SOI进行设计,无需改变标准逻辑工艺,Z-RAM就可用于嵌入式存储器阵列。

        ISi的Z-RAM嵌入是内存可以提供更高的处理器内置缓存容量,从而提高处理器性能,降低输入/输出功耗。ZRAM技术比植入式DRAM技术密度提高2倍,Z-RAM的数据密度可以达到SRAM的5倍以上,然而它不无需特别的材料或额外的生产步骤。

        Z-RAM除了可以在处理器制造中发挥作用之外,还可以帮助集成芯片、电路等的制造,包括PC、手持设备、游戏机、通讯设备、摄像设备等都可受益。06年1月份AMD公司已经与ISi达成协议,使用这种技术的AMD处理器有可能达到5M的二级缓存。

(摘自IT168、电子工程专辑)

2006年4月22日

搬家于CDD个人主页