前言
HP的存储产品,主要分为3个大类:MSA EVA和XP,主要的区别应该就是支持的最大容量,其他的区别可以参见下图。
我们这里要说的是其中高端产品EVA (Enterprise Virtual s),EVA的产品目前有3个系列分别是EVA4000/6000/8000,一般简称4/6/8000,过去有3000/500,其区别主要 如下图,注意术语 xCxD中,C代表Controller enclosure,D代表Drive enclosure,具体下面说。
我们公司买的是EVA 8000。我们说EVA是一款存储产品,我们知道存储一般有三种DAS、NAS和SAN,EVA是SAN,具体他们的区别,可以看前面的文章。user4/241601/archives/2007/1949661.shtml 首先我们来说说
一、EVA的硬件组成
1、HSV controller enclosures 这是控制器,可以说是EVA最核心的部分,连接到Loop switch和Fibre switch(例如Cisco 9509)的,当然如果用IP SAN的话就不用Fibre switch而是需要买MPX100然后就可以直接接入Ethernet了,见教材2-10。 4000/6000的controller是HSV 200,,8000的是HSV210,,HSV就是硬件代号,简介见2-20,具体见Module 3
前视图
word/media/image1.gif
后视图
word/media/image2.gif
2、Disk drive enclosures 这就是盘柜了,每个drive enclosure最多可以放14颗盘。EVA一般使用两种盘,FC (Fibre channel)和FATA (Fibre-Attached Technology Adapted),FC的也叫做Online的,FATA的叫做near-online的,这个可以在EVA Command View中看到,enclosure可以混插,简介见2-22,具体见Module 4
前视图
word/media/image1.gif
后视图
word/media/image1.gif
3、Fibre Channel loop switches Loop switch的是Drive enclosure和Controller之间的桥梁,4000/6000只有2个loop switch,8000可以配置4个loop switch,更多的loop switch意味着在controller和drive之间更大的带宽。有人可能要问,我多买两个loop switch是不是也可以用在6000上呢?没办法,因为6000的每个controller就只有一对连接到loop switch的port,一对port只能连接一个loop switch,一般都是两个controller所以顶多就两个loop switch。
前视图
word/media/image1.gif
后视图
word/media/image1.gif
4、Power distribution 电源部分主要是PDM和PDU,PDM就是插座,PDU就是电从外部到PDM的中转站。详见2-24
PDM
word/media/image1.gif
PDU
word/media/image1.gif
5、Enclosure Address Bus (EAB) EAB连接到Controller和Drive,以确定每个enclosure的ID,如果有两个RACK,就需要EAB延长线。详见2-25
word/media/image1.gif
6、Storage Management Server (SMS) 其实就是一台HP 的Proliant的server,在上面安装Command View并且接入SAN中就可以连接并管理Controller了。之前的名称叫做SMA。详见2-28
最后来看看完整的连接图吧,不包括SMS,连接图见教材 2-9
word/media/image1.gif
二、在EVA中我们常用到的软件
1、XCS (Extensible Controller Software) XCS其实就是Controller的OS,老的版本叫做VCS,详见2-26
2、EVA Command View 最主要的管理EVA的工具,需要安装在Windows机器上。简介见2-27,详细见Module 5
3、Storage System Scripting Utility (SSSU) 其实就是一个命令行的command View,没有它就不能用,简介见2-29,详细见Module 12
4、EVA perf 监控EVA性能的命令行工具,简介见2-30,详细见Module 15
三、基本概念
1、Storage syatem 一个EVA称之为一个存储系统,一个存储系统中至少有8块磁盘。详见6-5
2、Disk Group
a.Overview 详见6-7
是一个逻辑上的磁盘的集合,简称为DG,EVA 8000中最多允许16个DG,每个DG中的磁盘类型必须是相同的,也就是说要么是
FC的要么是FATA的,但是允许不同的Size和不同 的speed,比如说146GB的FC和300GB的FC可以放在同一个DG中,10KPM和15KPM的也可以在
一个DG中。可以说DG是EVA中最重要的概念,我们可 以简单理解为所谓Virutal s就是将多个磁盘虚拟到一块,那个这个虚拟的边界就是DG。每个DG的属性不同,决定了最终的可靠性,性能以及TCO(总拥有成本) EVA系统在第一次初始化的时候就必须要创建一个默认的DG,可以改名,如果有第二个DG就可以删除默认的DG。
b. quorum disk 详见6-8 & 6-9
系统初始化的时候会产生5个 quorum disk,每个占用0.2%的DG空间,是用来存放Controller、WWN等信息的,每增加一个DG就会移动一个quorum disk去新的DG,第六个DG时会创建新的,最多16个quorum disk。
3、Virual Disk 详见6-12
顾名思义,简称VD,一个VD被创建好了之后(在EVA上),把它present到host去就成为一个LUN,一个LUN在host来说就是一块硬盘, 大小在1GB~2TB之间,最多1024个VD,可以设置RAID1/VRAID5/NONE,细节在后面高级概念讲。VD的read cache默认都是打开的,write cache 一般设置为write-back,特殊情况下设置为write-though,后面高级概念说。
4、Hosts and LUN 详见6-16
present VD的时候需要制定host,所以需要先建立host,建立host的时候需要WWN(World Wide Name),可以在Fibre switch上看到。EVA最多支持256个host。而每个host上是可以有多个FC HBA卡的,EVA最多支持1024个FC HBA connections 一个VD可以被present到多个host上,例如Cluster的。最多8192个presentation到host。
5、Multi-pathing 详见9-6 由于一般为了redundantcy,host上至少有两个HBA,当VD被present到host后,从这两个HBA都能连接到那个VD,此时就会有 问题,所以需要安装多路径管理工具。Windows下使用MPIO,同时通过hpdsm命令,也可以实现Loading banlace
四、高级概念
1 、Reconstruction 重建 和 Leveling 分散 当EVA中有硬盘损坏时,此时就会类似传统RAID一样,需要利用RAID的技术来重建RAID,就是所谓Reconstruction。 Reconstruction的进度可以在Command view中看到。当重建完成后,会再进行一个Leveling的动作,将所有数据平均分散到DG中的每个物理磁盘上。详见11-19 & 11021
2、Disk failure protection levels 我们刚刚说了,当VRAID中损坏了一颗硬盘时,系统就会自动reconstruction(重建),而重建是需要空间的,就好像传统的hot spare一样,如果一个DG中仍然有空余的空间,那么Reconstruction就会利用这些空余的空间。万一没有空余的空 间,Reconstruction就无法进行,所以需要在EVA中设置protection level,这个设置是针对DG的,当设置Single的时候会reserve 2块磁盘的空间,并且是此DG中最大容量的那种。如果设置Double,会reserve 4块磁盘的空间。为什么最少是2块而不是1块呢?答案是因为当如果有RAID1的VD时,reconstruction的时候会将好的磁盘上的数据也移 走。详见11-22
3、RSS 详见11-4 & 5 在每个DG中由于数据都是分散在DG中的每颗磁盘上的,所以即使我们使用RAID5或者RAID1技术,当DG中损坏任意两颗磁盘,那么此时整个DG的数 据都会发生丢失,所以在EVA中使用所谓的Redundant Storage Sets (RSS),简单点说,就是把DG再划分几个Subgroup,物理的磁盘可以被分配在不同的RSS中,那么此时一个独立的数据仅会被写到同一个RSS中 的磁盘上。所以如果同时有两颗硬盘损坏,幸运的是他们属于不同的RSS,那么此时将不会发生数据丢失。 RSS是由系统自动建立的,一般来说每8个磁盘划分为一个RSS,如果剩余超过8个,那么每个RSS最多11个盘,最少6个盘,具体计算细节看11-7。 所以说一个EVA系统至少需要8块磁盘就是这个RSS的原因,另外为了最佳可靠性,8个Enclosure也是推荐的。
4、PSEG 和 RSTORE 我们知道传统的RAID技术都是以完整的硬盘为单位,也就是说一个磁盘不可能既属于一个RAID5,又属于一个RAID1。可是在我们的Virtual 技术中是怎样实现的呢?答案就是XCS会把DG中每颗磁盘上划分为以2MB为单位的若干个单元,可以理解为把物理的磁盘划分为若干个2MB的逻辑磁盘,然 后就可以实现不同的RAID了,这个2MB就是所谓的PSEG,详见11-9 我们上面知道事实上在DG中还存在RSS,在RSS中的VD事实上都是由8MB为单位的RSTORE组成的,详见11-11
5、Snapshot 由于我们没有买Snapshot的授权,所以仅简单了解。snapshot是针对VD的,每个VD最多16个snapshot,最大 16TB,snapshot分为Traditional和Virtual 两种,简单点说virtual snapshot不立刻占用空间,具体见13-10和13-14。另外不管是哪种snapshot,在最创建完成后,事实上是没有任何数据的,只有当数据 发生变化时才会把原来的给复制到snapshot里面。所以我们可以简单的认为snapshot就是一个差异备份。Snapshot可以用来 Restore,不过就我的理解应该只能恢复一个。
6、Snapclone 详见13-22 如果说Snapshot是差异备份,那么Snapclone就是完全备份,在做snapclone前必须将VD设置为write-though。另外除了 传统的snapclone之外,现在有了一个Three-phase Snapclone,简单点说就是先创建一个Container,然后snapclone到这个container中会立刻完成。并且可以利用 container和VD之间可以互转(但是数据会丢失)的特点来实现快速而准确的数据恢复。 clone clone(1) VD---------> VD2 (2) VD---->Container (3) VD2----------->container
7、MirrorClone MirrorClone可以实现VD的实时同步,一般来说会将MirrorClone创建到另外一个DG中,实现实时备份。详见13-35
五、最佳实践
高可用性,高性能和低成本就像一个三角形各占了一个角,此时需要找到一个平衡点。详见17-3 1、高可用性 (High availability) 详见17-4 &5 & 6 a. 一个DG中的磁盘应当尽量分布在不同的drive enclosure中,至少8个enclosure,并且放置整齐 b. 磁盘的数量尽量是8的倍数 c. 应当设定protection level,以确保reconstruction的完成 d. 每个DG不应用满 e. 新增硬盘时应增加新的DG而不是加入到原有的DG
2、高性能 (High performance) 详见17-8 a.DG中的磁盘应尽量多 b.磁盘转速大
3、低成本 (Minimum cost of ownership) a. 没有保护级别 b. 仅使用1个DG c. 磁盘类型 d.不用snapshot
Best practices summary 详见17-10
六、总结
说是总结,其实是感觉不爽的地方,比NetApp差的地方,10宗罪。
1、同时坏两颗硬盘可能会导致灾难-数据全部丢失
2、目前不知道是否有办法实现在线无缝的扩容LUN,仅有的办法是在command view中扩容之后,在host上使用diskpart工具来扩容,可能需要unprensent先。
3、Command View中无法直接schedule snapshot,需要使用SSSU或者RSM(Replication Solutions Manager)来做。
4、无法查看VD的使用情况,就是说每个VD实际占用的空间。
5、没有NAS的功能
6、明明已经虚拟了,还搞个什么VRAID5,VRAID1来浪费空间,混淆视听。
7、那个什么破loop switch难道不可以集成到Controller里面吗?
8、用IP SAN 还要买什么MPX,NND,黑啊。
9、还要搞个什么SMA(SMS)来装Command View,NND,你就不能自己写在controller里面啊,又要骗一台Proliant server卖给人家。
10、Command View功能实在单一,一个烂字形容。