浙江车网论坛

标题: 历数频频发生的云服务事件 [打印本页]

作者: lijing88109    时间: 2011-6-15 14:51     标题: 历数频频发生的云服务事件

  不仅亚马逊,云计算领域充满竞争的其他公司,如谷歌和微软等,在近几年也频频发生云服务“中断”事件。
  事件一:Rackspace云服务中断
  2009年6月,Rackspace遭受了严重的云服务中断故障。供电设备跳闸,备份发电机失效,不少机架上服务器停机。这场事故造成了严重的后果。
  为了挽回公司声誉,Rackspace更新了所有博客,并在其中详细讨论了整个经过。但用户并不乐意接受。
  同年11月,Rackspace再次发生重大的服务中断后。事实上,它的用户是完全有机会在服务中断后公开指责这位供应商的,但用户却表示“该事故并不是什么大事。”看来Rackspace不是走好运,而是持续提供了充足更新并快速修复了这些错误。
  在服务中断致使其业务脱机15到20分钟后,博客服务提供商Posterous的创建者之一Sachin Agarwal就发表了自己的观点。Agarwal对此并不生气,相反,他表示Rackspace在这件事上做得“很透明”,处理问题也很及时到位。
  看来,如果没有严重数据的丢失,并且服务快速恢复,用户依旧保持愉快的使用体验。对于所谓的“100%正常运行”,大多数用户似乎不会因为偶尔的小事故而放弃供应商,只是不要将问题堆积起来。
  事件二:Salesforce.com宕机
  2010年1月,几乎6万8千名的Salesforce.com用户经历了至少1个小时的宕机。
  Salesforce.com由于自身数据中心的“系统性错误”,包括备份在内的全部服务发生了短暂瘫痪的情况。这也露出了Salesforce.com不愿公开的锁定策略:旗下的PaaS平台、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出现问题,Force.com同样会出现问题。所以服务发生较长时间中断,问题将变得很棘手。
  这场服务中断还没有对公司造成很大影响,它同VMware合作的VMforce在今年春季引起很大反响,同时Salesforce.com首席执行官在服务中断出现后的一个月内又开始宣称Salesforce.com是“最大的云计算企业”。
  这次中断事故让人们开始质疑Salesfore.com的软件锁定行为,即将该公司的Force.com平台绑定到Salesforce.com自身的服务。但总之,这次事件只是又一次地提醒人们:百分之百可靠的云计算服务目前还不存在。
  事件三:Terremark宕机事件
  2010年3月,VMware的合作伙伴Terremark就发生了七小时的停机事件,让许多客户开始怀疑其企业级的vCloud Express服务。此次停机事件,险些将vCloud Express的未来断送掉,受影响用户称故障由“连接丢失”导致。据报道,运行中断仅仅影响了2%的Terremark用户,但是造成了受影响用户的自身服务瘫痪。此外,用户对供应商在此次事情上的处理方式极为不满意。
  Terremark官方解释是:“Terremark失去连接导致迈阿密数据中心的vCloud Express服务中断。"关键问题是Terremark是怎么解决这个突发事件的,这家公司并没有明确的方案,只是模糊地对用户担保,并对收到影响的用 户进行更新。如果一个运供应商想要说服企业用户在关键时刻使用它们的服务,这样的方式是达不到目的的。
  Terremark的企业客户Protected Industries的创立者John Kinsella,在抱怨服务中断让他心灰意冷时称该供应商是“杂货铺托管公司”。Kinsella将Terremark与Amazon做了比较,他抱怨说,Terremark才开始考虑使用的状态报告和服务预警Amazon早已实现。
  当然,在对vCloud Director的大肆宣传以及VMworld 2010兴奋地揭幕过后,Terremark服务中断事件似乎只留下了很小的余波。
  事件四:Google Gmail邮箱爆发全球性故障
  Gmail是Google在2004年愚人节推出的免费邮件服务,但是自从推出这项服务以来,时有发生的“中断”事件就成为业界的广泛讨论的话题。
  2009年2月24日,谷歌的Gmail电子邮箱爆发全球性故障,服务中断时间长达4小时。谷歌解释事故的原因:在位于欧洲的数据中心例行性维护之时,有些新的程序代码(会试图把地理相近的数据集中于所有人身上)有些副作用,导致欧洲另一个资料中心过载,于是连锁效应就扩及到其它数据中心接口,最终酿成全球性的断线,导致其他数据中心也无法正常工作。
  事件过去数日之后,Google宣布针对这一事件,谷歌向企业、政府机构和其他付费GoogleAppsPremier Edition客户提供15天免费服务,补偿服务中断给客户造成的损失,每人合计2.05美元。
  事件五:微软的云计算平台Azure停止运行
  2009年3月17日,微软的云计算平台Azure停止运行约22个小时。
  虽然,微软没有给出详细的故障原因,但有业内人士分析,Azure平台的这次宕机与其中心处理和存储设备故障有关。Azure平台的宕机可能引发微软客户对该云计算机服务平台的安全担忧,也暴露了云计算的一个巨大隐患。
  不过,当时的Azure尚处于“预测试”阶段,所以出现一些类似问题也是可接受。提前暴露的安全问题,似乎也给微软的Azure团队敲了一次警钟,在云计算平台上,安全是客户最看重的环节。
  2010年,Azure平台正式投入商用,成为开发者喜爱的云平台之一。





欢迎光临 浙江车网论坛 (http://bbs.zjchewang.com/) Powered by Discuz! X1.5