万赟的科学网博客分享 http://blog.sciencenet.cn/u/ywan

博文

云计算的前世今生(十一)

已有 3413 次阅读 2011-5-13 23:54 |个人分类:互联网|系统分类:科研笔记| 云计算, 亚马逊, 存储即服务

存储即服务Storage as a Service, DaaS)是除了前面所述的三大云计算服务之外比较流行的第四种云计算服务方式。存储即服务的最经典的使用案例就是纽约时报的技术人员用亚马逊的EC2 (基础设施即服务)S3(存储即服务)来为其一百多年的文章生成PDF和提供全文检索。


这事情发生在2006年,亚马逊刚推出EC2S3不久,纽约时报正准备把其从1851年创刊到1922年之间的已经失去版权的文章全部在网站上公开,让读者可以免费阅读和搜索。事实上,纽约时报从1851年到1980年的近1100万篇文章已经被生成图像文件并以PDF格式存储。只是每篇文章的各个部分是分散在不同PDF文件里的(美国一张报纸的文章往往跨几个版面)。所以需要把这些PDF文章碎片拼凑起来,生成新的完整文章的PDF。然后,读者就可以通过检索找到文章,直接下载PDF文件阅读了。


这项工作如果用传统的方法来做,是可以完成的,不过需要雇佣专门的公司花一大笔钱。于是纽约时报的技术人员想到用EC2S3来解决这个问题。一开始,他们将一共4TB 左右的原始PDF文件集合上载到S3存储起来。然后使用EC2服务在亚马逊的云端生成了4个虚拟机。这四个虚拟机通过他们在自己的个人电脑上生成的一个包含免费的分布式计算软件(Hadoop Documentary)的映像启动。这样,他们就可以象控制一个实际的Linux集群一样来通过自己的个人电脑远程控制由四个虚拟机组成的集群。结果他们发现,这个方法居然有效,位于EC2的这四个虚拟机可以有效地通过网络获取和处理存贮在S3的碎片PDF文件,生成完整的PDF文章,再通过网络从EC2存储回S3中。


接下来,为了提高效率,他们决定增加虚拟机的数目。最后的结果是,他们一共用了100个虚拟机,运行了24小时, 成功地生成了1100万篇文章,共计1.5TB的数据,所有这些文章被完整地存回了S3 整个项目的花费(不包括图象上载的传输费用)只有240美元!


这个项目的成功是有目共睹的。纽约时报目前继续使用亚马逊的S3服务来存储其文章。感兴趣的人可以在纽约时报的搜索栏里试着输入“Li Hung-chang”(李鸿章),你会发现,有1800篇文章,而且所有文章都可以下载阅读!这些报道了李鸿章的各种政治活动。一点不亚于对现代中国领导人的报道。可见150多年前美国对中国的观察和了解跟我们对对方的观察和了解是远远不可比拟的。


上图是从纽约时报网站下载的1896年2月24号一篇关于李鸿章访美的报道


目前来看,存储即服务的总的来说是比较受中小企业的青睐。最近的一个调查发现,Fortune 1000 的公司往往都有自己的存储设备,不需要通过云计算来存储数据。而且,远程存储海量数据的成本往往比本地存储要高。所以对存储即服务的兴趣不是很大。但中小企业,尤其是网络营销公司,往往非常需要这种服务。因为这样可以免除购买存储设备,节省了大笔费用。当然,如果服务出现问题,代价也是巨大的。亚马逊的S3服务曾经在2008215号清晨出现技术故障,结果导致美东地区的用户有两个小时的时间无法获得数据。到当天下午四点左右,才全部恢复正常。类似的情况就像供电服务出现中断一样,影响是巨大的。但这也是使用云计算不可避免的代价。我们只能希望随着技术的不断完善,这种情况出现的越来越少。



http://wap.sciencenet.cn/blog-39023-443973.html

上一篇:云计算的前世今生(十)
下一篇:云计算的前世今生(十二)

4 杨华磊 陈学雷 田灿荣 邱嘉文

发表评论 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-4-23 02:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部