大数据存储与管理技术是用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。主要解决大数据可存储。可处理及有效传输等关键问题。
大数据包括结构化和非结构化两种类型,德缘泰科技安防大数据以视频图像为主,数量巨大而且是非结构化的。IDC将大数据技术定义为:大数据技术描述了新一代的技术和架构体系,通过高速采集、发现和分析,提取各种各样的大量数据的经济价值。
"大数据"通常指的是那些数量巨大、难于收集、处理、分析的数据集,也指那些在传统基础设施中长期保存的数据。这里的"大"有几层含义,它可以形容组织的大小,而更重要的是,它界定了企业中IT基础设施的规模。业内对大数据应用寄予了无限的期望,需要通过数据存储与管理,进一步把其价值挖掘出来。数据永远都在增长之中,只是存储海量数据的能力是不够的,因为这并不能保证我们能够成功地从中搜寻出商业价值,还需要对数据进行管理。
随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,大数据分析应用需求正在影响着数据存储基础设施的发展,这一变化对存储厂商和其他IT基础设施厂商是一个机会。
随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。以下几个与大数据存储基础设施相关的属性,是迎接大数据的挑战重点所在。
一、数据存储管理技术难点
(一)容量问题
"大容量"通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。基于这样的需求,客户现在越来越青睐Scale-out架构的存储。Scale-out集群结构的特点是每个节点除了具有一定的存储容量之外,内部还具备数据处理能力以及互联设备,与传统存储系统的烟囱式架构完全不同,Scale-out架构可以实现无缝平滑的扩展,避免存储孤岛。
"大数据"应用除了数据规模巨大之外,还意味着拥有庞大的文件数量。因此如何管理文件系统层累积的元数据是一个难题,处理不当的话会影响到系统的扩展能力和性能,而传统的NAS系统就存在这一瓶颈。所幸的是,基于对象的存储架构就不存在这个问题,它可以在一个系统中管理十亿级别的文件数量,而且还不会像传统存储一样遭遇元数据管理的困扰。基于对象的存储系统还具有广域扩展能力,可以在多个不同的地点部署并组成一个跨区域的大型存储基础架构。
(二)延迟问题
有很多"大数据"应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质的可扩展存储系统等等都在蓬勃发展。
(三)安全问题
某些特殊行业的应用,比如公共安全、金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的安全性问题。
(四)成本问题
"大",也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着要让每一台设备都实现更高的"效率",同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,都能够获得明显的投资回报。此外,自动精简配置、快照和克隆技术的使用也可以提升存储的效率。
很多大数据存储系统都包括归档组件,尤其对那些需要分析历史数据或需要长期保存数据的机构来说,归档设备必不可少。从单位容量存储成本的角度看,磁带仍然是最经济的存储介质,事实上,在许多企业中,使用支持TB级大容量磁带的归档系统仍然是事实上的标准和惯例。
对成本控制影响最大的因素是那些商业化的硬件设备。因此,很多初次进入这一领域的用户以及那些应用规模最大的用户都会定制他们自己的"硬件平台"而不是用现成的商业产品,这一举措可以用来平衡他们在业务扩展过程中的成本控制战略。为了适应这一需求,现在越来越多的存储产品都提供纯软件的形式,可以直接安装在用户已有的、通用的或者现成的硬件设备上。此外,很多存储软件公司还在销售以软件产品为核心的软硬一体化装置,或者与硬件厂商结盟,推出合作型产品。
二、数据存储管理发展趋势
(一)存储行业的重组和整合
存储客户需要时间来消化新的存储技术,包括软件定义存储、私有云和公有云的优势,及功能和限制等问题,并逐渐将这些技术应用到存储业务上。这种趋势在传统阵列收入的降低和全闪存存储销售的快速增长中体现出来。这种趋势也将影响到2016年存储厂商们在存储新世界中的地位。
(二)从备份到恢复业务的存储定价都发生了改变
存储数据的成本传统上是根据每GB或每TB位单位进行收费。然而随着存储数据容量的成本变化,根据是否预置在云中、下降到接近零存储、不能访问的数据的成本激增,都会导致成本的变化。几个供应商,包括像Google和Asigra,已经着重在基于存储恢复或还原上砸钱而不是一味用于存储。这是一种颠覆性的模型,该模型将需要存储提供商扔掉现有价格列表,但它更好地反映提供存储容量的成本。
(三)超融合基础架构打破计算机存储之间的联系
超融合基础设施解决方案的最大卖点就是将计算,存储,网络和虚拟化资源紧密连接到单一设备,令其易于部署和管理。虽然在大型项目中它们也会变得相当昂贵。然而,密切联系也是阻碍进一步采用该技术的障碍。需要更多计算,买一个有更多计算和存储的节点。当2016年众多的超合基础设施架构供应商们不负诺言,为内部部署和私有云提供了简单的易于部署的平台时,这种联系也将会被打破。除非他们为客户提供了为每个组件分别实现扩展的功能。
(四)超融合云存储将要称霸
公共云存储的试验阶段已完成。客户知道了公有云可以做些什么。更重要的是他们知道公共云不能保证数据的安全性,同时实现成本的逐渐下降。在2016年,存储行业的发展将会促进公有云归属于最正确的地方,适用于存储生命周期即将结束的工作负载需求,同时性能对于他们来说不是主要问题,包括灾难恢复、长期存档、临时的容量爆发和数据共享。远程监控。
到今年年底,没有云组件的存储启动安装设备将会变得很少见。大多数新的存储安装启用设备内部将会部署私有云,以处理高性能或者高安全性的工作负载,并绑定一到两个公有云以获得最好的工作负载管理。
(五)软件定义存储占据近主流位置
在过去几年中已经出现了软件定义存储,是用于分隔底层硬件存储阵列的功能,使其能在商用硬件中配置存储设备,2016年将看到软件定义存储解决方案被越来越多客户接受,尤其在企业中,因为其他的新存储模式,例如云计算已经被接受了。软件定义存储解决方案的优势也将变得越来越明显,因为一些领先的解决方案供应商们正在想方设法销售他们的大型产品,尤其是在存储周期开始不断被刷新时。
(六)服务器成为新存储平台
从传统的存储阵列中走出,转移到新的基础设施架构,例如软件定义存储和云计算等举动,意味着服务器将会统治新的存储平台。这种趋势已悄然在行业内发生,可以看到业内有大量的服务器出货,同时服务器收入也获得了增长,在2016年将会加速发展。
今年,将会看到增加了内存和存储容量不断丰富的服务器配置功能。这样的配置允许在使用软件定义存储架构时可以增加容量,同时提供更好的性能,可以为需要移动到云中的工作负载所使用。
这也将会导致传统存储阵列销售下降,进而推动更丰富的服务器配置发展,这可能会成为一个永无止境的循环变化。
Industry dynamics 创意安防
数据存储与管理