探讨重复数据删除技术在中央电台媒资备份存储系统中应用
探讨重复数据删除技术在中央电台媒资备份存储系统中应用
作者/ 刘华
一、引言
2012年初,中央电台媒资备份存储系统正式投入使用。经过一年的运行,大量的节目内容,丰富的历史资料迅速将中央电台媒资备份存储系统填满,严重掣肘了节目归档、素材入库等媒资管理工作。近期中央电台完成了媒资备份存储系统在线扩容工作。备份存储的磁盘容量由之前的20T B,增加30TB,总计达到50T B。短短一年时间,磁盘空间需求已经翻番,可以预见,中央电台媒资备份存储系统还将面临磁盘空间短缺的问题。面对日益爆炸的数据增长和由此不断上升产生的存储压力难题,如何控制和有效降低海量数据显得尤为重要。重复数据删除技术无疑是“瘦身”的一项不错选择。
二、数据冗余
目前,中央电台媒资备份存储系统中,存在大量的重复和冗余数据,造成数据冗余的原因可能是人为的:
·为了确保文件的安全性,无意中将同样的文件存储了多份;
·不同文件的部分内容重复。
冗余数据占据了大量的存储空间,降低了存储空间的利用效率。图1展示了关于媒资备份存储系统中重复数据的比例、来源和分析。
更重要的是:这些大量的冗余数据给媒资备份存储系带来了大量的问题:
·占用大量存储空间,降低存储利用效率;
·增加建设成本;
·增加额外数据管理代价。
三、重复数据删除概念
通过相关研究和对实际系统的分析发现,在海量数字存储系统中,存在大量的重复数据和相似数据。通过重复数据删除技术可以有效去除这些重复数据,对相同数据只存储一份和只存储相似数据的不同部分,可以有效利用存储空间,从而有效降低存储系统成本。
重复数据删除是一种数据缩减技术,旨在最小化文件之间的冗余和重复的无损压缩,并对存储容量进行有效优化。它通过删除数据集中重复的数据,只保留其中一份,从而达到消除冗余数据目的。
目前,绝大多数的重复数据删除算法都工作在二进制数据层次上,通常使用一些数据切分算法,如以整个文件为切分粒度,固定大小的数据切分,或者某些H A S H函数(如R a b i nFingerprinting算法),将每一个带归档的文件切分成若干相互不重叠的数据片段,并把这些数据片段作为逻辑单位进行后续处理和存储操作。在这些数据片段中,只有不重复的数据片段才真正存储到存储设备中,而其他的重复数据片段只需记录其ID和相应的依赖文件的对应关系即可。
四、S48音频文件格式
与其他存储系统中元数据的文件类型、文件格式多样化不同,中央电台媒资备份存储系统中的元数据的文件类型、文件格式只有S48格式的音频文件。对于重复数据删除技术而言,我们需要熟悉S48文件,并针对S48文件特点进行重复数据删除工作。
S48音频格式是指比特率为256k b i t s/s,采样率为48000H z的MPEG1-2格式。
帧是MPEG-1处理的最小单元。每个帧又由
1. 帧头结构
帧头长4字节,对于固定位率的MP文件,所有帧的帧头格式一样其数据结构如下:
typedef FrameHeader{
unsigned int syn:11; //同步信息
unsigned int version:2; //版本
unsigned int layer:2; //层
unsigned int protection:1: //CRC校验
unsigned int bitrate:4; //位率
unsigned int frequency:2; //频率
unsagned int padding:1; //帧长调节
unsigned int private:1; //保留字
unsigned int mode:2; //声道模式
unsagned int mode extension:2;//扩充模式
unsigned int copyright:1; //版权
unsigned int original:1; //原版标志
unsigned int emphasis:2; //强调模式
}HEADER,*LPHEADER;
帧头4字节使用说明见表1
帧文件尾的最后128个字节用来存放ID3信息,这128个字节使用说明见表2。
五、重复数据删除设计思路
重复数据删除的主要思路是通过利用不同层次上的元数据信息,如文件类型、文件格式、应用类型和文件系统元数据等,来指导数据切分算法将文件划分为更有意义的数据片段。元数据信息分为以下三类:
·应用元数据,如文件类型、文件格式、应用软件信息等;
·应用或用户的标记,如用于描述图片、音频、视频等多媒体文件特性的各种标记;
·文件系统级元数据,如目录条目、文件的INODE信息等。重复数据删除的主要目标是最大限度减小文件之间的重复和冗余数据。对于中央电台媒资备份存储系统而言,我们就需要从以下三方面实现“瘦身”。
1. 数据库
在对数据库进行操作过程中重复的数据可能有这样两种情况,第一种是两行记录完全一样,第二种是表中只有某些字段一样。
·两行记录完全一样:
对于表中两行记录完全一样的情况,可以用下面语句获取到去掉重复数据后的记录:
select distinct * from 表名
可以将查询的记录放到暂时表中,然后再将原来的表记录删除,最初将暂时表的数据导回原来的表中。如下:
createTABLE暂时表AS(selectdistinct*from表名);
truncatetable正式表;
insertinto正式表(select*from暂时表);
droptable暂时表;
·表中只有某些字段一样:
假如想删除一个表的重复数据,可以先建一个暂时表,将去掉重复数据后的数据导入到暂时表,然后在从暂时表将数据导入正式表中,如下:
insertINTOt_table_bak
selectdistinct*fromt_table;
2. 文件切分
重复数据删除对于S48音频文件切分算法的实现基于以下的观察和思考:许多不同的文件有着相同的音频内容和不同的TAG描述信息,即相同的歌曲由同一个歌手演唱,但发布在不同专辑,或者相同的内容由不同编辑制作,这样就有了不同的TAG。因此,一般把每个S48文件划分成三个部分:帧头、音频帧、TAG,其中帧头和音频帧被解析和存在元数据服务器数据库的某张表中,音频帧作为一个逻辑数据片段存储,以便进一步被打包成物理对象实际存储在磁盘设备上。
具有相同音频的数据内容被切成一个数据片段,只需保存其中一份即可。由于某些HASH函数(如Rabin Fingerprinting算法)可以捕获到二进制层次上的重复,所以若两个数据对象具有相同的内容,则可进一步进行重复数据删除,只存不重复的数据对象。图3展示了上述过程,并说明在存储系统中数据组织的层次关系。
3. 方案实施
重复数据删除主要是针对大规模存储系统设计,其进程可以部署在不同的应用服务器上,且可作为核心进程运行。因此,其方案需要有较好的可扩展性,易于进行数据容灾的部署。
因此在媒资备份存储系统内部署重复删除技术至少需要包括应用服务器,文件归档服务器,元数据服务器和智能存储节点等四部分组件实现重复数据删除和数据存储。图4展示存储系统体系结构。
应用服务器为各种应用的宿主服务器,如WEB服务器,流媒体服务器等部署应用服务端软件。文件归档服务器主要是将文件归档到存储节点,同时部署重复数据删除软件的地方。元数据服务器主要对元数据管理、与应用服务器交互、安全机制的部署等服务。智能存储节点是完全由通用组件,即操作系统、阵列柜、磁带库、文件系统等组成。
对于每个存储文件首先根据其相应的元数据信息,被文件归档服务器切分成若干不重叠的数据片段。每一个数据片段将对内容通过某些Hash函数计算得到的签名作为其标识符,用以判断当前是否有重复的数据片段存在。不重复的数据片段将被封装成定长的数据对象,由元数据服务器决定将它们存储到对应的智能存储节点中。最后当数据的存储位置信息将会返回到文件归档服务器。文件归档服务器可以与智能存储节点直接进行数据传输。这样应用服务器产生、调用的节目素材等内容就通过入库、切割、计算、存储等步骤进行了“瘦身”,最大限度的精减系统内冗余、重复数据的产生,从而实现了重复数据删除。
六。总结
随着中央电台编播系统数字化的发展,节目内容、节目素材将呈现爆炸式增长趋势,数据总量将急剧膨胀。我们将面临诸多挑战,如媒资备份存储空间不足、成本高昂等问题。本文通过对重复数据删除技术的探讨,采用标准、科学、先进和可靠的技术,阐述了全新的媒资备份存储系统,为今后的媒资备份存储系统发展规划,提供了有效的支持,并确保系统在今后相当长一段时间留有扩充余地。希望能为广播电视的媒资备份存储系统建设提供一种新思路。
参考文献
[1] 袁玉宇 刘川意 郭松柳 . 云计算时代的数据中心。 电子工业出版社。2010
[2] 李栋 数字声音广播 北京广播学院出版社 2001
[3] Dave Reinesl. Our ExpandingD i g i t a l W o r l d:C a n w e c o n t a i n i t?Can we manage it? Intelligent StorageWorkshop(ISW2008),UMN,MN,2008
[4] 张为民 唐剑锋 罗治国 钱岭 .云计算:深刻改变未来 . 01版 . 北京 .科学出版社 . 2009
[5] 朱近之 张振伦 金海龙 蒋建华 王春海未来,在云端 微型计算机 2011(2) 《探讨重复数据删除技术在中央电台媒资备份存储系统中应用》
本文链接地址:http://www.oyaya.net/fanwen/view/151639.html
作者/ 刘华
一、引言
2012年初,中央电台媒资备份存储系统正式投入使用。经过一年的运行,大量的节目内容,丰富的历史资料迅速将中央电台媒资备份存储系统填满,严重掣肘了节目归档、素材入库等媒资管理工作。近期中央电台完成了媒资备份存储系统在线扩容工作。备份存储的磁盘容量由之前的20T B,增加30TB,总计达到50T B。短短一年时间,磁盘空间需求已经翻番,可以预见,中央电台媒资备份存储系统还将面临磁盘空间短缺的问题。面对日益爆炸的数据增长和由此不断上升产生的存储压力难题,如何控制和有效降低海量数据显得尤为重要。重复数据删除技术无疑是“瘦身”的一项不错选择。
二、数据冗余
目前,中央电台媒资备份存储系统中,存在大量的重复和冗余数据,造成数据冗余的原因可能是人为的:
·为了确保文件的安全性,无意中将同样的文件存储了多份;
·不同文件的部分内容重复。
冗余数据占据了大量的存储空间,降低了存储空间的利用效率。图1展示了关于媒资备份存储系统中重复数据的比例、来源和分析。
更重要的是:这些大量的冗余数据给媒资备份存储系带来了大量的问题:
·占用大量存储空间,降低存储利用效率;
·增加建设成本;
·增加额外数据管理代价。
三、重复数据删除概念
通过相关研究和对实际系统的分析发现,在海量数字存储系统中,存在大量的重复数据和相似数据。通过重复数据删除技术可以有效去除这些重复数据,对相同数据只存储一份和只存储相似数据的不同部分,可以有效利用存储空间,从而有效降低存储系统成本。
重复数据删除是一种数据缩减技术,旨在最小化文件之间的冗余和重复的无损压缩,并对存储容量进行有效优化。它通过删除数据集中重复的数据,只保留其中一份,从而达到消除冗余数据目的。
目前,绝大多数的重复数据删除算法都工作在二进制数据层次上,通常使用一些数据切分算法,如以整个文件为切分粒度,固定大小的数据切分,或者某些H A S H函数(如R a b i nFingerprinting算法),将每一个带归档的文件切分成若干相互不重叠的数据片段,并把这些数据片段作为逻辑单位进行后续处理和存储操作。在这些数据片段中,只有不重复的数据片段才真正存储到存储设备中,而其他的重复数据片段只需记录其ID和相应的依赖文件的对应关系即可。
四、S48音频文件格式
与其他存储系统中元数据的文件类型、文件格式多样化不同,中央电台媒资备份存储系统中的元数据的文件类型、文件格式只有S48格式的音频文件。对于重复数据删除技术而言,我们需要熟悉S48文件,并针对S48文件特点进行重复数据删除工作。
S48音频格式是指比特率为256k b i t s/s,采样率为48000H z的MPEG1-2格式。
帧是MPEG-1处理的最小单元。每个帧又由
1. 帧头结构
帧头长4字节,对于固定位率的MP文件,所有帧的帧头格式一样其数据结构如下:
typedef FrameHeader{
unsigned int syn:11; //同步信息
unsigned int version:2; //版本
unsigned int layer:2; //层
unsigned int protection:1: //CRC校验
unsigned int bitrate:4; //位率
unsigned int frequency:2; //频率
unsagned int padding:1; //帧长调节
unsigned int private:1; //保留字
unsigned int mode:2; //声道模式
unsagned int mode extension:2;//扩充模式
unsigned int copyright:1; //版权
unsigned int original:1; //原版标志
unsigned int emphasis:2; //强调模式
}HEADER,*LPHEADER;
帧头4字节使用说明见表1
帧文件尾的最后128个字节用来存放ID3信息,这128个字节使用说明见表2。
五、重复数据删除设计思路
重复数据删除的主要思路是通过利用不同层次上的元数据信息,如文件类型、文件格式、应用类型和文件系统元数据等,来指导数据切分算法将文件划分为更有意义的数据片段。元数据信息分为以下三类:
·应用元数据,如文件类型、文件格式、应用软件信息等;
·应用或用户的标记,如用于描述图片、音频、视频等多媒体文件特性的各种标记;
·文件系统级元数据,如目录条目、文件的INODE信息等。重复数据删除的主要目标是最大限度减小文件之间的重复和冗余数据。对于中央电台媒资备份存储系统而言,我们就需要从以下三方面实现“瘦身”。
1. 数据库
在对数据库进行操作过程中重复的数据可能有这样两种情况,第一种是两行记录完全一样,第二种是表中只有某些字段一样。
·两行记录完全一样:
对于表中两行记录完全一样的情况,可以用下面语句获取到去掉重复数据后的记录:
select distinct * from 表名
可以将查询的记录放到暂时表中,然后再将原来的表记录删除,最初将暂时表的数据导回原来的表中。如下:
createTABLE暂时表AS(selectdistinct*from表名);
truncatetable正式表;
insertinto正式表(select*from暂时表);
droptable暂时表;
·表中只有某些字段一样:
假如想删除一个表的重复数据,可以先建一个暂时表,将去掉重复数据后的数据导入到暂时表,然后在从暂时表将数据导入正式表中,如下:
insertINTOt_table_bak
selectdistinct*fromt_table;
2. 文件切分
重复数据删除对于S48音频文件切分算法的实现基于以下的观察和思考:许多不同的文件有着相同的音频内容和不同的TAG描述信息,即相同的歌曲由同一个歌手演唱,但发布在不同专辑,或者相同的内容由不同编辑制作,这样就有了不同的TAG。因此,一般把每个S48文件划分成三个部分:帧头、音频帧、TAG,其中帧头和音频帧被解析和存在元数据服务器数据库的某张表中,音频帧作为一个逻辑数据片段存储,以便进一步被打包成物理对象实际存储在磁盘设备上。
具有相同音频的数据内容被切成一个数据片段,只需保存其中一份即可。由于某些HASH函数(如Rabin Fingerprinting算法)可以捕获到二进制层次上的重复,所以若两个数据对象具有相同的内容,则可进一步进行重复数据删除,只存不重复的数据对象。图3展示了上述过程,并说明在存储系统中数据组织的层次关系。
3. 方案实施
重复数据删除主要是针对大规模存储系统设计,其进程可以部署在不同的应用服务器上,且可作为核心进程运行。因此,其方案需要有较好的可扩展性,易于进行数据容灾的部署。
因此在媒资备份存储系统内部署重复删除技术至少需要包括应用服务器,文件归档服务器,元数据服务器和智能存储节点等四部分组件实现重复数据删除和数据存储。图4展示存储系统体系结构。
应用服务器为各种应用的宿主服务器,如WEB服务器,流媒体服务器等部署应用服务端软件。文件归档服务器主要是将文件归档到存储节点,同时部署重复数据删除软件的地方。元数据服务器主要对元数据管理、与应用服务器交互、安全机制的部署等服务。智能存储节点是完全由通用组件,即操作系统、阵列柜、磁带库、文件系统等组成。
对于每个存储文件首先根据其相应的元数据信息,被文件归档服务器切分成若干不重叠的数据片段。每一个数据片段将对内容通过某些Hash函数计算得到的签名作为其标识符,用以判断当前是否有重复的数据片段存在。不重复的数据片段将被封装成定长的数据对象,由元数据服务器决定将它们存储到对应的智能存储节点中。最后当数据的存储位置信息将会返回到文件归档服务器。文件归档服务器可以与智能存储节点直接进行数据传输。这样应用服务器产生、调用的节目素材等内容就通过入库、切割、计算、存储等步骤进行了“瘦身”,最大限度的精减系统内冗余、重复数据的产生,从而实现了重复数据删除。
六。总结
随着中央电台编播系统数字化的发展,节目内容、节目素材将呈现爆炸式增长趋势,数据总量将急剧膨胀。我们将面临诸多挑战,如媒资备份存储空间不足、成本高昂等问题。本文通过对重复数据删除技术的探讨,采用标准、科学、先进和可靠的技术,阐述了全新的媒资备份存储系统,为今后的媒资备份存储系统发展规划,提供了有效的支持,并确保系统在今后相当长一段时间留有扩充余地。希望能为广播电视的媒资备份存储系统建设提供一种新思路。
参考文献
[1] 袁玉宇 刘川意 郭松柳 . 云计算时代的数据中心。 电子工业出版社。2010
[2] 李栋 数字声音广播 北京广播学院出版社 2001
[3] Dave Reinesl. Our ExpandingD i g i t a l W o r l d:C a n w e c o n t a i n i t?Can we manage it? Intelligent StorageWorkshop(ISW2008),UMN,MN,2008
[4] 张为民 唐剑锋 罗治国 钱岭 .云计算:深刻改变未来 . 01版 . 北京 .科学出版社 . 2009
[5] 朱近之 张振伦 金海龙 蒋建华 王春海未来,在云端 微型计算机 2011(2) 《探讨重复数据删除技术在中央电台媒资备份存储系统中应用》