MPEG-7与媒体资产检索

3.2特征自动抽取一部视频节目由一系列场景组成，而场景由镜头组成，镜头又由帧组成。利用镜头边界检测算法可将视频序列分解成镜头，如最常用的颜色直方图法，计算每两帧之间的颜色直方图的分布差，当其超过某一阈值时，就可认为这两帧是两个镜头的边界。将场景被分成镜头后，就可利用自动关键帧抽取算法抽取一个或多个关键帧作为镜头的代表，供用户浏览。关键帧抽取时，可先将第一帧作为镜头的第一个关键帧，然后将此关键帧与以后的每一帧作比较，当差值超过某一阈值时，可将这一帧作为新的关键帧，以此类推，直到镜头结束。镜头分解和关键帧抽取完成后就可对其进行静态特征(形状、颜色、纹理等)和运动特征进行自动抽取，并生成MPEG-7的标准描述，作为日后检索的依据。 3.3人工编目对高层的语义描述，是不可能自动抽取的，需更多的依赖人机交互。因此专业的编目人员是建立高效的检索机制所必不可少的。但是面对多种多样的用户需求，仅仅依靠几个专业的编目人员是不可能的，一方面虽然已有了自动抽取的大量特征，但详细的语义说明仍然是一个海量的工作；另一方面，每一个人对AV素材的理解可能都不尽相同，既使是非常高水平的编目人员也不可能满足所有用户的需求。因此"学习能力"也就成为对媒体资产检索系统的一种更高层的要求。所谓的"学习能力"是指根据用户的检索过程生成新的描述信息的机制。例如，有一用户键入"98世界杯上巴乔射失的点球"想检索有关的AV素材时，可能以前没有这样的描述，所以无法找到。但用户可能通过"98世界杯"、"点球"等一系列过程最终找到了有关素材，这时系统就可将"98世界杯上巴乔射失的点球"这一描述加到这一素材之上，当再有用户键入相同信息时，系统就可快速的找到有关素材。"学习能力"将编目、检索两个完全分立的近程结合起来，扩大了编目能力，也提高了系统的效率，使得每一个用户都成为系统的编目人员，大大地减轻了编目人员的工作压力。与"学习能力"相对就的是"遗忘能力"。如过每一次检索都产生新的描述，系统就会不停地扩大，直至最终崩溃。我们先看一看人类的大脑，之所以人类能记意大量的信息是因为我们忘却了更大量的无用信息。因此一个具有"学习能力"的系统必须具有"遗忘能力"，即能够将长时间无人使用的描述从系统中删除的能力。当然，系统应将描述分出级别，对于专业编目人员建立的系统描述应设为最高级别，只有通过人工删除，系统无法自动删除，而对于由用户检索建立起的描述则由系统根据使用频率及当前系统的负载情况采用有效的删除策略。 3.4视频检索基于MPEG-7的检索机制支持文本检索、图像检索、音频检索等多种检索方式，允许用户输入一幅图像或在键盘上键入一段音符来查找相关素材。但是在实际应用中，由用户直接输入图像是不太现实的，更多地是由用户输入对图像的文本描述信息，这一点也进一步说明仅有低层的视觉描述而缺少高层语义描述的系统是没有实用价值的。根据用户的输入，系统采用相似匹配的算法检索到所有相关的关键帧(编目时描述信息越详细，查询的结果也就可能越准确)，用户从所有关键帧中选择可能是自己需要的部分，然后调入相关的低码流的素材进行济览，当用户确认以后就可通过EDL表调用高码流部分进行下载输出。主要参考文献：
1、 ISO/IEC JTC1/SC29/WG11 N4031. Overview of the MPEG-7 Standard (version 5.0). José M. Martínez
2、 D-Lib MagazineSeptember 1999. MPEG-7 Behind the Scenes. Jane Hunter
3、 http://www.cbttn.com.《MPEG-7及其在广播电视中的应用》. 张颖辉、陶然、王越、马越
4、北京邮电大学出版社.《MPEG-7标准及其应用》.余兆明、李晓费、陈来春、

《MPEG-7与媒体资产检索(第3页)》

« 1 2 3 »

本文链接地址：http://www.oyaya.net/fanwen/view/178089.html

上一篇范文：如何运用化妆技巧矫正脸型

下一篇范文：地面广播中的8-VSB与COFDM比较