大部分图像都是自然界中客观存在的物体的二维映像,其区域结构、灰度变化等属性服从自然界的规律,也符合人类的知识结构。例如,当看到人脸图像时,已经知道人的脸上必然有对称分布的口、眼、嘴、鼻、耳及它们各自的大致位置和形状。
多媒体压缩编码
针对数据的冗余,计算机在处理中使用很多压缩编码,但最常用的有字典编碍、预测编码和变换编码3类。
字典编码
字典编码是由Lemple和Ziv提出并经Welch扩充而形成的无损压缩专利技术。它属于基于“字典”的压缩方法,在对文件进行编码时,需要生成特定字符序列的表以及对应的代码。每当表中没有的字符串出现时,就把它与其代碍一道存储起来。这以后当该串再次出现时,只存储其代码。实际上,字符串表是在压缩过程中动态生成的,而且由于解压缩算法可以从压缩文件中重构字符串表,因而字符串表也不必存储。
预测编码
这是一种针对统计冗余性的压缩方法。对于语音,就是通过预测去除语音信号时间上的相关性。而对于图像,帧内预测可以去除空间上的冗余,帔间预测则可以去除时间上的冗余。目前大多数语音、图像编码中都采用了预测技术。例如语音中的线性预测(LinearPredictiveCoding,LPC)、码激励线性预测,图像中的ADPCM等。
变换编码
这也是针对统计冗余性进行压缩的编码方法。不同的是变换编码首先把要压缩的数据变换到某个变换域中,然后再进行编码。变换域中表现为能量集中在某些区域,就可以利用这一特点在不同区域间有效地分配量化比特数,或者去掉这些能量很小的区域从而达到数据压缩的目的。例如声音中的频谱分析实际上是对语音波形进行了快速傅里叶变换,将时域信号变到频域中,可以清楚地看到能量集中在那些频率范围内。
多媒体曲容的理解
图像分割
分割的目的是把图像空间分成一些有意义的区域。例如一幅乳腺癌照片,可以分为肿瘤区和正常组织区。图像分割可以以各个像素为基础去研究,也可以利用在规定领域中的某些图像信息。分割的依据可建立在图像的相似性和非连续性这两个特征上。图像分割是图像处理与机器视觉中必不可少的重要环节,也是图像理论发展的瓶颈之一。
图像分割
图像分割是一种基本的计算机视觉技术,是图像分析和图像理解的基础,其目的就是按照图像的某些特性将图像分成若干区域,使得在每个区域内的像素有相同或相近的特性,而相邻区域的特性则不同。这里的特性可以是灰度、颜色和问题等;区域可以是单个区域或多个区域。图像分割要满足5个条件:

①分割所得到的全部子区域的综合应能包括图像中的所有像素;②各个子区域是互不重叠的;
③分割后得到的属于同一个区域中的像素应该具有某些相同特性;④分割后得到的属于不同区域中的像素应诙具有一些不同的特性;⑤同一个子区域应当是连通的。
图像分割是一个经典的难题。从20世纪70年代起,图像分割问题就吸引了很多研究人员并为之付出了极大的努力,至今已提出了上千种类型的分割算法,但是到目前为止还不存在一个通用的方法。根据相应的文献,图像分割有几个比较明显的趋。
在将新概念、新方法引人图像分割领域的同时,更加重视多种分割算法的有效结合。采用什么样的结合方式才能取得好的效果,成为人们关注的问题。
将注意力转向图像的分割方法在某些特定领域的应用。利用这些领域中特有的知识来辅助解决图像分割问题。

人-机交互式的分割方法引起了广泛的注意。
镜头分割
镜头是视屏存储、检索、查询的基本单元,是一些有意义的、便于管理的视频片段,镜头分割就是根据连渎视频序列前后帧之间发生的变化特征,以及各帧间的内容相关性,把一段视频序列分割为不同的镜头,目前视频镜头分割的方法主要是先提取每一帧的某种特征,然后比较连续两帧或三帧之间的特征,计算它们的差值,而后与预设的阈值进行比较,从而确定是否发生镜头切换。镜头分割是实现视频数据浏览、检索和査询的基础。
特征提取
特征提取
所谓的特征提取从广义上而言就是指一种变换。具体而言,原始特征的数量很大,或者说原始样本是出于一个高维空间中,通过映射或变换的方法可以将高维空间中的特征描述用地位空间的特征来描述,这个过程就叫特征提取。变换后的特征是原始特征的某种组合。
特征降维
提取的原始特征经过特征选择后,数据的维数还是很高的,若把它们直接送人分类器进行分类是不可取的,因为特征空间的维数太高会增加计算量,同时由于这些参数中有些是相关的,存在信息冗余度,可能导致系统性能下降。因此在分樊之前,需要进行样本的空间压缩。
特征压缩在广义上就是指一种变幻,是另一种减少特征树的方法,即通过映射(或变换)的方法把高维的特征向量变换为低维的特征向量,并保持足够的信息来鉴别事务之间的类别,映射后的特征通常是原始特征的某些组合。
在数据位数压缩的过程中,必须保证以下几点:
①保熵性,即通过变换后不丢失信息的特征;
②去相关性,即去掉彼此相关性较强的信息;
③能量不变性,既保证信息在两种离散空间进行转换是保持能量不变;④能量的重新分配和集中,即在变换域中尽量使能量集中在少数几个变换系数上。
特征压缩的方法很多,目前主要有以下几种方法:基于概率距离判据的特征压缩、基于散度准则函数的特征压缩、基于判别熵最小化的特征压缩、基于类内类间距离的特征压缩、基于K-L变换的特征压缩、基于神经网络的特征压缩和基于小波分析的特征压缩等。
分类
分类是指根据多媒体数据的内容和形式的异同,按照一定的体系有系统地组织和区分。换句话说,
宁波seo优化分类的任务就是在给定的分类体系下,根据多媒体数据的内容自动地确定数据关联的类别。常用的分类器有线性分类器和概率分类器。
线性分类器

线性分类器不仅实现简单,而且在同类型分类器中相对于非线性分类器来说计算量最少。但是它是以模式的样品集合线性可分为前提的,因此需要研究一个线性分类器在多大程度上使分类成为可能。
概率分类器
基于概率统计的分类器主要有基于最小错误率的决策、基于最小风险的贝叶斯决策。
直接使用贝叶斯决策需要首先得到有关样品总体分布的知识,包括各类先验概率P(叫)及类条件概率密度函数,计算出样品的后验概率Pkili),并以此作为产生判断函数的必要数据,设计出相应的判别函数与决策面。当各类样品近似于正态分布时,可以算出使错误率最小或风险最小的分界面方程,因此如果训练样品处于近似的正态分布,可以用贝叶斯决策方法对分类器进行设计。
通过训练样品的概率分布进行判别函数设计,然后用它进行分类,这种方法称为参数判别方法,它的前提是对特征空间中的各类样品的分布已很清楚,一旦待测试分类样品的特征向量值工已知,就可以确定对各类的后验概率,也就可按相应的准则计算与分类。所以判别函数等的确定取决于样品统计分布的有关知识。因此参数分类判别方法一般只能用在有统计知识的场合,或能利用训练品估计出参数的场合。

贝叶斯分类器可以用一般的形式给出数学上严格的分析以证明:在给出某些变量的条件下,能使分类所造成的平均损失最小,或分类决策的风睑最小。因此能计算出分类器的极限性能。贝叶斯决策采用分类法中的最重要的标志——错误率作为产生判别函数和决策面的依据,因此它给出了最一般情况下使用的“最优”分类器设计方法,该方法对各种不同的分类器设计技术在理论上都有指导意义。
碟体信息裣棄的其破技术
多媒体信息检索系统应能对以文本信息为代表的离散媒体和以图像、声音等为代表的连续媒体的内窖进行检索。为了达到较好的检索效果,必须解决以下关键技术。
信息模型和表示
多媒体信息检索依赖于多媒体信息的组织形式,多媒体信息组织的优劣在一定程度上决定了其检索效率的高低。常见的多媒体对象是构造型的复合对象,其本身可用多种数据模型来描述,典型的数据模型有超文本模型(网状模型)、文献模型(层次模型)和信息元模型1on
多媒体信息覆盖面宽,对象多且复杂,功能要求多样性。同时,文字与图像、声音须并发处理,这就要求它们之间在时间和空间组合上匹配。要研究一种普遍适用的模型,既适合多媒体对象的组织,又符合多媒体对象的构造,并在此基础上建立一种髙层的査询机制,用来対多媒体及其各成份进行统一检索。同时,也可以根据实际情况,改造现有的信息模型和相应的数据结构,以满足多媒体信息处理的需要。
检索技术
对于图像、音频、视频等多媒体信息的早期检索方法主要基于文本描述,即对多媒体信息添加文本说明。这种方法的缺点是难于充分表达媒体的丰富内容,描述具有一定主观性,处理文本涉及自然语言理解问题,以及手工制作文本描述的效率低等。因此,现在主要研究基于内容的多媒体检索技术。
基于内容的检索指根据媒体和媒体对象的内審语义及上下文联系进行检索,它利用图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法作为部分基础技术,首先进行特征抽取,再计算其相似性。研究领域包括表达机制的研究、索引方法的研究、内容描述技术的研究等。例如,对于静止图像特征的提取包括颜色、形状、纹理等,甚至可以对图像的语义特征进行分析和提取。对于视频特征的提取包括分割、镜头组织、主运动估计、层描述等。目前,计算机识别技术尚未完全成熟,且不存在通用、高效的算法。这是多媒体基于内容检索进一步发展的障碍。
查询语言
传统的数据库査询语言SQL无法适应多媒体信息的检索,尽管ISO对SQL做了多次扩充,特别是在SQL3中增加了面向对象的概念和功能,并对过程加以扩充,但形式化地表达和实现用于多媒体检索的SQL,仍是非常困难的。
基于内容检索以QBE为代表。这类检索直接依赖于图像理解、语音识别等模式识别技木,首先进行特征抽取,再计算其相似性。目前,计算机模式识别技木尚未完全成熟,且不存在通用、高效的算法,这是多媒体基于内容检索进一歩发展的主要障碍。
信息压缩和恢复
将物理形式的资料转化为数字信息,并进行压缩和转化。多媒体信息载体由于采用了大量的图像、声音、影视,其数裾量比传统以文字为主的单一媒体要大数百倍。数据的压缩及恢复成为多媒体信息处理的一项关键技术。
数字化信息的数据量相当庞大,将给存储器的存储容量、通信干线信道的传输率(带宽)以及计算机的处理速度增加极大的压力。解决这个问题单纯用增加存储器容量和通信信道的带宽及提高计算机的运算速度等办法是不现实的,多媒体数据压缩编码技木才是行之有效的方法。压缩编码技术是指用某种方法使数字化信息的编码率降低的技术,其核心工作就是去掉信息中的冗余,即保留不确定的信息,去除确定的信息。
静止图像的压缩主要采用JPEG静态图像压缩算法。这是一种比较成熟的有损压缩算法,在数字图像领域得到了广泛的应用。
视频图像的压缩,目前比较常用的是MPEG动态图像压缩编码算法系列,也有电信行业主要用于视频会议系统的1^.265^等。MPEG标准系列由最初的面向家庭电视质量级的视频、音频压缩标准MPEG——1,经历了面向演播级的视频、音频压缩标准MPEG-2,发展到了如今的MPEG-4。MPEG-4是一种基于内容的压缩方法,它将基于内容的检索与编码结合起来考虑,在压缩数据中应有描述视频内容的信息,从而使对多媒体信息内容的访问可以直接针对压缩数据进行。正在酝酿中的MPEG-7则是基于内容的描述。它不是一种压缩算法的标准,而是一种面向内容的描述语言和格式的标准,一旦制定出来,其应用领域将十分广泛。最重要的一点是,有了基于内容的描述之后,就可以对多媒体信息进行分类、检索、识别和加工制作。这对于多媒体数据库和多媒体信息检索的发展是至关重要的。
信息存储管理
多媒体存储管理多采用客户机/服务器模式。多媒体服务器首先需要的是海量存储系统,构成这样的系统可以采用光盘塔或者光盘库,这些外存储器系统一般都自带管理模块,可以让用户透明地访问庞大的存储空间。对于经常使用的资源,可以考虑采用硬盘的存储方式,以提髙存取速度。
存储对象可以是文本、声音、图形、图像的数字化信息。对每一种类型的对象,可以定义它们的索引、查询支持(目录)信息。信息服务器管理数据(或目录)的索引和查询,而对象服务器则用于管理(或收集)数字化的对象。
图像一般是压缩传输的,可以采用递进式压缩格式,使用户在传输过程中就可以看到图像的局部或者低分辨率的全图,以减轻等待感。音频和视频的传输一般采用流技木,即边下载边播放的方式。RealVideo和VivoPlayer是互联网上比较成熟的视频音频流技术并已广泛应用。
多媒体同步技术
多媒体同步技术的目的就是向用户展示多媒体信息时,保持媒体对象之间固有的时间关系。尤其是在采用客户机/服务器模式的系统中,各种媒体分布在不同的空间和时间里,将数据按事件顺序和空间缓冲区地址的安排,恰当地组合起来。
多媒体同步包含两类同步:一类是流内同歩,其主要任务是保证单个媒体流间的简单时态关系,也就是按一定的时间要求传送每一个媒体对象,以满足感知上的要求。另一类是流间同步,主要任务是保证不同媒体间的时间关系,例如音频和视频之间的时态关系、音频和文本之间的时态关系等。流间同步的复杂性和需要同歩的媒体的数目有关。
*籍
多媒体信息
媒体,又称媒介、媒质,是承载信息的载体。
多媒体技术是指能对多种载体(媒介)上的信息和多种存储体(媒质)上的信息进行处理的技木。
媒体分为5大类:①感知媒体,指能够直接刺激人的感觉器官,使人产生直观感觉的各种媒体;②显示媒体,指感知媒体与电磁信号之间的转换媒体;③表示媒体,对感知媒体的抽象描述形成表示媒体;④存储媒体,指存储表示媒体的物理设备;⑤传输媒体,指传输表示媒体的物理介质。
多媒体具有多样性、集成性和交互性的特点。
当声音以电信号传递,也就是借助电路传输的时候,就称做音频。音频信号可分为两类:语音信号和非语音信号。
数字音频信息是一个数据序列,由模拟声音经过采样、量化和编码后得到。
基于音频内容的特征处理方法,就是针对音频信息的物理样本、基本属性等进行分析处理,通过数学与统计学方法来获得音频信息物理、听觉、语义等不同层次(或级别)上的特征,并揭示特征之间的相互关系。
图形是矢量文件,是由数学函数生成的一系列计算机指令来进行描述的。图像是点阵图,由大量的色点集合而成,通常又称为“位图‘图像处理的主要内容包括:①图像变换;②图像编码与压缩;③图像的增强与复原?,④图像分割与识别。
图像信息的数字化过程与音频信息的数字化过程大致相同,也分为采样、量化、编码3个步骤。
图像信息特征可分为:物理层、逻辑层和语义层。物理层特征揭示图像物理特性的物理层特征主要包括颜色、纹理、形状(轮廓)等视觉信息,它们提供最原始和底层的图像数据;逻辑层特征主要包含图像的逻辑属性和图像的逻辑结构;语义层特征主要用于表达作者创作意图、图像的描述主题或者用户需要检索的语义内容等。
视频是图像之外的另一类重要的视觉信息源。视频是由多幅连续的静态图像构成的画面序列,沿着时间轴间隔更换,形成动画、影像等。根据每帧图像产生的形式不同,视频可分为两类:若每帧图像是由人工、计算机产生的图像、图形,称为动画;若每帧图像为实时获取的自然景物图像,就称为影像。
若将视频信息进行分解,其图像序列一般是由帧、镜头及场景等描述单元组成的。对于视频的外部特征信息,可以使用与音频、图像信息同样的处理方法,利用无数据标准进行著录,形成文本数据库,以支持简单的初级检索。视频所描述的故事情节,也可进行文本转化,形成剧情简介或字幕文件,作为附加的检索对象提供语义级别的检索。
多媒体的基本概念
多媒体具有的主要特点是:交互性、多维性、集成性和实时性。
多媒体信息系统是指提供信息、辅助人们对环境进行控制和决策的信息系统,是人、计算机、思想及多媒体信息收集与处理活动通过文本、图像、音频、视频、数值数据、”流媒体等载体的高度集成和综合。
多媒体数据库是由若干多媒体对象所构成的数据集合,能够将数值、文字、表格、图形、图像、音频、视频等数据对象按一定的方式进行排列、组织、集成,实现信息资源共享。
多媒体信息检索是根据用户的要求,对图形、图像、文本、声音、动画等多媒体信息进行检索,得到用户所需的信息。
多媒体信息检索基本方式有基于特征的多媒体信息检索、基于内容的检索、信息全文全息检索、内容的创建和获取检索和跨平台的客户端多媒体信息检索。
多媒体信息的检索是一个逐歩求精的过程,经历一个多媒体信息特征的提取、相似性匹配内容特征调整、重新匹配的循环过程。主要有初始检索说明、相似性匹配、输出检索结果、特征调整以及选择各种限定条件。
多媒体数据压缩
离散余弦变换简称DCT,是一种与傅里叶变换紧密相关的数学运算。
压缩算法是针对多媒体数据中存在的各种冗余而设计的,即采用一定的编码方式,消除其中的冗余信息,实现不失真压缩,或以人的视觉和听觉的生理特性为基础,在允许失真限度内的有失真压缩以得到更髙的压缩比。

冗余可以归纳为空间冗余、时间冗余、结构冗余、视觉冗余和知识冗余。
针对数据的冗余,最常用的编码有字典编码、预测编码和变换编码3类。
对多媒体内容的理解
分割的目的是把图像空间分成一些有意义的区域。图像分割可以以各个像素为基础去研究,也可以利用在规定领域中的某些图像信息。分割的依据可建立在图像的相似性和非连续性这两个特征上。
特征提取是指在原始样本的高维空间中,通过映射或变换的方法可以将高维空间中的特征描述用地位空间的特征来描述。变换后的特征是原始特征的某种组合。
分类是指根据多媒体数据的内容和形式的异同,按照一定的体系有系统地组织和区分。分类的任务就是在给定的分类体系下,根据多媒体数据的内容自动地确定数据关联的类别。常用的分类器有线性分类器和概率分类器。

多媒体信息检索的关键技术
达到较好的检索效果,必须解决以下关键技术:①信息模型和表示;②检索技术;③查询语言;④信息压缩和恢复;⑤信息存储管理;⑥多媒体同步技木。
思考徵
什么是多媒体?它有哪些基本特性?
媒体分为哪5大类?各具有哪些特点?

音频信息的检索特征有哪些?
图像信息的检索特征有哪些?
视频信息的检索特征有哪些?
举例说明多媒体技术的4个特点。
多媒体信息检索基本方式有哪些?
简要说明多媒体数据压缩的原理。
写出多媒体信息检索的关键技术。
基于内容的多媒体信息检索技术
多媒体信息检索是根据用户的要求,对图形、图像、文本、声音、动画等多媒体信息进行检索,得到用户所需的信息,它是一种基于内容特征的检索(Content-BasedRetrieval,CBR)O所谓基于内容的检索是对媒体对象的内容及上下文语义环境进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。基于内容的检索突破了传统的基于文本检索技术的局限,直接対图像、视频、音频内睿进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。
瓜孑曲客的多碟体牷索康理与特
多媒体信息的有效组织和管理都依赖于基于内容的数据检索技术。基于内容的橙索主要针对多媒体信息,其含义是根据多媒体对象的听、视觉特征及其中蕴含的内容和语义特征进行检索,并希望能够借助于模式识别、语音识别、图像理解等相关领域的研究成果,对多媒体数据的听、视觉特征和语义特征进行自动或半自动的分析、表达和组织。

多媒体内容的检索
基于内容的检索是一门新的信息检索技术。它以认知科学、用户模型、模式识别、数据库管理系统、信息检索等领域的研究方法和技木为基础,研究新的媒体数据的表示与数据存储模式、有效可靠的査询方法、智能査询接口等。
多媒体内容
多媒体数据的“内容”表示含义、要旨、主题、包含和显著的性质、实质性的东西、物理细节等。对于多媒体数据来说,其内容概念可以在多个层次上说明。
概念级内容

表达对象的语义。利用典型的文本形式的描述,通过分类和目录来组织层次浏览,用链来组织上下文关联。
感知特性
视觉特性,如颜色、纹理、形状、轮廓、运动;听觉特性,如音髙、音色、音质等。
逻辑关系
音视频对象的时间和空间关系,语义和上下文关联等。
信号特性
通过信号处理方法获得明显的媒体区分特征,例如通过小波分析得出的媒体特征。
特定领域的特征
与应用相关的媒体特征,例如人的面部特征、指纹特征。获得媒体内容的方式可以是人工方式和自动方式。有些内窖可以自动提取,但有些内容则很难,即使能够提取,准确度也不髙,健壮性不好。因此,可以用半自动方式,使人和计算机各自发挥特长,通过交互和学习获取媒体的内容。
检索特点
基于内窖的检索是一门新的信息检索技术。它以认知科学、用户模型、模式识别、数据库管理系统、信息检索等领域的研究方法和技术为基础,研究新的媒体数据的表示与数据存储模式、有效可靠的査询方法、智能查询接口等。
基于内容的检索是根据媒体对象的语义和上下文联系进行检索,有如下特点。

从媒体内容中提取信息线索,直接对媒体进行分析,抽取特征。
提取特征方法多样性。如图像有形状、颜色、纹理、轮廓等特征。
人机交互进行。一般人类对于特征比较敏感,能迅速分辨出目标的轮廓、音乐的旋律等。但对于大量的对象信息,一方面难以记住这些特征,另一方面人工从大量数据中査找目标效率非常低。因此,使用基于内容检索的系统时,人与计算机相互配合,可以大大提髙多媒体数据检索的效率。
基于内容的检索采用一种近似匹配技术。一般的数据库检索采用的是格式化信息精确匹配的方法,如给出某一个字段的属性值等;而在基于内容的检索中,常采用逐步求精的方法,每一层的中间结果是一个集合,通过不断缩小集合的范围,定位到要査找的目标。
处理技术
多媒体内容的处理分为3大部分:内容获取、内容描述和内容操纵。也可将其看成是内窖处理的3个歩骤,即先对原始媒体进行处理,提取内窖,然后用标准形式对它们进行描述,以支持各种内窖的操纵。
内容获取
通过对各种内窖的分析和处理而获得媒体内容的过程。多媒体数据具有时空特性,内容的一个重要成分是空间和时间结构。内容的结构化就是分割出图像对象、视频的时间结构、运动对象,以及这些对象之间的关系。特征抽取就是提取显著的区分特征和人的视觉、听觉方面的感知特征来表示媒体和媒体对象的性质。
内容描述
描述在以上过程中获取的内容。目前,MPEG-7专家组正在制定多媒体内容描述标准。该标准主要采用描述子和描述模式来分别描述媒体的特性及其关系。
内容操纵
针对内容的用户操作和应用,有许多这方面的名词和术语。査询是面向用户的术语,多用于数据库操作。检索是在索引支持下的快速信息获取方式。搜索常用于Internet的搜索引擎,含有搜寻的意思,又有在大规模信息库中搜寻信息的含义。摘要对多媒体中的时基媒体(如视频和音频)是一种特蛛的操作。过滤就是与检索相反的一种信息存取方式。用过滤技术可以实现个人化的信息服务。
多媒体数据库与关系型数据库
数据库是按一定的方式组织在一起的可以共享的相关数据的集合。数据库累统中一个重要的概念即为数据独立性。依据独立性原则,数据库管理系统一般按层次划分为3种模式:物理模式、概念模式和外部模式,这3种模式含义不同,层次不同,服务的对象也不同。
在传统的数据库中引人多媒体数据和操作,不只是把多媒体数据加人到数据库中就可以完成的问题。传统的字符数值型的数据虽然可以対很多的信息进行管理,但其应用范围很有限。将声音、图像、视频等信息引人计算机后,虽然将原来数据库可表达的信息的范围大大进行了扩展,但同时带来的新问题是数据规则复杂,没有统一的取值域,没有相同的数量级,也没有相似的属性集。多媒体数据管理要综合这些大小不一、类型各异的多媒体数据;与传统的数据库相比,在很多方面也体现出了它的新特性。
媒体数据的数据量大,媒体之间的差异也极大,从而影响数据库的组织和存储方法。
媒体种类的增多,增加了数据处理的难度。不同媒体类型对应不同的数据处理方法,这就要求多媒体数据库管理系统能够不断扩充新的媒体类型及相应的操作方法。另外,多媒体数据还具有复合性、分散性、时序性等特点,这些都为数据处理提出了新的要求。
用户接口的支持。传统的数据库査询只处理精确的概念和查询。但在多媒体数据库中非精确匹配和相似性查询将占相当大的比重。查询机制和查询方法与传统数据库有了很大不同,基于多媒体的内容进行查询,根据对多媒体语义信息的正确理解和处理,能够得到不仅仅是传统的关系表格,而且是综合体现多媒体信息的查询结果。
事务处理的不同。传统的事务一般是短小精悍的,在多媒体数据库管理系统中也应该尽可能采取短事务。但有些场合,短事务不能满足需要,如从动态的视频库中提取并播放一部数字化影片,往往需要长达几个小时的时间,作为良好的数据库管理系统,应保证播放过程中不会发生中断,因此,不得不增加处理长事务的能力。
版本控制。在具体应用中,往往涉及某个处理对象的不同版本的记录和处理。多媒体数据库管理系统应能解决多版本的标识、存储和更新查询,尽可能减少各版本所占存储空间,控制版本访问权限等问题。
基于内容数据检索系统的结构
基于内容的多媒体检索引擎结构,在体系结构上划分为两个子系统:特征抽取子系统和查询子系统,如图8-1所示。从体系结构图可以看出,左边是特征抽取子系统,右边则为查询子系统。各模块的主要功能如下所述。。
目标标识。为用户提供一种工具,以全自动或半自动的方式标识静态图像、视频镜头等媒体区域,以便针对目标进行特征提取并查询。
特征提取。对多媒体数据进行特征提取,提取用户感兴趣、适合检索要求的特征。特征提取可以是全局性的,如整幅图像的视频镜头,也可以是有针对性的,如视频中的运动对象等。
数据库。生成的数据库由媒体库、特征库和知识库3部分组成。媒体库包含图像、视频、音频、文本等多媒体数据;特征库包含用户输人的特征和预处理自动提取的内容特征;知识库表达可以更换以使用各种不同的应用领域。
查询接口。友好的人机交互界面是检索系统不可缺少的。在基于内窖的检索中,由于特征不直观,因此必须为其提供一个可视化的输人手段,还应在用户界面提供查询结果的浏览功能。
检索引擎。检索是利用特征之间的距离函数进行相似性检索。对于不同类型的媒体数据有不同的相似性检测算法,检索引擎中有一个有效可靠的相似性检测函数集。

索引/过滤。检索引擎通过索引/过滤达到快速搜索的目的。过滤器作用于全部数据,过滤出的数据集合再用高维特征匹配来检索。索引用于低维特征。
图8-1査询与检索过程示意
基于内容的数据检索系统的检索过程
实现基于内容的检索系统主要有两种途径。一是基于传统的数据库检索方法,即采用人工方法将多媒体信息内容表达为属性(关键词)的集合,再在传统的数据库管理累统框架内处理。这种方法对信息进行了高度抽象,留给用户选择余地小,査询方式和范围有所限制。二是基于信号处理理论,即采用特征抽取和模式识别的方法来克服基于数据库方法的局限性,但全自动地抽取特征和识别时间对机器的时间开销太大,并且过度依赖于领域知识,识别的难度大。
由于多媒体数据的低层特征和高层语义之间存在着很大的差距,所以仅仅基于多媒体数据的低层特征很难给出令人满意的效果,这时就要用到相关反馈。在基于内容的检索过程中,相关反馈是一个相当重要的过程。相关反馈技术一方面可以找出更有效的多媒体表示方法,别一方面通过人机交互来捕捉和建立低层特征和髙层语义之间的关联。
相关反馈技术的思想就是在用户参与的过程中对查询结果进行逐步求精。
基于内容检索过程中的相关反馈技术大致可分为4种类型,即参数调整方法、聚类分析方法、概率学习方法和神经网络方法。检索过程一般分为以下几步:初始检索说明,相似性匹配,结果审核,特征调整。直到用户放弃检索或得到满意结果为止。图8-2给出了基于内容的检索过程。
本文转载自
宁波seo优化www.leseo.net
补充词条:
宁波网站seo
宁波网络seo公司
宁波网站seo优化
宁波seo推广公司
宁波谷歌优化