“Writehere-url”的版本间的差异

来自中国大百科全书多媒体方向
跳转至: 导航搜索
(以“aaa”替换内容)
高动态范围图像
 
(未显示2个用户的43个中间版本)
第1行: 第1行:
[[aaa]]
+
==[[多媒体信号与信息处理]]==
 +
==[[表示]]==
 +
==[[基本概念]]==
 +
==[[视觉感知]]==
 +
==[[听觉感知]]==
 +
==[[颜色空间]]==
 +
颜色空间是用数字来描述和组织自然界的各种颜色的模型。建立颜色空间的目的在于使得在各种应用场景我们能够更好地理解和使用颜色的各种特征和属性,达到对颜色的处理目的。一个典型的例子是建立一种颜色空间能够用来传输和存储摄像设备的采集数据,并送达某种显示设备进行显示。
 +
 
 +
'''CIE 1931颜色空间'''
 +
近代对于颜色比较系统的研究主要是从CIE1931颜色空间的建立开始。基于颜色的可加性,莱特和吉尔德分别完成了使用三种单色光对主要的可见光光谱(从380nm~770nm)进行颜色匹配和标度实验。根据该实验结果,CIE建立了CIE1931-RGB的颜色空间。为解决CIE1931-RGB中的负值问题,CIE随后建立了CIE1931-XYZ颜色空间。CIE1931颜色空间成为近代和现代颜色研究的基础。在这个基础上研究人员发展了各种颜色空间,主要分为设备无关的颜色空间和设备相关的颜色空间。
 +
 
 +
'''设备无关的颜色空间'''
 +
设备无关的颜色空间主要用于真实世界的颜色标度以及颜色表现特征研究。在学界和工业界主要用到的设备无关的颜色空间是CIE-XYZ颜色空间、CIE-xyY颜色空间、Lab(也称L*a*b*)颜色空间、LCHab颜色空间、Luv(也称L*u*v*)颜色空间、LCHuv颜色空间。Lab和Luv颜色空间一直在追求建立一种均匀的颜色空间,并研究精确的色差计算方法。其它的设备无关的颜色空间有LMS颜色空间以及HunterLab颜色空间。大部分定义的设备无关的颜色空间都是CIE-XYZ空间的延伸空间,并且随着研究的进展,在不断地更新。
 +
 +
CIE1931-xyY颜色空间
 +
 
 +
'''设备相关的颜色空间'''
 +
设备相关的颜色空间主要用于颜色信息的采集、存储、计算、传输和重建。工业界常用的设备相关的颜色空间有
 +
*用于颜色采集和显示的RGB空间、CMY/CMYK空间、sRGB空间、Adobe RGB空间、ProPhoto RGB空间、scRGB空间等
 +
*用于颜色存储和传输的YUV空间、YIQ空间、YDbDr空间、YPbPr空间、YCbCr空间、xyYCC空间等
 +
*用于颜色计算和模型化的HSL空间、HSB空间等
 +
这些空间(除ProPhoto, scRGB空间外)所描述的区域都小于CIE-XYZ定义的颜色。它们自身的特征描述(比如三原色和光源)都使用CIE-xyY颜色空间进行标注,以利于颜色数据在各种设备或者应用环境中进行转换。ICC组织提供的对各种设备相关的颜色空间转换的方法和规则。
 +
 
 +
'''颜色空间的发展'''
 +
*进入21世纪以来,在相应的显示技术进展和高质量图像消费需求推动下,设备相关的颜色空间不断扩展颜色空间显示域(如BT2020),同时颜色空间也逐渐转向均匀显示空间,例如ICpCt颜色空间,加强颜色数据处理的效率。
 +
*最新的颜色色貌研究进展也推动颜色空间转换和颜色再现技术考虑更多的观察条件、光源分布、介质性质以及目标几何结构等。
 +
 
 +
'''参考链接'''
 +
*http://www.techmind.org/colour/, introduction to color science
 +
*http://www.color.org/index.xalter, INTERNATIONAL COLOR CONSORTIUM
 +
*https://www.itu.int/rec/R-REC-BT.2020/en, BT.2020 : Parameter values for ultra-high definition television systems for production and international programme exchange
 +
*https://www.dolby.com/us/en/technologies/dolby-vision/ictcp-white-paper.pdf, ICtCp White Paper - Dolby
 +
*http://rit-mcsl.org/fairchild/CAM.html, color appearance model
 +
 
 +
==[[像素]]==
 +
==[[体素]]==
 +
==[[混合像元]]==
 +
==[[图像分辨率]]==
 +
==[[空间分辨率]]==
 +
==[[帧率]]==
 +
==[[媒体类型]]==
 +
==[[图形]]==
 +
==[[图像]]==
 +
==[[退化图像]]==
 +
==[[序列图像(图像序列)]]==
 +
==[[可见光图像]]==
 +
==[[全色光图像]]==
 +
==[[深度图像]]==
 +
==[[超光谱图像]]==
 +
==[[高动态范围图像]]==
 +
高动态范围图像(HDRI)是一类数字图像记录格式,这种格式能够记录相对于普通图像更多实际的亮度范围的图像。普通图像通常是每颜色通道8比特量化,并基于RGB或者YCbCr颜色空间;对应的量化阶数是255,能记录的实际场景亮度动态范围(cd/m2)大约是1000:1。而有关高质量的图像记录、建模、显示的应用需要更多的量化阶数,记录更高的动态范围。
 +
 
 +
'''高动态范围图像典型应用'''
 +
*高亮/高暗的摄影场景,尤其是自然景色
 +
*在CG场景中实现更真实的高亮/高暗的环境模型
 +
*将各种电影胶片和相片底片数字化,化学胶片和相片能够记录超过8000:1的动态范围
 +
 
 +
'''高动态范围图像具有如下特征'''
 +
*表示的亮度动态范围要比通常的每颜色通道8bit图像要高2个数量级(>100倍)。
 +
*颜色的量化使用线性量化、LOG量化等非Gamma量化函数
 +
*颜色空间使用基于场景的光照数据,而非基于设备的颜色空间(scRGB除外)
 +
 
 +
'''常见的高动态范围图像的类型'''
 +
*HDR图像格式,主要使用RGBE或者XYZE方法记录像素值,使用单独的通道E记录指数
 +
*EXR图像格式,采用Luv颜色空间进行记录,L的数值使用LOG编码,使用浮点数
 +
*TIFF图像格式,采用Luv颜色空间进行记录,L的数值使用LOG编码,使用浮点数
 +
*scRGB图像格式,在sRGB颜色空间的基础上扩展,每通道16比特整数
 +
 
 +
'''高动态范围图像的显示'''
 +
 
 +
高动态图像的显示通常需要使用色调映射(Tone Mapping)的方法。如上所说,高动态范围图像记录了很大的颜色空间的范围,一般的显示设备具有有限的色域,所以需要一定的方法将图像中的高动态颜色值映射到显示设备的色域。比较常用的是线性映射法、直方图法、S方程法、对数方程法等等。
 +
 
 +
'''参考链接'''
 +
 
 +
*http://www.anyhere.com/gward/hdrenc/; High Dynamic Range Image Encodings
 +
 
 +
*Proceedings of SPIE - The International Society for Optical Engineering, P9394, March 2015; Evaluation of color encodings for high dynamic range pixels
 +
 
 +
*Color and Imaging Conference, 6th Color and Imaging Conference Final Program and Proceedings, pp. 214-219(6);Overcoming Gamut and Dynamic Range Limitations in Digital Images
 +
 
 +
==[[全息图像]]==
 +
==[[医学图像(医学影像)]]==
 +
==[[动画]]==
 +
==[[音频]]==
 +
==[[视频]]==
 +
==[[关键帧]]==
 +
==[[立体视频]]==
 +
==[[多视视频]]==
 +
Multiview Video
 +
----
 +
 
 +
  严格意义上的多视视频是由多个摄像头在同一时刻从不同的角度采集同一场景或同一物体而产生的多个视频序列。广义上,可以不限制在同一时刻。由于多视视频以不同的视角描述了同一场景的特点,改变了许多传统单个视角视频的应用方式。首先是多视视频带来的数据量成比例的增加,为此由动态图像专家组和视频编码专家组联合制定了多视视频编码标准,而多视视频可以应用于三维立体电视的输入源。在其它如视频监控、影视制作和体育赛事的录制转播等场景。
 +
 
 +
==[[多视视频加深度]]==
 +
==[[任意视点视频]]==
 +
==[[自由视点视频]]==
 +
==[[三维视频]]==
 +
==[[全景视频]]==
 +
==[[监控视频]]==
 +
==[[图化文字]]==
 +
==[[三维点云]]==
 +
==[[媒体]]==
 +
==[[多媒体]]==
 +
==[[超媒体]]==
 +
==[[富媒体]]==
 +
==[[社交媒体]]==
 +
==[[自媒体]]==
 +
==[[静态媒体]]==
 +
==[[连续媒体]]==
 +
==[[感觉媒体]]==
 +
==[[可视媒体]]==
 +
==[[表示媒体]]==
 +
==[[表现媒体]]==
 +
==[[传输媒体]]==
 +
==[[流媒体]]==
 +
==[[存储媒体]]==
 +
==[[多模态]]==
 +
==[[跨媒体]]==
 +
==[[图像稀疏表示]]==
 +
==[[压缩感知]]==
 +
<math>Ax-b=c</math>
 +
 
 +
==[[视觉特征]]==
 +
==[[纹理特征]]==
 +
纹理特征  纹理是一种不依赖于颜色或亮度变化的反映图像中同质现象的视觉特征,刻画了图像像素邻域灰度空间分布的规律。它是所有物体表面都具有的内在特性,不同物体具有不同的纹理。纹理特征包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系,人类的视觉系统对外部世界的感知有赖于物体所表现出的纹理特征。计算机视觉领域中一些经典的纹理定义已慢慢地被广大学者接受和应用[1,2]:1) 纹理可以被认为是由肉眼可见的区域组成。纹理结构的简单特征是有重复图案的组成,在这些图案中的图元按一定的布局规则排列; 2) 如果图像的一组局部统计特征或者其他特征是不变的,变化缓慢的或者近似周期的,那么就认为图像区域含有不变的纹理;;3) 纹理是一种反映图像中一块区域的像素灰度级的空间分布属性,这种空间结构的固有属性可以通过邻域像素间的相关性刻画。
 +
较为常见的纹理主要有以下三种类型[2]:1)自然纹理。该种纹理是未经人工刻意加工的、在自然界中自然存在的物体表面属性,如云、烟、雾、木纹、砾岩、沙漠、草地纹理。这种纹理的基本组成元素形状多样、多数不规则,分布随机性较大;2)人工纹理。该种纹理是人工参与的不同于自然存在物体表面属性的一种纹理,像器物表面的花纹、砖墙、织物、棋盘格格等。这种纹理的主要特点是纹理基本组成元素形状规则、确定、分布规律性比较强;3)混合纹理。这种纹理主要是一些人工制造的纹理基本元素随机分布于物体表面或自然界形成的。
 +
在曲折发展历程中,各国研究者对纹理特征提取方法进行了广泛的研究,该领域已经发展了许多纹理特征提取方法,如著名的灰度共生矩阵(GLCM)、灰度行程长度法(graylevelrunlength)、自相关函数法,同时随着应用领域的不断扩大和新理论如分形理论、马尔可夫随机场(MRF)理论、小波理论等的引入,使得对纹理特征提取的研究变得缤纷多彩。纹理分析指的是通过一定的图像处理技术提取纹理特征[2],并获得纹理定性或定量描述的过程。常用的纹理分析方法有四种:统计分析方法、结构分析方法、模型分析方法和频谱分析方法:
 +
1) 从区域统计方面去分析纹理图像在整体和统计意义上的规律性的方法称为基于统计的分析方法。该类方法是利用图像的灰度空间分布情况来描述粗细度、均匀性、方向性等纹理信息。较早提出并应用的一种统计方法是Kaizeil等人利用自相关函数[3]描述图像的纹理特征。 1976年,Weszka提出了灰度差分直方图统计方法,该方法能描述图像灰度的空间组织信息,但对于不同的研究对象,需要选取不同的位移矢量,增加了处理图像的工作量。20世纪70年代早期Haralikc等人提出了空间灰度共生矩阵法[4],该方法首先对图像空间灰度分布进行统计,得出图像的共生矩阵,其次依据定义在共生矩阵上的若干个纹理特征值进行计算,得到图像的纹理描述。由于共生矩阵模型方法不受分析对象的制约,能够很好地反映图像的空间灰度分布情况,体现图像的纹理特征,所以得到广泛应用。2002年Ojala T等人[5]提出了LBP(Local Binary Pattern)方法,该方法在纹理分类上效果显著,在医学图像处理及人脸识别等领域应用广泛。
 +
2) 结构分析方法的基本思想是复杂的纹理可由简单的纹理基元以一定的有规律的形式重复排列组合而成。当纹理基元大到能够单独被分割和描述时,就要使用结构分析法。1966年,Beck[6]以不同的英文字母作为纹理基元进行观察,发现纹理基元按不同方向分布影响着人们对纹理的区分。在Beck发现的基础上,Bergen和Julesz[7]于1983年进行了一系列的精神物理实验,发现纹理基元的方向和纹理基元的密度都显著影响着人们对不同纹理的区分。
 +
比较规则的纹理在空间中是以有次序的形式进行纹理单元的镶嵌,最典型的模式是用一种正多边形镶嵌而成,如由正三角形构成的模式等。另一种方法是利用Voronoi多边形,1990年,Tuceryan M和Jain A.K[8]提出了基于Voronoi多边形的纹理分割。结构分析方法的好处是纹理构成容易理解,适合于高层检索,描述规则的人工纹理。但对不规则的自然纹理,由于基元本身提取困难及基元之间的排布规则复杂,因此结构法受到很大的限制。
 +
3) 基于模型[9]的方法假设纹理按某种模型分布,模型表示纹理元之间的关系,模型参数描述纹理元的特性。模型法主要有随机场方法和分形法。常见的随机场模型有Markov、Gibbs模型等。基于Markov随机场模型[10]的纹理分析方法把纹理看作一个随机的二维图像场,并且假定某一点取值与周围像素取值多少有关。近年来,Markov随机场(MRF)模型[11]取得了很大的成功。但基于Markov随机场模型仅通过局部特征很难得到全局的联合分布,于是提出了Sivakumar的GRF(Gibbs随机场)模型[12],该模型通过集团势能的概念,利用局部的计算获得全局的结果。自回归纹理模型(simultaneous auto-regressive,SAR)是MRF模型的一种应用实例。在SAR模型中,每个像素的强度被看成随机变量,可以通过其相邻的像素来描述。由于自然纹理具有不同尺度下的自相似性,因此分形模型也广泛应用于纹理分析。较常用的一类分形模型是分形布朗运动模型[13](Fractal Brown Motion, FBM)。通过分形理论来进行纹理分析应特别注意不同的求分维数的方法可能会有不同的结果。
 +
4) 频谱法主要借助于频率特性来分析纹理特征。频谱法是建立在多尺度分析基础上的纹理分析方法,主要有小波变换、Gabor 变换。Mallat在1989年首先提出小波变换方法,随后各种小波变换相继用于提取纹理特征。1964年,Gabor博士针对Fourier变换存在不能同时进行时间、频率局部分析的缺点,提出了一种加窗Fourier变换方法,即Gabor函数。Gabor函数具有极佳的空间/频域联合分辨率,因此在实际中获得了较广泛的应用。Gabor滤波器可以看成是方向、尺度可调的边界和直线检测器,所以可以通过Gabor滤波器检测出图像中不同方向和角度上的边缘和线条,以提取图像中的纹理特征。针对Gabor变换,许多研究者先后进行了深入的研究。1991年,Jain[14]对一组滤波后的图像使用一组偶对称Gabor滤波器逐步进行线性变换,从20个滤波器中选出11-13个滤波器对纹理图像进行分割,得到了很好的分割效果。1995年,Alexandrov等人[15]采用120个滤波器(10种尺度12种方向)输出能量的均值和标准差,构成240维的纹理特征向量来进行图像检索,取得了较理想的结果。Manjunath等[16]于1996年针对这一缺点提出了改进方法,首先消除系列Gabor滤波器的冗余度,又设计了一种自适应滤波器选择方法,使计算量大大降低,随后以Gabor变换系数的均值和方差为纹理特征进行图像检索。
 +
纹理特征与分析广泛应用于目标识别与分析,纹理合成,图像检索,运动分析中。纹理一直是计算机视觉及模式识别领域研究的一个基本问题,经过近半个多世纪的研究,对纹理的研究取得了丰硕的成果,一些概念和理论取得了一致的看法,对纹理的一些基本特性取得了统一认识。
 +
 
 +
 
 +
参考文献
 +
1 Linda G. Shapiro and George C. Stockman, Computer Vision, Upper Saddle River: Prentice–Hall, 2001
 +
2 纹理特征研究综述 孙君顶 马媛媛  计算机系统应用 2010 年第19卷第 6 期
 +
3 Sklansky J. Image segmentation and feature extraction. IEEE Transactions on Systems, Ma n, and Cybernetics, 1978,8(5):237-247.
 +
4 Haralick RM, Shanmugam K, Its hak Dinstein. Texture Features for Image Classification. IEEE Trans. On Systems, Man, and Cybernetics, 1973,SMC-3(6):610-621.
 +
5 Ojala T, Pietikainen M, Maenpaa T. Multireso lution gray scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002,24: 971-987.
 +
6 Beck J. Effect of orientation and of shape similarity on perceptual grouping. Perceptual psychophysics, 1966,1(7):300-302.
 +
7 Bergen JR, Julesz B. Parallel versus serial processing in rapid pattern discrimination. Natural, 1983,303(7): 696-698.
 +
8 Tuceryan M, Jain AK.Texture segmentation using Voronoi Polygons.IEEE Trans on PAMI, 1990,12: 211-216.
 +
9 Ma WT, Zhang HJ. Benchmarking of image features for content-based retrieval. Signals, Systems& Com- puters. Conference Record of the Thirty-Second Asilomar Conference, Pacific Grove, USA, 1998,1: 253-257.
 +
10 Yokoyama R, Haralick RM. Texture Pattern Image Generation by Regular Markov Chain. Pattern Reco- gnition, 1979,11:225-234.
 +
11 Timo  O, Matti  Pietikainen, Topi  M.  Multisolu- tion Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002,7:971-987.
 +
12 Geman  S, Geman  D.  Stochastic  relaxation  Gibbs distribution and the Bayesian restoration of images. IEEE Trans Pattern Anal Machine Intell, 1984,16:721-741.
 +
13 Kapan LM, Kuo CC. Extending  self-similarity  for fractional brownian motion. IEEE Transactions on Signal Processing, 1994,42(12):3526-3530.
 +
14 Jain AK, Farrokhnia F.Unsupervised texture segmen- tation using Gabor filters. Pattern Recognition, 1991, 24(12):1167-1186.
 +
15 Alexandrov AD,Ma W, Abbadi A, et al. Adaptive filtering and indexing for image databases, SPIE, 1995,2420:12-23.
 +
16 Manjunath BS, Ma WY. Texture features for browsing and retrieval of image data. IEEE Transaction on Pattern Analysis and Machine Intelligence, 1996,18(8):837-842.
 +
 
 +
==[[颜色特征]]==
 +
颜色特征  颜色是一种重要的视觉信息属性,在数字图像处理中是一种很有用的特征。颜色特征是一种全局特征, 一般基于像素点的特性,所有属于图像或图像区域的像素都有各自的贡献。它描述了图像或图像区域所对应的景物的表面性质,在图像检索中应用最为广泛的视觉特征。颜色往往和图像中所包含的物体或场景十分相关。相对于其它特征,颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种变形都不敏感,表现出相当强的鲁棒性,而且颜色特征计算简单,因此成为现有图像处理系统中应用最广泛的特征。颜色特征也存在一定的局限性,由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征。
 +
颜色特征的表达涉及到若干问题。首先,我们需要选择合适的颜色空间来描述颜色特征;其次,我们要采用一定的量化方法将颜色特征表达为向量的形式,并定义一种相似度(距离)标准用来衡量图像之间在颜色上的相似性。
 +
颜色空间: 不同的颜色的表示方法都对应一个颜色空间,一种颜色是相应颜色空间中的一个点或矢量。最常用的颜色空间包括RGB颜色空间,HSV颜色空间,YUV颜色空间等。RGB颜色空间是一种根据人眼对不同波长的红、绿、蓝光做出锥状体细胞的敏感度描述的基础彩色模式,R、G、B 分别为图像红、绿、蓝的亮度值,大小限定在 0~1 或者在 0~255。大部分的数字图像都是用这种颜色空间表达的。然而,RGB空间结构并不符合人们对颜色相似性的主观判断。因此,有人提出了基于HSV空间、Luv空间和Lab空间的颜色直方图,因为它们更接近于人们对颜色的主观认识。其中HSV空间是直方图最常用的颜色空间。它的三个分量分别代表色彩(Hue)、饱和度(Saturation)和值(Value)。YUV颜色空间是一种真彩色颜色空间的表示,其中Y表示亮度,U和V表示色度和浓度。YUV经常与YCbCr等术语进行混用,其中YUV主要是用来描述模拟信号,而YCbCr则是用来描述离散的视频信号。在常用的压缩格式MPEG和JPEG中,YCbCr得到了很好的应用,但是如今,YUV在电脑系统中也得到了广泛的应用。
 +
颜色特征表达与匹配方法:
 +
1) 颜色直方图:颜色直方图是最常用的表达颜色特征的方法,能简单描述一幅图像中颜色的全局分布,即不同色彩在整幅图像中所占的比例,不受图像旋转和平移变化的影响,特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。其缺点在于:它无法描述图像中颜色的局部分布及每种色彩所处的空间位置,即无法描述图像中的某一具体的对象或物体。颜色直方图特征匹配方法:直方图相交法、距离法、中心距法、参考颜色表法、累加颜色直方图法等。
 +
2) 颜色集: 为支持大规模图像库中的快速查找,Smith和Chang提出了用颜色集(color sets)作为对颜色直方图的一种近似。他们首先将RGB颜色空间转化成视觉均衡的颜色空间(如HSV空间),并将颜色空间量化成若干个bin。然后,他们用色彩自动分割技术将图像分为若干区域,每个区域用量化颜色空间的某个颜色分量来索引,从而将图像表达一个二进制的颜色索引集。在图像匹配中,比较不同图像颜色集之间的距离和色彩区域的空间关系(包括区域的分离、包含、交等,每种对应于不同得评分)。因为颜色集表达为二进制的特征向量,可以构造二分查找树来加快检索速度,这对于大规模的图像集合十分有利。
 +
3) 颜色矩: 由Stricker 和Orengo所提出的颜色矩(color moments)的数学基础在于图像中任何的颜色分布均可以用它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此仅采用颜色的一阶矩(mean)、二阶矩(variance)和三阶矩(skewness)就足以表达图像的颜色分布。与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化。因此,图像的颜色矩一共只需要9个分量(3个颜色分量,每个分量上3个低阶矩),与其他的颜色特征相比是非常简洁的。在实际应用中为避免低次矩较弱的分辨能力,颜色矩常和其它特征结合使用,而且一般在使用其它特征前起到过滤缩小范围(narrow down)的作用。
 +
4) 颜色聚合向量: 针对颜色直方图和颜色矩无法表达图像色彩的空间位置的缺点,Pass提出了图像的颜色聚合向量(color coherence vector)。它是颜色直方图的一种演变,其核心思想是将属于直方图每一个bin的像素进行分为两部分:如果该bin内的某些像素所占据的连续区域的面积大于给定的阈值,则该区域内的像素作为聚合像素,否则作为非聚合像素。由于包含了颜色分布的空间信息,颜色聚合向量相比颜色直方图可以达到更好的检索效果。
 +
5) 颜色相关图: 颜色相关图(color correlogram)是图像颜色分布的另一种表达方式。这种特征不但刻画了某一种颜色的像素数量占整个图像的比例,还反映了不同颜色对之间的空间相关性。实验表明,颜色相关图比颜色直方图和颜色聚合向量具有更高的检索效率,特别是查询空间关系一致的图像。
 +
 
 +
==[[形状特征]]==
 +
形状特征 形状是自然物体的重要特征,是人类视觉直接相关和最显著的特征之一。按照传统的分类方法,形状特征有两种表示方法,基于轮廓方法和基于区域方法。前者只用到物体的外边界,而后者则关系到整个形状区域。这两类形状特征的最典型方法分别是傅立叶描述符和形状无关矩。在每个类别中,不同方法进一步被划分为结构方法和全局方法。这种次分类是基于形状描述是通过整体的还是片断来进行描述的。
 +
不同方法能根据工作在空间领域还是转换领域而被进一步区别。基于轮廓方法比基于区域的更流行一些。这是因为人类区分形状主要通过它们的轮廓特征。另一个原因是因为在许多形状应用中,形状轮廓仅是兴趣,同时形状内部内容并不重要。可是,基于轮廓方法有一些限制。第一,轮廓形状描述子对于噪声和变化是敏感的,因为它们仅利用一小部分形状信息,即轮廓信息。第二,许多情形下,形状轮廓是不可利用的。第三,在一些应用中,形状内容比轮廓特征更重要。这些限制可以通过使用基于区域的方法克服。基于区域方法因为使用所有可用的形状信息,所以更健壮。此外,基于区域的方法能较好的处理形状缺陷,这对于基于轮廓方法技术是一个普遍的问题。尽管基于区域方法使用了所有的形状信息,但是它没有必要比基于轮廓方法更复杂,就像矩方法和傅立叶描述子(GFD)可以被简单的应用实现。其实,在现在的许多技术中,已经开始把轮廓和区域结合使用,使得具有更高的精确性。
 +
几种典型的形状特征描述方法:1)边界特征法该方法: 通过对边界特征的描述来获取图像的形状参数。其中Hough 变换检测平行直线方法和边界方向直方图方法是经典方法。Hough 变换是利用图像全局特性而将边缘像素连接起来组成区域封闭边界的一种方法,其基本思想是点—线的对偶性;边界方向直方图法首先微分图像求得图像边缘,然后,做出关于边缘大小和方向的直方图,通常的方法是构造图像灰度梯度方向矩阵。2)傅里叶形状描述符法: 傅里叶形状描述符(Fourier shape descriptors)基本思想是用物体边界的傅里叶变换作为形状描述,利用区域边界的封闭性和周期性,将二维问题转化为一维问题。由边界点导出三种形状表达,分别是曲率函数、质心距离、复坐标函数。3) 几何参数法: 形状的表达和匹配采用更为简单的区域特征描述方法,例如采用有关形状定量测度(如矩、面积、周长等)的形状参数法(shape factor)。在 QBIC 系统中,便是利用圆度、偏心率、主轴方向和代数不变矩等几何参数,进行基于形状特征的图像检索。
 +
需要说明的是,形状参数的提取,必须以图像处理及图像分割为前提,参数的准确性必然受到分割效果的影响,对分割效果很差的图像,形状参数甚至无法提取。
 +
4) 形状不变矩法: 利用目标所占区域的矩作为形状描述参数。5) 小波描述符(Wavelet Descriptor): 小波变换在时域和频域上有突出信号局部特征和进行多分辨率分析的能力,因此被广泛应用于形状描述中。小波描述符定量描述边界的基础是将边界坐标看作一个复数序列,并对该复数序列做小波变换。小波描述子对轮廓的畸变具有较强的鲁棒性,而且,可以在较少系数的情况下获取较高的轮廓描述精度,并支持多层次的分析,通过多层次的分析,达到轮廓由粗糙到精细的多个层次的描述。但是小波变换的最大缺点是过于依赖目标轮廓的起始点,也就是说,同一目标的两个轮廓的小波描述符可能因为起始点的不同而有很大的不同。6) 其它方法: 近年来,在形状的表示和匹配方面的工作还包括有限元法(Finite Element Method 或 FEM)、旋转函数(Turning Function)等方法。
 +
 
 +
 
 +
参考文献:
 +
1 DengshengZhang.Review of shape representation and description techniques.Pattern Recognition 37(2004):1-19
 +
2  图像的形状特征分析与检索  桑鑫焱  硕士毕业论文 中国石油大学(华东) 2008
 +
 
 +
==[[.运动特征]]==
 +
==[[光谱特征]]==
 +
==[[特征表示]]==
 +
==[[底层特征]]==
 +
==[[中层特征]]==
 +
==[[高层特征]]==
 +
==[[局部特征]]==
 +
==[[区域特征]]==
 +
==[[全局特征]]==
 +
==[[深度特征]]==
 +
==[[信息获取]]==
 +
==[[图像采集]]==
 +
==[[图像传感器]]==
 +
==[[摄像机网络]]==
 +
==[[多摄像机系统]]==
 +
==[[三维成像]]==
 +
==[[稀疏成像]]==
 +
==[[高分辨率成像]]==
 +
==[[多光谱成像]]==
 +
==[[高动态范围成像]]==
 +
==[[微波辐射成像]]==
 +
==[[微波遥感成像]]==
 +
==[[航空成像]]==
 +
==[[卫星遥感成像]]==
 +
==[[飞行时成像]]==
 +
==[[超声成像]]==
 +
==[[磁共振成像]]==
 +
==[[分子成像]]==
 +
==[[媒体编解码]]==
 +
==[[编码]]==
 +
==[[率失真]]==
 +
==[[率失真优化]]==
 +
==[[失真估计]]==
 +
==[[失真模型]]==
 +
==[[码率分配]]==
 +
==[[编码器]]==
 +
==[[解码]]==
 +
==[[解码器]]==
 +
==[[帧内编码]]==
 +
==[[群体图像编码]]==
 +
==[[运动补偿]]==
 +
==[[立体视频编码]]==
 +
==[[多视视频编码]]==
 +
==[[分布式视频编码]]==
 +
==[[分层视频编码]]==
 +
==[[可分级视频编码]]==
 +
==[[可扩展视频编码]]==
 +
==[[场景视频编码]]==
 +
==[[.屏幕内容视频编码]]==
 +
==[[.群体视频编码]]==
 +
==[[光场编码]]==
 +
==[[视频转码]]==
 +
==[[音频编码]]==
 +
==[[空间音频编码]]==
 +
==[[高保真音频编码]]==
 +
==[[无损音频编码]]==
 +
==[[网格编码]]==
 +
==[[编码标准]]==
 +
==[[静态图像专家组]]==
 +
==[[运动图像专家组]]==
 +
==[[视频编码专家组]]==
 +
==[[数字音视频编码技术标准]]==
 +
==[[图像编码标准]]==
 +
==[[视频编码标准]]==
 +
==[[立体视频编码标准]]==
 +
==[[音频编码标准]]==
 +
==[[处理]]==
 +
==[[基本]]==
 +
==[[信号处理]]==
 +
==[[滤波算法]]==
 +
==[[稀疏分解]]==
 +
==[[小波分解]]==
 +
==[[小波变换]]==
 +
==[[图像计算学]]==
 +
==[[图像处理]]==
 +
==[[图像预处理]]==
 +
==[[图像建模]]==
 +
==[[图像配准]]==
 +
==[[亚像素配准]]==
 +
==[[多模态图像配准]]==
 +
==[[非刚性图像配准]]==
 +
==[[图像恢复]]==
 +
==[[图像重构]]==
 +
==[[图像增强]]==
 +
==[[光照补偿]]==
 +
==[[混合光谱分解]]==
 +
==[[图像超分辨率]]==
 +
==[[图像分解]]==
 +
==[[图像复原]]==
 +
==[[图像盲复原]]==
 +
==[[图像去噪]]==
 +
==[[图像去模糊]]==
 +
==[[盲去模糊]]==
 +
==[[反色调映射]]==
 +
==[[图像融合]]==
 +
==[[双目立体匹配]]==
 +
==[[医学图像处理]]==
 +
==[[医学图像分割]]==
 +
==[[医学图像配准]]==
 +
==[[医学图像融合]]==
 +
==[[图像特征提取]]==
 +
==[[鉴别特征提取]]==
 +
==[[图像标注]]==
 +
==[[图像区域标注]]==
 +
==[[图像语义理解]]==
 +
==[[视频处理]]==
 +
==[[视频超分辨率]]==
 +
==[[视频标注]]==
 +
==[[视频分析]]==
 +
==[[镜头分割]]==
 +
==[[相似关键帧识别]]==
 +
==[[视频副本检测]]==
 +
==[[视频摘要]]==
 +
==[[对象分析]]==
 +
==[[对象检测]]==
 +
==[[似物性采样]]==
 +
==[[显著对象检测]]==
 +
==[[运动对象检测]]==
 +
==[[亚像元对象探测]]==
 +
==[[对象匹配]]==
 +
==[[对象提取]]==
 +
==[[对象跟踪]]==
 +
==[[运动对象跟踪]]==
 +
==[[多对象跟踪]]==
 +
==[[多机动对象跟踪]]==
 +
==[[群对象跟踪]]==
 +
==[[对象分类 ]]==
 +
==[[对象识别]]==
 +
==[[人物标识]]==
 +
==[[背景差分]]==
 +
==[[背景建模]]==
 +
==[[音频内容分析]]==
 +
==[[智能应用]]==
 +
==[[基于内容的检索]]==
 +
==[[基于内容的图像检索]]==
 +
==[[基于内容的音频检索]]==
 +
==[[基于内容的视频检索]]==
 +
==[[基于文本的检索]]==
 +
==[[基于语义的检索]]==
 +
==[[跨媒体检索]]==
 +
==[[智能视频分析]]==
 +
==[[智能视频监控]]==
 +
==[[多媒体大数据分析]]==
 +
==[[传输与呈现]]==
 +
==[[媒体传输]]==
 +
==[[视频容错]]==
 +
==[[对等网络流媒体]]==
 +
==[[呈现]]==
 +
==[[视线跟踪]]==
 +
==[[眼动跟踪]]==
 +
==[[视点合成]]==
 +
==[[视图合成]]==
 +
==[[虚拟视点绘制]]==
 +
==[[可视化]]==
 +
==[[互动投影]]==
 +
==[[墙面互动投影系统]]==
 +
==[[高动态范围显示]]==
 +
==[[光场显示]]==
 +
==[[评价]]==
 +
==[[主观质量评价]]==
 +
==[[客观质量评价]]==
 +
==[[视频质量评价]]==
 +
==[[音频质量评价]]==
 +
==[[监控视频质量评价]]==
 +
==[[应用]]==
 +
==[[视频点播]]==
 +
==[[视频监控]]==
 +
==[[视频检索]]==
 +
==[[视频通信]]==
 +
==[[多媒体出版]]==
 +
==[[多媒体通信]]==
 +
==[[互联网视频]]==
 +
==[[实时影像互动系统]]==
 +
==[[无线多媒体通信]]==
 +
==[[无线多媒体网络]]==

2017年3月8日 (三) 10:38的最新版本

目录

多媒体信号与信息处理

表示

基本概念

视觉感知

听觉感知

颜色空间

颜色空间是用数字来描述和组织自然界的各种颜色的模型。建立颜色空间的目的在于使得在各种应用场景我们能够更好地理解和使用颜色的各种特征和属性,达到对颜色的处理目的。一个典型的例子是建立一种颜色空间能够用来传输和存储摄像设备的采集数据,并送达某种显示设备进行显示。

CIE 1931颜色空间 近代对于颜色比较系统的研究主要是从CIE1931颜色空间的建立开始。基于颜色的可加性,莱特和吉尔德分别完成了使用三种单色光对主要的可见光光谱(从380nm~770nm)进行颜色匹配和标度实验。根据该实验结果,CIE建立了CIE1931-RGB的颜色空间。为解决CIE1931-RGB中的负值问题,CIE随后建立了CIE1931-XYZ颜色空间。CIE1931颜色空间成为近代和现代颜色研究的基础。在这个基础上研究人员发展了各种颜色空间,主要分为设备无关的颜色空间和设备相关的颜色空间。

设备无关的颜色空间 设备无关的颜色空间主要用于真实世界的颜色标度以及颜色表现特征研究。在学界和工业界主要用到的设备无关的颜色空间是CIE-XYZ颜色空间、CIE-xyY颜色空间、Lab(也称L*a*b*)颜色空间、LCHab颜色空间、Luv(也称L*u*v*)颜色空间、LCHuv颜色空间。Lab和Luv颜色空间一直在追求建立一种均匀的颜色空间,并研究精确的色差计算方法。其它的设备无关的颜色空间有LMS颜色空间以及HunterLab颜色空间。大部分定义的设备无关的颜色空间都是CIE-XYZ空间的延伸空间,并且随着研究的进展,在不断地更新。

CIE1931-xyY颜色空间

设备相关的颜色空间 设备相关的颜色空间主要用于颜色信息的采集、存储、计算、传输和重建。工业界常用的设备相关的颜色空间有

  • 用于颜色采集和显示的RGB空间、CMY/CMYK空间、sRGB空间、Adobe RGB空间、ProPhoto RGB空间、scRGB空间等
  • 用于颜色存储和传输的YUV空间、YIQ空间、YDbDr空间、YPbPr空间、YCbCr空间、xyYCC空间等
  • 用于颜色计算和模型化的HSL空间、HSB空间等

这些空间(除ProPhoto, scRGB空间外)所描述的区域都小于CIE-XYZ定义的颜色。它们自身的特征描述(比如三原色和光源)都使用CIE-xyY颜色空间进行标注,以利于颜色数据在各种设备或者应用环境中进行转换。ICC组织提供的对各种设备相关的颜色空间转换的方法和规则。

颜色空间的发展

  • 进入21世纪以来,在相应的显示技术进展和高质量图像消费需求推动下,设备相关的颜色空间不断扩展颜色空间显示域(如BT2020),同时颜色空间也逐渐转向均匀显示空间,例如ICpCt颜色空间,加强颜色数据处理的效率。
  • 最新的颜色色貌研究进展也推动颜色空间转换和颜色再现技术考虑更多的观察条件、光源分布、介质性质以及目标几何结构等。

参考链接

像素

体素

混合像元

图像分辨率

空间分辨率

帧率

媒体类型

图形

图像

退化图像

序列图像(图像序列)

可见光图像

全色光图像

深度图像

超光谱图像

高动态范围图像

高动态范围图像(HDRI)是一类数字图像记录格式,这种格式能够记录相对于普通图像更多实际的亮度范围的图像。普通图像通常是每颜色通道8比特量化,并基于RGB或者YCbCr颜色空间;对应的量化阶数是255,能记录的实际场景亮度动态范围(cd/m2)大约是1000:1。而有关高质量的图像记录、建模、显示的应用需要更多的量化阶数,记录更高的动态范围。

高动态范围图像典型应用

  • 高亮/高暗的摄影场景,尤其是自然景色
  • 在CG场景中实现更真实的高亮/高暗的环境模型
  • 将各种电影胶片和相片底片数字化,化学胶片和相片能够记录超过8000:1的动态范围

高动态范围图像具有如下特征

  • 表示的亮度动态范围要比通常的每颜色通道8bit图像要高2个数量级(>100倍)。
  • 颜色的量化使用线性量化、LOG量化等非Gamma量化函数
  • 颜色空间使用基于场景的光照数据,而非基于设备的颜色空间(scRGB除外)

常见的高动态范围图像的类型

  • HDR图像格式,主要使用RGBE或者XYZE方法记录像素值,使用单独的通道E记录指数
  • EXR图像格式,采用Luv颜色空间进行记录,L的数值使用LOG编码,使用浮点数
  • TIFF图像格式,采用Luv颜色空间进行记录,L的数值使用LOG编码,使用浮点数
  • scRGB图像格式,在sRGB颜色空间的基础上扩展,每通道16比特整数

高动态范围图像的显示

高动态图像的显示通常需要使用色调映射(Tone Mapping)的方法。如上所说,高动态范围图像记录了很大的颜色空间的范围,一般的显示设备具有有限的色域,所以需要一定的方法将图像中的高动态颜色值映射到显示设备的色域。比较常用的是线性映射法、直方图法、S方程法、对数方程法等等。

参考链接

  • Proceedings of SPIE - The International Society for Optical Engineering, P9394, March 2015; Evaluation of color encodings for high dynamic range pixels
  • Color and Imaging Conference, 6th Color and Imaging Conference Final Program and Proceedings, pp. 214-219(6);Overcoming Gamut and Dynamic Range Limitations in Digital Images

全息图像

医学图像(医学影像)

动画

音频

视频

关键帧

立体视频

多视视频

Multiview Video


  严格意义上的多视视频是由多个摄像头在同一时刻从不同的角度采集同一场景或同一物体而产生的多个视频序列。广义上,可以不限制在同一时刻。由于多视视频以不同的视角描述了同一场景的特点,改变了许多传统单个视角视频的应用方式。首先是多视视频带来的数据量成比例的增加,为此由动态图像专家组和视频编码专家组联合制定了多视视频编码标准,而多视视频可以应用于三维立体电视的输入源。在其它如视频监控、影视制作和体育赛事的录制转播等场景。

多视视频加深度

任意视点视频

自由视点视频

三维视频

全景视频

监控视频

图化文字

三维点云

媒体

多媒体

超媒体

富媒体

社交媒体

自媒体

静态媒体

连续媒体

感觉媒体

可视媒体

表示媒体

表现媒体

传输媒体

流媒体

存储媒体

多模态

跨媒体

图像稀疏表示

压缩感知

解析失败 (<code>texvc</code>执行文件遗失;请参照math/README进行配置。): Ax-b=c

视觉特征

纹理特征

纹理特征  纹理是一种不依赖于颜色或亮度变化的反映图像中同质现象的视觉特征,刻画了图像像素邻域灰度空间分布的规律。它是所有物体表面都具有的内在特性,不同物体具有不同的纹理。纹理特征包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系,人类的视觉系统对外部世界的感知有赖于物体所表现出的纹理特征。计算机视觉领域中一些经典的纹理定义已慢慢地被广大学者接受和应用[1,2]:1) 纹理可以被认为是由肉眼可见的区域组成。纹理结构的简单特征是有重复图案的组成,在这些图案中的图元按一定的布局规则排列; 2) 如果图像的一组局部统计特征或者其他特征是不变的,变化缓慢的或者近似周期的,那么就认为图像区域含有不变的纹理;;3) 纹理是一种反映图像中一块区域的像素灰度级的空间分布属性,这种空间结构的固有属性可以通过邻域像素间的相关性刻画。 较为常见的纹理主要有以下三种类型[2]:1)自然纹理。该种纹理是未经人工刻意加工的、在自然界中自然存在的物体表面属性,如云、烟、雾、木纹、砾岩、沙漠、草地纹理。这种纹理的基本组成元素形状多样、多数不规则,分布随机性较大;2)人工纹理。该种纹理是人工参与的不同于自然存在物体表面属性的一种纹理,像器物表面的花纹、砖墙、织物、棋盘格格等。这种纹理的主要特点是纹理基本组成元素形状规则、确定、分布规律性比较强;3)混合纹理。这种纹理主要是一些人工制造的纹理基本元素随机分布于物体表面或自然界形成的。 在曲折发展历程中,各国研究者对纹理特征提取方法进行了广泛的研究,该领域已经发展了许多纹理特征提取方法,如著名的灰度共生矩阵(GLCM)、灰度行程长度法(graylevelrunlength)、自相关函数法,同时随着应用领域的不断扩大和新理论如分形理论、马尔可夫随机场(MRF)理论、小波理论等的引入,使得对纹理特征提取的研究变得缤纷多彩。纹理分析指的是通过一定的图像处理技术提取纹理特征[2],并获得纹理定性或定量描述的过程。常用的纹理分析方法有四种:统计分析方法、结构分析方法、模型分析方法和频谱分析方法: 1) 从区域统计方面去分析纹理图像在整体和统计意义上的规律性的方法称为基于统计的分析方法。该类方法是利用图像的灰度空间分布情况来描述粗细度、均匀性、方向性等纹理信息。较早提出并应用的一种统计方法是Kaizeil等人利用自相关函数[3]描述图像的纹理特征。 1976年,Weszka提出了灰度差分直方图统计方法,该方法能描述图像灰度的空间组织信息,但对于不同的研究对象,需要选取不同的位移矢量,增加了处理图像的工作量。20世纪70年代早期Haralikc等人提出了空间灰度共生矩阵法[4],该方法首先对图像空间灰度分布进行统计,得出图像的共生矩阵,其次依据定义在共生矩阵上的若干个纹理特征值进行计算,得到图像的纹理描述。由于共生矩阵模型方法不受分析对象的制约,能够很好地反映图像的空间灰度分布情况,体现图像的纹理特征,所以得到广泛应用。2002年Ojala T等人[5]提出了LBP(Local Binary Pattern)方法,该方法在纹理分类上效果显著,在医学图像处理及人脸识别等领域应用广泛。 2) 结构分析方法的基本思想是复杂的纹理可由简单的纹理基元以一定的有规律的形式重复排列组合而成。当纹理基元大到能够单独被分割和描述时,就要使用结构分析法。1966年,Beck[6]以不同的英文字母作为纹理基元进行观察,发现纹理基元按不同方向分布影响着人们对纹理的区分。在Beck发现的基础上,Bergen和Julesz[7]于1983年进行了一系列的精神物理实验,发现纹理基元的方向和纹理基元的密度都显著影响着人们对不同纹理的区分。 比较规则的纹理在空间中是以有次序的形式进行纹理单元的镶嵌,最典型的模式是用一种正多边形镶嵌而成,如由正三角形构成的模式等。另一种方法是利用Voronoi多边形,1990年,Tuceryan M和Jain A.K[8]提出了基于Voronoi多边形的纹理分割。结构分析方法的好处是纹理构成容易理解,适合于高层检索,描述规则的人工纹理。但对不规则的自然纹理,由于基元本身提取困难及基元之间的排布规则复杂,因此结构法受到很大的限制。 3) 基于模型[9]的方法假设纹理按某种模型分布,模型表示纹理元之间的关系,模型参数描述纹理元的特性。模型法主要有随机场方法和分形法。常见的随机场模型有Markov、Gibbs模型等。基于Markov随机场模型[10]的纹理分析方法把纹理看作一个随机的二维图像场,并且假定某一点取值与周围像素取值多少有关。近年来,Markov随机场(MRF)模型[11]取得了很大的成功。但基于Markov随机场模型仅通过局部特征很难得到全局的联合分布,于是提出了Sivakumar的GRF(Gibbs随机场)模型[12],该模型通过集团势能的概念,利用局部的计算获得全局的结果。自回归纹理模型(simultaneous auto-regressive,SAR)是MRF模型的一种应用实例。在SAR模型中,每个像素的强度被看成随机变量,可以通过其相邻的像素来描述。由于自然纹理具有不同尺度下的自相似性,因此分形模型也广泛应用于纹理分析。较常用的一类分形模型是分形布朗运动模型[13](Fractal Brown Motion, FBM)。通过分形理论来进行纹理分析应特别注意不同的求分维数的方法可能会有不同的结果。 4) 频谱法主要借助于频率特性来分析纹理特征。频谱法是建立在多尺度分析基础上的纹理分析方法,主要有小波变换、Gabor 变换。Mallat在1989年首先提出小波变换方法,随后各种小波变换相继用于提取纹理特征。1964年,Gabor博士针对Fourier变换存在不能同时进行时间、频率局部分析的缺点,提出了一种加窗Fourier变换方法,即Gabor函数。Gabor函数具有极佳的空间/频域联合分辨率,因此在实际中获得了较广泛的应用。Gabor滤波器可以看成是方向、尺度可调的边界和直线检测器,所以可以通过Gabor滤波器检测出图像中不同方向和角度上的边缘和线条,以提取图像中的纹理特征。针对Gabor变换,许多研究者先后进行了深入的研究。1991年,Jain[14]对一组滤波后的图像使用一组偶对称Gabor滤波器逐步进行线性变换,从20个滤波器中选出11-13个滤波器对纹理图像进行分割,得到了很好的分割效果。1995年,Alexandrov等人[15]采用120个滤波器(10种尺度12种方向)输出能量的均值和标准差,构成240维的纹理特征向量来进行图像检索,取得了较理想的结果。Manjunath等[16]于1996年针对这一缺点提出了改进方法,首先消除系列Gabor滤波器的冗余度,又设计了一种自适应滤波器选择方法,使计算量大大降低,随后以Gabor变换系数的均值和方差为纹理特征进行图像检索。 纹理特征与分析广泛应用于目标识别与分析,纹理合成,图像检索,运动分析中。纹理一直是计算机视觉及模式识别领域研究的一个基本问题,经过近半个多世纪的研究,对纹理的研究取得了丰硕的成果,一些概念和理论取得了一致的看法,对纹理的一些基本特性取得了统一认识。


参考文献 1 Linda G. Shapiro and George C. Stockman, Computer Vision, Upper Saddle River: Prentice–Hall, 2001 2 纹理特征研究综述 孙君顶 马媛媛 计算机系统应用 2010 年第19卷第 6 期 3 Sklansky J. Image segmentation and feature extraction. IEEE Transactions on Systems, Ma n, and Cybernetics, 1978,8(5):237-247. 4 Haralick RM, Shanmugam K, Its hak Dinstein. Texture Features for Image Classification. IEEE Trans. On Systems, Man, and Cybernetics, 1973,SMC-3(6):610-621. 5 Ojala T, Pietikainen M, Maenpaa T. Multireso lution gray scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002,24: 971-987. 6 Beck J. Effect of orientation and of shape similarity on perceptual grouping. Perceptual psychophysics, 1966,1(7):300-302. 7 Bergen JR, Julesz B. Parallel versus serial processing in rapid pattern discrimination. Natural, 1983,303(7): 696-698. 8 Tuceryan M, Jain AK.Texture segmentation using Voronoi Polygons.IEEE Trans on PAMI, 1990,12: 211-216. 9 Ma WT, Zhang HJ. Benchmarking of image features for content-based retrieval. Signals, Systems& Com- puters. Conference Record of the Thirty-Second Asilomar Conference, Pacific Grove, USA, 1998,1: 253-257. 10 Yokoyama R, Haralick RM. Texture Pattern Image Generation by Regular Markov Chain. Pattern Reco- gnition, 1979,11:225-234. 11 Timo O, Matti Pietikainen, Topi M. Multisolu- tion Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002,7:971-987. 12 Geman S, Geman D. Stochastic relaxation Gibbs distribution and the Bayesian restoration of images. IEEE Trans Pattern Anal Machine Intell, 1984,16:721-741. 13 Kapan LM, Kuo CC. Extending self-similarity for fractional brownian motion. IEEE Transactions on Signal Processing, 1994,42(12):3526-3530. 14 Jain AK, Farrokhnia F.Unsupervised texture segmen- tation using Gabor filters. Pattern Recognition, 1991, 24(12):1167-1186. 15 Alexandrov AD,Ma W, Abbadi A, et al. Adaptive filtering and indexing for image databases, SPIE, 1995,2420:12-23. 16 Manjunath BS, Ma WY. Texture features for browsing and retrieval of image data. IEEE Transaction on Pattern Analysis and Machine Intelligence, 1996,18(8):837-842.

颜色特征

颜色特征  颜色是一种重要的视觉信息属性,在数字图像处理中是一种很有用的特征。颜色特征是一种全局特征, 一般基于像素点的特性,所有属于图像或图像区域的像素都有各自的贡献。它描述了图像或图像区域所对应的景物的表面性质,在图像检索中应用最为广泛的视觉特征。颜色往往和图像中所包含的物体或场景十分相关。相对于其它特征,颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种变形都不敏感,表现出相当强的鲁棒性,而且颜色特征计算简单,因此成为现有图像处理系统中应用最广泛的特征。颜色特征也存在一定的局限性,由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征。 颜色特征的表达涉及到若干问题。首先,我们需要选择合适的颜色空间来描述颜色特征;其次,我们要采用一定的量化方法将颜色特征表达为向量的形式,并定义一种相似度(距离)标准用来衡量图像之间在颜色上的相似性。 颜色空间: 不同的颜色的表示方法都对应一个颜色空间,一种颜色是相应颜色空间中的一个点或矢量。最常用的颜色空间包括RGB颜色空间,HSV颜色空间,YUV颜色空间等。RGB颜色空间是一种根据人眼对不同波长的红、绿、蓝光做出锥状体细胞的敏感度描述的基础彩色模式,R、G、B 分别为图像红、绿、蓝的亮度值,大小限定在 0~1 或者在 0~255。大部分的数字图像都是用这种颜色空间表达的。然而,RGB空间结构并不符合人们对颜色相似性的主观判断。因此,有人提出了基于HSV空间、Luv空间和Lab空间的颜色直方图,因为它们更接近于人们对颜色的主观认识。其中HSV空间是直方图最常用的颜色空间。它的三个分量分别代表色彩(Hue)、饱和度(Saturation)和值(Value)。YUV颜色空间是一种真彩色颜色空间的表示,其中Y表示亮度,U和V表示色度和浓度。YUV经常与YCbCr等术语进行混用,其中YUV主要是用来描述模拟信号,而YCbCr则是用来描述离散的视频信号。在常用的压缩格式MPEG和JPEG中,YCbCr得到了很好的应用,但是如今,YUV在电脑系统中也得到了广泛的应用。 颜色特征表达与匹配方法: 1) 颜色直方图:颜色直方图是最常用的表达颜色特征的方法,能简单描述一幅图像中颜色的全局分布,即不同色彩在整幅图像中所占的比例,不受图像旋转和平移变化的影响,特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。其缺点在于:它无法描述图像中颜色的局部分布及每种色彩所处的空间位置,即无法描述图像中的某一具体的对象或物体。颜色直方图特征匹配方法:直方图相交法、距离法、中心距法、参考颜色表法、累加颜色直方图法等。 2) 颜色集: 为支持大规模图像库中的快速查找,Smith和Chang提出了用颜色集(color sets)作为对颜色直方图的一种近似。他们首先将RGB颜色空间转化成视觉均衡的颜色空间(如HSV空间),并将颜色空间量化成若干个bin。然后,他们用色彩自动分割技术将图像分为若干区域,每个区域用量化颜色空间的某个颜色分量来索引,从而将图像表达一个二进制的颜色索引集。在图像匹配中,比较不同图像颜色集之间的距离和色彩区域的空间关系(包括区域的分离、包含、交等,每种对应于不同得评分)。因为颜色集表达为二进制的特征向量,可以构造二分查找树来加快检索速度,这对于大规模的图像集合十分有利。 3) 颜色矩: 由Stricker 和Orengo所提出的颜色矩(color moments)的数学基础在于图像中任何的颜色分布均可以用它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此仅采用颜色的一阶矩(mean)、二阶矩(variance)和三阶矩(skewness)就足以表达图像的颜色分布。与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化。因此,图像的颜色矩一共只需要9个分量(3个颜色分量,每个分量上3个低阶矩),与其他的颜色特征相比是非常简洁的。在实际应用中为避免低次矩较弱的分辨能力,颜色矩常和其它特征结合使用,而且一般在使用其它特征前起到过滤缩小范围(narrow down)的作用。 4) 颜色聚合向量: 针对颜色直方图和颜色矩无法表达图像色彩的空间位置的缺点,Pass提出了图像的颜色聚合向量(color coherence vector)。它是颜色直方图的一种演变,其核心思想是将属于直方图每一个bin的像素进行分为两部分:如果该bin内的某些像素所占据的连续区域的面积大于给定的阈值,则该区域内的像素作为聚合像素,否则作为非聚合像素。由于包含了颜色分布的空间信息,颜色聚合向量相比颜色直方图可以达到更好的检索效果。 5) 颜色相关图: 颜色相关图(color correlogram)是图像颜色分布的另一种表达方式。这种特征不但刻画了某一种颜色的像素数量占整个图像的比例,还反映了不同颜色对之间的空间相关性。实验表明,颜色相关图比颜色直方图和颜色聚合向量具有更高的检索效率,特别是查询空间关系一致的图像。

形状特征

形状特征 形状是自然物体的重要特征,是人类视觉直接相关和最显著的特征之一。按照传统的分类方法,形状特征有两种表示方法,基于轮廓方法和基于区域方法。前者只用到物体的外边界,而后者则关系到整个形状区域。这两类形状特征的最典型方法分别是傅立叶描述符和形状无关矩。在每个类别中,不同方法进一步被划分为结构方法和全局方法。这种次分类是基于形状描述是通过整体的还是片断来进行描述的。 不同方法能根据工作在空间领域还是转换领域而被进一步区别。基于轮廓方法比基于区域的更流行一些。这是因为人类区分形状主要通过它们的轮廓特征。另一个原因是因为在许多形状应用中,形状轮廓仅是兴趣,同时形状内部内容并不重要。可是,基于轮廓方法有一些限制。第一,轮廓形状描述子对于噪声和变化是敏感的,因为它们仅利用一小部分形状信息,即轮廓信息。第二,许多情形下,形状轮廓是不可利用的。第三,在一些应用中,形状内容比轮廓特征更重要。这些限制可以通过使用基于区域的方法克服。基于区域方法因为使用所有可用的形状信息,所以更健壮。此外,基于区域的方法能较好的处理形状缺陷,这对于基于轮廓方法技术是一个普遍的问题。尽管基于区域方法使用了所有的形状信息,但是它没有必要比基于轮廓方法更复杂,就像矩方法和傅立叶描述子(GFD)可以被简单的应用实现。其实,在现在的许多技术中,已经开始把轮廓和区域结合使用,使得具有更高的精确性。 几种典型的形状特征描述方法:1)边界特征法该方法: 通过对边界特征的描述来获取图像的形状参数。其中Hough 变换检测平行直线方法和边界方向直方图方法是经典方法。Hough 变换是利用图像全局特性而将边缘像素连接起来组成区域封闭边界的一种方法,其基本思想是点—线的对偶性;边界方向直方图法首先微分图像求得图像边缘,然后,做出关于边缘大小和方向的直方图,通常的方法是构造图像灰度梯度方向矩阵。2)傅里叶形状描述符法: 傅里叶形状描述符(Fourier shape descriptors)基本思想是用物体边界的傅里叶变换作为形状描述,利用区域边界的封闭性和周期性,将二维问题转化为一维问题。由边界点导出三种形状表达,分别是曲率函数、质心距离、复坐标函数。3) 几何参数法: 形状的表达和匹配采用更为简单的区域特征描述方法,例如采用有关形状定量测度(如矩、面积、周长等)的形状参数法(shape factor)。在 QBIC 系统中,便是利用圆度、偏心率、主轴方向和代数不变矩等几何参数,进行基于形状特征的图像检索。 需要说明的是,形状参数的提取,必须以图像处理及图像分割为前提,参数的准确性必然受到分割效果的影响,对分割效果很差的图像,形状参数甚至无法提取。 4) 形状不变矩法: 利用目标所占区域的矩作为形状描述参数。5) 小波描述符(Wavelet Descriptor): 小波变换在时域和频域上有突出信号局部特征和进行多分辨率分析的能力,因此被广泛应用于形状描述中。小波描述符定量描述边界的基础是将边界坐标看作一个复数序列,并对该复数序列做小波变换。小波描述子对轮廓的畸变具有较强的鲁棒性,而且,可以在较少系数的情况下获取较高的轮廓描述精度,并支持多层次的分析,通过多层次的分析,达到轮廓由粗糙到精细的多个层次的描述。但是小波变换的最大缺点是过于依赖目标轮廓的起始点,也就是说,同一目标的两个轮廓的小波描述符可能因为起始点的不同而有很大的不同。6) 其它方法: 近年来,在形状的表示和匹配方面的工作还包括有限元法(Finite Element Method 或 FEM)、旋转函数(Turning Function)等方法。


参考文献: 1 DengshengZhang.Review of shape representation and description techniques.Pattern Recognition 37(2004):1-19 2 图像的形状特征分析与检索 桑鑫焱 硕士毕业论文 中国石油大学(华东) 2008

.运动特征

光谱特征

特征表示

底层特征

中层特征

高层特征

局部特征

区域特征

全局特征

深度特征

信息获取

图像采集

图像传感器

摄像机网络

多摄像机系统

三维成像

稀疏成像

高分辨率成像

多光谱成像

高动态范围成像

微波辐射成像

微波遥感成像

航空成像

卫星遥感成像

飞行时成像

超声成像

磁共振成像

分子成像

媒体编解码

编码

率失真

率失真优化

失真估计

失真模型

码率分配

编码器

解码

解码器

帧内编码

群体图像编码

运动补偿

立体视频编码

多视视频编码

分布式视频编码

分层视频编码

可分级视频编码

可扩展视频编码

场景视频编码

.屏幕内容视频编码

.群体视频编码

光场编码

视频转码

音频编码

空间音频编码

高保真音频编码

无损音频编码

网格编码

编码标准

静态图像专家组

运动图像专家组

视频编码专家组

数字音视频编码技术标准

图像编码标准

视频编码标准

立体视频编码标准

音频编码标准

处理

基本

信号处理

滤波算法

稀疏分解

小波分解

小波变换

图像计算学

图像处理

图像预处理

图像建模

图像配准

亚像素配准

多模态图像配准

非刚性图像配准

图像恢复

图像重构

图像增强

光照补偿

混合光谱分解

图像超分辨率

图像分解

图像复原

图像盲复原

图像去噪

图像去模糊

盲去模糊

反色调映射

图像融合

双目立体匹配

医学图像处理

医学图像分割

医学图像配准

医学图像融合

图像特征提取

鉴别特征提取

图像标注

图像区域标注

图像语义理解

视频处理

视频超分辨率

视频标注

视频分析

镜头分割

相似关键帧识别

视频副本检测

视频摘要

对象分析

对象检测

似物性采样

显著对象检测

运动对象检测

亚像元对象探测

对象匹配

对象提取

对象跟踪

运动对象跟踪

多对象跟踪

多机动对象跟踪

群对象跟踪

对象分类

对象识别

人物标识

背景差分

背景建模

音频内容分析

智能应用

基于内容的检索

基于内容的图像检索

基于内容的音频检索

基于内容的视频检索

基于文本的检索

基于语义的检索

跨媒体检索

智能视频分析

智能视频监控

多媒体大数据分析

传输与呈现

媒体传输

视频容错

对等网络流媒体

呈现

视线跟踪

眼动跟踪

视点合成

视图合成

虚拟视点绘制

可视化

互动投影

墙面互动投影系统

高动态范围显示

光场显示

评价

主观质量评价

客观质量评价

视频质量评价

音频质量评价

监控视频质量评价

应用

视频点播

视频监控

视频检索

视频通信

多媒体出版

多媒体通信

互联网视频

实时影像互动系统

无线多媒体通信

无线多媒体网络