syllabus

syllabus

数字图像处理

course code:B0912016Y 英文名称:Digital Image Processing course period:38 credit:2.00 course attribute:专业课 course lecturer:山世光

teaching objectives and requirements
本课程是计算机应用专业本科生三年级下学期开设的专业选修课,主要教学目的是使学生理解数字图像处理及其计算机视觉学科的科学和技术问题,掌握常用数字图像处理、分析和理解方法的基本原理和实现技术,了解相关领域的前沿进展和发展趋势,激发学生对“视觉感知和视觉智能计算”领域的好奇心和兴趣。
本课程对学生的要求包括:(1)通过学习,掌握数字图像处理领域以及视觉计算学科的基本科学技术问题、发展现状、关键理论和方法有基本认识;(2)掌握数字图像的几何变换、光度变换、空域滤波、频域变换、边缘检测、增强复原、分割等基本图像处理算法;(3)掌握基于浅层模型的视觉计算方法和基于深度卷积神经网络的视觉感知方法,包括典型局部描述子(如SIFT、HOG、LBP、Gabor)、视觉词袋模型、基于AdaBoost的目标检测、卷积神经网络及其在图像分类、目标检测和人脸识别等任务上的应用;(4)了解深度学习、对抗生成网络、对抗攻击等计算机视觉领域前沿进展和发展趋势。

prerequisite courses
高等数学,线性代数,概率论与数理统计,机器学习概论

main content

第一章 数字图像处理和视觉智能及课程内容简介

内容:数字图像处理的学科定位,发展历史,与计算机图形学、计算机视觉、模式识别、机器学习、多媒体技术、认知科学(视觉)等相关学科的关系。本课程的内容安排、要求、考核方式等相关介绍。

要求:(1)理解数字图像的基本概念和机内表示;(2)了解数字图像处理的学科起源和发展简史;(3)了解数字图像处理的学科地位和本课程的基本内容;(4)理解数字图像处理与视觉感知的关系;(5)理解与计算机图形学、计算机视觉等多门学科之间的耦合与支撑关系。

重点:数字图像的基本概念和机内表示;数字图像处理的学科地位;数字图像的主要来源。

难点:无

第二章 数字图像基础

内容:数字图像的内容来源,包括光学(可见光、红外、X光等)、声学、超声、温谱、距离和人工合成等;光谱、光照度和亮度;成像模型(光照度与反射度);CCD和CMOS等成像设备原理;数字图像的数学表示和机内表示,像素概念,彩色成像及不同颜色空间;图像的空间、灰度级分辨率及高动态成像;光学变焦和数字变焦;图像插值:近邻插值、双线性插值、Bicubic插值;数字图像的几何变换,如仿射变换,图像对齐等;数字图像的像素级计算算子,如加减乘除,均值降噪,背景消除;数字图像的空域算子,如邻域亮度操作(如均值)。

要求:(1)理解数字图像的常见来源,特别是光学成像的原理和模型;(2)掌握CCD和CMOS等成像设备的基本工作原理;(3)掌握数字图像的机内表示和颜色空间之间的变换;(4)深刻理解空间分辨率,及其与图像尺寸的差别;(5)理解并掌握两种图像插值方法的原理和计算方法;(6)掌握常见的几何变换,特别是仿射变换。

重点:光学成像模型;CCD和CMOS成像设备原理;数字图像的机内表示和基本运算;双线性和双立体插值算法;仿射变换等几何变换。

难点:分辨率的概念;双线性和双立体插值算法的推导;仿射变换。

第三章 图像亮度变换

内容:主要是三类亮度变换:(1)空域函数变换,包括log变换,伽马变换,分段线性变换等;(2)直方图类变换,包括直方图均衡化,直方图规定化,以及它们的局部化等;(3)空域滤波,包括局部卷积,平滑滤波器,中值滤波器,锐化滤波器,拉普拉斯算子,梯度滤波器等。

要求:(1)熟练掌握常见的空域函数变换方法,并学会如何针对任务设计变换函数,如去偏光;(2)理解并掌握直方图均衡化和直方图规定化的原理和步骤,并知晓如何在图像局部上应用这些方法;(3)理解并熟练掌握常见的空域滤波器,特别是平滑、中值、锐化和拉普拉斯算子,并知晓如何根据需要设计可能的滤波器。

重点:直方图均衡化和直方图规定化的原理和实现方法;空域滤波器的设计原理和按需选择甚至设计。

难点:直方图规定化的实现步骤;梯度滤波器的设计原则和方法。

第四章 图像频域处理

内容:主要是傅里叶变换和频域图像处理方法,其中前者具体包括:从空域到频域——傅里叶级数和傅里叶变换的基础知识;连续函数的傅里叶变换、反变换及卷积定理;采样函数及其傅里叶变换,采样定理及其混叠效应,离散傅里叶变换;从1D到2D傅里叶变换的扩展,以及2D离散傅里叶变换的特征。后者主要包括:频域图像处理基本流程,以及与空域处理的对应关系;常见的频域滤波器,主要是频域低通滤波器、频域高通滤波器、频域Laplacian、频域锐化、同态滤波器、带通/带阻滤波器、陷波滤波器等。

要求:(1)深刻理解从空域到频域图像处理的必要性、重要性和本质;(2)理解周期函数的傅里叶级数、连续函数的傅里叶变换、脉冲队列和采样函数、离散函数的傅里叶变换和反变换等;(3)深刻理解采样定理的含义及其混叠效应的成因;(4)熟悉图像傅里叶变换的常见性质;(5)深刻理解频域处理的一般步骤及其与空域处理的关系;(6)深刻理解卷积定理,并掌握高通、低通、带通/带阻等滤波器的设计和实现方法。

重点:空域与频域区别与联系;傅里叶变换及反变换理论和实现;采样函数、采样定理及混叠效应;卷积定理及常见频域滤波器

难点:傅里叶级数和变换的基础理论推导;脉冲队列、采样函数及其连续函数的离散化;采样定理的含义及其混叠效应的成因和消除等。

第五章 图像增强与复原

内容:图像降质和复原的模型;噪声来源;周期性噪声和非周期噪声;常见噪声模型(如白噪声,高斯噪声,冲击噪声等);空域去噪方法;自适应的局部降噪滤波器;自适应中值滤波器;用于周期性噪声去除的带阻/陷波滤波技术;用于线性、位置无关降质恢复的逆滤波方法,维纳滤波等;图像去雾方法、去雨方法。

要求:(1)理解图像降质的原因,包括噪声、模糊、大气波动、雨雾等;(2)掌握针对不同噪声的合适去噪方法;(3)掌握中值滤波器的自适应改进方法;(4)掌握逆滤波的设计流程和实现方法;(5)理解常用区域去雾方法的基本原理。

重点:常用噪声模型和去噪方法;自适应中值滤波器;逆滤波的设计方法

难点:逆滤波的设计原理和方法;去雾去雨方法

第六章 边缘检测

内容:常用的边缘检测算法,包括孤立点检测;线检测;基于一阶导数的边缘检测;Marr-Hildreth边缘检测器;Canny边缘检测器;用于线段检测的Hough变换。

要求:(1)掌握边缘检测的基本原理,理解其设计原则;(2)掌握基于导数的边缘检测方法,理解过零点的概念;(3)掌握Marr-Hildreth边缘检测器和Canny边缘检测器;(4)了解Hough变换如何用于直线检测。

重点:基于导数的边缘检测方法;Marr-Hildreth边缘检测器;Canny边缘检测器;

难点:过零点;Canny边缘检测器;Hough变换

第七章 图像分割

内容:通用图像分割定义;基于阈值的分割方法,包括全局阈值方法、自适应阈值法等;基于区域的分割方法,包括区域增长方法、区域分裂与合并方法、分水岭算法等;以及基于聚类的方法、基于图论的方法和基于语义的方法等等。

要求:(1)理解图像分割的定义;(2)掌握自适应阈值方法的原理和实现技术;(3)掌握区域增长分割方法、基于聚类的图像分割方法和分水岭算法;(4)了解基于图论的方法、基于语义的方法和基于深度学习的方法。

重点:自适应阈值方法;分水岭算法;基于聚类的图像分割方法

难点:分水岭算法;基于图论的分割方法

第八章 生物视觉系统简介

内容:为了类比,本章介绍人类等生物视觉系统的视觉信息处理流程,包括眼睛的光学结构、视网膜感光细胞、视神经、LGN、V1/V2/V4/IT等不同视皮层区域的连接结构等;脑神经细胞之间的突触连接和信息传递方式;层级感受野假设。

要求:(1)了解生物视觉信息处理的基本流程;(2)掌握层级感受野假设,为后续深度学习的介绍打下基础;(3)理解神经细胞的基本功能、连接方式和信息传递方法;

重点:神经细胞的信息传递机制;层级感受野假设;

难点:神经细胞之间的电化学信号传递;突触连接的复杂性;层级感受野假设

第九章 基于浅层学习的视觉计算模型

内容:介绍视觉感知的主要任务,包括:距离估计,目标检测、跟踪和定位,前背景分割和物体分割,目标分类和识别,场景分类与识别,场景文字检测与识别,事件检测与识别,自动图题(看图作文),图像编辑,视觉问答,3D重建等;视觉任务的函数拟合视角;基于浅层模型的视觉感知流程;图像特征:局部特征和全局特征;GIST全局特征;常见局部特征,包括SIFT/HOG/LBP/Gabor等;视觉词袋模型;线性变换特征提取;非线性变换特征提取;流形学习。

要求:(1)了解视觉感知主要任务的基本内涵;(2)了解基于浅层模型的视觉感知流程;(3)掌握常见局部特征的含义、提取方法和优缺点,重点是四类局部特征,即SIFT/HOG/LBP/Gabor;(4)掌握视觉词袋模型的起源、计算方法及其主要应用;(5)理解线性变换特征提取,了解非线性变换特征提取和流形学习。

重点:基于浅层模型的视觉感知流程;常见局部特征的含义、提取方法和优缺点;视觉词袋模型及其应用;

难点:SIFT局部特征的提取过程;从线性变换到流形学习

第十章 实例:基于浅层模型的人脸检测与识别技术

内容:人脸检测技术,包括基于肤色模型的方法、基于模板的方法、基于特征子空间的方法、基于AdaBoost的人脸检测方法;面部特征点定位技术,包括可变形模板方法、主动形状模型(ASM)、主动表观模型(AAM)、基于回归的方法等;人脸特征提取方法,包括几何特征、LBP特征、Gabor特征、特征脸方法、Fisherfaces、Tom-vs-Peter特征等。

要求:(1)掌握基于AdaBoost的人脸检测方法的原理和实现;(2)掌握主动形状模型(ASM)和主动表观模型(AAM)原理和实现;(3)掌握特征脸Eigenfaces方法和Fisherfaces方法的原理和实现;(4)掌握基于LBP的人脸识别方法的实现;(5)理解Tom-vs-Peter特征的含义,理解基于Gabor特征的人脸表示方法内涵

重点:基于AdaBoost的人脸检测方法;主动形状模型(ASM)和主动表观模型(AAM);特征脸Eigenfaces方法和Fisherfaces方法;基于LBP的人脸识别方法;基于Gabor特征的人脸表示方法

难点:AdaBoost算法;主成分分析方法在ASM、AAM、Eigenfaces中的应用;LBP和Gabor特征的内涵及其设计方法

第十一章 深度卷积神经网络

内容:神经网络的发展简史;神经元计算模型;常用神经网络模型,包括感知机和多层感知机;赫布学习律;BP算法;神经网络的深度化;卷积神经网络的生物神经起源及其演变,包括Neucognitron,LeNet-5等;2012年后兴起的主流网络结构AlexNet、GoogleNet、VGG-16/19、ResNet、DenseNet;深度卷积神经网络训练和优化技巧等;DCNN在图像分类和人脸识别上的应用。

要求:(1)掌握和深刻理解赫布学习律;(2)掌握多层感知机原理及实现;(3)掌握BP算法的基本原理和实现方法;(4)了解早期卷积神经网络设计的初衷和演变过程;(5)掌握主流网络结构AlexNet、GoogleNet、VGG-16/19、ResNet、DenseNet的设计理念;(6)了解深度卷积神经网络训练和优化技巧。

重点:多层感知机;BP算法;主流网络结构AlexNet、GoogleNet、VGG-16/19、ResNet、DenseNet的设计理念

难点:BP算法中的链式微分法则数学推导;主流网络结构特别是Inception结构设计理念

第十二章 基于深度学习的目标检测技术

内容:以Faster R-CNN为代表的双阶段目标检测方法,包括R-CNN,Fast R-CNN,Faster R-CNN等系列方法;以YOLO和SSD等为代表的单阶段目标检测方法。

要求:(1)掌握基于深度学习的目标检测技术的基本原理和设计方法;(2)理解双阶段和单阶段目标检测器的差别和各自的优缺点;(3)掌握Faster R-CNN设计原理和实现;(4)掌握YOLO和SSD的设计原理和实现;(5)了解前沿方法的进展及趋势。

重点:分类和回归结合的目标检测算法设计理念;Faster R-CNN;YOLO;SSD

难点:非Sliding Window思想的目标检测算法设计理念;Anchor概念;YOLO和SSD算法

第十三章 基于深度学习的视觉感知前沿进展

内容:基于深度学习的语义分割和实例分割;视觉与语言研究进展:Image Captioning,VQA等;生成对抗网络GAN及其应用;基于深度学习的对抗样本学习和防御;面向视觉计算的自监督学习。

要求:(1)了解物体分割、视觉语言、生成模型、对抗攻击等前沿进展;(2)理解自监督学习的价值和意义。

重点:生成对抗网络GAN;对抗样本学习和防御;自监督学习

难点:生成对抗网络的原理;对抗攻击算法;自监督学习思想

课时分配

 

章节/学时分配

讲课

习题课

实验课

上机课

讨论课

其它

1

1

 

       

2

3

 

       

3

3

 

       

4

4

1

       

5

2

1

   

1

 

6

1

 

 

 

 

 

7

2

 

 

 

 

 

8

1

 

 

 

 

 

9

2

 

 

 

1

 

10

3

 

 

 

1

 

11

4

1

 

 

1

 

12

2

 

 

 

 

 

13

2

1

 

 

 

 

 
 

课程思政
数字图像处理是一门从实践中发展起来的专业基础类课程,课程教学中将注重引导学生建立理论联系实际、学以致用的理念,并重视将学生所学数学知识(高数、线代和概率等)用于解决本课程中的理论和应用推导。
例1:从浅层模型到深度学习的发展,讨论科学发展的客观规律,引导学生树立正确的科学和技术发展观。
例2:从脑神经科学到深度神经网络的发展,激励学生了解脑学科前沿,引发学生对交叉学科创新的思考和可能实践。
例3:通过介绍图像和视频的深度合成技术及其相应的伪造视频检测技术,引导学生树立正确的科学技术伦理,承担科技工作者的社会责任。

teaching materials
R.C.冈萨雷斯, R.E.伍兹. 数字图像处理(MATLAB版)(第2版)。电子工业出版社,2014年出版

reference

instructor's profile
山世光,男,1975年生,博士,研究员 ,博士生导师。1993年9月至1997年7月在哈尔滨工业大学计算机系学习,获计算机科学与技术学士学位;1997年9月至1999年7月在哈尔滨工业大学计算机系学习,获计算机应用专业硕士学位;1999年9月至2004年7月在中国科学院计算所学习,获计算机应用专业博士学位。
主要从事图像处理与理解、计算机视觉、模式识别、智能人机交互界面等相关研究工作,特别是与人脸识别相关的研究工作。目前作为课题负责人承担国家自然科学基金面上项目1项、国家自然科学基金重点项目子课题1项、国家863计划课题1项、国家973项目子课题1项、NEC研究院合作项目1项。迄今已在国际/国内期刊、国际会议上发表/录用学术论文120余篇,其中IEEE Trans. on PAMI, IEEE Trans. on Image Processing等国际期刊论文22篇,计算机视觉领域一流国际会议(CVPR, ICCV, ECCV)论文18篇。2008年,与博士生王瑞平合作完成的有关流形到流形距离的论文获CVPR2008 Best Student Poster Award Runner-up奖。曾担任国际期刊IJPRAI、PRL专刊的客座编辑(Guest Editor),长期担任IEEE Trans.on PAMI等十多个国际期刊的审稿人。
所完成的人脸识别研究成果2005年度国家科技进步二等奖(第3完成人)。中科院计算所2004、2006、2009年度优秀员工,所带领团队荣获中科院计算所2005年度优秀团队。2008年度中国科学院卢嘉锡青年人才奖获得者。2009年度北京市科技新星获得者。2009年,荣获首届Scopus寻找未来科学之星银奖(信息领域)。

其它说明