课程大纲

课程大纲

计算机视觉

课程编码:081100M01008H 英文名称:Computer Vision 课时:60 学分:3.00 课程属性:一级学科核心课 主讲教师:董秋雷等

教学目的要求
本课程讲授和讨论计算机视觉前沿研究领域的主要思想、关键方法和代表性算法。对于计算机视觉相关领域的学生,使其对计算机视觉学科有比较深入和系统的了解,掌握计算机视觉的基本理论和编程方法,为进一步开展计算机视觉相关研究奠定基础。对非计算机视觉相关领域的学生,使其对计算机视觉的发展有所了解,并对计算机视觉基本理论与相关技术有基本认识。
本课程内容包括计算机视觉学科近四十年发展历程中产生的一些重要理论和方法,有些内容要求一定的数学基础,具有一定的难度,如摄像机标定和三维重建方面的内容,建议同学们可以预先阅读本课程的教学大纲,并在“http://vision.ia.ac.cn/zh/teaching/index.html” 网址上阅读胡占义研究员撰写的本课程的一些章节,特别是第一章(计算机视觉简介),第二章(生物视觉简介),对课程概况有一定了解后,然后再根据兴趣决定是否选修本门课程。
授课方式:课堂讲授为主。每节课后一般指定1-2篇文献阅读;课程将包含分组研讨内容,以增强学生的探索能力和尽快进入科研的能力;课程将包含指定方向上的最新文献搜集、阅读和关键算法实现环节。

预修课程
线性代数(或矩阵分析),模式识别和图像处理初步

教材
由于本课程涉及许多最新的研究成果和进展,因此本课程的主要参考资料为课堂讲义,以及每节课给出的关键参考文献。
课程讲义下载:http://vision.ia.ac.cn/zh/teaching/index.html

主要内容
课程讲授57学时+考试3学时=60学时。

第1章:绪论(3个学时)
1.1 Marr计算机视觉理论
1.2 计算机视觉历史、现状和发展趋势
1.3 演示

第2章:底层视觉I: 深度学习初步知识与特征检测(3个学时)
2.1 深度学习初步知识
2.2 特征点检测
2.3 边缘检测

第3章:底层视觉II: 特征描述与匹配(3个学时)
3.1 特征描述子(传统构造方法、基于深度神经网络的描述子学习方法)
3.2 特征匹配与匹配加速策略
3.3 鲁棒匹配

第4章:底层视觉III: 图像分割(3个学时)
4.1 基于区域信息的分割方法
4.2 基于边缘信息的分割方法
4.3 基于特定理论的分割方法
4.4 基于深度学习的图像分割方法

第5章:三维视觉I:相机模型与射影几何基础(3个学时)
5.1 相机模型
5.2 摄影几何与变换
5.3 消隐点与消隐线
5.4 平面单应

第6章:三维视觉II:相机标定(3个学时)
6.1 基于标定物的相机标定
6.2 相机自标定
6.3 手眼标定
6.4 大场景相机标定

第7章:三维视觉III:场景三维重建(3个学时)
7.1 5-点算法
7.2 分层重建
7.2 双目立体重建
7.3 多视图立体重建

第8章:三维视觉IV:语义三维重建(3个学时)
8.1 从点云到三维语义模型
8.1 三维语义地图构建
8.3 基于深度学习的三维重建

第9章:三维视觉命题研讨(3个学时)
9.1 命题分析
9.2 命题讨论
9.3 命题总结

第10章:运动视觉I:运动检测(3个学时)
10.1 传统运动检测方法(背景差法、光流法、帧间差分法)
10.2 基于深度学习的运动检测方法

第11章:运动视觉II:物体跟踪(3个学时)
11.1 运动目标表示方法
11.2 传统跟踪方法
基于模板匹配的跟踪方法;
基于均值漂移的跟踪方法;
基于卡尔曼滤波器的跟踪方法;
基于粒子滤波器的跟踪方法;
11.3 多目标跟踪中的数据关联策略
11.4 基于深度学习的物体跟踪方法

第12章:运动视觉III: 行为识别(3个学时)
? 12.1 基于时域模板的方法
12.2 基于动态时间规整的方法
12.3 基于状态转移图模型的方法
12.4 基于深度学习的行为识别方法

第13章:计算机视觉中的常用优化方法(3个学时)
13.1 稀疏捆绑调整(Sparse Bundle Adjustment)
13.2 BP算法(Back Propagation)
13.3 MRF场的能量优化方法

第14章:计算机视觉中传统机器学习方法(3个学时)
14.1 子空间学习方法(主成分分析、线性判别分析、独立成分分析)
14.2 流形学习方法
14.3 稀疏表达与低秩表达

第15章:图像物体表达(3个学时)
15.1 物体表达的意义和重要性
15.2:部件表达
15.3:小样本表达学习
15.4:零样本表达学习

第16章:物体视觉命题讨论(3个学时)
16.1 命题分析
16.2 命题讨论
16.3 命题总结

第17章:典型视觉应用及系统(3个学时)
17.1 基于无人机的大规模场景建模系统
17.2 机器人视觉导航与定位系统
17.3 视觉定位与增强现实系统

第18章:视觉测量及计算摄影学简介(3个学时)
18.1 计算摄影学简介
18.2 基于图像的测量
18.3 结构光测量
18.4 光度立体视觉
18.5 光场相机及应用

第19章: 生物视觉简介(非考试内容)(剩余1小时答疑)(3个学时)
19.1 生物视觉基本通道简介
19.2 生物神经物体表达与深度学习物体表达之间的比较
19.3 灵长类动物的脸孔识别机理
19.4 视差计算
19.5 答疑

第二十周: 闭卷考试 (平时作业占:30 分; 考试占:70分)(3个学时)

参考文献
1. Hartely and Zisserman, Multiple View Geometry in Computer Vision, Cambridge University Press, 2000。
2. R. Szeliski, Computer Vision: Algorithms and Applications, Springer, 2011.

课程教师信息
董秋雷简介
董秋雷, 博士,研究员。于2003年在东北大学获学士学位、2008年在中国科学院自动化研究所获博士学位。从2008年至今,在中国科学院自动化研究所模式识别国家重点实验室工作,并从2016年起兼任中国科学院大学岗位教授。此外于2014年至2015年间,在美国加利福尼亚大学洛杉矶分校进行访问研究。先后担任国际与国内多个学术会议的程序委员会委员、中国自动化学会模式识别与机器智能专委会委员、以及国际与国内多个学术期刊的审稿人。研究兴趣包括三维计算机视觉、模式分类、基于生物视觉的建模。
高伟简介
高伟,副研究员,硕士生导师,毕业于中国科学院自动化研究所模式识别国家重点实验室,获工学博士学位,研究领域为人工智能与计算机视觉、三维重建、机器人与SLAM等。在视觉图像分析、人工智能与深度网络学习、三维重建与视觉定位等方面取得一系列研究成果。在高水平期刊上发表论文四十余篇,申请发明专利十余项。多次承担国家科研项目,包括国家重点研发计划、国家科技计划863、国家科技支撑计划、国家自然基金重点项目、国家自然基金面上项目等。与华为、三星、牡丹、滴滴、四维图新等企业长期开展联合研发技术攻关取得丰硕成果。
申抒含简介
申抒含,中国科学院自动化研究所模式识别国家重点实验室副研究员,2010年于上海交通大学自动化系获博士学位,分别于2006年和2003年在西南交通大学电气学院获硕士和学士学位。研究方向为三维计算机视觉理论与应用,包括基于图像的大规模场景三维重建、智能机器人三维环境感知、场景三维语义建模等。在IEEE Trans. on Image Processing、Pattern Recognition、ISPRS P&RS、CVPR、3DV等国际期刊和国际会议发表学术论文40余篇。现任IEEE ACCESS编委,2015年入选中国科学院青年创新促进会,2016年获ACM北京新星奖。