跳转至

1705309190

计算机视觉导论

AI 专业必修

不要和计算机视觉课程混淆

计算机视觉是一门两学分课程,不算在 AI 的专业选修课程中,但有很多其他专业方向的同学会去选修。导论课比没有导论两字的课难度和容量都更大应该也是老传统了(笑)。

课程学习内容

授课的内容大致分以下几个部分:

  1. 成像过程,涉及一些光学内容和相机的结构;
  2. 图片处理,例如滤波、变形等等;
  3. 图像匹配和运动估计,这是最重要的一部分。诚如周晓巍老师所言,所有视觉问题到最终都是一个匹配问题;
  4. 图像拼接,这是前面几节方法的综合应用;
  5. 运动恢复结构(SfM),从这里开始才真正进入这门课与两学分课不同的内容,在这门课中三维视觉的比重比较大,考的也比较多;
  6. 深度估计和三维重建,这是上一节内容的深化;
  7. 识别,介绍了语义分割、目标检测、实力分割和人体姿态估计等等方向,主要是深度学习方法在二维图片上的应用;
  8. 三维深度学习,主要是用深度学习方法优化三维视觉中的一些步骤;
  9. 计算摄影,很粗略的介绍了高动态范围成像、去模糊、着色和超分辨率等等技术;
  10. 基于图像渲染,这一节主要讨论如何基于多视角图像构造任意视角的图像。

除此主线内容之外,在最开始会有一个导论和对线性代数的简单回顾,在 2 3 之间会有一个对优化方法的介绍,在 6 7 之间会有一个对深度学习的介绍。

这门课的大作业是三维重建 + 位姿估计。一般使用 Hierachical Localization 就可以得到一个比较好的结果,稍微微调一下参数做一下预处理也是可以的。虽然是打榜的形式,但是事实上按照笔者的体验分差并不明显,最后会有一个课堂展示 + 验收。

但是从 23-24 秋冬开始,由于大作业打榜的形式造成大家最后都用差不多的方法,而且 leaderboard 的形式太卷了,因此大作业改成了五选一的形式。今年的五个题目分别是:

  • 光心不一致时的全景图拼接
  • 重建校园某区域,基于图像对自身做定位
  • 从多视角视频还原车辆、行人轨迹
  • 基于多视角图片重建小动物 /
  • 参考一段网络舞蹈视频,合成自己跳舞的视频

其中每个任务都分为基础解决方案和额外提升方案。大作业整体的工作量是比较大的,但是课程提供了 GPU 资源,同时如果遇到困难都可以问助教,助教都是周老师的博士生,水平很高而且人也很好。

课程有实验课,实验普遍比较简单,可以不去上课。当然,有一次课会讲怎么使用 COLMAP ,那一次课前周老师也会提醒,也建议稍微去听一下,虽然只看文档也能折腾明白。6 次实验的内容分别是:

  1. matplotlib, OpenCV Open3d 的基本使用方式;
  2. 高斯滤波、中值滤波、双边滤波和透视投影的实现;
  3. 使用 Gauss-Newton 法求解优化问题;
  4. 图片匹配和图片拼接:Harris 角点检测、SIFT RANSAC 来计算单映变换;
  5. 使用 COLMAP 完成 SfM 和(可选的)MVS;
  6. 使用 mmdetection 完成目标检测 , 写一个 CNN 完成图像分类。

期末考试不考后面 7 8 9 10 节的内容,当然,周老师会在复习课上讲明考试范围,这个范围仅供参考,复习课讲的更加细致。20 级的考试大题印象中有一道图像拼接和一道三维重建,考的都比较基础,给分普遍似乎也不错,不用过于担心。

23-24 秋冬课程所有的内容都有涉及,考察的内容不难但是覆盖面很大,有很多内容比较细节。分为 30 分的不定项选择题,20 分的判断题,20 分的填空题,30 分的大题。

先修要求

可以没有。线性代数会用就足够了,也不会在考试要求计算;前几节内容在图像信息处理课程中会讲,但是没上过也没有风险;机器学习当然上过最好,但是周老师会把所有用到的内容讲清楚,甚至可能比隔壁赵洲老师还清楚,所以没上过也无伤大雅;在渲染的讲解中也会涉及计算机图形学的内容,同样会有充分的介绍;除此以外,还有一门计算摄影的课程,也是周老师开的,笔者没有上过不知晓详情。

总而言之,课程内容自洽,但与很多课程重合。如果有兴趣自然可以往某个方向多多拓展,但如果只是通过考试那么完全没有必要担心什么基础知识不足。

任课教师

只有周晓巍老师。老师人很好,很乐意回答学生的问题,学术能力和 connection 都比较强,似乎还是 GAMES 系列的主导者之一,是一个比较年轻且有实力的老师。似乎老师的博士生会在期末结束之后通过钉钉向部分同学发送邀请,不知道是不是真的。

授课的 PPT 是全英文的,比较简洁,所以还是需要认真听课。当然,周老师也会提前发出课件,并建议同学课前查查生词,这对于一些英语水平一般的同学不无好处。

课程教材

如果没有改的话,推荐的参考书目应当还是 Szeliski Computer Vision,填写邮箱可以免费下载。这本书的内容比课程内容多且更加复杂,如果只是想通过考试,听课也就够了,对于计算机视觉感兴趣的同学可以仔细阅读。

分数构成

平时作业 30% + 大作业 30% + 期末考试 40%

推荐书目

关于三维重建,因为这是这门课的一个重点,推荐 Richard Hartley Andrew Zisserman Multiple View Geometry in Computer Vision ,这本书中的推导可能比课上的更加简单明快,感兴趣的同学也可以翻阅。

参考笔记