计算机视觉导论 ¶

AI 专业必修

不要和计算机视觉课程混淆

计算机视觉是一门两学分课程，不算在 AI 的专业选修课程中，但有很多其他专业方向的同学会去选修。导论课比没有导论两字的课难度和容量都更大应该也是老传统了（笑）。

课程学习内容 ¶

授课的内容大致分以下几个部分：

成像过程，涉及一些光学内容和相机的结构；
图片处理，例如滤波、变形等等；
图像匹配和运动估计，这是最重要的一部分。诚如周晓巍老师所言，所有视觉问题到最终都是一个匹配问题；
图像拼接，这是前面几节方法的综合应用；
运动恢复结构（SfM），从这里开始才真正进入这门课与两学分课不同的内容，在这门课中三维视觉的比重比较大，考的也比较多；
深度估计和三维重建，这是上一节内容的深化；
识别，介绍了语义分割、目标检测、实力分割和人体姿态估计等等方向，主要是深度学习方法在二维图片上的应用；
三维深度学习，主要是用深度学习方法优化三维视觉中的一些步骤；
计算摄影，很粗略的介绍了高动态范围成像、去模糊、着色和超分辨率等等技术；
基于图像渲染，这一节主要讨论如何基于多视角图像构造任意视角的图像。

除此主线内容之外，在最开始会有一个导论和对线性代数的简单回顾，在 2 和 3 之间会有一个对优化方法的介绍，在 6 和 7 之间会有一个对深度学习的介绍。

这门课的大作业是三维重建 + 位姿估计。一般使用 Hierachical Localization 就可以得到一个比较好的结果，稍微微调一下参数做一下预处理也是可以的。虽然是打榜的形式，但是事实上按照笔者的体验分差并不明显，最后会有一个课堂展示 + 验收。

但是从 23-24 秋冬开始，由于大作业打榜的形式造成大家最后都用差不多的方法，而且 leaderboard 的形式太卷了，因此大作业改成了五选一的形式。今年的五个题目分别是：

光心不一致时的全景图拼接
重建校园某区域，基于图像对自身做定位
从多视角视频还原车辆、行人轨迹
基于多视角图片重建小动物 / 人
参考一段网络舞蹈视频，合成自己跳舞的视频

其中每个任务都分为基础解决方案和额外提升方案。大作业整体的工作量是比较大的，但是课程提供了 GPU 资源，同时如果遇到困难都可以问助教，助教都是周老师的博士生，水平很高而且人也很好。

课程有实验课，实验普遍比较简单，可以不去上课。当然，有一次课会讲怎么使用 COLMAP ，那一次课前周老师也会提醒，也建议稍微去听一下，虽然只看文档也能折腾明白。6 次实验的内容分别是：

matplotlib, OpenCV 和 Open3d 的基本使用方式；
高斯滤波、中值滤波、双边滤波和透视投影的实现；
使用 Gauss-Newton 法求解优化问题；
图片匹配和图片拼接：Harris 角点检测、SIFT 和 RANSAC 来计算单映变换；
使用 COLMAP 完成 SfM 和（可选的）MVS；
使用 mmdetection 完成目标检测 , 写一个 CNN 完成图像分类。

期末考试不考后面 7 8 9 10 节的内容，当然，周老师会在复习课上讲明考试范围，这个范围仅供参考，复习课讲的更加细致。20 级的考试大题印象中有一道图像拼接和一道三维重建，考的都比较基础，给分普遍似乎也不错，不用过于担心。

23-24 秋冬课程所有的内容都有涉及，考察的内容不难但是覆盖面很大，有很多内容比较细节。分为 30 分的不定项选择题，20 分的判断题，20 分的填空题，30 分的大题。

先修要求 ¶

可以没有。线性代数会用就足够了，也不会在考试要求计算；前几节内容在图像信息处理课程中会讲，但是没上过也没有风险；机器学习当然上过最好，但是周老师会把所有用到的内容讲清楚，甚至可能比隔壁赵洲老师还清楚，所以没上过也无伤大雅；在渲染的讲解中也会涉及计算机图形学的内容，同样会有充分的介绍；除此以外，还有一门计算摄影的课程，也是周老师开的，笔者没有上过不知晓详情。

总而言之，课程内容自洽，但与很多课程重合。如果有兴趣自然可以往某个方向多多拓展，但如果只是通过考试那么完全没有必要担心什么基础知识不足。

任课教师 ¶

只有周晓巍老师。老师人很好，很乐意回答学生的问题，学术能力和 connection 都比较强，似乎还是 GAMES 系列的主导者之一，是一个比较年轻且有实力的老师。似乎老师的博士生会在期末结束之后通过钉钉向部分同学发送邀请，不知道是不是真的。

授课的 PPT 是全英文的，比较简洁，所以还是需要认真听课。当然，周老师也会提前发出课件，并建议同学课前查查生词，这对于一些英语水平一般的同学不无好处。

课程教材 ¶

如果没有改的话，推荐的参考书目应当还是 Szeliski 的 Computer Vision，填写邮箱可以免费下载。这本书的内容比课程内容多且更加复杂，如果只是想通过考试，听课也就够了，对于计算机视觉感兴趣的同学可以仔细阅读。

分数构成 ¶

平时作业 30% + 大作业 30% + 期末考试 40%。

计算机视觉导论 ¶

课程学习内容 ¶

先修要求 ¶

任课教师 ¶

课程教材 ¶

分数构成 ¶

推荐书目 ¶

参考笔记 ¶