深度学习 | 图解Contrastive Predictive Coding从脸盲说起，超直观无公式-技术圈

↑ 点击蓝字关注极市平台

作者 | 得未曾有

出品 | 对白的算法屋

编辑丨极市平台

极市导读

本文用李沁和孙怡的例子简单解释了对比学习的概念，并详细介绍了CPC工作的公式推理。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

Contrastive Learning (对比学习) 是这两年深度学习非常热的话题，可以说是刷新了很多人对无监督学习对认知。最初谷歌写的Representation Learning with Contrastive Predictive Coding (CPC) 公式十分抽象，不好理解。我在做完了一个CPC的项目以后，决定做一张超直观的图帮助大家摆脱公式理解。

在讲CPC之前，我会先在第一部分用脸盲的例子，让大家先理解什么是Contrastive Learning，它为什么有用？它到底是如何学习的。（笔者始终相信，科研创新都是先有直觉（intuition)，再有严密的公式推理。如果不明白intuition，是很难真正理解公式的）

第二部分我会用一张自己做的图来解释CPC。

整篇文章我会围绕着理解contrastive learning的关键思想来讲：

构造positive pairs （正样本对）和 negative pairs （负样本对）
在对比 positive pairs 和 negative pairs 的过程里提高辨识能力

一、发现自己脸盲时，你会怎么做？

很多人都有脸盲的体验，对我而言，脸盲是一大难题。不仅看外国电影会脸盲，连内地明星我也会。比如，假如你在不同的电视剧里分别看到李沁和孙怡两个人，深感困惑到底谁是谁的时候，你会怎么做？如果是我的话，我会去搜一下孙怡长什么样，李沁长什么样

⬇⬇⬇ 孙怡

⬇⬇⬇李沁

我们下意识地，在对比着她俩在不同情景下的图片，通过不断的对比，提升自己【提取特征】的能力。这里样本量可能不够大，这两位明星各三张图片，我仍然难以辨认她们。而对于天天见她们的导演，在日积月累的对比下，想必能抓取到更多特征。而阅人无数的导演，大概是不会像我们这么容易脸盲的。

在这个例子里，我想强调的是，我们在日常生活里，下意识地就会去构建正样本对（孙怡的不同照片，李沁的不同照片），和负样本对（一张孙怡的照片 v.s. 一张李沁的照片）。

对于分辨能力比较弱，没见过多少妆容精致的女明星的我，正样本对和负样本对看起来可能差不多，我可能无法判断正样本对和负样本对，也就是说，从上面六张图里，你挑两张给我，我都不知道是不是同一个人。

而对于不脸盲的人来说，你挑两张图，他可能就知道是不是同一个人。

而我们改善自己脸盲问题的方式，就是不断的去学习，哪对图片是同一个人，哪对是不同人，从而提高分辨能力。

这就是对比学习 (Contrastive Learning)

二、来讲CPC

说好无公式，咱真的就不谈公式。

这个图的主要部分是对一个个体的CPC的特征提取过程。请注意脚标 j 代表这是个体 j 。

灰色的长矩阵代表个体j的时间序列, 对于每一个frame, 我们对它做特征提取 (encode) , 也就是图中的箭头 , 然后每个frame会得到对应的黄色矩阵

接下来，CPC原文里提到, 它希望学得一些global information，也称 context information。什么是context information呢？举例来说, 你在看电视剧的时候, 看到了前面几十集 (对应图里的原时间序列 , 作为一个看片 (不对, 看剧) 无数的人，你从前几十集觉察到了他们的感情逐渐有了罏隙（你作为encoder提取了，然后，你可能就开始【预言了】：和肯定会感情越来越糟糕( 。(context information）。但你其实是无法准确预测后来到底会具体发生什么事情，即