人工智能自上世纪四十年代问世以来已广泛应用于各个领域。从医学研究和基因测序到自动驾驶汽车和虚拟助手,人工智能已经渗透到我们的日常生活中且愈加常态化。其中深度学习作为人工智能领域最伟大的发明在很多不同场景创造了商业价值,完成了AI从“发明期”向“应用期”的过渡。
深度学习主要分为监督学习、半监督学习、无监督学习与强化学习。其中无监督学习利用算法在大规模无监督数据中自动构造监督信息来进行监督学习或训练。由于无监督学习中的监督任务并不是人工标注而是利用辅助工具从数据中挖掘出来,因此严格来讲,可以称其为自监督学习。
在人工智能模型算法中,需要生成的数据量越大,数据标注的复杂度也越高。自监督模型可更好地从原始数据中学习。自监督学习分为对比自监督学习与非对比自监督学习。对比自监督学习是将对比学习与监督学习合并起来,通过对比数据集对象之间的差异或相似性进行学习。自监督学习的主要目标是从质量较低的数据中学习,而对比学习的目标是区分相似数据和不同数据。对比学习利用三个关键元素(正样本、锚点、负样本的表征)来实现对样本的聚类。但自监督学习难以知晓示例的标签,所以无法知道两个图像是否相似。对比自监督学习利用深度学习不受噪声影响的表征优势(使系统可以理解物体间的区别)与对比方法结合起来,利用数据增强(通过CPC与AMDIM)生成正样本、锚点与负样本,然后通过学习编码器f来完成对正例的提取工作。