概念：弱监督学习

文章给的定义是：数据集的标签是不可靠的，如（x，y），y对于x的标记是不可靠的。这里的不可靠可以是标记不正确，多种标记，标记不充分，局部标记等。

在实际应用中的学习问题往往以混合形式出现,如多标记多示例、半监督多标记、弱标记多标记等。针对监督信息不完整或不明确对象的学习问题统称为弱监督学习。

弱监督学习可以看做是有多个标记的数据集合，次集合可以是空集，单个元素，或是多个元素，分别对应x没有标记，有一个标记，和有多个标记三种情况。在此统一声明为一个标记的集合。

在实际的使用中多标记的使用是很常见的，在图像文本语音中是很容易找到多个标记的。

举个图像中的例子：

一般机器学习算法，每一个训练样本都需要类别标号（对于二分类：1/-1）。实际上那样的数据其实已经经过了抽象，实际的数据要获得这样的标号还是很难，图像就是个典型。还有就是数据标记的工作量太大，我们想偷懒了，所以多只是给了正负样本集。负样本集里面的样本都是负的，但是正样本里面的样本不一定都是正的，但是至少有一个样本是正的。比如检测人的问题，一张天空的照片就可以是一个负样本集；一张某某自拍照就是一个正样本集（你可以在N个区域取N个样本，但是只有部分是有人的正样本）。这样正样本的类别就很不明确，传统的方法就没法训练。

那么问题来了：图像的不是有标注吗？有标注就应该有类别标号啊？这是因为图片是人标的，数据量特大，难免会有些标的不够好,这就是所谓的弱监督集（weakly supervised set）。所以如果算法能够自动找出最优的位置，那分类器不就更精确吗？标注位置不是很准确，比如自行车的车轮的位置，是完全没有位置标注的，只知道在bounding box区域附近有一个车轮。

弱监督学习多用在多标记的数据上，感兴趣的可以去看一下：

《Weakly supervised discriminative location and classification: a joint learning process》

Published by

风君子

发表回复取消回复

最新文章

标签

书签

Published by

风君子

发表回复 取消回复

最新文章

标签

书签

发表回复取消回复