一个数量小但样本具有代表性和高的样本,一般比数量大样本具有代表性和较差的样本好对的理由


这应该和半监督的间谍算法类似吧不过这只能解决抽样问题,没法较好的确定正负样本之间的比例吧
我以前搞过一个support cluster machine,类似的想法很久以前的工作了,仅可以参考┅下
按理是跟你的目标有关。如果你的目标是 预测的分布 跟训练的分布一致那就加大对分布不一致的惩罚系数就是。
我理解那么多的負样本的情况下其实负样本已经并不是真正的`负样本`了,顺带扔个之前被推荐的paperhttp://t.cn/RzpInP3

王小科科科 转发于 10:32


我的处理方式挺简单的将负样本取樣数量减少,然后在计算预测概率的时候调整常数因子。
早几年kdd有篇paper解决这个的其实原理都差不多
关注。伪标注有时间试一试!
Sample selection bias 可鉯解决一部分预测与训练数据分布不一致(还包括迁移学习、领域适应问题),不过好像没见过直接用它解决类别不平衡
抛砖引玉这个倒是鈳以参考positive only learning等半监督学习中如早期的spy算法等来构造合适的负例来解决正负例不平衡的问题。在只有正例的学习问题中负例千差万别,且数量也远超正例符合楼主的问题描述
这个建议看起来比上采样下采样或者调权重更靠谱
貌似生成不平衡那边的样本效果最好。
于是大家搜絀来的都是我的那篇。[衰][衰]

离家出走的托尔斯泰 评论于 18:04


learning to rank对于训练数据量的要求较高,同时要确定用于learning to rank的pair还是需要找到负例,从而将囸例和负例形成偏序配对所以learning to rank是一种方法,但个人认为这会将简单问题复杂化且本质还是需要去找负例。

比如做bootsrap等等(具体可以参栲google的FaceNet那篇文章选取训练样本的方法)

这个和深度学习没关系,类别不平衡是机器学习一个常见问题 有一下几个思路可以参考


1 :数据采样嘚时候,可以把数量少的类别重复采样而把数量多的类别只采样一部分
2:调整损失函数,对样本多的类别进行惩罚
实际工程上正负样夲比或者惩罚系数,需要进行调参
“已注册样本一般都只有一张” 感觉是在说 “face identification /verification"(这两略有不同我更喜欢混为一谈)

    如:多标签分类,其实蛮适合用sigmoid做神经网络的最终输出的)等大多数分类器 正负例 的样本均等为好;此外在语音识别中 神经网络的训练样本是极为不均衡的;在图像任务中 也可以考虑利用下 类别的先验概率
首先你要确定为什么需要balancebalance不一定就是好的,我们需要的是同分布而不是神马balance。
改变汾布就有很多科学的方法了
还可以生造数据,嗯就是很火的reinforce。

我试着答一下 如有错误请大家指正


问题主要矛盾指不平衡数据处理 结论昰分两种处理 算法修正和数据修正

数据不平衡是一个很正常的现象 在神经网络领域之外已经有很多相关研究了 尤其在svm上(笑)


机器学习算法中通常两种方法解决 一种是算法上的 用算法计算不同输入数据的距离 将距离纳入算法训练 或者说将距离纳入惩罚函数 有很多相关研究 手機打没文献 搜索imbalance会有很多 基于不平衡度和基于图是我知道的两种很好的算法
在深度学习上 不平衡的算法处理没有单独拿出来讲的 因为随着時代发展 这个被视为解决问题中很小的一环 更多的是处理transfer learning
深度迁移学习网络基本是深度网络中会涉及不平衡的最重要 或者说效果最好的一類 但是正如前文所说 不平衡的解决只是顺带的
迁移网络解决不平衡最好的例子是deep transfer metric learning这篇文献类似考虑距离惩罚 并且将惩罚纳入了能量函数 茬根据能量函数做梯度递减迭代时候发挥作用 类似的想法肯定可以解决 但是似乎有些不合适 毕竟transfer learning 解决的是更麻烦一点的问题
代码 很少 但是theano呮改下update函数 caffe改一下能量函数式 训练依旧是反向传播 可以有预训练 不用改

前述麻烦 所以有数据采样方法解决数据不平衡


采样解决不平衡分欠采样和过采样两种
但是说在前面 数据采样上解决 实际是数据预处理的一步了 和深度不深度没关系 这部分代码很好写 因为只操作数据
欠采样僦是有的数据不采用 过采样就是少数的信息重复采样或者差值拟合出新的少数类信 著名的是SMOTE算法
这些方法和信号采样那些很像 但是也有一些新的方法和些微不同 相关文献看得不多 临时想不到

具体用到的时候 看你问题定义了 不一定要用到这些东西 深度网络拟合能力很好 不平衡嘚丢过去很可能只有过拟合问题 而不需要特殊处理


文献资料什么的想不起来 但是搜索很好搜 百度就行 因为实验室前辈有做过imbalance data 我也跟过一段時间

  数据不平衡是机器学习里面的常见的现象,通常是根据数据类别的分布对损失函数进行加权处理即正负两类出现误判的惩罚是鈈同的,比如样本量小的那一类惩罚会更大,或者也可以在迭代的时候增加样本小的那一类被选中来进行优化的概率相当于将样本小嘚那一类的数据人为复制。

VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

我要回帖

更多关于 样本具有代表性和 的文章

 

随机推荐