解密:人工智能如何鉴定色情图片?

  • 1,316

最近,雅虎利用分类神经网络搭建了一套可以辨别Not Suitable for Work(上班不宜,以下简称NSFW)色情图片的Caffe模型,并将源码搬上了github。点击原文进入Yahoo的git页面。

解密:人工智能如何鉴定色情图片?
下面的内容是Yahoo对这一套模型的解析。

NSFW分类器

色情内容检测在数十年来都是研究人员想要解决的问题。要知道,在机器的眼里,无论是花草树木,还是泳装美女都只是一个个像素点。随着计算机视觉以及深度学习算法的发展与成熟,我们现在能够通过让机器向人类学习,更精准的将图片归类于色情内容。

定义哪些属于NSFW往往具有主观性而且意义非凡。更重要的是,在某些情况下“不宜”的内容在另一些情况下又变成无伤大雅的了。在这里,我们介绍的模型仅限于一种NSFW:色情图片。对于素描、卡通、文本,或者其他类型的内容都不适用这个模型。

解密:人工智能如何鉴定色情图片?
使用方法

这个网络算法分析图片后会产生一个概率值(在0到1之间),通过这个概率值我们可以过滤一些色情图片。当概率值小于0.2说明图片安全的可能性很高。当概率值大于0.8时,此图片很可能是不NSFW的。介于之间的概率值可以分为不同等级的NSFW。

我们建议开发人员根据数据、用户案例、图片类型选择合适的阈值。由于这个问题本身复杂性,(筛选)将会产生误差,该误差随由基于NSFW的用例、定义、容忍度决定。优秀的开发人员应该在他们的应用上根据安全定义设置一个评估体系值,当应用此模型的时候,利用ROC曲线来选择合适的阈值。

(筛选)结果可以通过对模型里的用例、数据、定义的微调来改善。我们对结果的精确性提供任何保证。NSFW的定义是主观且随情境而变的。模型是一种通用的参考模型,可以用于初步过滤色情图片。我们不保证输出信息的精确性,但我们可以把它作为一个开源项目让开发者去探索和提升。通过对模型的数据集进行微调可以改善输出结果。

通过人工调整边界以及机器学习方案可以改善结果输出。

解密:人工智能如何鉴定色情图片?
模型简介

我们通过数据来训练模型,其中NSFW图片为阳性,SFW图片是阴形。这些图片已事先通过编辑做了标记。由于数据本身属性的原因,我们不会公布这些数据或其它细节。

我们所用的CaffOnSpark是一个非常完美的分布式学习框架,它为我们实验提供了Hadoop和clusters族群深度学习的训练模型。非常感谢CaffOnSpark团队。

深度模型先在ImageNet 1000类数据集上做的预先训练。然后我们微调了 NSFW数据集的权重。我们使用了thinresnet50 1by2架构作为训练网络。模型使用pynetbuilder工具生成,复制剩余网络文件的50层网络(以及每层半数的过滤器)。你可以在这找到关于模型生成和训练的更多细节。

解密:人工智能如何鉴定色情图片?
请注意,更深度的网络,或拥有更多过滤器的网络可以提高准确性,我们用薄残余网络架构来构造模型,因为它在准确性方面提供了较好的权衡,并且该模型减轻了运行的负荷和占用内存的空间。

weinxin
我的微信
这是我的微信扫一扫
开拓者博主
  • 本文由 发表于 2016年10月20日08:15:59
  • 转载请务必保留本文链接:https://www.150643.com/377.html
匿名

发表评论

匿名网友 填写信息