图片 2

Google 对外开放图片过滤工具,用人工智能清理儿童侵犯内容

原标题:Facebook 利用 AI 识别表情包里的不当内容

9月3日, Google 通过官方博客宣布开放一项审查工具 Content Safety
API,这项技术能够帮助内容审查人员快速批量识别与儿童侵犯有关的图片,减少这些内容的曝光。

图片 1

福布斯近日撰文介绍了Facebook利用深度学习技术来全面了解用户的四种令人惊叹的方式,它们分别是文本分析、人脸识别、定向广告和设计AI应用程序。

API 将免费提供给 NGO
组织、科技公司等任何合作伙伴,包括任何提供内容的社交平台或者搜索引擎。Google
解释说这套算法的能力在于自我学习,让图片审查的速度和效率大幅度提高。

Facebook 的审查人员无法审核人们在平台上发布的每一张图片,因此 Facebook
希望通过人工智能来帮助他们。在一篇博客文章中,Facebook 介绍了一个名为
Rosetta
的系统,它可以利用机器学习来识别图像和视频中的文本,然后将其转录为机器可读的内容。特别地,Facebook
发现这个工具有助于在表情包上转录文本。

近年来,媒体对机器学习、深度学习等人工智能技术进行过不少的基本介绍。展开相关研究的企业也不在少数,那企业们实际上又是如何应用它们的呢?

目前的图片自动审查工具运行验证机制,依靠之前人类和机器标记过的图片,等于说首先要有一个图片库,后来的图片与其中的某些相似,才会被评判为违规。

文本转录工具并不是什么新鲜事,但 Facebook
却面临着不同的挑战,因为其平台量级巨大,以及其上的图像种类繁多。根据官方说法,Rosetta
现在已经上线,每天会从 Facebook 和 Instagram 上抓取 10
亿个图像和视频帧文本进行转录。

Facebook是通过了解它的用户和为广告主“包装”用户数据来展开业务的。而它从业务运营赚到的钱会重新投入到给用户提供有用的新功能,目前来说主要是提供视频和购物功能。接着,它还会利用这些功能服务来进一步了解用户。

这会带来识别范围的限制,Google 在文章中解释说,Content Safety API
的神经网络会自己学习与判断哪些图片涉嫌儿童性侵,而不需要与图库中的图片一一比对。

目前还不清楚 Facebook
正在对这些数据进行怎样的处理。文章指出,这对于照片搜索和屏幕阅读器等基本功能非常有用。但看起来
Facebook
也开始把它放在更大的目标上,比如弄清楚什么样的内容更吸引人,更重要的是,可以找出哪些表情包、图片或视频中存在仇恨、侮辱等不当言论。

随着该社交网络带给人们的通讯和对话交流方式被证明对我们很有价值,它成为了能够吸纳海量用户数据的“磁石”。那些数据涉及用户是谁、他们如何花费时间、他们喜欢什么等信息。对于Facebook从事数据挖掘工作的数据科学家们来说,挑战在于那些数据大部分都非常散乱,属于非结构化数据。

经过验证,Google 已经发现这套机制能让审查员发现比原本多 7 倍的违规图片。

Facebook表示,文本提取和机器学习正在被用于“自动识别违反我们的仇恨言论政策的内容”,而且该系统还支持多语言。鉴于
Facebook
众所周知的内容审核问题,一个能够自动标记可能有问题的图像的功能,对于
Facebook 来说应该会很有用。

图片 2

Google 推出这项举措正值自己被广受批评,上周英国外交大臣 Jeremy Hunt 在
Twitter 上说,“Google 宁愿考虑为中国过滤内容,也不愿意与英美等 5
眼联盟国家合作消除儿童侵犯内容。”

Facebook 利用 AI 识别表情包里的不当内容动点科技。返回搜狐,查看更多

虽然Facebook平台上12亿用户每分钟上传的照片数量达到13.6万张,更新的状态数量达到29.3万,但直至最近,Facebook只能够寄望从它少量的非结构化数据(不易被量化和放入图标进行计算机分析的信息)当中挖掘价值。

5 眼联盟(Five
Eyes)是一个国际情报分享团体,成员包括英国、美国、加拿大、澳洲和新西兰 5
个国家。上周该联盟还开了会,发表一份联合声明呼吁科技公司需协助当局合法访问数据。

责任编辑:

深度学习正在帮助解决这一问题。深度学习技术使得机器能够自行归类数据。一个简单的例子就是,深度学习图像分析工具懂得学习识别含有猫的图像,不需要被告知猫长得什么样。通过分析大量的图像,它能够从图像的背景学习到信息——如还有什么东西可能会出现在猫图中?什么文本或者元数据可能暗示图像含有猫?

Google 在清除不当内容上花费不小的成本,年初 YouTube 投入了人工智能技术和
1 万名审核员,来辨识和清理平台上的极端、不雅和暴力视频。

通过进行量化,以及方便分析工具获取深刻见解的形式呈现数据,这有助于结构化非结构化的数据。Facebook的研究者尝试回答这样的问题:公司的产品多经常出现在有猫的图像当中?我们是否该专注于向喜欢猫的人展示我们的广告吗?

图片和视频是相对更容易识别的内容形式,Facebook 和 Twitter
致力于清除的仇恨言论和虚假新闻似乎更难。今年在诘问数据泄露的听证会上,马克·
扎克伯格也说,关于怎样定义仇恨言论“很难回答”。

那一基本原理解释了为什么深度学习对Facebook有用,随着深度学习算法变得更加先进,它们能够被应用于更多我们所分享的数据,从文本到图片再到视频。

语言本身就是一项复杂的交流工具,涉嫌种族、性别、宗教等等冒犯性质的言论,在不同场景不同时间下可能会有完全不同的解读,之前的差异非常微妙。