民主资讯网打造中国综合资讯第一站!|在线编辑QQ:|

广告投放 联系我们 网站地图
民主资讯网

民主资讯网

热门关键词:
民主资讯网

自我监督学习,能否成功填补深度学习的数据贪婪?

来源:网络整理 作者:民主资讯网 人气: 发布时间:2021-03-06
摘要:当前,深度学习如日中天,但深度学习不是万能的,而自我监督学习的基本思路,就是开发出一种能够填补当前空白的深度学习系统。

文/陈根
当前,以深度学习为代表的人工智能技术取得了飞速的发展,正落地应用于各行各业。但深度学习不是万能的,深度学习的局限性导致其在近几年的发展中进入了瓶颈。
一个明显的局限在于,深度学习需要大量的训练数据。可以说,尽管深度神经网络在许多任务中表现良好,但这些网络通常需要大量数据才能避免过度拟合。遗憾的是,许多场景无法获得大量数据,例如医学图像分析。就此,减少深度学习对数据的依赖性,已经成为AI研究人员最重要的探索方向之一。
自我监督学习的基本思路,就是开发出一种能够填补当前空白的深度学习系统。在自我监督学习系统里,只需要向其展示输入、文本、视频甚至是图像,而后剔除出其中一部分,由经过训练的神经网络或者人们选定的类或模型预测这些缺失的部分。预测对象可以是视频内容的后续走向,也可以是文本中缺少的词汇。
Transformers是目前最接近自我监督系统的架构,Transformers不需要标记数据,它们可以通过维基百科等资料进行大规模非结构化文本训练。而且事实证明,与之前的同类系统相比,Transformers在生成文本、组织对话以及建立回复内容方面拥有更好的表现。

自我监督学习,能否成功填补深度学习的数据贪婪?


近来,通过训练一个人工智能系统来处理10亿张Instagram上的未标记图片,Facebook的研究人员在自我监督学习方面取得了重大突破。
这个被称为“SEER”(自我监督)的模型被上传了10亿张公开的Instagram图片,这些图片此前并未被人工整理过。但即使没有通常用于算法训练的标签和注释,SEER也能够自主完成数据集中工作,并且在目标检测等任务上实现最高水平的准确性。
研究人员表示:“与现有的在ImageNet数据集上训练的计算机视觉的自监督模型相比,SEER是第一个可以随机训练互联网上图像上的完全自监督的计算机视觉模型。”这意味着,人类标记数据这项费时费力的工作有可能被解决。与此同时,不需要管理数据集,自我监督模型也可以与更大、更多样化的数据集一起工作。

责任编辑:民主资讯网
民主资讯网
民主资讯网

Copyright © 2012-2013民主资讯网 版权所有 Power by DedeCms 苏ICP备14047200号

本网部分内容来自网络,此类内容仅代表作者个人观点,与本网无关。出于传递更多信息之目的在此刊登,

并不意味着赞同其观点或证实其描述。 如发现错发、侵权等行为,请向在线编辑反应,本网将尽快删除。

未经本网书面特别授权,请勿转载或建立镜,像违者依法追究相关法律责任