根据OpenAI的研究主管Dario Amodei介绍,GPT-2的参数有15亿,是上一个版本GPT大小的12倍,训练数据集则扩大了15倍。 [原创文章:www.11jj.com]
[好文分享:www.11jj.com]
GPT-2在一个包含约1000万篇文章的数据集上进行训练,而这些文章来源是从Reddit上点赞超过三票的链接里爬出来的,大小是40GB,相当于3.5万本《白鲸记》(Moby Dick)。
实际上,GPT2就是一个自动文本生成器,但鉴于其训练数据量直接影响模型的性能,也使GPT2成为一个更加通用的语言生成模型,这也正是其第二个突破所在:相比以往的文本模型,GPT2能完成更多的任务,包括机器翻译、文本总结,以及阅读理解,而且有的时候,其性能还超过了专门为某种任务——比如阅读理解——构建的模型。
也正因如此,致使OpenAI违背其名称中宣扬的“Open”理念,不公开这个模型。“如果你无法预测模型能够做什么,你就不得不去做各种实验,但这个世界上有太多太多比我们更聪明更厉害,更善于拿这个模型去做坏事的人存在。”
OpenAI宣传主管Jack Clark在接受《卫报》采访时表示:“我们并不是说我们知道什么该做,我们也并不是在通过这种方法在表明这样做就是对的,我们还在探讨更严谨和谨慎的做法。我们算是摸着石头过河。”
OpenAI给出了其模型强大的例子,可以参见昨天新智元的报道。
网友观点:不公开代码和训练集就干脆别发表!
至于持反对观点的网友这边,很多人恰恰是因为了解模型在训练集和测试集上表现的区别,才纷纷反对OpenAI不公开全部代码和数据集的做法。
其次,OpenAI“担心AI研究太危险而不公开”的理由,也成了众矢之的。比如Denny Britz在Twitter上发文称:
大家好,小美今天来为大家解答太宗朝翻译以下问题,太宗尝谓中书今原文及翻译很多人还不知道,现在让我们一起来看看吧!1、太子太师(官名)
4月21日晚,福彩双色球第2024044期开奖,当期安徽省中得10注二等奖,单注奖金为187063元。合肥市彩民凭借一张20元机选单式票,喜中个中2注,拿下3
贵州人才引进教师招考2024年第十二届贵州人才博览会贵阳贵安事业单元单子引进高条理及急需紧缺人才通知雇用人数:752人教师岗雇用人数:391人报
河北省平安生产条例(2017年1月12日河北省第十二届人民代表大会第五次会议经由2024年3月28日河北省第十四届人民代表大会常务委员会第八次会议修订
当下互联网、人工智能快速成长,声音的记载、行使与流传的体式正履历着空前未有的厘革,声音与人格的关系变得愈发慎密,声音的行使价格愈发
“足” 梦黄中“追” 球将来黄湖镇中学第十届校园足球嘉韶华揭幕式将来“足”够出色以球润德、以球健体;以球启智、以球育美!4月24日下昼,
大家好,小丽今天来为大家解答买旧书去哪个网站好以下问题,有哪些买旧书的平台很多人还不知道,现在让我们一起来看看吧!1、最齐全的旧书网
大家好,小娟今天来为大家解答谦卑是什么意思和谦虚有区别吗以下问题,谦卑谦虚的意思很多人还不知道,现在让我们一起来看看吧!1、主要区别
Copyright 2024.依依自媒体,让大家了解更多图文资讯!