GPT-4考过MIT造假，三位教授联名「甩锅」！猪队友作弊，抢发论文|世界新资讯

新智元报道

编辑：桃子好困

【新智元导读】GPT-4考过MIT风波再爆大瓜。刚刚，MIT共同作者亲自澄清问题，竟因「猪队友」抢发，使用未经允许的数据集酿成大祸。

(资料图片仅供参考)

论文作者「官方打假」来了！

前段时间，GPT-4通过MIT数学本科考试，甚至拿了接近满分成绩引众多网友围观。

然而，这篇论文刚发布，就被同校学生爆出「数据集」有问题，结果并不准确。

没想到，爆料一出，AI界大佬LeCun、马库斯等纷纷出来发声。

今天，来自MIT的论文作者正式给出了解释。

让人大跌眼镜的是，作者之一的Iddo Drori，竟然是在没有得到其他人允许的情况下，擅自抢发了论文。

甚至有共同作者表示，自己是在周末外出旅行后，才得知论文已经发了。

而且，Iddo据称不仅「隐瞒」了自己实际采用的方法，而且在发表前就已经被告知，论文中还有问题没有修改……

声明全文

在6月15日，Iddo Drori在arXiv上发布了一份与麻省理工学院（MIT）几十门课程考试和作业数据相关的论文。

然而他这样做并没有得到许多共同作者的同意，尽管被告知在发表之前应该纠正一些问题。而且我们当中的一些人在周末外出旅行后，在6月18日星期天才得知论文已发。

在解决这个问题的过程中，我们发现，与Iddo Drori向我们和收集数据的学生传达的相反，Iddo没有得到所有导师的许可来收集构成论文主题的作业和考试题的数据集。

当论文在社交媒体上出现，并且Iddo未经任何人许可在网上发布数据样本时，一些课程导师才了解到这个数据集的存在，以及他们的课程材料被纳入其中。

这些都是正在通过机构渠道进行处理严重的问题，因此我们没有轻率地在公开场合对此进行声明，但我们认为解释为什么这篇论文不应该被发表并且必须被撤回是很重要的。

我们已要求Iddo从arXiv上撤回论文，并直接联系了arXiv，解释了这个情况。

我们想强调的是，在这篇论文中，所有学生作者都非常努力地工作，如果数据是经过同意收集的话，这篇本来可能是非常有趣和有价值的论文。已发表的论文的许多问题并不是学生的过错。

而且，GPT-4不能获得麻省理工学院学位。

网友：怕不是甩锅吧

对于这份声明，LeCun转发点评道，「感谢澄清」。

曾指出问题的Raunak Chowdhuri，也已经把更新进行了置顶。

不过，有网友指出，这篇论文的问题并不在于有没有「同意」发表，而是在于「方法」本身。

而现在看起来是，这些作者希望自己的名字出现在这篇可能会爆火的论文上，但又不希望承担出错之后的责任。

如果论文并没有被人「打假」，那么也不会有这篇所谓的「公开声明」——迫使其中一些作者与论文割席。

显然，作为论文的共同作者，你必须对你署名的工作质量负责。

也有网友表示：「这是我一生中见过最糟的替罪羊。」

有趣的是，除了论文「造假」被人抓包之后的急忙甩锅——我虽然署名了，但这个问题和我无关。此前在顶会IJCAI 2016上也出现了原理相似的一幕——在论文被接收后，疯狂拉人。

「作者X其实参与了，只不过我们没来得及写上。」

文章地址：http://ijcai-16-pc.blogspot.com/2016/04/the-increasing-practice-of-expanding-co.html

就在接收名单发送后的第二天，我们发现，有人试图向他们已被接受的论文里添加额外的合作者。我理解有时在论文提交后，可能会从同事那里得到非常重要的帮助，我们自己的研究组也偶尔这样做。但突然有50多篇论文都需要，就有些奇怪了。更令人惊讶的是，其中有很多人发现，他们不仅有一位被遗忘的合作者，而是有「多位」（有时多达4个）被遗忘的合作者。显然，谚语「成功有很多父母，而失败则无人问津」在这里得到了充分的体现。不过，我们在审稿期间每周都会备份截图，所以知道所有论文的原始作者。（这也是最终在接收名单上所呈现的）。

GPT-4攻破MIT考试

GPT-4在MIT考试中开挂这个结果一经公布，吸引了众多目光。

同样的测试，GPT-3.5搞定三分之一，而GPT-4全拿下了。

这张图表，便成为论文中最亮眼的那一部分。

6月15日，由MIT、波士顿大学，以及康奈尔大学的研究团队发表最新论文，展示了GPT-4在MIT考试中的能力。

论文地址：https://arxiv.org/pdf/2306.08997.pdf

论文中，研究人员自制了一个数据集，其中涵盖了4550个问题和解决方案。

这些包括，MIT数学系和EECS的学生获得本科学位的课程问题集、期中考试和期末考试。

具体如下：

研究人员从数据集中随机生成228个问题，不涉及已有图像和解决方案的问题。

然后，让5个最先进的语言模型模型一起参加了这场考试：GPT-4、GPT-3.5、StableVicuna-13B、LLaMA-30B和LLaMA-60B。

最终结果发现，经过调优后的GPT-4，拿到了100%的分数。而原始版本的GPT-4，没有经过任何调优，也拿下了90%的分数。

而具体调优过程，如结果图中所示，包括Few-shot+CoT+Self-critique+Experts。

每增加一个调优环节，GPT-4的能力也就跃升一步。

而这篇研究当时有争议的地方，就在于让GPT-4给自己打分。

研究团队在数据集上，微调GPT-4，给定问题Q，基准解S，和LLM的答案A，便使用GPT-4自动对模型响应进行了评分。

GPT-4给自己打满分，确实值得怀疑。

客座教授被指「抢发」论文

Iddo Drori

Iddo Drori是波士顿大学计算机科学实践副教授，麻省理工学院的客座副教授，以及哥伦比亚大学的兼职副教授。

此前曾是麻省理工学院EECS的讲师，康奈尔大学运筹学和信息工程学的客座副教授，以及纽约大学数据科学中心、Courant研究所和NYU Tandon的研究科学家和兼职教授。

他拥有计算机科学博士学位，并在斯坦福大学统计学领域进行过博士后研究。他还拥有组织行为学和创业管理的MBA学位，并拥有十年的工业研究和领导经验。

Iddo Drori的主要研究领域是机器学习、人工智能和计算机视觉，发表了70篇论文，被引用超过5200次，教授过35门计算机科学课程。

他是剑桥大学出版社出版的教材《深度学习的科学》的作者。他在计算机视觉会议上赢得过多项竞赛，并在机器学习会议上获得过多个最佳论文奖项。

而就在刚刚，有网友敏锐地发现：「Iddo现在不仅去掉了LinkedIn主页上『麻省理工学院客座教授』的头衔，而且他的客座职位似乎即将在这个月结束。」

三位共同作者

Armando Solar-Lezama

Armando Solar-Lezama是麻省理工学院的电气工程和计算机科学（EECS）教授，同时也是计算机科学与人工智能实验室（CSAIL）的副主任兼首席运营官。

他是由美国国家科学基金会（NSF）资助的Expeditions项目「通过代码理解世界」的首席项目负责人，并且还是一个创建交互式演示文稿的在线平台——playskript的创始人。

他的研究重点是程序合成。这是一个令人兴奋的研究领域，一方面，程序合成涉及使用自动推理和学习来帮助将更多自动化引入编程过程。另一方面，代码提供了一种独特的建模机制，因此程序合成可以在构建更可预测和稳健的学习系统方面发挥重要作用。

Tonio Buonassisi

Tonio Buonassisi是麻省理工学院的机械工程教授。他的研究主要集中在太阳能光伏和技术经济分析领域，在许多公司的技术发展中发挥了重要作用，因此获得了美国总统早期科学家和工程师奖（PECASE）、美国国家科学基金会职业奖（CAREER Award）和谷歌教师奖。

在MIT，Tonio Buonassisi是可持续发展加速材料实验室的负责人，领导可持续材料开发的研究工作。他还曾担任新加坡加速材料制造计划的创始主任。此外，他还共同创办了初创公司Xinterra以及非营利性组织Fraunhofer可持续能源系统中心。

Tonio Buonassisi在教育方面展现出了极高的热情和才能。他曾荣获麻省理工学院Everett Moore Baker杰出本科教学奖，他的教学影响不仅局限于课堂，还通过其OpenCourseware/YouTube光伏讲座系列获得了超过179,000次观看。他最近还制作了一系列名为「加速材料制造」的YouTube视频，重点关注人工智能在材料研究中的应用。

Yoon Kim

Yoon Kim是麻省理工学院（EECS/CSAIL）的助理教授。之前在哈佛大学获得计算机科学博士学位，导师是Alexander Rush。

他的研究兴趣包括：大规模模型的高效训练和部署、理解大语言模型的能力和限制、用符号机制控制和增强神经网络、计算和人类语言处理之间的联系。

变了味的研究

现在，GPT-4可以说是已经被推崇成了LLM领域的全新「基准」。

这种趋势一方面在迫使研究人员将自己的工作与其进行比较，另一方面又催生了相当一部分只为跟风和炒作的研究。

不仅如此，OpenAI在GPT-4技术报告中开创的「黑盒」方法，也被其他人纷纷效仿。

在HackerNews的讨论中，一位用户表示，机器学习已经不再是一个科学领域，而是变得像社会科学一样，建立在另一种不可证伪和不可重现的研究之上。

有媒体称，这次事件无疑是在人工智能领域树立了一个糟糕的先例，让大家对研究的真实性产生了质疑——互联网上有多少论文实际上是有问题的？

随着「基准」GPT-4开始涉足文章的撰写阶段，论文的质量预计还会有进一步下降。

参考资料：

https://people.csail.mit.edu/asolar/CoursesPaperStatement.pdf

GPT-4考过MIT造假，三位教授联名「甩锅」！猪队友作弊，抢发论文|世界新资讯

天天微动态丨各队FMVP次数：一豪门13次独占鳌头 绿军&公牛6次 有12队未破蛋

最后一页

GPT-4考过MIT造假，三位教授联名「甩锅」！猪队友作弊，抢发论文|世界新资讯

天天微动态丨各队FMVP次数：一豪门13次独占鳌头 绿军&公牛6次 有12队未破蛋

宏量营养素和微量营养素 宏量营养素 新要闻

非诚勿扰江苏卫视第八期陈圣和江盈_视频相关介绍简介

上交所中报预约时间出炉 康缘药业拔得头筹

云南省工商局企业查询信息系统_云南省工商局 焦点滚动

荣耀X50手机官宣7月5日发布，号称“十年登峰之作”

世界观焦点：能拉1.3吨的创富微卡 远程星享F1E vs长安跨越王X1 EV怎么选

世界速读：海博思创启动科创板IPO！储能系统业务年复合增长率219.27%！

端午假期上海迎客672.48万人次，实现旅游消费96.13亿元

虚假网络投资理财等三类电诈案件高发 热文

盈通显卡生产日期怎么看_盈通显卡

有机电致发光器件_对于有机电致发光器件简单介绍 世界快看点

环球即时：处事不惊的近义词_处事不惊

当前视讯！银川烧烤店燃气爆炸事故原因公布：擅自更换减压阀导致液化气快速泄漏引发爆炸

无线监控显示设备离线怎么回事

豪车疯狂卖，新能源车正回暖！比亚迪、特斯拉大放异彩！看这份投资报告，给你一份汽车行业的独家剖析

吉利新车亏电油耗4.55L/100km 秦PLUS DM-i接招吧 焦点热文

【天天新视野】支付宝怎么修改实名认证的名字_支付宝怎么修改实名认证

俄外交部：将对欧盟制裁俄记者作出回应

【焦点热闻】减重网红猝死背后：争议中的减重训练营

以迅应汛丨湖南省水利厅派出四个工作小组 赴强降雨地区加强技术指导-天天微动态

建筑基底面积怎么算公式 建筑基底面积怎么算_焦点报道

世界速递！西门子洗衣机怎么样放洗衣粉 西门子洗衣机怎么样

特展预告 | 经典与范式——平城实力和云冈时代

历时十八年阶梯式创新 甘肃旱地冬小麦育种获新突破

环球精选！贝尔：未退役时我始终把足球放在首位，没在高尔夫上花费太多时间

全球绿色转型和电气化进展趋缓

安理会举行乌克兰问题公开会 中国代表强调四点-全球快资讯

小飞象母婴店加盟_小飞象母婴店加盟费多少_电话及条件 每日聚焦

范望平_关于范望平的简介

热消息：广西医科大学研究生官网站_广西医科大学研究生官网首页

全球聚焦：二年级坏事变好事例句50字_二年级坏事变好事例句

天天观察：公司管理模式怎么写包括什么_公司管理模式怎么写

推进文旅与康养产业深度融合，康养旅游大有可为

邵阳市民政局开展安全自护演练进社区志愿服务活动

全球观焦点：关于非法出售增值税专用发票罪量刑标准规定

环球速讯：学校oa办公系统方案（学校oa办公系统怎么弄）

《银护3》7月7日上线流媒体，包括至高进化被囚禁片段 世界快资讯

世界视点！包粽子、扎艾草 潍坊市潍城区“我们的节日”传统民俗文化活动人气旺

天天热消息：湖南发布首批纺织行业新模式新业态典型案例 充分发挥“三品”标杆带动效应

158万突然变成22元！紧急提醒：近期高发

二进制的作用及应用_二进制的作用 速看

“行走河南·读懂中国”郑州文化旅游消费季（方特站）暨郑州方特暑期活动启动仪式成功举行

（图表）［财经·行情］纽约金价6月22日下跌|每日短讯

环球微速讯：信基沙溪(03603.HK)今日复牌

安全阵地前移 力量下沉镇村 我省基层应急管理改革在十堰破冰

胎儿在肚子里有规律的一跳一跳是怎么回事_后脑勺一跳一跳的疼是怎么回事-实时焦点

罗马诺：国米将阿斯皮利奎塔列入今夏引援目标，已与切尔西谈判

纳罕是什么意思 纳罕-全球时讯

天天微动态丨各队FMVP次数：一豪门13次独占鳌头绿军&公牛6次有12队未破蛋

天天微动态丨各队FMVP次数：一豪门13次独占鳌头绿军&公牛6次有12队未破蛋

宏量营养素和微量营养素宏量营养素新要闻

上交所中报预约时间出炉康缘药业拔得头筹

云南省工商局企业查询信息系统_云南省工商局焦点滚动

世界观焦点：能拉1.3吨的创富微卡远程星享F1E vs长安跨越王X1 EV怎么选

虚假网络投资理财等三类电诈案件高发热文

有机电致发光器件_对于有机电致发光器件简单介绍世界快看点

吉利新车亏电油耗4.55L/100km 秦PLUS DM-i接招吧焦点热文

以迅应汛丨湖南省水利厅派出四个工作小组赴强降雨地区加强技术指导-天天微动态

建筑基底面积怎么算公式建筑基底面积怎么算_焦点报道

世界速递！西门子洗衣机怎么样放洗衣粉西门子洗衣机怎么样

历时十八年阶梯式创新甘肃旱地冬小麦育种获新突破

安理会举行乌克兰问题公开会中国代表强调四点-全球快资讯

小飞象母婴店加盟_小飞象母婴店加盟费多少_电话及条件每日聚焦

《银护3》7月7日上线流媒体，包括至高进化被囚禁片段世界快资讯

世界视点！包粽子、扎艾草潍坊市潍城区“我们的节日”传统民俗文化活动人气旺

天天热消息：湖南发布首批纺织行业新模式新业态典型案例充分发挥“三品”标杆带动效应

二进制的作用及应用_二进制的作用速看

安全阵地前移力量下沉镇村我省基层应急管理改革在十堰破冰

纳罕是什么意思纳罕-全球时讯