做题家卷疯了！高数考试正确率%，竞赛题成绩超过计算机博士

AI做题家卷疯了！高数考试正确率81%，竞赛题成绩超过计算机博士

萌风色来自奥菲斯
qubit |微信官方账号QbitAI

不知道因为高三数学考的不好，这是多少人的噩梦。

如果高数考的没有AI好，是不是更难接受？

没错，来自OpenAI的Codex在麻省理工学院的七门高等数学课程题目中取得了81.1%的正确率，是一个合适的麻省理工大学本科水平。

课程从初等微积分到微分方程、概率论、线性代数，题目形式包括计算，甚至绘图。

这件事最近上了微博热搜。

△“只有”得了81分，对AI的期望太高了吧？

现在，有来自谷歌的最新大新闻:

看来科技巨头们在培养“作为问题写手的AI”上达到了一个新的高度。

最新的AI出题者Google考了四门。

数学，数学竞赛考试，过去只有三个IMO金牌得主考了90分，普通计算机博士只能考40分左右。

至于其他AI写手，过去最好成绩也只有6.9分...

但这一次，谷歌的新AI得了50分，比计算机博士还高。

综合考试MMLU-STEM，包括数学、物理、电子工程和计算机科学。题的难度达到高中甚至大学的水平。

这次Google AI《满血版》也拿到了问题作者中的最高分，直接将分数提升了约20分。

小学数学题GSM8k，直接把分数提到了78分，相比之下GPT-3还是不及格(只有55分)。

甚至麻省理工学院的本科生和研究生选修固体化学、天文学、微分方程和狭义相对论等课程，谷歌的新AI可以回答200多个问题中近三分之一的问题。

最重要的是，与OpenAI凭借“编程技巧”取得数学高分的方法不同，Google AI这次走的是“像人一样思考”的道路——

就像一个文科生，只背书不做题，但是理工科解题技巧比较好。

值得一提的是，第一篇论文Lewkowycz还分享了一个论文中没有写的亮点:

看到这里，有些家长坐不住了。

在业内人士看来，光是语言模型，不需要硬编码算术、逻辑和代数，就能达到这种程度，这才是这项研究最神奇的地方。

那么，这是怎么做到的呢？

AI疯狂阅读arXiv上200万篇论文

Minerva是一个新的模型，由Pathway架构下的通用语言模型PaLM转化而来。

分别在80亿、600亿和5400亿参数手掌模型的基础上做进一步的训练。

密涅瓦的做操理念与抄本完全不同。

代码的方法是把每一道数学题都改写成编程题，然后通过写代码来求解。

而密涅瓦则疯狂的看论文，努力用理解自然语言的方式去理解数学符号。

在PaLM的基础上继续训练。新添加的数据集有三个部分:

主要有在arXiv上收集的200万篇学术论文，60GB的带有LaTeX公式的网页，以及少量在掌训阶段使用的文字。

通常情况下，NLP数据清理过程会删除所有符号，只保留纯文字，导致公式不完整。比如爱因斯坦著名的质能方程只有Emc2。

但谷歌这次保留了所有的公式，像明文一样经历了《变形金刚》的训练程序，让AI像理解语言一样理解符号。

与之前的语言模型相比，这也是Minerva在数学问题上表现更好的原因之一。

但是和擅长数学题的AI相比，Minerva的训练没有明确的底层数学结构，这带来了一个劣势，也带来了一个优势。

缺点就是AI可能会走错一步得到正确答案。

好处就是可以适应不同的学科。即使有些问题无法用形式化的数学语言表达，也可以结合自然语言理解能力来解决。

在AI的推理阶段，Minerva还结合了谷歌最近开发的多项新技术。

一、思维链思维链接提示是Google Brain团队在今年1月提出的。

具体来说，就是一边提问，一边给出一个循序渐进的回答例子来引导你。AI可以在做题时使用类似的思维过程，正确回答本来会错的问题。

然后是Google和MIT联合开发的scratch pad草稿纸方法，允许AI临时存储分步计算的中间结果。

最后还有多数投票多数投票法，今年3月才公布。

让AI多次回答同一个问题，选择出现频率最高的答案。

在使用了所有这些技术之后，Minerva带着5400亿个参数在各种测试集中到达SOTA。

即使是80亿参数的Minerva 版本在竞赛级数学题和MIT公开课题上也能达到GPT-3最新更新的达芬奇-002版本的水平。

说了这么多，Minerva具体能做什么话题？

谷歌也为此开放了一个样本集。让我们来看看。

物理化学无所不能，甚至机器学习。

在数学上，Minerva可以像人类一样一步一步计算数值，而不是直接暴力求解。

对于实际问题，可以列出自己的方程，进行简化。

甚至可以推导证明。

在物理学中，Minerva可以解决中性氮(Z = 7)基态电子的总自旋量子数等大学水平的问题。

生物和化学，Minerva也能凭借自己的语言理解能力做各种选择题。

以下哪种点突变对DNA序列形成的蛋白质没有负面影响？

下列哪一种是放射性元素？

以及天文学:为什么地球会有很强的磁场？

在机器学习方面，解释了“分布外样本检测”的具体含义，从而正确地给出了这个术语的另一种说法。

不过Minerva有时候也会犯一些低级错误，比如把等式两边的√去掉。

除此之外，Minerva还有8%的概率会出现推理过程错误但结果正确的“假阳性”情况，比如下面这个。

经过分析，团队发现错误的主要形式来自于计算错误和推理错误，只有一小部分来自于对问题含义的不正确理解以及错误被用于步骤等其他情况。

其中，计算误差可以通过访问外部计算器或Python解释器轻松解决，但其他类型的误差由于神经网络太大而难以调整。

综合来看，Minerva的表现让很多人感到意外，在评论区要求API(可惜谷歌目前没有公开计划)。

有网友认为，加入前几天让GPT三题解题准确率飙升61%的“哄-哄”解法，可以进一步提高GPT三题的准确率。

但笔者的回应是，哄骗法属于零样本学习，再强也未必不如四个例子的小样本学习。

也有网友提出，既然可以用来做题，是不是可以反过来用来做题？

事实上，麻省理工学院已经与OpenAI联手向大学生提问。

他们将人类的问题与人工智能的问题混合在一起，并要求学生做问卷调查。大家也很难分辨一个问题是不是来自AI。

总之，现在的情况，除了搞AI的都在忙着看这篇论文。

学生们期待着有一天用人工智能做作业。

老师们也很期待有一天用AI来试卷。

论文地址:
paper.pdf https://storage.googleapis.com/minerva-paper/minerva

演示地址:
https://minerva-demo.github.io/

相关论文:
思路链
https://arxiv.org/ABS/2201.11903
剪贴簿
https://arxiv.org/ABS/2112.00114[/br]

参考链接:
https://ai . Google blog . com/2022/06/Minerva-solving-quantitative-reasoning . html
https://twitter.com/bneyshabur/status/ 1542563148334596098
https://Twitter . com/alewkowycz/status/1542559176483823622

欢迎分享，转载请注明来源：聚客百科

原文地址: http://juke.outofmemory.cn/life/1297585.html

做题家卷疯了！高数考试正确率%，竞赛题成绩超过计算机博士

发表评论

评论列表（0条）