久久AV高潮AV无码AV喷吹,18禁黄网站禁片免费观看在线,欧美一级专区免费大片

百度、訊飛、阿里大模型高考作文挑戰(zhàn)：都不及格，還有的讀不懂題

2023-06-08 10:17

掛科的我，一下代表人類有了優(yōu)越感。

又到了一年一度的高考時(shí)間，作為6月份關(guān)注度最高的事情，每年的高考總是能夠引來各路大神關(guān)注，不少自認(rèn)文采出眾的網(wǎng)友，還會(huì)挑戰(zhàn)現(xiàn)場(chǎng)寫一篇高考作文，然后讓大家進(jìn)行評(píng)分。

不過，今年的高考作文整活，似乎因?yàn)槟承〇|西的出現(xiàn)而有了不一樣的結(jié)果。

是的，就是登上熱搜的AI高考作文，AI寫高考作文在去年其實(shí)就已經(jīng)有公司在嘗試，寫出來的文章從架構(gòu)到立意都相當(dāng)不錯(cuò)，即使是有著多年教學(xué)經(jīng)驗(yàn)的老教師，看了都直接打個(gè)高分。

看到這里，或許你已經(jīng)知道小雷想要整什么活了。沒錯(cuò)，作為AI測(cè)試大師的小雷（ID：leitech），決定拿今年的高考作文命題去考考國內(nèi)的各大AI，看看大家寫的作文水平到底如何？

當(dāng)然，除了國內(nèi)的AI，小雷也找來了一些海外的AI，看看這些“洋和尚”遇到中國高考，能不能整出一些新的花樣。

廢話不多說，讓我們直接來看看各家的作文都寫得怎么樣吧。

題目就一句話，能難倒AI嗎？

在今年的高考作文命題中，上海卷可能是最讓學(xué)生蒙圈的，上海卷的出題老師非常徹底的貫徹了“惜字如金”四個(gè)字，整個(gè)作文命題的描述加起來只有21個(gè)字：“一個(gè)人樂意去探索陌生世界，僅僅是因?yàn)楹闷嫘膯? ”，作為曾經(jīng)的高考生，小雷我是最怕遇到這種命題作文的，從網(wǎng)絡(luò)上的聲音來看，大家也是如此。

面對(duì)這種只有一句話描述的作文題目，AI又會(huì)如何去解讀并回答呢？

先來看看訊飛的星火大模型。

上海訊飛.png

圖源：雷科技

一篇標(biāo)準(zhǔn)的討論文，作為曾經(jīng)的文科生，小雷表示：“這個(gè)我熟”，從個(gè)人角度而言，訊飛星火給的這篇文章質(zhì)量是很高的，AI首先肯定了“好奇心”是人類探索陌生世界的一大原因，并且對(duì)“好奇心”如何驅(qū)動(dòng)我們?nèi)ヌ剿魑粗龀隽私忉尅?/p>

然后訊飛星火以此進(jìn)一步擴(kuò)展，提出了探索陌生世界并非僅僅是因?yàn)楹闷嫘�，并且從個(gè)人的成長、情感以及精神追求等方面進(jìn)行解讀，最后再用總結(jié)點(diǎn)題，我的評(píng)價(jià)就八個(gè)字：“有理有據(jù)，令人信服”。

唯一的問題是，文章的字?jǐn)?shù)似乎不到800字，從WPS給出的字?jǐn)?shù)統(tǒng)計(jì)來看是762個(gè)字（加上標(biāo)點(diǎn)符號(hào)），按照審稿規(guī)范，估計(jì)會(huì)扣掉一些分?jǐn)?shù) 。

接下來，我們有請(qǐng)通義千問來作答。

上海通義.png

圖源：雷科技

與訊飛星火不同，通義千問用了另一個(gè)角度來解答命題，在開頭同樣先對(duì)“好奇心”驅(qū)使我們探索未知世界這段話進(jìn)行了解析，然后再從社交需要、求知欲和探索欲等方面進(jìn)行解讀。

不過，在文章的倒數(shù)第二段，或許是出于對(duì)提問者的建議，通義千問加入了一段“安全提示”。雖然從內(nèi)容來說是沒有問題的，但是，如果將其作為高考作文來看，倒數(shù)第二段就看起來有點(diǎn)突兀了，審稿老師估計(jì)也會(huì)一臉懵逼，所以，即使前面寫得不錯(cuò)，也會(huì)因此而扣掉一些分?jǐn)?shù)。

下一個(gè)“作者”是百度的文心一言，看看它又會(huì)怎樣回答這個(gè)問題？

上海文心.png

圖源：雷科技

文心一言同樣選擇以討論文的形式來撰寫作文，當(dāng)然，這也是目前AI最擅長的文章類型。從內(nèi)容角度來說，文心一言的回答也是十分不錯(cuò)的，但是過多的段落和轉(zhuǎn)折詞，使得文章有點(diǎn)像“流水賬”。

不過在最后的立意點(diǎn)題上，文心一言給出的回答則更好一些，沒有局限于個(gè)人層面，而是擴(kuò)大到對(duì)其他個(gè)體的思考與包容中，給出了更宏大的立意。

接下來讓我們看看“洋和尚”的表現(xiàn)，首先是谷歌投資的Claude。

claude 上海.png

圖源：雷科技

首先從字?jǐn)?shù)上看，Claude恐怕就沒有合格，WPS的檢測(cè)結(jié)果顯示這篇文章的字?jǐn)?shù)為646，離800字還有一些距離。不過，從內(nèi)容上看，Claude確實(shí)是給出了不同于國產(chǎn)AI的解答，它從人類本身出發(fā)，以冒險(xiǎn)基因和進(jìn)取精神為核心，解讀了人類為什么要探索陌生世界。

從立意上來說，Claude或許是目前出場(chǎng)的AI中最高的，不僅僅是講到人類，更是將話題拓展到了文明的發(fā)展與延續(xù)、人類的未來等方面，讓人不禁有種“不明覺厲”的感覺。

不過，考慮到命題更多的是對(duì)個(gè)體想法的探索，雖然文章內(nèi)容不錯(cuò)，但是恐怕也拿不到滿分或是特別高的分?jǐn)?shù)。

最后，就讓我們來看看ChatGPT的回答吧，鑒于時(shí)間關(guān)系，小雷最終是在New Bing上得到的答復(fù)。

微軟上海.png

圖源：雷科技

不得不說，New Bing給出的文章是所有回答中最長的，字?jǐn)?shù)高達(dá)1144個(gè)，考慮到文科答卷的作文答題區(qū)大小，恐怕會(huì)超出限制，卷面分和文章本身的分?jǐn)?shù)都會(huì)因此大打折扣。

至于文章本身，New Bing選擇從人類本身去探討這個(gè)問題，然后分別從求知欲、創(chuàng)造欲、競(jìng)爭(zhēng)欲、自我實(shí)現(xiàn)等方面來討論人類為什么要探索陌生世界，立意方面也是與Claude相似，喜歡從人類角度來思考這個(gè)問題。

從這里其實(shí)就可以看出海內(nèi)外生成式AI在邏輯上的區(qū)別，在面對(duì)相同的問題時(shí)，海外的AI有時(shí)候會(huì)傾向于從一個(gè)更大的層面上去進(jìn)行解讀，而國內(nèi)的AI則更加扣題，選擇從個(gè)人角度出發(fā)進(jìn)行解讀。

我認(rèn)為兩者存在差異的原因主要有兩點(diǎn)：一是海外的訓(xùn)練數(shù)據(jù)與國內(nèi)的訓(xùn)練數(shù)據(jù)不同；二是對(duì)中文問題的理解不同，國內(nèi)的中文互聯(lián)網(wǎng)有著過去歷年的高考題目，所以AI在看到類似的題目時(shí)，會(huì)優(yōu)先與相近的數(shù)據(jù)進(jìn)行匹配，最終寫出一篇類似于高考作文的成品，而海外的AI則是將其看做對(duì)“人類探索陌生世界”問題的解讀，所以選擇從一個(gè)更廣泛的角度進(jìn)行回答。

至于哪個(gè)AI的文章更好，或許就因人而異了，喜歡科幻、喜歡宏大敘事的讀者，或許會(huì)更喜歡“洋和尚”的文章，從個(gè)人角度來說的話，國內(nèi)的AI則表現(xiàn)得更好一些。

作文命題二選一，AI能理解嗎？

在本次的高考作文中，北京卷是給出了兩個(gè)命題，考生可以二選一進(jìn)行作答，那么對(duì)于AI來說，它們遇到“選擇題”時(shí)，又會(huì)給出怎樣的回答呢？

首先是訊飛星火。

訊飛北京.png

圖源：雷科技

內(nèi)容來說是沒什么問題的，但是訊飛星火卻同時(shí)給出了兩篇文章，顯然是沒有意識(shí)到題目中的“任選一題”四個(gè)字的含義，而且從字?jǐn)?shù)上看，兩篇均為500字左右，加起來是滿足700字以上的要求了，但是單獨(dú)算得話，全都不及格。

那么通義千問呢？

通義北京.png

圖源：雷科技

問題同樣存在，一樣是寫了兩篇文章，一樣是五百字左右，基本上與訊飛星火犯了一樣的錯(cuò)誤。

文心北京.png

圖源：雷科技

國內(nèi)三巨頭里，目前來看只有文心一言正確理解了題意，從中選擇了“續(xù)航”為題目并撰寫了一篇文章，單就這一點(diǎn)來說，已經(jīng)是贏了。但是，具體到文章本身來說，過于簡(jiǎn)單且字?jǐn)?shù)僅400+，甚至比訊飛星火和通義千問還少，放到高考里基本上就是不合格的了。

再來看看兩個(gè)“洋和尚”表現(xiàn)如何，首先是Claude。

Claude 北京.png

圖源：雷科技

Claude也成功理解了題意，并且給出了自己的見解，從字?jǐn)?shù)上來看，居然是目前所有AI中最接近的，足足有625個(gè)字，而且文章也從“續(xù)航”本身的詞義，到人生、社會(huì)、科技等方面進(jìn)行了不同的解讀，總體而言更具有可讀性和連貫性，表現(xiàn)十分不錯(cuò)。

另一方面，New Bing則是給了我一個(gè)“驚喜”。

屏幕截圖 2023-06-07 213422.png

圖源：雷科技

是的，New Bing也理解了題意，但是它反過來問我想讓它選擇回答哪個(gè)問題，說實(shí)話挺樂的，而在我做出了選擇后，New Bing又給了我一篇900+字?jǐn)?shù)的文章。從文章內(nèi)容，結(jié)構(gòu)以及字?jǐn)?shù)要求來說，New Bing是在這個(gè)環(huán)節(jié)中表現(xiàn)最好的（如果忽略掉反問我如何選擇的話）。

而且，在測(cè)試過程中，New Bing還會(huì)提示“正在思考，請(qǐng)等待”的回答，然后我足足等了五分鐘都沒有下文（偷懶是吧？），最終在我的催促下，New Bing的文章才姍姍來遲，活脫脫上班想摸魚卻被老板抓現(xiàn)行的員工。

最后

AI寫高考作文，雖然本質(zhì)上是整活，但是也可以側(cè)面反映目前的各個(gè)平臺(tái)的AI技術(shù)能力如何。從以上兩個(gè)測(cè)試的表現(xiàn)來看，目前國內(nèi)理解能力最強(qiáng)的應(yīng)該是文心一言，畢竟是唯一能夠理解北京卷題意的AI，而在文章結(jié)構(gòu)和內(nèi)容來說，訊飛、文心、通義都差不多，不過訊飛的更像一篇普通作文。

至于海外的“洋和尚”，從表現(xiàn)來看確實(shí)是領(lǐng)先國內(nèi)AI平臺(tái)不少的，至少在提問的理解能力上要高出不少，但是因?yàn)槿狈鴥?nèi)中文互聯(lián)網(wǎng)的訓(xùn)練數(shù)據(jù)的原因，所有在遇到這些帶有“中國特色”的提問時(shí)，會(huì)選擇從普通提問的角度去解答。

總的來說，目前生成式AI還在快速發(fā)展，各家都有著獨(dú)特的優(yōu)點(diǎn)，同樣也存在一些問題，比如對(duì)文章的字?jǐn)?shù)要求總是無法正確理解等。但是，考慮到它們誕生的時(shí)間，已經(jīng)是相當(dāng)恐怖的學(xué)習(xí)效率了。

來源：雷科技

原文標(biāo)題 : 百度、訊飛、阿里大模型高考作文挑戰(zhàn)：都不及格，還有的讀不懂題

本地收藏打印推薦給朋友

聲明： 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載，目的在于信息傳遞，并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的，請(qǐng)聯(lián)系我們。