国产一区二区在免费观看,亚洲黄无码一区二区三区97,国产一级毛

科大訊飛交卷，實(shí)測(cè)星火大模型

2023-05-09 09:07

作者 | 辰紋

來(lái)源 | 洞見(jiàn)新研社

星星之火，可以燎原。

5月6日，訊飛星火認(rèn)知大模型揭開(kāi)神秘面紗。

發(fā)布會(huì)上，科大訊飛董事長(zhǎng)劉慶峰、研究院院長(zhǎng)劉聰現(xiàn)場(chǎng)實(shí)測(cè)了星火大模型七大核心能力，并發(fā)布基于該大模型的教育、辦公、汽車和數(shù)字員工等多個(gè)領(lǐng)域的相關(guān)產(chǎn)品。

與此同時(shí)，劉慶峰還給出了訊飛星火的迭代時(shí)間表及每階段目標(biāo)：

第一階段：6月9日，突破開(kāi)放性問(wèn)答，如實(shí)時(shí)問(wèn)答；多輪對(duì)話能力再次升級(jí)；數(shù)學(xué)能力再上臺(tái)階；

第二階段：8月15日，突破代碼能力；多模態(tài)交互能力正式開(kāi)放給客戶；

第三階段：10月24日，在通用大模型領(lǐng)域?qū)?biāo)ChatGPT，其中中文能力超越后者，英文能力與后者相當(dāng)。

“當(dāng)前，在文本生成、知識(shí)問(wèn)答、數(shù)學(xué)能力三大能力上，訊飛星火認(rèn)知大模型已超ChatGPT”，劉慶峰表示，認(rèn)知大模型成為通用人工智能的曙光，科大訊飛有信心實(shí)現(xiàn)“智慧涌現(xiàn)”。

在星火認(rèn)知大模型之前，百度文心一言、華為盤古、阿里通義千問(wèn)、京東靈犀、商湯日日新等科技大廠的大模型先后發(fā)布，加上美團(tuán)聯(lián)合創(chuàng)始人王慧文、搜狗創(chuàng)始人王小川、出門問(wèn)問(wèn)創(chuàng)始人李志飛等科技大佬重出江湖，并且?guī)?dòng)了一批資金，也參與到大模型方向的再創(chuàng)業(yè)中，以至于有專業(yè)人士用“百模大戰(zhàn)”來(lái)形容當(dāng)前行業(yè)競(jìng)爭(zhēng)的激烈程度。

此時(shí)問(wèn)題來(lái)了，劉慶峰為何如此有信心，星火認(rèn)知大模型實(shí)力又到底如何，憑什么能夠超越ChatGPT，實(shí)現(xiàn)“智慧涌現(xiàn)”？

01到底行不行，結(jié)果說(shuō)話

光說(shuō)不練假把式，我們直接對(duì)星火認(rèn)知大模型進(jìn)行一場(chǎng)測(cè)試，驗(yàn)驗(yàn)“成色”，是否真如劉慶峰說(shuō)的那樣“對(duì)答如流”。

1、文本生成

發(fā)布會(huì)現(xiàn)場(chǎng)，劉聰展示了星火大模型的文本生成能力，不但可以現(xiàn)編“故事”，還會(huì)撰寫(xiě)新聞稿，然而，通過(guò)我們后續(xù)的測(cè)試發(fā)現(xiàn)，星火大模型的文本生成能力遠(yuǎn)遠(yuǎn)不止這兩項(xiàng)，根據(jù)場(chǎng)景的不同，還能衍生出更多的能力。

比如，可以請(qǐng)大模型擔(dān)任編輯助手，根據(jù)用戶提供的文本段落進(jìn)行修改并提出寫(xiě)作技巧上的改進(jìn)建議。

比如，請(qǐng)大模型幫忙潤(rùn)色群聊通知，甚至還可要求大模型加上emoji表情。

至于將口語(yǔ)轉(zhuǎn)換成書(shū)面語(yǔ)，或是與大模型進(jìn)行英文陪練，不在話下。

甚至要求大模型制作旅游指南，或是設(shè)計(jì)一份幼兒園大班體育游戲活動(dòng)的計(jì)劃，也能很好的完成任務(wù)。

點(diǎn)評(píng)：很顯然星火大模型的文本生成能力長(zhǎng)文本、短文本都能來(lái)者不拒，還具備多種風(fēng)格、多種任務(wù)、跨語(yǔ)言等能力，實(shí)測(cè)結(jié)果顯示，劉慶峰所說(shuō)這一功能“星火大模型在國(guó)內(nèi)明顯領(lǐng)先，并且在中文方面超過(guò)ChatGPT”并不是吹牛自大。

2、語(yǔ)言理解

理解問(wèn)題是解答的第一步，而中文又博大精深，星火大模型能準(zhǔn)確理解不同語(yǔ)境下的語(yǔ)義嗎？

我們先看看發(fā)布會(huì)現(xiàn)場(chǎng)的測(cè)試案例：“俗話說(shuō)，男子漢大丈夫，寧死不屈。但俗話又說(shuō)，男子漢大文夫，能屈能伸。這兩種說(shuō)法哪種是對(duì)的”？

然后追問(wèn)：“如果有個(gè)小伙子和女朋友吵架了，他是應(yīng)該寧死不屈還是能屈能伸”。

如果女朋友生氣時(shí)，說(shuō)隨便，在這個(gè)語(yǔ)境下，男朋友應(yīng)該怎么做呢？

對(duì)時(shí)下流行的熱點(diǎn)，星火大模型掌握的怎樣？

將問(wèn)題再深入一些，代入到心理治療的特定場(chǎng)景中，大模型又會(huì)給出怎樣的答案呢？

點(diǎn)評(píng)：由于有深厚的知識(shí)積累，訊飛星火大模型的情商和語(yǔ)義理解能力在很多情況下甚至超過(guò)了個(gè)別人類，這也是科大訊飛一貫以來(lái)的強(qiáng)項(xiàng)，表現(xiàn)突出并不意外。

3、數(shù)學(xué)能力

數(shù)理能力一定程度代表一個(gè)大模型的聰明程度，劉慶峰在發(fā)布會(huì)上就表示，訊飛星火大模型的數(shù)學(xué)能力很強(qiáng)，能夠達(dá)到ChatGPT的水平，現(xiàn)場(chǎng)測(cè)試中，劉聰出了一個(gè)計(jì)算三類花朵數(shù)量的題目，大模型用三元一次方程順利解出了答案。

這個(gè)問(wèn)題不算難，接著我們?cè)O(shè)計(jì)了一個(gè)根據(jù)“三個(gè)點(diǎn)的坐標(biāo)，如何計(jì)算三角形面積”的問(wèn)題，大模型除了給出正確答案外，還能解釋和列出具體的分步步驟，顯示格式也非常友好。

點(diǎn)評(píng)：數(shù)學(xué)能力是體現(xiàn)大模型通用水平的重要能力之一，而在統(tǒng)一大模型框架下也是非常難以實(shí)現(xiàn)的，大量測(cè)試證明ChatGPT在這一塊也很容易出錯(cuò)，因?yàn)椴皇谴蠹以瓉?lái)理解的規(guī)則性的輸入輸出（例如平常的直接調(diào)用計(jì)算器能力），而是在統(tǒng)一框架下用文本生成的方式來(lái)輸出每一個(gè)字符。

因此在這個(gè)框架之下也不是大家通常理解的難的數(shù)學(xué)題難做，簡(jiǎn)單的數(shù)學(xué)題就好做。整體來(lái)說(shuō)，星火大模型在解決綜合性數(shù)學(xué)問(wèn)題的效果上，目前是很領(lǐng)先的（綜合評(píng)價(jià)比ChatGPT 3.5效果好，差于GPT 4），但是在各類題型的整體覆蓋上，還要持續(xù)去優(yōu)化。

4、邏輯推理

邏輯推理與語(yǔ)義理解強(qiáng)關(guān)聯(lián)，科大訊飛在這方面繼續(xù)延續(xù)著自己的技術(shù)優(yōu)勢(shì)。

我們先用一個(gè)日常生活中不是很常見(jiàn)的促銷套路來(lái)探路，看看大模型能否理解其中的意思。

很可惜，大模型中了圈套，沒(méi)能識(shí)破文字陷阱，不過(guò)話說(shuō)回來(lái)，人類在這個(gè)問(wèn)題上，如果稍不注意，也會(huì)翻車，換位思考下，對(duì)大模型的疏漏也就可以理解了。

我們換一個(gè)經(jīng)典的“過(guò)河”推理問(wèn)題再測(cè)一次。

這次大模型的表現(xiàn)很棒，知無(wú)不言，言無(wú)不盡，回答的非常詳細(xì)。

接著，我們?cè)賳?wèn)一個(gè)“探寶”的推理問(wèn)題。

點(diǎn)評(píng)：星火大模型在邏輯推理上的表現(xiàn)整體不錯(cuò)，特別是一些復(fù)雜的推理問(wèn)題，表現(xiàn)出非常強(qiáng)的邏輯性，在這方面，大大強(qiáng)于一般人類的表現(xiàn)。

5、泛領(lǐng)域知識(shí)問(wèn)答

我們先來(lái)一個(gè)生活常識(shí)，鐵鍋炒菜能補(bǔ)鐵嗎？

再問(wèn)一個(gè)科學(xué)知識(shí)，為什么自拍總是比他拍更好看？哪個(gè)更接近自己真實(shí)的樣子？

如果將大模型模擬成一名育兒專家，將生活常識(shí)、科學(xué)知識(shí)等進(jìn)行融合，它又會(huì)如何作答呢？

再來(lái)一個(gè)有關(guān)文言文學(xué)習(xí)的提問(wèn)，模擬一個(gè)苦于學(xué)習(xí)文言文的高中生，向大模型求教有關(guān)文言文字句和語(yǔ)法的疏通，主要內(nèi)容，以及作者想要表達(dá)的含義和文字藝術(shù)之美。

點(diǎn)評(píng)：通過(guò)這項(xiàng)能力的展現(xiàn)，我們第一次了解到科大訊飛在泛領(lǐng)域知識(shí)數(shù)據(jù)上的積累完全不輸其他科技大廠，通過(guò)與文本生成能力相融合，形成了科大訊飛在中文能力上的特有優(yōu)勢(shì)，也使得大模型更加接近個(gè)人助手的形態(tài)。

6、代碼能力

在官方介紹中，星火認(rèn)知大模型不僅可以生成代碼，還可以修改、理解、編譯代碼，并且還具備Python、Java等多語(yǔ)言能力。

發(fā)布會(huì)現(xiàn)場(chǎng)，科大訊飛研究院院長(zhǎng)劉聰就演示了用Python生成一段簡(jiǎn)單代碼的能力，我們?cè)诤罄m(xù)測(cè)評(píng)中，星火大模型對(duì)找Bug以及類似數(shù)據(jù)抽取、條件篩選等方向的代碼生成的表現(xiàn)都還不錯(cuò)。

下面是要求星火大模型對(duì)一段代碼進(jìn)行修改與改良的實(shí)例。

我們請(qǐng)教了一名資深程序員，對(duì)星火大模型的上述工作進(jìn)行評(píng)價(jià)，星火大模型基本上完成了任務(wù)要求，經(jīng)程序員檢查，星火大模型在將boxes的數(shù)字轉(zhuǎn)換成整數(shù)的過(guò)程中還是存在小小的瑕疵，漏掉了path節(jié)點(diǎn)。

事實(shí)上，劉慶峰在發(fā)布會(huì)上也承認(rèn)星火大模型的代碼能力與ChatGPT相比，存在一定差距，下一步升級(jí)的重點(diǎn)功能也是這一塊。

大模型自己也說(shuō)：“我的代碼生成功能仍然有限，可能無(wú)法滿足復(fù)雜的業(yè)務(wù)需求”。

點(diǎn)評(píng)：目前星火認(rèn)知大模型對(duì)于簡(jiǎn)單的代碼問(wèn)題不大，但在涉及到一些復(fù)雜問(wèn)題，架構(gòu)時(shí)，則需保持警惕，其生成內(nèi)容只能作為參考，站在開(kāi)發(fā)者的角度，需要自行檢查代碼的正確性、可靠性和保密性等等。

02大模型競(jìng)速，落地為王

通過(guò)上文的實(shí)測(cè)，星火大模型的表現(xiàn)已經(jīng)很好的回答了文章開(kāi)頭的提問(wèn)，也確實(shí)具備與頭部大模型掰掰手腕的實(shí)力，在各項(xiàng)能力中，如劉慶峰所說(shuō)的，文本生成、知識(shí)問(wèn)答、數(shù)學(xué)能力這三項(xiàng)表現(xiàn)出有別于友商競(jìng)品的長(zhǎng)板。

除此之外，星火大模型的差異性還體現(xiàn)在商業(yè)化的落地實(shí)踐，表現(xiàn)出更強(qiáng)的進(jìn)攻性。

科大訊飛之所以能夠突然爆發(fā)，給到行業(yè)驚喜，其實(shí)是從誕生之時(shí)起就開(kāi)始進(jìn)行鋪墊了。

24年前，6個(gè)中科大在校學(xué)生喊出，“要把中文語(yǔ)音做到世界最好”，這也成了科大訊飛創(chuàng)業(yè)的初心。

2011年，科大訊飛承建語(yǔ)音及語(yǔ)言信息處理國(guó)家工程實(shí)驗(yàn)室，躋身人工智能“國(guó)家隊(duì)”，提出“讓機(jī)器像人一樣能聽(tīng)會(huì)說(shuō)。”

2014年，科大訊飛推出“訊飛超腦計(jì)劃”，明確提出：讓機(jī)器像人一樣能理解會(huì)思考。

2022年，又升級(jí)為“訊飛超腦2030計(jì)劃”，提出讓懂知識(shí)、善學(xué)習(xí)、能進(jìn)化的通用人工智能技術(shù)成為每個(gè)人未來(lái)發(fā)展的重要機(jī)會(huì)，讓機(jī)器人走進(jìn)家庭。

從學(xué)界到產(chǎn)屆，從輸入法到翻譯機(jī)，科大訊飛一直深耕于語(yǔ)音語(yǔ)義領(lǐng)域，繼而形成了對(duì)認(rèn)知智能的獨(dú)到理解和布局。

算法上，科大訊飛經(jīng)驗(yàn)豐富，尤其擅長(zhǎng)認(rèn)知智能，僅去年就獲得了常識(shí)閱讀理解挑戰(zhàn)賽OpenBookQA等13項(xiàng)世界冠軍，開(kāi)源了六個(gè)大類，超過(guò)40個(gè)通用領(lǐng)域的系列中文預(yù)訓(xùn)練語(yǔ)言模型。

數(shù)據(jù)上，在多年認(rèn)知智能系統(tǒng)研發(fā)推廣中積累了超過(guò)50TB的行業(yè)語(yǔ)料和每天超10億人次用戶交互的活躍應(yīng)用。

算力上，訊飛總部有自建的數(shù)據(jù)中心，在工程技術(shù)方面實(shí)現(xiàn)了百億參數(shù)大模型推理效率的近千倍加速，同時(shí)還與華為合作，大模型建立在安全可靠的國(guó)產(chǎn)算力平臺(tái)之上。

所以，星火大模型發(fā)布的時(shí)間雖然較晚，但技術(shù)儲(chǔ)備的時(shí)間卻非常的長(zhǎng)，繼而由模型到產(chǎn)品落地的速度反而跑到了前面。

對(duì)于當(dāng)前大模型的“涌現(xiàn)”，很多行業(yè)人士都旗幟鮮明的表率，大模型的應(yīng)用不應(yīng)只停留在人機(jī)對(duì)答的自我?jiàn)蕵?lè)，而應(yīng)與產(chǎn)業(yè)融合才能產(chǎn)生更大的價(jià)值。

劉慶峰也強(qiáng)調(diào)，“一個(gè)大模型系統(tǒng)到底好不好，首先要看它是不是能解決剛需、是不是真的有用，而不是一個(gè)簡(jiǎn)單的單點(diǎn)測(cè)試。”

因而星火大模型很大一個(gè)特點(diǎn)是，一方面不忌諱自己的缺陷和不足，勇于面向公眾大規(guī)模開(kāi)放，這也顯示出科大訊飛超強(qiáng)的技術(shù)自信。

另一方面，實(shí)現(xiàn)了大模型在應(yīng)用和產(chǎn)品層面的率先落地，通過(guò)學(xué)習(xí)機(jī)、智能辦公本、汽車座艙交互系統(tǒng)、訊飛聽(tīng)見(jiàn)、數(shù)字員工等一系列產(chǎn)品，打通了“大模型+產(chǎn)品”的生態(tài)閉環(huán)，在數(shù)據(jù)和模型之間形成正向反饋循環(huán)的“漣漪效應(yīng)”。

星火大模型落地的上述產(chǎn)品本身就擁有數(shù)量龐大的用戶群體，自然而然會(huì)產(chǎn)生大量數(shù)據(jù)，數(shù)據(jù)反饋給模型后，在“漣漪效應(yīng)”下，將推動(dòng)模型的迭代更新，變得越來(lái)越強(qiáng)。

星火大模型的率先落地，表面上看以提升用戶體驗(yàn)的方式，提高了訊飛產(chǎn)品的競(jìng)爭(zhēng)力，特別是像學(xué)習(xí)機(jī)和智能辦公本，幾乎變成了完全不同的產(chǎn)品，更深層次的影響或?qū)⒏淖冃袠I(yè)生產(chǎn)協(xié)同的行為模式。

03結(jié)語(yǔ)

科大訊飛是人工智能國(guó)家隊(duì)，自身也有非常強(qiáng)的AI標(biāo)簽，因而在擁抱大模型這件事情上，一定比像百度、華為這類擁有多條業(yè)務(wù)線，更多方向選擇的科技巨頭更加堅(jiān)定。

在中國(guó)率先實(shí)現(xiàn)“智慧涌現(xiàn)”之前，科大訊飛還得對(duì)照著人工智能紅利兌現(xiàn)的三大標(biāo)準(zhǔn)：“有沒(méi)有看得見(jiàn)摸得著的真實(shí)應(yīng)用案例，有沒(méi)有能夠規(guī)�；茝V應(yīng)用的產(chǎn)品，有沒(méi)有統(tǒng)計(jì)數(shù)據(jù)能夠證明的應(yīng)用成效”，繼續(xù)夯實(shí)科研、產(chǎn)品和服務(wù)這些基礎(chǔ)工作，這樣才能經(jīng)得住時(shí)間的考驗(yàn)，真正迎來(lái)星火燎原。

原文標(biāo)題 : 科大訊飛交卷，實(shí)測(cè)星火大模型