訂閱
糾錯(cuò)
加入自媒體

AI大潮下,搭建本地大模型的成本在急速降低

2024-06-14 10:37
雷科技
關(guān)注

小白用戶也能自己搭建本地大模型。

edf9b18343874822816499dea064c5ae.jpg

誒,大伙有沒(méi)有發(fā)現(xiàn),這兩年的科技趨勢(shì),和以往幾年都不大相同。  

AI大模型,成為了科技圈的香餑餑。  

用戶需求的日益增長(zhǎng),推動(dòng)了AI技術(shù)的進(jìn)化。隨著大語(yǔ)言模型的應(yīng)用場(chǎng)景日益增多,它們開(kāi)始在我們的生活中扮演著越來(lái)越重要的角色。  

尤其是休閑娛樂(lè)和實(shí)際工作中,大語(yǔ)言模型的應(yīng)用變得越來(lái)越普遍。這些模型以其自然的語(yǔ)義能力、強(qiáng)大的數(shù)據(jù)處理能力和復(fù)雜任務(wù)的執(zhí)行效率,為用戶提供了前所未有的便利,甚至是以往人們不敢想象的數(shù)字陪伴感。  

不過(guò),隨著大語(yǔ)言模型的高速普及下,云端大模型的局限性逐漸顯現(xiàn)出來(lái)。 

006fbYi5gy1g55967pef2j30g40h83zw.jpg

  

連接緩慢,成本高昂,還有成為熱議話題的數(shù)據(jù)隱私問(wèn)題,沒(méi)有人可以輕易忽視。最重要的是,基于各種制度和倫理道德的云端審核制度,進(jìn)一步限制了大語(yǔ)言模型的自由。 

本地部署,似乎為我們指引了一條新的道路。 

隨著本地大模型的呼聲越來(lái)越高,今年Github和Huggingface上涌現(xiàn)出不少相關(guān)的項(xiàng)目。在多番研究后,我也順藤摸瓜,拿到了本地部署大模型的簡(jiǎn)單方法。 

So,本地部署對(duì)我們的AI體驗(yàn)來(lái)說(shuō),到底是錦上添花,還是史詩(shī)級(jí)增強(qiáng)? 

跟著小雷的腳步,一起來(lái)盤(pán)盤(pán)。 

本地大模型到底是個(gè)啥?  

開(kāi)始前,先說(shuō)點(diǎn)閑話。  

就是咋說(shuō)呢,可能有些讀者還是沒(méi)懂「本地大模型」的意思,也不知道這有啥意義。  

總而言之,言而總之。  

現(xiàn)階段比較火的大模型應(yīng)用,例如國(guó)外的ChatGPT、Midjourney等,還有國(guó)內(nèi)的文心一言、科大訊飛、KIWI這些,基本都是依賴云端服務(wù)器實(shí)現(xiàn)各種服務(wù)的AI應(yīng)用。

image.png

(圖源:文心一言)

 它們可以實(shí)時(shí)更新數(shù)據(jù),和搜索引擎聯(lián)動(dòng)整合,不用占用自家電腦資源,把運(yùn)算過(guò)程和負(fù)載全部都放在遠(yuǎn)端的服務(wù)器上,自己只要享受得到的結(jié)果就可以了。 

換句話說(shuō),有網(wǎng),它確實(shí)很牛逼。 

可一旦斷網(wǎng),這些依賴云端的AI服務(wù)只能在鍵盤(pán)上敲出「GG」。 

作為對(duì)比,本地大模型,自然是主打在設(shè)備本地實(shí)現(xiàn)AI智能化。 

除了不用擔(dān)心服務(wù)器崩掉帶來(lái)的問(wèn)題,還更有利于保護(hù)用戶的隱私。

006APoFYly1gok20yfp32g30dc0dcmyx.jpg

 

畢竟大模型運(yùn)行在自己的電腦上,那么訓(xùn)練數(shù)據(jù)就直接存在電腦里,肯定會(huì)比上傳到云端再讓服務(wù)器去計(jì)算來(lái)得安心一點(diǎn),更省去了各種倫理道德云端審核的部分。 

不過(guò),目前想要在自己的電腦上搭建本地大模型其實(shí)并不是一件容易的事情。 

較高的設(shè)備要求是原因之一,畢竟本地大模型需要把整個(gè)運(yùn)算過(guò)程和負(fù)載全部都放在自家的電腦上,不僅會(huì)占用你的電腦機(jī)能,更會(huì)使其長(zhǎng)時(shí)間在中高負(fù)載下運(yùn)行。

 其次嘛… 

從Github/Huggingface上琳瑯滿目的項(xiàng)目望去,要達(dá)成這一目標(biāo),基本都需要有編程經(jīng)驗(yàn)的,最起碼你要進(jìn)行很多運(yùn)行庫(kù)安裝后,在控制臺(tái)執(zhí)行一些命令行和配置才可以。 

別笑,這對(duì)基數(shù)龐大的網(wǎng)友來(lái)說(shuō)可真不容易。 

那么有沒(méi)有什么比較「一鍵式」的,只要設(shè)置運(yùn)行就可以開(kāi)始對(duì)話的本地應(yīng)用呢? 

還真有,Koboldcpp。

 工具用得好,小白也能搞定本地大模型

簡(jiǎn)單介紹一下,Koboldcpp是一個(gè)基于GGML/GGUF模型的推理框架,和llama.cpp的底層相同,均采用了純C/C++代碼,無(wú)需任何額外依賴庫(kù),甚至可以直接通過(guò)CPU來(lái)推理運(yùn)行。

image.png

(圖源:PygmalionAI Wiki) 

當(dāng)然,那樣的運(yùn)行速度會(huì)非常緩慢就是了。 

要使用Koboldcpp,需要前往Github下載自己所需的應(yīng)用版本。 

當(dāng)然,我也會(huì)把相對(duì)應(yīng)的度盤(pán)鏈接放出來(lái),方便各位自取。 

目前Koboldcpp有三個(gè)版本。

koboldcpp_cuda12:目前最理想的版本,只要有張GTX 750以上的顯卡就可以用,模型推理速度最快。

koboldcpp_rocm:適用于AMD顯卡的版本,基于AMD ROCm開(kāi)放式軟件棧,同規(guī)格下推理耗時(shí)約為N卡版本的3倍-5倍。

koboldcpp_nocuda:僅用CPU進(jìn)行推理的版本,功能十分精簡(jiǎn),即便如此同規(guī)格下推理耗時(shí)仍為N卡版本的10倍以上。

 image.png

(圖源:Github) 

打開(kāi)軟件后,首先可以關(guān)注一下Presets選項(xiàng)。

軟件首頁(yè)的Presets里,分為舊版N卡、新版N卡、A卡、英特爾顯卡等多種不同模式的選擇。

默認(rèn)情況下,不設(shè)置任何參數(shù)啟動(dòng)將僅使用CPU的OpenBLAS進(jìn)行快速處理和推理,運(yùn)行速度肯定是很慢的。

作為N卡用戶,我選用CuBLAS,該功能僅適用于Nvidia GPU,可以看到我的筆記本顯卡已經(jīng)被識(shí)別了出來(lái)。

屏幕截圖 2024-06-13 154007.png

(圖源:雷科技)

對(duì)于沒(méi)有Intel顯卡的用戶,可以使用CLblast,這是OPENCL推出的、可用于生產(chǎn)環(huán)境的開(kāi)源計(jì)算庫(kù),其最大的特征是更強(qiáng)調(diào)通用性,至于性能方面本人并沒(méi)有做過(guò)詳細(xì)測(cè)試。

另一個(gè)需要在主頁(yè)調(diào)節(jié)的部分是Context Size。

想要獲得更好的上下文體驗(yàn),最好將其調(diào)整至4096,當(dāng)然Size越大,能記住的上下文就越多,但是推理的速度也會(huì)受到顯著影響。 

屏幕截圖 2024-06-13 154706.png

(圖源:雷科技)

再往下,就是載入大模型的部分。

目前開(kāi)源大模型主要都在huggingface.co下載,沒(méi)有出海能力的話,也可以在國(guó)內(nèi)HF-Mirror鏡像站或是modelscope魔搭社區(qū)下載。

結(jié)合個(gè)人實(shí)際體驗(yàn),我推薦兩款不錯(cuò)的本地大模型:

CausalLM-7B

這是一款在LLaMA2的基礎(chǔ)上,基于Qwen 的模型權(quán)重訓(xùn)練的本地大模型,其最大的特征就是原生支持中文,顯卡內(nèi)存8G以下的用戶建議下載CausalLM-7B,8G以上的可以下載CausalLM-14B,效果更好。

image.png

(圖源:modelscope) 

MythoMax-L2-13B

原生語(yǔ)言為英語(yǔ)的大模型,特征是擁有較強(qiáng)的文學(xué)性,可以在要求下撰寫(xiě)出流暢且具有閱讀性的小說(shuō)文本,缺點(diǎn)是只能通過(guò)輸入英語(yǔ)來(lái)獲得理想的輸出內(nèi)容,建議普通消費(fèi)者使用MythoMax-L2-13B。

如果只是想使用大語(yǔ)言模型的話,其他部分不需要做調(diào)整,直接點(diǎn)擊啟動(dòng),你選擇的模型就可以在本地加載好了。 

一般來(lái)說(shuō),接下來(lái)你還得給大模型部署前端才能使用。 

不過(guò)Koboldcpp最大的特點(diǎn),就是在llama.cpp的基礎(chǔ)上,添加了一個(gè)多功能的Kobold API端口。 

這個(gè)端口,不僅提供了額外的格式支持、穩(wěn)定的擴(kuò)散圖像生成、不錯(cuò)的向后兼容性,甚至還有一個(gè)具有持久故事、編輯工具、保存格式、內(nèi)存、世界信息、作者注釋、人物、場(chǎng)景自定義功能的簡(jiǎn)化前端——Kobold Lite。 

大致上,界面就像這樣。

image.png

(圖源:雷科技)

功能也很簡(jiǎn)單。

人工智能、新會(huì)話就不用說(shuō)了,點(diǎn)擊上方的「場(chǎng)景」,就可以快速啟動(dòng)一個(gè)新的對(duì)話場(chǎng)景,或是加載對(duì)應(yīng)角色卡。

image.png

(圖源:雷科技) 

像這樣,加載你擁有的AI對(duì)話情景。

「保存/加載」也很一目了然,可以把你當(dāng)前的對(duì)話保存下來(lái),隨時(shí)都能加載并繼續(xù)。

「設(shè)置」中,你可以調(diào)節(jié)一些AI對(duì)話的選項(xiàng)。

image.png

(圖源:雷科技) 

其中,Temperature代表著對(duì)話的隨機(jī)性,數(shù)值越高,生成的對(duì)話也就會(huì)越不可控,甚至可能超出角色設(shè)定的范圍。

Repetition Penalty. 可以抑制對(duì)話的重復(fù)性,讓AI減少重復(fù)的發(fā)言。 

Amount to Gen.是生成的對(duì)話長(zhǎng)度上限,上限越長(zhǎng),所需時(shí)間也會(huì)更長(zhǎng),重點(diǎn)是在實(shí)際體驗(yàn)中,過(guò)高的生成上限會(huì)導(dǎo)致AI胡言亂語(yǔ),個(gè)人并不建議把這個(gè)值拉到240以上。

Max Ctx. Tokens. 是能給大模型反饋的關(guān)鍵詞上限,數(shù)據(jù)越高,前后文關(guān)系越緊密,生成速度也會(huì)隨之變慢。

完成設(shè)置后,就可以和todd howard來(lái)場(chǎng)酣暢淋漓的對(duì)話了。

image.png

(圖源:雷科技) 

聊不下去了? 

點(diǎn)擊左下角的聊天工具,可以讓大模型根據(jù)你的前文自動(dòng)生成答復(fù)來(lái)推進(jìn)對(duì)話。 

image.png

(圖源:雷科技)

 

回答錯(cuò)了,或是對(duì)話走向不如人意? 

點(diǎn)擊右下角的聊天工具,不僅可以讓你重復(fù)生成AI問(wèn)答,甚至還能自己出手編輯回復(fù)以確保對(duì)話走向不跑偏。

 

image.png

 

當(dāng)然,除了對(duì)話以外,Kobold Lite還有更多可能性。

你可以將它和AI語(yǔ)音、AI繪圖的端口連接在一起,這樣在對(duì)話的同時(shí),可以自動(dòng)調(diào)用AI語(yǔ)言為生成的文本進(jìn)行配音,也可以隨時(shí)調(diào)用AI繪圖來(lái)畫(huà)出當(dāng)前二人交談的場(chǎng)景。

新建項(xiàng)目.jpg

 

在此之上,你甚至可以使用更高階的SillyTarven前端,來(lái)實(shí)現(xiàn)GIF、HTML內(nèi)容在對(duì)話中的植入。

當(dāng)然這些,都是后話了。

 總結(jié) 

好,部署本地大模型的教程就到這了。 

文章里面提到的軟件和大模型,我都已經(jīng)傳到百度網(wǎng)盤(pán)里了,感興趣的讀者可以自取。 

就我這大半年的體驗(yàn)來(lái)看,目前本地大模型的特征還是「可玩性強(qiáng)」

src=http___c-ssl.duitang.com_uploads_item_202004_06_20200406030636_HQmZB.jpg&refer=http___c-ssl.duitang.jpg

 

只要你的配置足夠,你完全可以把大語(yǔ)言模型、AI語(yǔ)音、AI繪圖和2D數(shù)字人連接在一起,搭建起屬于自己的本地?cái)?shù)字人,看著在屏幕中栩栩如生的AI角色,多少讓人有種《serial experiments lain》那樣的恍惚感。 

不過(guò)這類(lèi)開(kāi)源大模型,通常數(shù)據(jù)都會(huì)比較滯后,因此在專業(yè)性知識(shí)上會(huì)有比較明顯的欠缺,實(shí)測(cè)大部分知識(shí)庫(kù)都是到2022年中旬為止,也沒(méi)有任何調(diào)用外部網(wǎng)絡(luò)資源的辦法,輔助辦公、查閱資料時(shí)會(huì)遇到很大的局限性。 

在我看來(lái),理想的大語(yǔ)言模型體驗(yàn)應(yīng)該是端云互動(dòng)的。

即我可以在本地,利用自己的大模型建立自己的知識(shí)庫(kù),但是需要用到時(shí)效性信息的時(shí)候,又能借助互聯(lián)網(wǎng)的力量獲取最新資訊,這樣既可以保護(hù)個(gè)人資料的隱私性,也算是有效解決了開(kāi)源大模型信息滯后的問(wèn)題。 

至于本地角色交流這塊,如果大家感興趣的話…… 

要不,我把雷科技的角色卡給整出來(lái)?

來(lái)源:雷科技

       原文標(biāo)題 : AI大潮下,搭建本地大模型的成本在急速降低

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)