AI大潮下,搭建本地大模型的成本在急速降低
誒,大伙有沒(méi)有發(fā)現(xiàn),這兩年的科技趨勢(shì),和以往幾年都不大相同。
AI大模型,成為了科技圈的香餑餑。
用戶需求的日益增長(zhǎng),推動(dòng)了AI技術(shù)的進(jìn)化。隨著大語(yǔ)言模型的應(yīng)用場(chǎng)景日益增多,它們開(kāi)始在我們的生活中扮演著越來(lái)越重要的角色。
尤其是休閑娛樂(lè)和實(shí)際工作中,大語(yǔ)言模型的應(yīng)用變得越來(lái)越普遍。這些模型以其自然的語(yǔ)義能力、強(qiáng)大的數(shù)據(jù)處理能力和復(fù)雜任務(wù)的執(zhí)行效率,為用戶提供了前所未有的便利,甚至是以往人們不敢想象的數(shù)字陪伴感。
不過(guò),隨著大語(yǔ)言模型的高速普及下,云端大模型的局限性逐漸顯現(xiàn)出來(lái)。
連接緩慢,成本高昂,還有成為熱議話題的數(shù)據(jù)隱私問(wèn)題,沒(méi)有人可以輕易忽視。最重要的是,基于各種制度和倫理道德的云端審核制度,進(jìn)一步限制了大語(yǔ)言模型的自由。
本地部署,似乎為我們指引了一條新的道路。
隨著本地大模型的呼聲越來(lái)越高,今年Github和Huggingface上涌現(xiàn)出不少相關(guān)的項(xiàng)目。在多番研究后,我也順藤摸瓜,拿到了本地部署大模型的簡(jiǎn)單方法。
So,本地部署對(duì)我們的AI體驗(yàn)來(lái)說(shuō),到底是錦上添花,還是史詩(shī)級(jí)增強(qiáng)?
跟著小雷的腳步,一起來(lái)盤(pán)盤(pán)。
本地大模型到底是個(gè)啥?
開(kāi)始前,先說(shuō)點(diǎn)閑話。
就是咋說(shuō)呢,可能有些讀者還是沒(méi)懂「本地大模型」的意思,也不知道這有啥意義。
總而言之,言而總之。
現(xiàn)階段比較火的大模型應(yīng)用,例如國(guó)外的ChatGPT、Midjourney等,還有國(guó)內(nèi)的文心一言、科大訊飛、KIWI這些,基本都是依賴云端服務(wù)器實(shí)現(xiàn)各種服務(wù)的AI應(yīng)用。
(圖源:文心一言)
它們可以實(shí)時(shí)更新數(shù)據(jù),和搜索引擎聯(lián)動(dòng)整合,不用占用自家電腦資源,把運(yùn)算過(guò)程和負(fù)載全部都放在遠(yuǎn)端的服務(wù)器上,自己只要享受得到的結(jié)果就可以了。
換句話說(shuō),有網(wǎng),它確實(shí)很牛逼。
可一旦斷網(wǎng),這些依賴云端的AI服務(wù)只能在鍵盤(pán)上敲出「GG」。
作為對(duì)比,本地大模型,自然是主打在設(shè)備本地實(shí)現(xiàn)AI智能化。
除了不用擔(dān)心服務(wù)器崩掉帶來(lái)的問(wèn)題,還更有利于保護(hù)用戶的隱私。
畢竟大模型運(yùn)行在自己的電腦上,那么訓(xùn)練數(shù)據(jù)就直接存在電腦里,肯定會(huì)比上傳到云端再讓服務(wù)器去計(jì)算來(lái)得安心一點(diǎn),更省去了各種倫理道德云端審核的部分。
不過(guò),目前想要在自己的電腦上搭建本地大模型其實(shí)并不是一件容易的事情。
較高的設(shè)備要求是原因之一,畢竟本地大模型需要把整個(gè)運(yùn)算過(guò)程和負(fù)載全部都放在自家的電腦上,不僅會(huì)占用你的電腦機(jī)能,更會(huì)使其長(zhǎng)時(shí)間在中高負(fù)載下運(yùn)行。
其次嘛…
從Github/Huggingface上琳瑯滿目的項(xiàng)目望去,要達(dá)成這一目標(biāo),基本都需要有編程經(jīng)驗(yàn)的,最起碼你要進(jìn)行很多運(yùn)行庫(kù)安裝后,在控制臺(tái)執(zhí)行一些命令行和配置才可以。
別笑,這對(duì)基數(shù)龐大的網(wǎng)友來(lái)說(shuō)可真不容易。
那么有沒(méi)有什么比較「一鍵式」的,只要設(shè)置運(yùn)行就可以開(kāi)始對(duì)話的本地應(yīng)用呢?
還真有,Koboldcpp。
工具用得好,小白也能搞定本地大模型
簡(jiǎn)單介紹一下,Koboldcpp是一個(gè)基于GGML/GGUF模型的推理框架,和llama.cpp的底層相同,均采用了純C/C++代碼,無(wú)需任何額外依賴庫(kù),甚至可以直接通過(guò)CPU來(lái)推理運(yùn)行。
(圖源:PygmalionAI Wiki)
當(dāng)然,那樣的運(yùn)行速度會(huì)非常緩慢就是了。
要使用Koboldcpp,需要前往Github下載自己所需的應(yīng)用版本。
當(dāng)然,我也會(huì)把相對(duì)應(yīng)的度盤(pán)鏈接放出來(lái),方便各位自取。
目前Koboldcpp有三個(gè)版本。
koboldcpp_cuda12:目前最理想的版本,只要有張GTX 750以上的顯卡就可以用,模型推理速度最快。
koboldcpp_rocm:適用于AMD顯卡的版本,基于AMD ROCm開(kāi)放式軟件棧,同規(guī)格下推理耗時(shí)約為N卡版本的3倍-5倍。
koboldcpp_nocuda:僅用CPU進(jìn)行推理的版本,功能十分精簡(jiǎn),即便如此同規(guī)格下推理耗時(shí)仍為N卡版本的10倍以上。
(圖源:Github)
打開(kāi)軟件后,首先可以關(guān)注一下Presets選項(xiàng)。
軟件首頁(yè)的Presets里,分為舊版N卡、新版N卡、A卡、英特爾顯卡等多種不同模式的選擇。
默認(rèn)情況下,不設(shè)置任何參數(shù)啟動(dòng)將僅使用CPU的OpenBLAS進(jìn)行快速處理和推理,運(yùn)行速度肯定是很慢的。
作為N卡用戶,我選用CuBLAS,該功能僅適用于Nvidia GPU,可以看到我的筆記本顯卡已經(jīng)被識(shí)別了出來(lái)。
(圖源:雷科技)
對(duì)于沒(méi)有Intel顯卡的用戶,可以使用CLblast,這是OPENCL推出的、可用于生產(chǎn)環(huán)境的開(kāi)源計(jì)算庫(kù),其最大的特征是更強(qiáng)調(diào)通用性,至于性能方面本人并沒(méi)有做過(guò)詳細(xì)測(cè)試。
另一個(gè)需要在主頁(yè)調(diào)節(jié)的部分是Context Size。
想要獲得更好的上下文體驗(yàn),最好將其調(diào)整至4096,當(dāng)然Size越大,能記住的上下文就越多,但是推理的速度也會(huì)受到顯著影響。
(圖源:雷科技)
再往下,就是載入大模型的部分。
目前開(kāi)源大模型主要都在huggingface.co下載,沒(méi)有出海能力的話,也可以在國(guó)內(nèi)HF-Mirror鏡像站或是modelscope魔搭社區(qū)下載。
結(jié)合個(gè)人實(shí)際體驗(yàn),我推薦兩款不錯(cuò)的本地大模型:
CausalLM-7B
這是一款在LLaMA2的基礎(chǔ)上,基于Qwen 的模型權(quán)重訓(xùn)練的本地大模型,其最大的特征就是原生支持中文,顯卡內(nèi)存8G以下的用戶建議下載CausalLM-7B,8G以上的可以下載CausalLM-14B,效果更好。
(圖源:modelscope)
MythoMax-L2-13B
原生語(yǔ)言為英語(yǔ)的大模型,特征是擁有較強(qiáng)的文學(xué)性,可以在要求下撰寫(xiě)出流暢且具有閱讀性的小說(shuō)文本,缺點(diǎn)是只能通過(guò)輸入英語(yǔ)來(lái)獲得理想的輸出內(nèi)容,建議普通消費(fèi)者使用MythoMax-L2-13B。
如果只是想使用大語(yǔ)言模型的話,其他部分不需要做調(diào)整,直接點(diǎn)擊啟動(dòng),你選擇的模型就可以在本地加載好了。
一般來(lái)說(shuō),接下來(lái)你還得給大模型部署前端才能使用。
不過(guò)Koboldcpp最大的特點(diǎn),就是在llama.cpp的基礎(chǔ)上,添加了一個(gè)多功能的Kobold API端口。
這個(gè)端口,不僅提供了額外的格式支持、穩(wěn)定的擴(kuò)散圖像生成、不錯(cuò)的向后兼容性,甚至還有一個(gè)具有持久故事、編輯工具、保存格式、內(nèi)存、世界信息、作者注釋、人物、場(chǎng)景自定義功能的簡(jiǎn)化前端——Kobold Lite。
大致上,界面就像這樣。
(圖源:雷科技)
功能也很簡(jiǎn)單。
人工智能、新會(huì)話就不用說(shuō)了,點(diǎn)擊上方的「場(chǎng)景」,就可以快速啟動(dòng)一個(gè)新的對(duì)話場(chǎng)景,或是加載對(duì)應(yīng)角色卡。
(圖源:雷科技)
像這樣,加載你擁有的AI對(duì)話情景。
「保存/加載」也很一目了然,可以把你當(dāng)前的對(duì)話保存下來(lái),隨時(shí)都能加載并繼續(xù)。
在「設(shè)置」中,你可以調(diào)節(jié)一些AI對(duì)話的選項(xiàng)。
(圖源:雷科技)
其中,Temperature. 代表著對(duì)話的隨機(jī)性,數(shù)值越高,生成的對(duì)話也就會(huì)越不可控,甚至可能超出角色設(shè)定的范圍。
Repetition Penalty. 可以抑制對(duì)話的重復(fù)性,讓AI減少重復(fù)的發(fā)言。
Amount to Gen.是生成的對(duì)話長(zhǎng)度上限,上限越長(zhǎng),所需時(shí)間也會(huì)更長(zhǎng),重點(diǎn)是在實(shí)際體驗(yàn)中,過(guò)高的生成上限會(huì)導(dǎo)致AI胡言亂語(yǔ),個(gè)人并不建議把這個(gè)值拉到240以上。
Max Ctx. Tokens. 是能給大模型反饋的關(guān)鍵詞上限,數(shù)據(jù)越高,前后文關(guān)系越緊密,生成速度也會(huì)隨之變慢。
完成設(shè)置后,就可以和todd howard來(lái)場(chǎng)酣暢淋漓的對(duì)話了。
(圖源:雷科技)
聊不下去了?
點(diǎn)擊左下角的聊天工具,可以讓大模型根據(jù)你的前文自動(dòng)生成答復(fù)來(lái)推進(jìn)對(duì)話。
(圖源:雷科技)
回答錯(cuò)了,或是對(duì)話走向不如人意?
點(diǎn)擊右下角的聊天工具,不僅可以讓你重復(fù)生成AI問(wèn)答,甚至還能自己出手編輯回復(fù)以確保對(duì)話走向不跑偏。
當(dāng)然,除了對(duì)話以外,Kobold Lite還有更多可能性。
你可以將它和AI語(yǔ)音、AI繪圖的端口連接在一起,這樣在對(duì)話的同時(shí),可以自動(dòng)調(diào)用AI語(yǔ)言為生成的文本進(jìn)行配音,也可以隨時(shí)調(diào)用AI繪圖來(lái)畫(huà)出當(dāng)前二人交談的場(chǎng)景。
在此之上,你甚至可以使用更高階的SillyTarven前端,來(lái)實(shí)現(xiàn)GIF、HTML內(nèi)容在對(duì)話中的植入。
當(dāng)然這些,都是后話了。
總結(jié)
好,部署本地大模型的教程就到這了。
文章里面提到的軟件和大模型,我都已經(jīng)傳到百度網(wǎng)盤(pán)里了,感興趣的讀者可以自取。
就我這大半年的體驗(yàn)來(lái)看,目前本地大模型的特征還是「可玩性強(qiáng)」。
只要你的配置足夠,你完全可以把大語(yǔ)言模型、AI語(yǔ)音、AI繪圖和2D數(shù)字人連接在一起,搭建起屬于自己的本地?cái)?shù)字人,看著在屏幕中栩栩如生的AI角色,多少讓人有種《serial experiments lain》那樣的恍惚感。
不過(guò)這類(lèi)開(kāi)源大模型,通常數(shù)據(jù)都會(huì)比較滯后,因此在專業(yè)性知識(shí)上會(huì)有比較明顯的欠缺,實(shí)測(cè)大部分知識(shí)庫(kù)都是到2022年中旬為止,也沒(méi)有任何調(diào)用外部網(wǎng)絡(luò)資源的辦法,輔助辦公、查閱資料時(shí)會(huì)遇到很大的局限性。
在我看來(lái),理想的大語(yǔ)言模型體驗(yàn)應(yīng)該是端云互動(dòng)的。
即我可以在本地,利用自己的大模型建立自己的知識(shí)庫(kù),但是需要用到時(shí)效性信息的時(shí)候,又能借助互聯(lián)網(wǎng)的力量獲取最新資訊,這樣既可以保護(hù)個(gè)人資料的隱私性,也算是有效解決了開(kāi)源大模型信息滯后的問(wèn)題。
至于本地角色交流這塊,如果大家感興趣的話……
要不,我把雷科技的角色卡給整出來(lái)?
來(lái)源:雷科技
原文標(biāo)題 : AI大潮下,搭建本地大模型的成本在急速降低
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車(chē)
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
推薦專題
- 1 Intel宣布40年來(lái)最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國(guó)產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣(mài)
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 7 國(guó)產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來(lái)
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市