訂閱
糾錯(cuò)
加入自媒體

2020十種常用機(jī)器學(xué)習(xí)算法總結(jié)

人工智能發(fā)展中,離不開(kāi)三個(gè)關(guān)鍵詞:算法、大數(shù)據(jù)、計(jì)算能力。

算法作為人工智能的核心內(nèi)容之一,直接影響系統(tǒng)的準(zhǔn)確度,算法的優(yōu)劣不僅影響了人工智能的發(fā)展,同時(shí)也決定了人工智能未來(lái)走向。

而在這一過(guò)程中,哪些算法影響了人工智能產(chǎn)業(yè)的發(fā)展?跟隨OFweek維科網(wǎng)編輯一起來(lái)看看吧。

1.線性回歸

線性回歸是利用數(shù)理統(tǒng)計(jì)中回歸分析,來(lái)確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法,運(yùn)用十分廣泛。其表達(dá)形式為y = w'x+e,e為誤差服從均值為0的正態(tài)分布。

回歸分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。

線性回歸是回歸分析中第一種經(jīng)過(guò)嚴(yán)格研究并在實(shí)際應(yīng)用中廣泛使用的類型。這是因?yàn)榫性依賴于其未知參數(shù)的模型比非線性依賴于其未知參數(shù)的模型更容易擬合,而且產(chǎn)生的估計(jì)的統(tǒng)計(jì)特性也更容易確定。

線性回歸模型經(jīng)常用最小二乘逼近來(lái)擬合,但他們也可能用別的方法來(lái)擬合,比如用最小化“擬合缺陷”在一些其他規(guī)范里(比如最小絕對(duì)誤差回歸),或者在橋回歸中最小化最小二乘損失函數(shù)的懲罰.相反,最小二乘逼近可以用來(lái)擬合那些非線性的模型.因此,盡管“最小二乘法”和“線性模型”是緊密相連的,但他們是不能劃等號(hào)的。

2.邏輯回歸

logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數(shù)據(jù)挖掘,疾病自動(dòng)診斷,經(jīng)濟(jì)預(yù)測(cè)等領(lǐng)域。例如,探討引發(fā)疾病的危險(xiǎn)因素,并根據(jù)危險(xiǎn)因素預(yù)測(cè)疾病發(fā)生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體征與生活方式等。因此因變量就為是否胃癌,值為“是”或“否”,自變量就可以包括很多了,如年齡、性別、飲食習(xí)慣、幽門(mén)螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類的。然后通過(guò)logistic回歸分析,可以得到自變量的權(quán)重,從而可以大致了解到底哪些因素是胃癌的危險(xiǎn)因素。同時(shí)根據(jù)該權(quán)值可以根據(jù)危險(xiǎn)因素預(yù)測(cè)一個(gè)人患癌癥的可能性。

logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。它們的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求參數(shù),其區(qū)別在于他們的因變量不同,多重線性回歸直接將w‘x+b作為因變量,即y =w‘x+b,而logistic回歸則通過(guò)函數(shù)L將w‘x+b對(duì)應(yīng)一個(gè)隱狀態(tài)p,p =L(w‘x+b),然后根據(jù)p 與1-p的大小決定因變量的值。如果L是logistic函數(shù),就是logistic回歸,如果L是多項(xiàng)式函數(shù)就是多項(xiàng)式回歸。

logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋,多類可以使用softmax方法進(jìn)行處理。實(shí)際中最為常用的就是二分類的logistic回歸。

3.決策樹(shù)

決策樹(shù)(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫(huà)成圖形很像一棵樹(shù)的枝干,故稱決策樹(shù)。在機(jī)器學(xué)習(xí)中,決策樹(shù)是一個(gè)預(yù)測(cè)模型,他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3, C4.5和C5.0生成樹(shù)算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。

決策樹(shù)是一種樹(shù)形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)代表一種類別。

分類樹(shù)(決策樹(shù))是一種十分常用的分類方法。它是一種監(jiān)督學(xué)習(xí),所謂監(jiān)督學(xué)習(xí)就是給定一堆樣本,每個(gè)樣本都有一組屬性和一個(gè)類別,這些類別是事先確定的,那么通過(guò)學(xué)習(xí)得到一個(gè)分類器,這個(gè)分類器能夠?qū)π鲁霈F(xiàn)的對(duì)象給出正確的分類。這樣的機(jī)器學(xué)習(xí)就被稱之為監(jiān)督學(xué)習(xí)。

4.支持向量機(jī)

支持向量機(jī)(Support Vector Machine, SVM)是一類按監(jiān)督學(xué)習(xí)(supervised learning)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器(generalized linear classifier),其決策邊界是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面(maximum-margin hyperplane) 。

SVM使用鉸鏈損失函數(shù)(hinge loss)計(jì)算經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk)并在求解系統(tǒng)中加入了正則化項(xiàng)以優(yōu)化結(jié)構(gòu)風(fēng)險(xiǎn)(structural risk),是一個(gè)具有稀疏性和穩(wěn)健性的分類器  。SVM可以通過(guò)核方法(kernel method)進(jìn)行非線性分類,是常見(jiàn)的核學(xué)習(xí)(kernel learning)方法之一  。

SVM被提出于1964年,在二十世紀(jì)90年代后得到快速發(fā)展并衍生出一系列改進(jìn)和擴(kuò)展算法,在人像識(shí)別、文本分類等模式識(shí)別(pattern recognition)問(wèn)題中有得到應(yīng)用。

5.樸素貝葉斯

樸素貝葉斯分類是一種十分簡(jiǎn)單的分類算法:對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。

樸素貝葉斯分類分為三個(gè)階段,1.根據(jù)具體情況確定特征屬性,并對(duì)每個(gè)特征屬性進(jìn)行適當(dāng)劃分,形成訓(xùn)練樣本集合2.計(jì)算每個(gè)類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個(gè)特征屬性劃分對(duì)每個(gè)類別的條件概率估計(jì)3.使用分類器對(duì)待分類項(xiàng)進(jìn)行分類。

6.K近鄰

K緊鄰算法的核心是未標(biāo)記樣本的類別,計(jì)算待標(biāo)記樣本和數(shù)據(jù)集中每個(gè)樣本的距離,取距離最近的k個(gè)樣本。待標(biāo)記的樣本所屬類別就由這k個(gè)距離最近的樣本投票產(chǎn)生,給定其測(cè)試樣本,基于某種距離度量找出訓(xùn)練集中與其最靠近的k個(gè)訓(xùn)練樣本,然后基于這k個(gè)“鄰居”的信息來(lái)進(jìn)行預(yù)測(cè)。

K緊鄰算法準(zhǔn)確性高,對(duì)異常值和噪聲有較高的容忍度,但計(jì)算量較大,對(duì)內(nèi)存的需求也較大。該算法主要應(yīng)用于文本分類、模式識(shí)別、圖像及空間分類。

7.聚類算法

聚類算法是機(jī)器學(xué)習(xí)中涉及對(duì)數(shù)據(jù)進(jìn)行分組的一種算法。在給定的數(shù)據(jù)集中,我們可以通過(guò)聚類算法將其分成一些不同的組。應(yīng)用中科利用聚類分析,通過(guò)將數(shù)據(jù)分組可以比較清晰的獲取到數(shù)據(jù)信息。該算法讓數(shù)據(jù)變得有意義,但存在結(jié)果難以解讀,針對(duì)不尋常的數(shù)據(jù)組,結(jié)果可能無(wú)用。

在商業(yè)領(lǐng)域中,聚類可以幫助市場(chǎng)分析人員從消費(fèi)者數(shù)據(jù)庫(kù)中區(qū)分出不同的消費(fèi)群體來(lái),并且概括出每一類消費(fèi)者的消費(fèi)模式或者說(shuō)習(xí)慣。

8.隨機(jī)森林

隨機(jī)森林是一種有監(jiān)督學(xué)習(xí)算法,基于決策樹(shù)為學(xué)習(xí)器的集成學(xué)習(xí)算法。隨機(jī)森林非常簡(jiǎn)單,易于實(shí)現(xiàn),計(jì)算開(kāi)銷也很小,但是它在分類和回歸上表現(xiàn)出非常驚人的性能,因此,隨機(jī)森林被譽(yù)為“代表集成學(xué)習(xí)技術(shù)水平的方法”。

隨機(jī)森林擁有廣泛的應(yīng)用前景,從市場(chǎng)營(yíng)銷到醫(yī)療保健保險(xiǎn),既可以用來(lái)做市場(chǎng)營(yíng)銷模擬的建模,統(tǒng)計(jì)客戶來(lái)源,保留和流失,也可用來(lái)預(yù)測(cè)疾病的風(fēng)險(xiǎn)和病患者的易感性。

9.降維算法

降維法(method of reduction dimensions)是一類優(yōu)選方法,用低維的概念去類比高維的概念.將高維的圖形轉(zhuǎn)化為低維的圖形的方法。縱橫對(duì)折法、等高線法、平行線法等都是降維法。

降維法是把一個(gè)多因素問(wèn)題轉(zhuǎn)化成一個(gè)較少因素(降低問(wèn)題的維數(shù))問(wèn)題,而且較容易進(jìn)行合理安排,找到最優(yōu)點(diǎn)或近似最優(yōu)點(diǎn),以期達(dá)到滿意的試驗(yàn)結(jié)果的方法。主要類型有縱橫對(duì)折法、等高線法和平行線法。

10.AdaBoost

Adaboost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。

Boosting,也稱為增強(qiáng)學(xué)習(xí)或提升法,是一種重要的集成學(xué)習(xí)技術(shù),能夠?qū)㈩A(yù)測(cè)精度僅比隨機(jī)猜度略高的弱學(xué)習(xí)器增強(qiáng)為預(yù)測(cè)精度高的強(qiáng)學(xué)習(xí)器,這在直接構(gòu)造強(qiáng)學(xué)習(xí)器非常困難的情況下,為學(xué)習(xí)算法的設(shè)計(jì)提供了一種有效的新思路和新方法。作為一種元算法框架,Boosting幾乎可以應(yīng)用于所有目前流行的機(jī)器學(xué)習(xí)算法以進(jìn)一步加強(qiáng)原算法的預(yù)測(cè)精度,應(yīng)用十分廣泛,產(chǎn)生了極大的影響。而AdaBoost正是其中最成功的代表,被評(píng)為數(shù)據(jù)挖掘十大算法之一。

在AdaBoost提出至今的十幾年間,機(jī)器學(xué)習(xí)領(lǐng)域的諸多知名學(xué)者不斷投入到算法相關(guān)理論的研究中去,扎實(shí)的理論為AdaBoost算法的成功應(yīng)用打下了堅(jiān)實(shí)的基礎(chǔ)。AdaBoost的成功不僅僅在于它是一種有效的學(xué)習(xí)算法,還在于1)它讓Boosting從最初的猜想變成一種真正具有實(shí)用價(jià)值的算法;2)算法采用的一些技巧,如:打破原有樣本分布,也為其他統(tǒng)計(jì)學(xué)習(xí)算法的設(shè)計(jì)帶來(lái)了重要的啟示;3)相關(guān)理論研究成果極大地促進(jìn)了集成學(xué)習(xí)的發(fā)展。

對(duì)adaBoost算法的研究以及應(yīng)用大多集中于分類問(wèn)題,同時(shí)也出現(xiàn)了一些在回歸問(wèn)題上的應(yīng)用。就其應(yīng)用adaBoost系列主要解決了: 兩類問(wèn)題、多類單標(biāo)簽問(wèn)題、多類多標(biāo)簽問(wèn)題、大類單標(biāo)簽問(wèn)題、回歸問(wèn)題。它用全部的訓(xùn)練樣本進(jìn)行學(xué)習(xí)。

小結(jié)

算法是計(jì)算機(jī)科學(xué)領(lǐng)域最重要的基石之一,當(dāng)下需要處理的信息量是呈指數(shù)級(jí)的增長(zhǎng),每人每天都會(huì)創(chuàng)造出大量數(shù)據(jù),無(wú)論是三維圖形、海量數(shù)據(jù)處理、機(jī)器學(xué)習(xí)、語(yǔ)音識(shí)別,都需要極大的計(jì)算量,在AI時(shí)代越來(lái)越多的挑戰(zhàn)需要靠卓越的算法來(lái)解決。

聲明: 本網(wǎng)站所刊載信息,不代表OFweek觀點(diǎn)?帽菊靖寮,務(wù)經(jīng)書(shū)面授權(quán)。未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制、翻譯及建立鏡像,違者將依法追究法律責(zé)任。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)