訂閱
糾錯
加入自媒體

2020十種常用機器學習算法總結

人工智能發(fā)展中,離不開三個關鍵詞:算法、大數(shù)據(jù)、計算能力。

算法作為人工智能的核心內容之一,直接影響系統(tǒng)的準確度,算法的優(yōu)劣不僅影響了人工智能的發(fā)展,同時也決定了人工智能未來走向。

而在這一過程中,哪些算法影響了人工智能產業(yè)的發(fā)展?跟隨OFweek維科網編輯一起來看看吧。

1.線性回歸

線性回歸是利用數(shù)理統(tǒng)計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法,運用十分廣泛。其表達形式為y = w'x+e,e為誤差服從均值為0的正態(tài)分布。

回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。

線性回歸是回歸分析中第一種經過嚴格研究并在實際應用中廣泛使用的類型。這是因為線性依賴于其未知參數(shù)的模型比非線性依賴于其未知參數(shù)的模型更容易擬合,而且產生的估計的統(tǒng)計特性也更容易確定。

線性回歸模型經常用最小二乘逼近來擬合,但他們也可能用別的方法來擬合,比如用最小化“擬合缺陷”在一些其他規(guī)范里(比如最小絕對誤差回歸),或者在橋回歸中最小化最小二乘損失函數(shù)的懲罰.相反,最小二乘逼近可以用來擬合那些非線性的模型.因此,盡管“最小二乘法”和“線性模型”是緊密相連的,但他們是不能劃等號的。

2.邏輯回歸

logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數(shù)據(jù)挖掘,疾病自動診斷,經濟預測等領域。例如,探討引發(fā)疾病的危險因素,并根據(jù)危險因素預測疾病發(fā)生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體征與生活方式等。因此因變量就為是否胃癌,值為“是”或“否”,自變量就可以包括很多了,如年齡、性別、飲食習慣、幽門螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類的。然后通過logistic回歸分析,可以得到自變量的權重,從而可以大致了解到底哪些因素是胃癌的危險因素。同時根據(jù)該權值可以根據(jù)危險因素預測一個人患癌癥的可能性。

logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。它們的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求參數(shù),其區(qū)別在于他們的因變量不同,多重線性回歸直接將w‘x+b作為因變量,即y =w‘x+b,而logistic回歸則通過函數(shù)L將w‘x+b對應一個隱狀態(tài)p,p =L(w‘x+b),然后根據(jù)p 與1-p的大小決定因變量的值。如果L是logistic函數(shù),就是logistic回歸,如果L是多項式函數(shù)就是多項式回歸。

logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋,多類可以使用softmax方法進行處理。實際中最為常用的就是二分類的logistic回歸。

3.決策樹

決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎上,通過構成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學理論中熵的概念。

決策樹是一種樹形結構,其中每個內部節(jié)點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一種類別。

分類樹(決策樹)是一種十分常用的分類方法。它是一種監(jiān)督學習,所謂監(jiān)督學習就是給定一堆樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那么通過學習得到一個分類器,這個分類器能夠對新出現(xiàn)的對象給出正確的分類。這樣的機器學習就被稱之為監(jiān)督學習。

4.支持向量機

支持向量機(Support Vector Machine, SVM)是一類按監(jiān)督學習(supervised learning)方式對數(shù)據(jù)進行二元分類的廣義線性分類器(generalized linear classifier),其決策邊界是對學習樣本求解的最大邊距超平面(maximum-margin hyperplane) 。

SVM使用鉸鏈損失函數(shù)(hinge loss)計算經驗風險(empirical risk)并在求解系統(tǒng)中加入了正則化項以優(yōu)化結構風險(structural risk),是一個具有稀疏性和穩(wěn)健性的分類器  。SVM可以通過核方法(kernel method)進行非線性分類,是常見的核學習(kernel learning)方法之一  。

SVM被提出于1964年,在二十世紀90年代后得到快速發(fā)展并衍生出一系列改進和擴展算法,在人像識別、文本分類等模式識別(pattern recognition)問題中有得到應用。

5.樸素貝葉斯

樸素貝葉斯分類是一種十分簡單的分類算法:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。

樸素貝葉斯分類分為三個階段,1.根據(jù)具體情況確定特征屬性,并對每個特征屬性進行適當劃分,形成訓練樣本集合2.計算每個類別在訓練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計3.使用分類器對待分類項進行分類。

6.K近鄰

K緊鄰算法的核心是未標記樣本的類別,計算待標記樣本和數(shù)據(jù)集中每個樣本的距離,取距離最近的k個樣本。待標記的樣本所屬類別就由這k個距離最近的樣本投票產生,給定其測試樣本,基于某種距離度量找出訓練集中與其最靠近的k個訓練樣本,然后基于這k個“鄰居”的信息來進行預測。

K緊鄰算法準確性高,對異常值和噪聲有較高的容忍度,但計算量較大,對內存的需求也較大。該算法主要應用于文本分類、模式識別、圖像及空間分類。

7.聚類算法

聚類算法是機器學習中涉及對數(shù)據(jù)進行分組的一種算法。在給定的數(shù)據(jù)集中,我們可以通過聚類算法將其分成一些不同的組。應用中科利用聚類分析,通過將數(shù)據(jù)分組可以比較清晰的獲取到數(shù)據(jù)信息。該算法讓數(shù)據(jù)變得有意義,但存在結果難以解讀,針對不尋常的數(shù)據(jù)組,結果可能無用。

在商業(yè)領域中,聚類可以幫助市場分析人員從消費者數(shù)據(jù)庫中區(qū)分出不同的消費群體來,并且概括出每一類消費者的消費模式或者說習慣。

8.隨機森林

隨機森林是一種有監(jiān)督學習算法,基于決策樹為學習器的集成學習算法。隨機森林非常簡單,易于實現(xiàn),計算開銷也很小,但是它在分類和回歸上表現(xiàn)出非常驚人的性能,因此,隨機森林被譽為“代表集成學習技術水平的方法”。

隨機森林擁有廣泛的應用前景,從市場營銷到醫(yī)療保健保險,既可以用來做市場營銷模擬的建模,統(tǒng)計客戶來源,保留和流失,也可用來預測疾病的風險和病患者的易感性。

9.降維算法

降維法(method of reduction dimensions)是一類優(yōu)選方法,用低維的概念去類比高維的概念.將高維的圖形轉化為低維的圖形的方法?v橫對折法、等高線法、平行線法等都是降維法。

降維法是把一個多因素問題轉化成一個較少因素(降低問題的維數(shù))問題,而且較容易進行合理安排,找到最優(yōu)點或近似最優(yōu)點,以期達到滿意的試驗結果的方法。主要類型有縱橫對折法、等高線法和平行線法。

10.AdaBoost

Adaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。

Boosting,也稱為增強學習或提升法,是一種重要的集成學習技術,能夠將預測精度僅比隨機猜度略高的弱學習器增強為預測精度高的強學習器,這在直接構造強學習器非常困難的情況下,為學習算法的設計提供了一種有效的新思路和新方法。作為一種元算法框架,Boosting幾乎可以應用于所有目前流行的機器學習算法以進一步加強原算法的預測精度,應用十分廣泛,產生了極大的影響。而AdaBoost正是其中最成功的代表,被評為數(shù)據(jù)挖掘十大算法之一。

在AdaBoost提出至今的十幾年間,機器學習領域的諸多知名學者不斷投入到算法相關理論的研究中去,扎實的理論為AdaBoost算法的成功應用打下了堅實的基礎。AdaBoost的成功不僅僅在于它是一種有效的學習算法,還在于1)它讓Boosting從最初的猜想變成一種真正具有實用價值的算法;2)算法采用的一些技巧,如:打破原有樣本分布,也為其他統(tǒng)計學習算法的設計帶來了重要的啟示;3)相關理論研究成果極大地促進了集成學習的發(fā)展。

對adaBoost算法的研究以及應用大多集中于分類問題,同時也出現(xiàn)了一些在回歸問題上的應用。就其應用adaBoost系列主要解決了: 兩類問題、多類單標簽問題、多類多標簽問題、大類單標簽問題、回歸問題。它用全部的訓練樣本進行學習。

小結

算法是計算機科學領域最重要的基石之一,當下需要處理的信息量是呈指數(shù)級的增長,每人每天都會創(chuàng)造出大量數(shù)據(jù),無論是三維圖形、海量數(shù)據(jù)處理、機器學習、語音識別,都需要極大的計算量,在AI時代越來越多的挑戰(zhàn)需要靠卓越的算法來解決。

聲明: 本網站所刊載信息,不代表OFweek觀點?帽菊靖寮,務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像,違者將依法追究法律責任。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容
文章糾錯
x
*文字標題:
*糾錯內容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網安備 44030502002758號