筆者最近在學(xué)習(xí)的過(guò)程需要使用一些數(shù)據(jù)分析和處理的方法,而PCA就是其中常用的一種手段。但在自學(xué)的過(guò)程中,由于筆者水平有限,對(duì)一些博客中的公式不是能很好理解(數(shù)學(xué)不好的辛酸???),導(dǎo)致總是對(duì)整個(gè)方法的原理沒(méi)有一個(gè)透徹的理解。后來(lái)在視頻用最直觀的方式告訴你:什么是主成分分析PCA_嗶哩嗶哩_bilibili
的幫助下,筆者終于從整體上理解了該方法,在此也向該視頻作者致以誠(chéng)摯的感謝。接下來(lái),筆者盡量用自己的話來(lái)總結(jié)從該視頻中的收獲,談?wù)剬?duì)PCA原理的理解。為照顧一些和筆者一樣基礎(chǔ)不太好的小伙伴,這里盡量使用少的公式,而用一些圖示來(lái)輔助理解。如無(wú)特別標(biāo)明,本文所用的所有圖片均來(lái)自上述視頻。
事先說(shuō)明,如果僅是對(duì)PCA步驟感興趣的小伙伴,可以直接跳到總結(jié)部分,也方便節(jié)約時(shí)間。:)
一.PCA簡(jiǎn)介? 主成分分析(Principal components analysis, PCA),顧名思義,其目的在于提取數(shù)據(jù)中的主要成分信息,因此,常用于對(duì)數(shù)據(jù)的提煉,例如:降維(使用最多的領(lǐng)域之一),異常值檢測(cè)等,是數(shù)據(jù)分析中的一種重要方法。
? 那么,PCA究竟做了什么呢?我們通過(guò)下面的圖來(lái)簡(jiǎn)單理解一下:
我們首先來(lái)看一個(gè)特殊情況,假如在原坐標(biāo)系下,有這樣六個(gè)點(diǎn),每個(gè)點(diǎn)的坐標(biāo)包括x和y,這樣,當(dāng)我們要記錄這些點(diǎn)的坐標(biāo)時(shí),我們需要同時(shí)記錄它們的x坐標(biāo)和y坐標(biāo),也就是要記錄2個(gè)維度的信息。
那么,假如我們移動(dòng)坐標(biāo)系,讓新坐標(biāo)系如右所示,令所有的點(diǎn)都位于一個(gè)軸上,同時(shí)能較好的保留原先數(shù)據(jù)分布的信息。這樣,由于在y'上坐標(biāo)全部為0,因此我們完全可以去掉,僅用x'坐標(biāo)就可以表示這些點(diǎn)。這樣,原先需要保存2維的坐標(biāo)信息,在進(jìn)行這樣的坐標(biāo)系轉(zhuǎn)換后,就僅需保留1維的坐標(biāo)信息,我們便完成了對(duì)數(shù)據(jù)的提煉,或者在這里,可以稱為對(duì)數(shù)據(jù)的降維。
相信在看了上面一段話后,有的小伙伴已經(jīng)悟到了,沒(méi)錯(cuò),PCA所作的,就是這樣一個(gè)坐標(biāo)系轉(zhuǎn)換的事情。
PCA其實(shí)目的就是為了尋找這樣一個(gè)轉(zhuǎn)換后的坐標(biāo)系,使數(shù)據(jù)能盡可能分布在一個(gè)或幾個(gè)坐標(biāo)軸上,同時(shí)盡可能保留原先數(shù)據(jù)分布的主要信息,使的原先高維度的信息,在經(jīng)過(guò)轉(zhuǎn)換后可以用低維度的信息來(lái)保存。而新坐標(biāo)系的坐標(biāo)軸,稱為主成分(Principal components, PC), 這也就是PCA的名稱來(lái)源。
那么,怎么樣的坐標(biāo)系,算是“保留信息最多呢”?
答:選擇數(shù)據(jù)分布最分散,即方差大的方向。
可以對(duì)比上面兩張圖上的兩個(gè)坐標(biāo)軸方向,可以看到,當(dāng)數(shù)據(jù)投影到圖一方向的坐標(biāo)軸上時(shí),數(shù)據(jù)分布的最為分散,此時(shí),方差也是大,這種情況下,能夠最完整的保留原先數(shù)據(jù)的差異性,從而便于區(qū)分。
而在圖二中,數(shù)據(jù)在坐標(biāo)軸上的投影就有許多重疊的地方,方差會(huì)較小,這種情況下,原先差異性很大的數(shù)據(jù)在投影后便無(wú)法區(qū)分,沒(méi)有保留原先數(shù)據(jù)的信息,不是一個(gè)好的方向。
因此,我們把方差大的方向選為主成分1的方向,其垂直方向即為主成分2方向,以此類推。
二.PCA方法在了解PCA的目的后,接下來(lái),就是考慮如何實(shí)現(xiàn),即如何實(shí)現(xiàn)這樣的坐標(biāo)系轉(zhuǎn)換。
1. 去中心化? 首先,要將數(shù)據(jù)去中心化,即將坐標(biāo)原點(diǎn)放在數(shù)據(jù)中心。若不執(zhí)行去中心化,就會(huì)出現(xiàn)這種現(xiàn)象:
相當(dāng)于在原地空轉(zhuǎn),可能發(fā)現(xiàn)不了最好的方向。
進(jìn)行了去中心化后,將數(shù)據(jù)中心放在坐標(biāo)原點(diǎn),則就會(huì)避免這個(gè)問(wèn)題。
即找到方差大的方向。
在回答這個(gè)問(wèn)題前,我們首先回顧一下矩陣線性變換的知識(shí)。
1) 拉伸拉伸矩陣S的特點(diǎn)是只在對(duì)角線上有數(shù)字,即拉伸矩陣是對(duì)稱矩陣,滿足,它實(shí)現(xiàn)的數(shù)據(jù)在軸上的水平拉伸(包括縮放)。
如圖,旋轉(zhuǎn)矩陣的特點(diǎn)是,其逆矩陣就等于其本身,即,圖中R的操作,實(shí)現(xiàn)的是逆時(shí)針旋轉(zhuǎn)坐標(biāo)軸θ角。
我們手里的數(shù)據(jù),其實(shí)就相當(dāng)于一個(gè)服從多維高斯分布的數(shù)據(jù)經(jīng)過(guò)拉伸和旋轉(zhuǎn)之后形成的數(shù)據(jù),因此,找到方差大的方向,其實(shí)就是求這個(gè)旋轉(zhuǎn)矩陣R,即求我們旋轉(zhuǎn)的角度。
如何求R,這里先給個(gè)結(jié)論,協(xié)方差矩陣的特征向量就是R。具體推導(dǎo)我們慢慢來(lái):
首先回顧一下協(xié)方差的概念,協(xié)方差代表的是兩個(gè)變量變化的一個(gè)相關(guān)程度,如果x增大,y也增大,則成為正相關(guān);反之,則為負(fù)相關(guān),而這個(gè)相關(guān)的程度,就是協(xié)方差。x和y的協(xié)方差用cov(x,y)表示,正相關(guān)時(shí),cov(x,y)>0;負(fù)相關(guān)時(shí),cov(x,y)<0,不相關(guān)則為0。順便一提,變量自己和自己的協(xié)方差,就是方差,即cov(x,x)=var(x)
因此,協(xié)方差矩陣的表示如下:?
當(dāng)數(shù)據(jù)進(jìn)行拉伸和旋轉(zhuǎn)時(shí),協(xié)方差也會(huì)隨之改變,根據(jù)協(xié)方差的定義,協(xié)方差矩陣也可以通過(guò)這樣計(jì)算得到。
即C等于數(shù)據(jù)乘以其轉(zhuǎn)置,再除以n-1,n為數(shù)據(jù)的維度。
現(xiàn)在再回來(lái)看我們手上的數(shù)據(jù)D’,由于D’是由白數(shù)據(jù)經(jīng)過(guò)拉伸S和旋轉(zhuǎn)R得到,即D’=RSD,而白數(shù)據(jù)的協(xié)方差矩陣C為單位矩陣,因此,結(jié)合拉伸和旋轉(zhuǎn)矩陣的性質(zhì)代入公式后,可以得到D'的協(xié)方差矩陣C’=RLR-1。R即旋轉(zhuǎn)矩陣,L為S的平方。
結(jié)合特征向量和特征值的概念,現(xiàn)在,我們可以清楚的看到,R就是C'的特征向量的矩陣,而L則是特征值的矩陣,兩者分別代表旋轉(zhuǎn)和拉伸的程度。
現(xiàn)在,我們就可以對(duì)如何求R做一個(gè)概括:只要我們對(duì)手上的數(shù)據(jù)求協(xié)方差矩陣,然后求它的特征向量矩陣,這個(gè)特診向量矩陣就是R。同時(shí),確定了R后,我們就確定了方差大的方向,也就是主成分的方向,這樣,就完成了對(duì)坐標(biāo)系的轉(zhuǎn)換。
三.總結(jié)總結(jié)來(lái)說(shuō),PCA的步驟主要就是以下幾步:
對(duì)數(shù)據(jù)進(jìn)行去中心化(將坐標(biāo)原點(diǎn)放到數(shù)據(jù)中心)->求數(shù)據(jù)的協(xié)方差矩陣C->再求得C的特征向量矩陣R->將原坐標(biāo)系下(去中心化后)的數(shù)據(jù)通過(guò)R進(jìn)行旋轉(zhuǎn)變化,即得到經(jīng)過(guò)PCA轉(zhuǎn)換后的坐標(biāo),R也是主成分的方向。
以上便是關(guān)于PCA的原理分析。由于筆者才疏學(xué)淺,定然還有許多錯(cuò)誤與紕漏之處,歡迎大家的補(bǔ)充,未來(lái)筆者也會(huì)不斷進(jìn)行修訂。在對(duì)代碼理解后,筆者接下來(lái)計(jì)劃補(bǔ)充matlab上PCA的使用方式,幫助進(jìn)入實(shí)際應(yīng)用。
最后,再次感謝該視頻及其創(chuàng)作者!
用最直觀的方式告訴你:什么是主成分分析PCA_嗶哩嗶哩_bilibili
你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級(jí)流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級(jí)服務(wù)器適合批量采購(gòu),新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧
網(wǎng)站題目:【數(shù)據(jù)處理方法】主成分分析(PCA)原理分析-創(chuàng)新互聯(lián)
瀏覽地址:http://www.ekvhdxd.cn/article8/hheip.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供自適應(yīng)網(wǎng)站、網(wǎng)站內(nèi)鏈、搜索引擎優(yōu)化、品牌網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè)、微信公眾號(hào)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容