如何通俗易懂地講解什么是 PCA(主成分分析)?
你手邊有眼鏡盒,紙箱子,筆記本電腦,或者隨便什么長(zhǎng)方體的東西嗎?要描述它的尺寸我們需要知道三個(gè)數(shù)據(jù),長(zhǎng)寬高(或者長(zhǎng)寬厚),對(duì)吧
現(xiàn)在,假如是個(gè)筆記本電腦,你想買個(gè)包能裝下它,你最關(guān)心的數(shù)據(jù)是什么呢?長(zhǎng)和寬對(duì)不對(duì)?如果一個(gè)書包不是太淺或者太窄,就能裝下那個(gè)電腦,電腦的厚度在這個(gè)問題上會(huì)被忽略掉
電腦的長(zhǎng)就是這個(gè)秩為3的矩陣的第一個(gè)主成分,寬就是第二個(gè),厚是第三個(gè),在上述問題里,為了不讓賣電腦包的小姐姐覺得你傻,你沒有問她那我電腦2厘米厚這個(gè)包能不能裝下,你就只想保留兩個(gè)主成分,也就是把維度降到二。
現(xiàn)在我們來推廣一下,假如你想買個(gè)包來裝一個(gè)不規(guī)則的物體,比如,啊好難想,比如一把羽毛球拍。羽毛球拍也是一個(gè)3D立體的物體,也可以用長(zhǎng)寬厚來描述,在裝包的過程中你關(guān)心的也必然只是長(zhǎng)和寬,也就是說你還是想降維。但是羽毛球拍的形狀并不是一個(gè)簡(jiǎn)單的長(zhǎng)方體,找到它的長(zhǎng)寬厚這三個(gè)主成分需要把它向一個(gè)長(zhǎng)方體,或者說一個(gè)三維直角坐標(biāo)系投影———你需要量最長(zhǎng)的長(zhǎng)和最寬位置的寬。投影完事兒后,球拍優(yōu)美的弧線就都被抽象掉啦,就剩一個(gè)長(zhǎng)寬厚的架子,相互垂直,這個(gè)過程就是所謂的奇異值分解(singular value decomposition),抽象出來的那個(gè)架子就是中間的奇異值矩陣,主對(duì)角線以外的元素(那些圓弧)都是0,然后你把最小的奇異值去除掉,也就是厚度,你就實(shí)現(xiàn)了一次降維,可以就拿兩個(gè)數(shù)跟賣包小姐姐愉快的交流了!
最后說一點(diǎn)奇異值這個(gè)名字。singularity 是奇點(diǎn)的意思,你可以想象是質(zhì)量無窮大,怎么也消不掉的點(diǎn)。對(duì)于任何3D的物體而言,永遠(yuǎn)都有長(zhǎng)寬高,所以永遠(yuǎn)都有3個(gè)奇點(diǎn)。如果一個(gè)奇點(diǎn)沒了,一個(gè)維度就會(huì)垮掉,比如沒有了厚度,它就變成2D的了。你之所以想對(duì)羽毛球拍降維,是因?yàn)榈谌齻€(gè)維度微不足道,前兩個(gè)維度可以很好的近似它:
試問,一個(gè)小朋友畫羽毛球拍簡(jiǎn)筆畫時(shí),是不是往往不畫厚度
最后多句嘴,從奇點(diǎn)這個(gè)名字你就能看出來,徹底消滅掉一個(gè)物體的維度有多么難,二向箔賽高!
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由財(cái)神資訊-領(lǐng)先的體育資訊互動(dòng)媒體轉(zhuǎn)載發(fā)布,如需刪除請(qǐng)聯(lián)系。