NMST539 | Cvičenie 6Metóda hlavných komponent | Teoretická časťLS 2020/2021 | 06/04/21 | (online výuka)zdrojový Rmd súbor (kódovanie UTF8)Outline šiesteho cvičenia:
1. Metóda hlavných komponent / teoretické aspektyMetóda hlavných komponent (PCA) je mnohorozmerná (prevažne exploratívna) štatistická metóda založena na teoretickej variančnej-kovariančnej matici náhodného vektoru \(\boldsymbol{X} \in \mathbb{R}^{p}\). V praxi sa samozrejme metóda hlavných komponent aplikuje na základe empricikého odhadu teoretickej variančnej-kovariančnej matice, ktorý získame na základe náhodného výberu \(\boldsymbol{X}_1, \dots, \boldsymbol{X}_n\) z rovnakého rozdelenia, ako pôvodný náhodný vektor \(\boldsymbol{X} \in \mathbb{R}^{p}\). Jednoducho môžeme hlavné komponenty definovať ako ‘vhodné’ lineárne kombinácie pôvodných zložiek náhodneho vektoru \(\boldsymbol{X} = (X_1, \dots, X_p)^\top\). Hlavná myšlienka spočíva v definovaní/určení \(\ell < p\) hlavných komponent (lineárnych kombinácii zložiek \(X_1, \dots, X_p\)), ktoré využijeme namiesto \(p \in \mathbb{N}\) pôvodných zložiek (tzv. redukcia dimenzionality). Nové zložky – \(\ell\) hlavných kompoment – sú v určitom zmysle najlepšie možné. Hlavné kompomenty sú orgogonálne a navyše sú usporiadané vzhľadom k postupne klesajúcej variabilite jednotlivých kompoment. V praktických úlohach často požadujeme, aby \(\ell \ll p\), čo predstavuje výraznú redukciu pôvodnej dimenzie. Na druhej strane sa ale snažíme zachovať čo najväčšiu mieru z pôvodnej informácie. Z formálneho hľadiska je možné hlavne komponenty definovať rôzne:
Z pohľadu štatistika sú hlavné komponenty definované ortogonálne lineárne kombinácie pôvodných premenných \((X_1, \dots, X_p)^\top\) v náhodnom vektore \(\boldsymbol{X} \in \mathbb{R}^{p}\), tak aby tieto lineárne kombinácie boli vzájomne nekorelované, s nulovou strednou hodnotou a diagonálnou variančnou-kovariančnou maticou, ktorá ma na hlavnej diagonále vlastné čísla variančnej-kovariančnej matice náhodného vektoru \(\boldsymbol{X} \in \mathbb{R}^{p}\). V tomto zmysle sa jedná o maximalizačnú úlohu, kde prvá hlavná komponenta \(\boldsymbol{\delta}_1^\top \boldsymbol{X}\) (t.j. lineárná kombinácia zložiek vektora \(\boldsymbol{X} \in \mathbb{R}^{p}\)) je definovaná pre \(\boldsymbol{\delta}_1 \in \mathbb{R}^p\) také, že \[ \boldsymbol{\delta}_1 = Argmax_{\boldsymbol{\{\delta};~\|\boldsymbol{\delta}\| = 1 \}} ~~Var (\boldsymbol{\delta}^\top \boldsymbol{X}). \] Druhá hlavná komponenta \(\boldsymbol{\delta}_2^\top \boldsymbol{X}\) je definovaná ako analogická maximalizačná uloha, ale pri dodatočnej podmienke, že sa jedná o ortogonálne lineárne kombinácie, t.j. \(\boldsymbol{\delta}_1^\top\boldsymbol{\delta}_2 = 0\), resp. náhodné veličiny \(\boldsymbol{\delta}_1^\top \boldsymbol{X}\) a \(\boldsymbol{\delta}_2^\top \boldsymbol{X}\) sú nekorelované, t.j., že platí \[ Cov(\boldsymbol{\delta}_1^\top \boldsymbol{X}, \boldsymbol{\delta}_2^\top \boldsymbol{X}) = 0. \] Na hlavné komponenty sa ale môžeme pozerať aj z geometrického pohľadu projekcií do lineárných podpriestorov a hlavne konceptu lineárnej regresie (prípadne tzv. totálne najmenších štvorocov – TLS / Total Least Squares). 2. Hlavné komponenty, ortogonálne projekcie a regresiaNech \(\boldsymbol{Y} \in \mathbb{R}^n\) je nejaký náhodný vektor dĺžky \(n \in \mathbb{N}\) a nech \(\mathbb{X}\) predstavuje (náhodnú) maticu napr. vysvetlujúcich premenných, ktorá je typu \(n \times p\). Vo všeobecnosti predpokládame, že \(p \in \mathbb{N}\) (väčšinou počet rôznych premenných) je menšie, ako \(n\) (väčšinou počet pozorovaní). Klasická úloha lineárnej regresie spočíva vo využití informácie obsiahnutej v matici \(\mathbb{X}\) k vhodnej aproximácii \(n\) rozmerného náhodného vektoru \(\boldsymbol{Y}\) (tzv. vektor závislej premennej) v \(p\) rozmernom lineárnom podpriestore \(\mathcal{L}(\mathbb{X})\) – lineárnom podpriestore \(R^n\) generovanom stĺpcami matice \(\mathbb{X}\). Ak označíme ortogonálnu projekciu náhodného vektoru \(\boldsymbol{Y}\) do \(p\) rozmerného lineárneho podpriestoru \(\mathcal{L}(\mathbb{X})\) ako \(P_{\mathbb{X}}(\boldsymbol{Y})\), tak potom klasický lineárny regresný model pre vektor závislej premennej \(\boldsymbol{Y}\) a nezávisle premenné v stĺpcoch matice \(\mathbb{X}\) vo forme \(P_{\mathbb{X}}(\boldsymbol{Y}) = a_1 \boldsymbol{X}_1 + \dots + a_p \boldsymbol{X}_p\) (lineárna kombinácia stĺpcov matice \(\mathbb{X}\)) dáva najmenšiu možnú štvorcovú chybu v zmysle, že výraz \[
\| \boldsymbol{Y} - P_{\mathbb{X}}(\boldsymbol{Y}) \|_2^2
\] je minimalizovaný (pripomeňte si Gauss-Markovovu vetu pre tzv. BLUE (Best Linear Unbiased Estimate) odhad v lineárnej regresii). Príslušná (idempotentná) projekčná matica je definovaná predpisom \[ \mathbb{H} = \mathbb{X}(\mathbb{X}^\top \mathbb{X})^{-1}\mathbb{X}^\top = \mathbb{Q}\mathbb{Q}^\top, \] kde matica \(\mathbb{X}\) obsahuje vektory (v stĺpcoch) generujúce lineárný podpriestor \(\mathcal{L}(\mathbb{X})\) resp. stĺce matice \(\mathbb{Q}\) predstavujú ortogonálnu bázu lineárneho podpriestoru \(\mathcal{L}(\mathbb{X})\) . Samozrejme platí, že \[ P_{\mathbb{X}}(\boldsymbol{Y}) = \mathbb{H}\boldsymbol{Y} = \mathbb{X}(\mathbb{X}^\top \mathbb{X})^{-1}\mathbb{X}^\top \boldsymbol{Y} = \mathbb{Q}\mathbb{Q}^\top \boldsymbol{Y} = P_{\mathbb{Q}}(\boldsymbol{Y}) \] Koncept lineárnej regresie (t.j. ortogonálnej projekcie do lineárneho podpriestoru generovaného stĺpcami matice \(\mathbb{X}\)) môže byť zobecnený na problém hľadania najlepšej ortogonálnej projekcie \(\boldsymbol{Y}\) do lineárneho podpriestoru, ktorý je generovaný stĺpcami nejakej obecnej matice \(\mathbb{B}\) typu \(n \times p\), tak že platí \(\mathbb{B}^\top\mathbb{B} = \mathbb{I}\). Označme obecne takúto projekciu ako \(P_{\mathbb{B}}(\boldsymbol{Y})\). Potom platí, že \(P_{\mathbb{B}}(\boldsymbol{Y}) = \mathbb{B}\mathbb{B}^\top\boldsymbol{Y}|\) a, navyše, lze ukázať, že zároveň platí aj \[
\|\boldsymbol{Y} - P_{\mathbb{\Gamma}}(\boldsymbol{Y})\|_2^2 \leq \|\boldsymbol{Y} - P_\mathbb{B}(\boldsymbol{Y})\|_2^2
\] kde \(\Gamma\) je matica typu \(n\times p\) ktorá obsahuje (v stĺpcoch) prvých \(p\) vlastných vektorov teoretickej variančnej-kovariančnej matice \(\Sigma\) náhodného vektoru \(\boldsymbol{Y}\) (tzv. Eckart a Young (1936) a Mirsky (1960) approximácia). Pripomeňme, že v súvislosti s konceptom lineárnej regresie – t.j. projekciou \(P_{\mathbb{X}}(\boldsymbol{Y})\) – predpokládame vlasnosť linearity (BLUE). V nasledujúcom príklade použijeme tri konkrétne ortogonálne projekcie náhodného vektoru \(\boldsymbol{Y}\) do lineárneho podpriestoru, ktorý je generovaný stĺpcami vhodnej matice typu \(n \times p\). Rovnaké data – t.j. náhodný vektor \(\boldsymbol{Y}\) – použijeme pre všetky projekcie, ale lineárny podpriestor, do ktorého bude vektor projektovaný, bude zakaždým iný. Výsledné ortogonálne projekcie sa budu preto vájomne líšiť. Ktorá ortogonálna projekcia je najlepšia (a v akom zmysle)?
Na základe predchádzajúceho príkladu môžeme obecne povedať, že pri hľadaní hlavných komponent sa dá namiesto spektrálnej dekompozície (EIV) teoretickej variančnej-kovariančnej matice náhodného vektoru \(\boldsymbol{Y}\) postupovať vrámci konceptu klasickej lineárnej regresie a iteratívnym postupom (alternáciou medzi dvoma podobnými lineárnymi regresnými úlohami) sa dopracovať k ekvivalentnému riešeniu – hlavným komponentám. Pre háhodný vektor závislej premennej \(\boldsymbol{Y} \in \mathbb{R}^n\) múžeme tieto dve úlohy formulovať následovne: \[ \|\boldsymbol{Y} - P_\mathbb{B}(\boldsymbol{Y})\|_2^2 = \|\boldsymbol{Y} - \mathbb{B}\mathbb{B}^\top\boldsymbol{Y}\|_2^2 = \|\boldsymbol{Y} - \mathbb{B} \boldsymbol{v}\|_2^2 = \sum_{i = 1}^{n} [Y_{i} - \boldsymbol{b}_i^\top\boldsymbol{v}]^2, \] kde \(\boldsymbol{v} = \mathbb{B}^\top\boldsymbol{Y}\), pre \(i = 1, \dots, n\), a \(\boldsymbol{b}_i\) je príslušný řádek matice \(\mathbb{B}\). Musíme si uvedomiť, že ani matica \(\mathbb{B}\) ani vektor \(\boldsymbol{v}\) nie sú známe (preto potrebujeme riešiť dve vzálomne alternujúce regresné problémy). Výraz \[
\sum_{i = 1}^{n} [Y_{i} - \boldsymbol{b}_i^\top\boldsymbol{v}]^2
\] budeme preto minimalizovať aj vzhľadom k neznámej ortogonálnej matici \(\mathbb{B}\) (v jednom kroku), tzn., že platí \(\mathbb{B}^\top\mathbb{B} = \mathbb{I}\) a tiež vzhľadom k neznámemu vektoru \(\boldsymbol{v}\) (v následujúcom kroku). Oba kroky dostatočne dlho alternujeme, až kým nie je dosiahnutá konvergencia. Hlavná myšlienka samozrejme spočíva v tom, že sa snazíme nájsť najlepšiu ortogonálnu projekciu do lineárneho podpriestoru, ktorý je generovaný orgogonálnou maticou \(\mathbb{B}\), tak, aby súčet štvorcových chýb bol najmenší možný. Z teórie lineárnej regresie vieme, že za platnosti dodatočného predpokladu linearity je najlepším odhadom práve model lineárnej regresie. V obecnom prípade (bez predpokladu linerity) ale lze získať lepšiu ortogonálnu projekciu. Ak bude matica \(\mathbb{B}\) v jednotlivých stĺpcoch obsahovať prvých \(p \in \mathbb{N}\) hlavných kompoment, tak získame najlepšiu možnú ortogonálnu projekciu náhodného vektoru \(\boldsymbol{Y}\) do \(p\) rozmerného lineárneho podpriestoru (samozrejme všetko pouze v zmysle najmenšej štvorcovej chyby). Jednoduchý príklad alternujúcej regresie od Matíasa Salibiána Barreru.
Prvú hlavnú kompomentu pomocou alternujúcich lineárnych regresných modelov získame ako
Jedná sa o stĺpcový vektor matice \(\mathbb{B}\), ktorý nam dá minimálnú štvorcovú chybu projekcie do jednorozmerného lineárneho podpriestoru, ktorý je generovaný prvým vlastnym vektorom variančnej-kovariančnej matice – čo múžeme priamo porovnať s využitím EIV alebo SVD rozkladu:
Je nutné si uvedomiť, že rozdiel v znamienku je v tomto prípade irelevantný. Z hľadiska praktických aplikacii môže byť užitočné porovnať fungovanie a časovú náročnosť oboch postupov napr. pomocou simulačnej štúdie. Využijeme výrazne vyšší počet dimenzii, aby bolo porovnanie viac relevantné a výpovedné.
Výpočetná časová náročnosť sa zdá byť v prospech alternujúcej regresie. Obecne platí, že v programe R je nutné dbať na maticové operácie a pristupovať k ním efektívne, čo do časovej náročnosti výpočtu. 3. Metóda hlavných komponent v programe RMetóda hlavných komponent je v programe R implementovaná pomocou príkazu Alternatívne a pri praktických (t.j. empirických) úlohach aj ekvivalentne je možné v programe R využiť aj príkaz Označme oba rozklady ako \[ EIV(\mathcal{S}) = \Gamma \Lambda \Gamma^\top \quad \quad \textrm{a analogicky} \quad \quad SVD(\mathcal{X}) = UDV^\top. \] Ekvivalentnosť oboch rozkladov je viac-menej okamžitá: \[ n \mathcal{S} = \mathcal{X}^\top\mathcal{X} = VDU^\top UD V^\top = V D^2 V^\top = \Gamma \widetilde{\Lambda} \Gamma^\top = EIV(n\mathcal{S}), \] pre \(\Gamma \equiv V\) a \(\widetilde{\Lambda} \equiv D^2\). Taktiež platí, že \[EIV(n\mathcal{S}) = \Gamma \widetilde{\Lambda} \Gamma^\top = \Gamma (n \Lambda) \Gamma^\top = n \Gamma \Lambda \Gamma^\top = n EIV(\mathcal{S}).\] Využitie metódy hlavných komponent z praktického hľadiska (prevažne ako exploratívny a dimenziu redukujúci nástroj) bude predmetom následujúceho cvičenia. SamostatnePre fungovanie hlavných komponent je podstatné porozumenie fungovania vlastných čísel a vlastných vektorov. Interaktívne grafické ilustrácie pre pripomenutie je možné nájsť napr. tu:
Domáca (samostatná) úloha(Deadline: Siedme cvičenie / 13.04.2021)Uvažujte náhodný výber \((X_1,Y_1)^\top, \dots (X_n,Y_n)^\top\) generovaný, resp. simulovaný z nejakého vhodného dvojrozmerného rozdelenia. Náhodný vektor \(\boldsymbol{Y} = (Y_1, \dots, Y_n)^\top\) lze chápať aj ako element v \(n\) rozmernom lineárnom priestore \(\mathbb{R}^n\). Budu nás zaujímať tri rôzne ortogonálne projekcie – zakaždým do iného dvojrozmerného lineárneho podpriestoru v \(\mathbb{R}^n\). Pre každú projekciu explicitne spočítajte štvorcové chyby (t.j. empiricky overte kvalitu danej projekcie vhľadom k teoretickým očakávaniam). Projekcie sa pokúste nejak vizualizovať.
|