NMST539 | Cvičenie 6Metóda hlavných komponent | Teoretická časťLS 2020/2021 | 06/04/21 | (online výuka)zdrojový Rmd súbor (kódovanie UTF8)Outline šiesteho cvičenia:
1. Metóda hlavných komponent / teoretické aspektyMetóda hlavných komponent (PCA) je mnohorozmerná (prevažne exploratívna) štatistická metóda založena na teoretickej variančnej-kovariančnej matici náhodného vektoru \boldsymbol{X} \in \mathbb{R}^{p}. V praxi sa samozrejme metóda hlavných komponent aplikuje na základe empricikého odhadu teoretickej variančnej-kovariančnej matice, ktorý získame na základe náhodného výberu \boldsymbol{X}_1, \dots, \boldsymbol{X}_n z rovnakého rozdelenia, ako pôvodný náhodný vektor \boldsymbol{X} \in \mathbb{R}^{p}. Jednoducho môžeme hlavné komponenty definovať ako ‘vhodné’ lineárne kombinácie pôvodných zložiek náhodneho vektoru \boldsymbol{X} = (X_1, \dots, X_p)^\top. Hlavná myšlienka spočíva v definovaní/určení \ell < p hlavných komponent (lineárnych kombinácii zložiek X_1, \dots, X_p), ktoré využijeme namiesto p \in \mathbb{N} pôvodných zložiek (tzv. redukcia dimenzionality). Nové zložky – \ell hlavných kompoment – sú v určitom zmysle najlepšie možné. Hlavné kompomenty sú orgogonálne a navyše sú usporiadané vzhľadom k postupne klesajúcej variabilite jednotlivých kompoment. V praktických úlohach často požadujeme, aby \ell \ll p, čo predstavuje výraznú redukciu pôvodnej dimenzie. Na druhej strane sa ale snažíme zachovať čo najväčšiu mieru z pôvodnej informácie. Z formálneho hľadiska je možné hlavne komponenty definovať rôzne:
Z pohľadu štatistika sú hlavné komponenty definované ortogonálne lineárne kombinácie pôvodných premenných (X_1, \dots, X_p)^\top v náhodnom vektore \boldsymbol{X} \in \mathbb{R}^{p}, tak aby tieto lineárne kombinácie boli vzájomne nekorelované, s nulovou strednou hodnotou a diagonálnou variančnou-kovariančnou maticou, ktorá ma na hlavnej diagonále vlastné čísla variančnej-kovariančnej matice náhodného vektoru \boldsymbol{X} \in \mathbb{R}^{p}. V tomto zmysle sa jedná o maximalizačnú úlohu, kde prvá hlavná komponenta \boldsymbol{\delta}_1^\top \boldsymbol{X} (t.j. lineárná kombinácia zložiek vektora \boldsymbol{X} \in \mathbb{R}^{p}) je definovaná pre \boldsymbol{\delta}_1 \in \mathbb{R}^p také, že \boldsymbol{\delta}_1 = Argmax_{\boldsymbol{\{\delta};~\|\boldsymbol{\delta}\| = 1 \}} ~~Var (\boldsymbol{\delta}^\top \boldsymbol{X}). Druhá hlavná komponenta \boldsymbol{\delta}_2^\top \boldsymbol{X} je definovaná ako analogická maximalizačná uloha, ale pri dodatočnej podmienke, že sa jedná o ortogonálne lineárne kombinácie, t.j. \boldsymbol{\delta}_1^\top\boldsymbol{\delta}_2 = 0, resp. náhodné veličiny \boldsymbol{\delta}_1^\top \boldsymbol{X} a \boldsymbol{\delta}_2^\top \boldsymbol{X} sú nekorelované, t.j., že platí Cov(\boldsymbol{\delta}_1^\top \boldsymbol{X}, \boldsymbol{\delta}_2^\top \boldsymbol{X}) = 0. Na hlavné komponenty sa ale môžeme pozerať aj z geometrického pohľadu projekcií do lineárných podpriestorov a hlavne konceptu lineárnej regresie (prípadne tzv. totálne najmenších štvorocov – TLS / Total Least Squares). 2. Hlavné komponenty, ortogonálne projekcie a regresiaNech \boldsymbol{Y} \in \mathbb{R}^n je nejaký náhodný vektor dĺžky n \in \mathbb{N} a nech \mathbb{X} predstavuje (náhodnú) maticu napr. vysvetlujúcich premenných, ktorá je typu n \times p. Vo všeobecnosti predpokládame, že p \in \mathbb{N} (väčšinou počet rôznych premenných) je menšie, ako n (väčšinou počet pozorovaní). Klasická úloha lineárnej regresie spočíva vo využití informácie obsiahnutej v matici \mathbb{X} k vhodnej aproximácii n rozmerného náhodného vektoru \boldsymbol{Y} (tzv. vektor závislej premennej) v p rozmernom lineárnom podpriestore \mathcal{L}(\mathbb{X}) – lineárnom podpriestore R^n generovanom stĺpcami matice \mathbb{X}. Ak označíme ortogonálnu projekciu náhodného vektoru \boldsymbol{Y} do p rozmerného lineárneho podpriestoru \mathcal{L}(\mathbb{X}) ako P_{\mathbb{X}}(\boldsymbol{Y}), tak potom klasický lineárny regresný model pre vektor závislej premennej \boldsymbol{Y} a nezávisle premenné v stĺpcoch matice \mathbb{X} vo forme P_{\mathbb{X}}(\boldsymbol{Y}) = a_1 \boldsymbol{X}_1 + \dots + a_p \boldsymbol{X}_p (lineárna kombinácia stĺpcov matice \mathbb{X}) dáva najmenšiu možnú štvorcovú chybu v zmysle, že výraz
\| \boldsymbol{Y} - P_{\mathbb{X}}(\boldsymbol{Y}) \|_2^2
je minimalizovaný (pripomeňte si Gauss-Markovovu vetu pre tzv. BLUE (Best Linear Unbiased Estimate) odhad v lineárnej regresii). Príslušná (idempotentná) projekčná matica je definovaná predpisom \mathbb{H} = \mathbb{X}(\mathbb{X}^\top \mathbb{X})^{-1}\mathbb{X}^\top = \mathbb{Q}\mathbb{Q}^\top, kde matica \mathbb{X} obsahuje vektory (v stĺpcoch) generujúce lineárný podpriestor \mathcal{L}(\mathbb{X}) resp. stĺce matice \mathbb{Q} predstavujú ortogonálnu bázu lineárneho podpriestoru \mathcal{L}(\mathbb{X}) . Samozrejme platí, že P_{\mathbb{X}}(\boldsymbol{Y}) = \mathbb{H}\boldsymbol{Y} = \mathbb{X}(\mathbb{X}^\top \mathbb{X})^{-1}\mathbb{X}^\top \boldsymbol{Y} = \mathbb{Q}\mathbb{Q}^\top \boldsymbol{Y} = P_{\mathbb{Q}}(\boldsymbol{Y}) Koncept lineárnej regresie (t.j. ortogonálnej projekcie do lineárneho podpriestoru generovaného stĺpcami matice \mathbb{X}) môže byť zobecnený na problém hľadania najlepšej ortogonálnej projekcie \boldsymbol{Y} do lineárneho podpriestoru, ktorý je generovaný stĺpcami nejakej obecnej matice \mathbb{B} typu n \times p, tak že platí \mathbb{B}^\top\mathbb{B} = \mathbb{I}. Označme obecne takúto projekciu ako P_{\mathbb{B}}(\boldsymbol{Y}). Potom platí, že P_{\mathbb{B}}(\boldsymbol{Y}) = \mathbb{B}\mathbb{B}^\top\boldsymbol{Y}| a, navyše, lze ukázať, že zároveň platí aj
\|\boldsymbol{Y} - P_{\mathbb{\Gamma}}(\boldsymbol{Y})\|_2^2 \leq \|\boldsymbol{Y} - P_\mathbb{B}(\boldsymbol{Y})\|_2^2
kde \Gamma je matica typu n\times p ktorá obsahuje (v stĺpcoch) prvých p vlastných vektorov teoretickej variančnej-kovariančnej matice \Sigma náhodného vektoru \boldsymbol{Y} (tzv. Eckart a Young (1936) a Mirsky (1960) approximácia). Pripomeňme, že v súvislosti s konceptom lineárnej regresie – t.j. projekciou P_{\mathbb{X}}(\boldsymbol{Y}) – predpokládame vlasnosť linearity (BLUE). V nasledujúcom príklade použijeme tri konkrétne ortogonálne projekcie náhodného vektoru \boldsymbol{Y} do lineárneho podpriestoru, ktorý je generovaný stĺpcami vhodnej matice typu n \times p. Rovnaké data – t.j. náhodný vektor \boldsymbol{Y} – použijeme pre všetky projekcie, ale lineárny podpriestor, do ktorého bude vektor projektovaný, bude zakaždým iný. Výsledné ortogonálne projekcie sa budu preto vájomne líšiť. Ktorá ortogonálna projekcia je najlepšia (a v akom zmysle)?
Na základe predchádzajúceho príkladu môžeme obecne povedať, že pri hľadaní hlavných komponent sa dá namiesto spektrálnej dekompozície (EIV) teoretickej variančnej-kovariančnej matice náhodného vektoru \boldsymbol{Y} postupovať vrámci konceptu klasickej lineárnej regresie a iteratívnym postupom (alternáciou medzi dvoma podobnými lineárnymi regresnými úlohami) sa dopracovať k ekvivalentnému riešeniu – hlavným komponentám. Pre háhodný vektor závislej premennej \boldsymbol{Y} \in \mathbb{R}^n múžeme tieto dve úlohy formulovať následovne: \|\boldsymbol{Y} - P_\mathbb{B}(\boldsymbol{Y})\|_2^2 = \|\boldsymbol{Y} - \mathbb{B}\mathbb{B}^\top\boldsymbol{Y}\|_2^2 = \|\boldsymbol{Y} - \mathbb{B} \boldsymbol{v}\|_2^2 = \sum_{i = 1}^{n} [Y_{i} - \boldsymbol{b}_i^\top\boldsymbol{v}]^2, kde \boldsymbol{v} = \mathbb{B}^\top\boldsymbol{Y}, pre i = 1, \dots, n, a \boldsymbol{b}_i je príslušný řádek matice \mathbb{B}. Musíme si uvedomiť, že ani matica \mathbb{B} ani vektor \boldsymbol{v} nie sú známe (preto potrebujeme riešiť dve vzálomne alternujúce regresné problémy). Výraz
\sum_{i = 1}^{n} [Y_{i} - \boldsymbol{b}_i^\top\boldsymbol{v}]^2
budeme preto minimalizovať aj vzhľadom k neznámej ortogonálnej matici \mathbb{B} (v jednom kroku), tzn., že platí \mathbb{B}^\top\mathbb{B} = \mathbb{I} a tiež vzhľadom k neznámemu vektoru \boldsymbol{v} (v následujúcom kroku). Oba kroky dostatočne dlho alternujeme, až kým nie je dosiahnutá konvergencia. Hlavná myšlienka samozrejme spočíva v tom, že sa snazíme nájsť najlepšiu ortogonálnu projekciu do lineárneho podpriestoru, ktorý je generovaný orgogonálnou maticou \mathbb{B}, tak, aby súčet štvorcových chýb bol najmenší možný. Z teórie lineárnej regresie vieme, že za platnosti dodatočného predpokladu linearity je najlepším odhadom práve model lineárnej regresie. V obecnom prípade (bez predpokladu linerity) ale lze získať lepšiu ortogonálnu projekciu. Ak bude matica \mathbb{B} v jednotlivých stĺpcoch obsahovať prvých p \in \mathbb{N} hlavných kompoment, tak získame najlepšiu možnú ortogonálnu projekciu náhodného vektoru \boldsymbol{Y} do p rozmerného lineárneho podpriestoru (samozrejme všetko pouze v zmysle najmenšej štvorcovej chyby). Jednoduchý príklad alternujúcej regresie od Matíasa Salibiána Barreru.
Prvú hlavnú kompomentu pomocou alternujúcich lineárnych regresných modelov získame ako
Jedná sa o stĺpcový vektor matice \mathbb{B}, ktorý nam dá minimálnú štvorcovú chybu projekcie do jednorozmerného lineárneho podpriestoru, ktorý je generovaný prvým vlastnym vektorom variančnej-kovariančnej matice – čo múžeme priamo porovnať s využitím EIV alebo SVD rozkladu:
Je nutné si uvedomiť, že rozdiel v znamienku je v tomto prípade irelevantný. Z hľadiska praktických aplikacii môže byť užitočné porovnať fungovanie a časovú náročnosť oboch postupov napr. pomocou simulačnej štúdie. Využijeme výrazne vyšší počet dimenzii, aby bolo porovnanie viac relevantné a výpovedné.
Výpočetná časová náročnosť sa zdá byť v prospech alternujúcej regresie. Obecne platí, že v programe R je nutné dbať na maticové operácie a pristupovať k ním efektívne, čo do časovej náročnosti výpočtu. 3. Metóda hlavných komponent v programe RMetóda hlavných komponent je v programe R implementovaná pomocou príkazu Alternatívne a pri praktických (t.j. empirických) úlohach aj ekvivalentne je možné v programe R využiť aj príkaz Označme oba rozklady ako EIV(\mathcal{S}) = \Gamma \Lambda \Gamma^\top \quad \quad \textrm{a analogicky} \quad \quad SVD(\mathcal{X}) = UDV^\top. Ekvivalentnosť oboch rozkladov je viac-menej okamžitá: n \mathcal{S} = \mathcal{X}^\top\mathcal{X} = VDU^\top UD V^\top = V D^2 V^\top = \Gamma \widetilde{\Lambda} \Gamma^\top = EIV(n\mathcal{S}), pre \Gamma \equiv V a \widetilde{\Lambda} \equiv D^2. Taktiež platí, že EIV(n\mathcal{S}) = \Gamma \widetilde{\Lambda} \Gamma^\top = \Gamma (n \Lambda) \Gamma^\top = n \Gamma \Lambda \Gamma^\top = n EIV(\mathcal{S}). Využitie metódy hlavných komponent z praktického hľadiska (prevažne ako exploratívny a dimenziu redukujúci nástroj) bude predmetom následujúceho cvičenia. SamostatnePre fungovanie hlavných komponent je podstatné porozumenie fungovania vlastných čísel a vlastných vektorov. Interaktívne grafické ilustrácie pre pripomenutie je možné nájsť napr. tu:
Domáca (samostatná) úloha(Deadline: Siedme cvičenie / 13.04.2021)Uvažujte náhodný výber (X_1,Y_1)^\top, \dots (X_n,Y_n)^\top generovaný, resp. simulovaný z nejakého vhodného dvojrozmerného rozdelenia. Náhodný vektor \boldsymbol{Y} = (Y_1, \dots, Y_n)^\top lze chápať aj ako element v n rozmernom lineárnom priestore \mathbb{R}^n. Budu nás zaujímať tri rôzne ortogonálne projekcie – zakaždým do iného dvojrozmerného lineárneho podpriestoru v \mathbb{R}^n. Pre každú projekciu explicitne spočítajte štvorcové chyby (t.j. empiricky overte kvalitu danej projekcie vhľadom k teoretickým očakávaniam). Projekcie sa pokúste nejak vizualizovať.
|