NMST539 | Cvičenie 13Kanonické korelace a korespondenční analýzaLS 2020/2021 | 25/05/21 | (online výuka)zdrojový Rmd súbor (kódovanie UTF8)Outline 13. cvičenia:
Štatisticky program R je k dispozícii (GNU public licence) na adrese https://www.r-project.org RStudio – “user-friendly” interface (jeden z mnohých, ktoré na internete nájdete): RStudio. Užitočné návody a manuály pre prácu s programom R:
1. Kanonické korelácieMetóda kanonických korelácii patrí medzi mnohorozmerné štatistické postupy. Zhruba řečeno, pracuje na podobnom princípe, ako metóda hlavných komponent (PCA), ktorá vysvetľuje celkovú variabilitu vrámci daného datového súboru. Kanonické korelácie sa ale zameriavajú na vysvetlenie celkovej variability a korelačnej štruktúry medzi dvoma datovými súbormi (kvantitatívne premenné sledované na stejných experimentálných jednotkách – subjektoch). Metóda hlavných komponent (PCA) teda vychádza z jedného podkladového datového súboru a snaží sa o redukciu dimenzionality v podobne niekoľkých hlavných komponent, ktoré maximulizuju hlavné smery celkovej variability dat. Metóda kanonických korelácii (CCA) vychádza z dvoch podkladových súborov (každý sa skladá z niekoľkých kvantitatívných premenných – preto “mnohorozmerná” štatistická metóda – sledovaných na stejných subjektoch) a snaží sa o nájdenie kanonických korelácii (v zmysle lineárných kombinácii pôvodných premenných), tak aby bola maximalizovana korelácia vrámci týchto premenných medzi dvoma podkladovými súbormi dat. Teoretický model lze vyjadriť následovne: pre dva mnohorozmerné náhodné vektory \(\boldsymbol{X} = (X_1, \dots, X_p)^p\) a \(\boldsymbol{Y} = (Y_1, \dots, Y_q)^\top\) predpokládame spoločnú variančnú-kovariančnú maticu pre \((\boldsymbol{X}^\top, \boldsymbol{Y}^\top)^\top\) v tvare \[ Var \left(\begin{array}{c}\boldsymbol{X}\\ \boldsymbol{Y}\end{array}\right) = \left(\begin{array}{cc} \Sigma_{XX} & \Sigma_{XY}\\ \Sigma_{YX} & \Sigma_{YY} \end{array}\right). \] Je zrejmé, že pre ľubovolnú linárnu kombináciu zložiek vektoru \(\boldsymbol{X}\) a ľubovolnú linárnu kombináciu zložiek vektoru \(\boldsymbol{Y}\) v tvare \(\boldsymbol{a}^\top \boldsymbol{X}\) a \(\boldsymbol{b}^\top\boldsymbol{Y}\), pre \(\boldsymbol{a} \in \mathbb{R}^p\) a \(\boldsymbol{b} \in \mathbb{R}^q\) dostaneme pre vzájomnú koreláciu linárných kombinácii vzťah \[ Cor(\boldsymbol{a}^\top \boldsymbol{X}, \boldsymbol{b}^\top\boldsymbol{Y}) = \boldsymbol{a}^\top \Sigma_{XY} \boldsymbol{b}. \] Metóda kanonických korelácii sa snaží nájsť hodnoty neznámych parametrov \(\boldsymbol{a} \in \mathbb{R}^p\) a \(\boldsymbol{b} \in \mathbb{R}^q\) (t.j. príslušné lineárne kombinácie zložiek vektorov \(\boldsymbol{X}\) a \(\boldsymbol{Y}\)) tak, aby bola výsledná korelácia maximálna možná. Metóda kanonických korelácii (podobne ako aj metóda hlavných komponent) ale nehľadá pouze jednu takúto lineárnu kombináciu, ale výstupom sú dvojice nových premenných (v každej dvojici je jedná premenná vytvorená lineárnou kombináciou \(\boldsymbol{a}^\top \boldsymbol{X}\) pre vhodné \(\boldsymbol{a} \in \mathbb{R}^p\) a druhá premenná linárnou kombináciou \(\boldsymbol{b}^\top\boldsymbol{Y}\), opäť pre vhodné \(\boldsymbol{b} \in \mathbb{R}^q\)), pričom celkový počet takto vytvorených párov nových premenných je daný ako \(min(p, q)\). Navyše sa požaduje, že kanonické premenné sú vzájomne (vrámci daného datového súboru) nekorelované (teda kanonické premenné \(\boldsymbol{a}_1^\top \boldsymbol{X}, \dots \boldsymbol{a}_k^\top \boldsymbol{X}\) sú nekorelované a stejně tak aj kanonické premenné \(\boldsymbol{b}_1^\top\boldsymbol{Y}, \dots, \boldsymbol{b}_k^\top\boldsymbol{Y}\) sú nekorelované, pričom \(k = min(p, q)\)). metóda kanonických korelácii je v programe R implementovaná v štandardnej funkcii Pre ilustráciu funkgovania metódy kanonických korelácii využijeme datový súbor ekologickej kvality a biologickej diverzity rôzných Českých geografických lokalít v blízkosti významných vodných tokov. Celkové data pozostávaju z dvoch datových súborov: v prvom datovom súbore sú zaznamenané namerané hodnotý rôznych ekologických a biologických indexov/metrík (dohromady 17 premenných) a v druhom datovom súbore sú na tých istých lokalitách zaznamenané koncentrácie niektorých dôležitých chemických látok (celkovo 7 premenných). Idea kanonických korelácii je pokúsiť sa vysvetliť vzájomné vzťahy medzi dvoma datovými súbormi (v oboch prípadoch sa jedná o kvantitatívne premenné sledované na stejných subjektoch – lokalitách), resp. zistiť, ktoré biologické a ekologické ukazatele (biometriky a indexy) korelujú s ktorými chemickými koncentráciami.
V podkladových datach sa vyskytuje jedná lokalita, u ktorej sú namerané biologické premenné, ale chýbajú hodnoty o príslušných chemických koncentráciach. Toto pozorovanie je v nasledujúcom kóde odstránene a není viac uvažované pre účely kanonických korelácii.
Príprava jednotlivých datových súborov – t.j. rozlíšenie náhodného vektoru \(\boldsymbol{X}\) a náhodného vektoru \(\boldsymbol{Y}\) (vzhľadom k teoretickému modelu popisanému vyššie).
Celkovú variančnú-kovariančnú maticu náhodného vektoru \((\boldsymbol{X}^\top, \boldsymbol{Y}^\top)^\top\), t.j. výberovú verziu matice na základe dat (realizácie celkového náhodného vektoru) \[ cor(\mathcal{X}, \mathcal{Y}) = \left(\begin{align}\Sigma_{XX} & \Sigma_{XY}\\\Sigma_{YX} & \Sigma_{YY}\end{align}\right),\] môžeme vyzualizovať napr. pomocou knižnice ‘CCA’ (Canonical Correlation Analysis knižnica, ktorú je nutné inštalovať pomocou príkazu
Metóda kanonických korelácii je aplikovaná priamočiaro volaním funkcie
Hodnoty (odhady) kanonických korelácii sú totožné:
Jednotlivé kanonické korelácie – t.j. prislušné dvojice linárných kombinácii stĺpcov matice biologických data a sĺpcov matice chemických dat lze z výstupu zrekonštruovať následovne:
Porovnajte s výstupom z funkcie Kanonické korelácie vizuálne:
Prislušné lineárne kombinácie stĺpcov datovej matice \(\mathcal{X}\) a datovej matice \(\mathcal{Y}\) sa ale líšia v závislosti na použitej funkcii. Porovnajte nasledujúce výstupy:
Výsledky kanonickej korelačnej analýzy je možné vyzualizovať pomocou príkazu
Viacej podrobnosti lze nájsť napr. v tomto článku. Otázky
Nad rámec klasickej metódy kanonických korelácii existujú rôzne rozšírenia – napr. tzv. regularizovaná verzia kanonických korelácii (resp. regularized canonical correlation analysis – rcc). Regularizovaná verzia je určená pre prípady, keď počet parametrov (resp. premenných) \(p \in \mathbb{N}\), prípadne \(q \in \mathbb{N}\) je väčší, ako je samotný rozsah náhodných výberov, teda \(n \in \mathbb{n}\) (väčšinou dokonca platí, že \(p, q \gg n\)). There is R function K dispozícii sú aj iné rozširujúce balíčky, napr. knižnica ‘vegan’ (inštalácia pomocou príkazu Poznámka
Metóda podobná k metóde kanonických korelácii je aj tzv. Redundančná analýza. Idea je využiť kvantitatívne premenné v jednom datovom súbore a maximalizovať vzájomnú koreláciu medzi lineárnými kombináciami premenných z tohto datového súboru a pôvodnými premennými z druhého datového súboru. Jedná sa teda o akúsi asymetrickú verziu metódy kanonických korelácii. Analogicky, môžeme sa na metódu dívať aj na určité zobecnenie lineárnej regresie, kde premenné z jedného datového súboru vystupujú ako nezávisle premenné a ich lineárnou kombináciou vysvetľujeme premenné z druhého datového súboru – závislé premenné. Samozrejme záleží, ktorý datový súbor je použitý na vytvorenie lineárnych kombinácii a z ktorého datového súboru sa využívajú pôvodné premenné. Vzhľadom k použitému značeniu sa vpodstate jedná o maximalizáciu korelácie \(cor(\boldsymbol{a}^\top\boldsymbol{X}, \boldsymbol{b}^\top\boldsymbol{Y})\), pri dodatočnom obmedzení, že buď \(\boldsymbol{a} \in \mathbb{R}^p\) alebo \(\boldsymbol{b} \in \mathbb{R}^q\) je jednotkový vektor (s jednotkou na určitej pozícii a nulami jinak). V programe R je pre redundančnú analýzu určených niekoľko baličkov, stručne aspoň knižnica 2. Korespondenčná analýza v RKorespondenčná analýza (CA - Correspondence Analysis) je vpodstate analogickou metódou ako je metóda kanonických korelácii, ale na rozdiel o kvantitatívnych dat je určená pre kvalitatívne data – resp. pre distrétne data. Podobne, ako metóda kanonických korelácii zkúma vzájomnú štruktúru medzi dvoma kvantitativnými vektormi, tak korespondenčná analýza zkúma štruktúru, resp. vzájomné závislosti medzi jednotlivými riadkami v kontingenčnej tabuľke. V určitom zmysle môžeme korespondenčnú analýzu opäť chápať ako diskrétne zobecnenie metódy hlavných komponent, prípadne kanonických korelácii. Klasická otázka v kontingenčnej tabuľke sa týka závislosti medzi multinomickým vektorom \(\boldsymbol{X}\) a multinomickým vektorom \(\boldsymbol{Y}\). Nad rámec tejto otázky nás ale môže zaujímať aj mierne komplexnejšia otázka, a totíž čí existujú nejaké závislosti/súvislosti medzi niektorými riadkami a niektorými stĺpcami kontingenčnej tabuľky (teda nie priamo samotné kategórie náhodných vektorov, ale skôr ich linárne kombinácie). Štandardný príkaz pre korespondenčnú analýzu v programe R je príkaz Pre ilustráciu použijeme datový súbor
Korespondenčná analýza pomocou príkazu
Ako by ste interpretovali predchádzajúce dva obrázky? Čo na obrázkoch vidíte? Pre pripomenutie, premenná Prvý obrázok vpodstate vizualizuje kontingenčnú tabuľku, ale zároveň pridáva aj informáciu o určitej vnútornej štruktúre – všímnite si priestorové umietnenie jednotlivých buniek kontingenčnej tabuľky. Tieto bunky nie sú vzdialené medzi sebou ekvidistantne. Podívajte sa na podrobnosti funkcie Samostatne
. Domáca (samostatná) úloha(Deadline: Cvičenie č.14 / 01.06.2021)
|