NMST539 | Cvičenie 4Wishartovo, Hotellingovo a Wilkovo rozdelenieLS 2020/2021 | 23/03/21 | (online výuka)zdrojový Rmd súbor (kódovanie UTF8)Outline štvrtého cvičenia:
Štatisticky program R je k dispozícii (GNU public licence) na adrese https://www.r-project.org RStudio – “user-friendly” interface (jeden z mnohých, ktoré na internete nájdete): RStudio. Užitočné návody a manuály pre prácu s programom R:
1. Wishartovo pravdepodobnostné rozdelenieWishartovo rozdelenie je mnohorozmerným zobecnením jednorozmerného \(\chi^2\) rozdelenia, ktoré sa štandardne používa pre inferenciu o neznámom parametri rozptylu na základe jednorozmerného náhodného výberu. Rozdelenie nesie názov po svojom autorovi, John-ovi Wishart-ovi, ktorý toto rozdelenie formuloval v roku 1928. Wishartovo rozdelenie je základným nástrojom pre analýzu/inferenciu ohľadom variančnej-kovariančnej matice na základe mnohorozmerného náhodného výberu \(\boldsymbol{X}_{1}, \dots, \boldsymbol{X}_{n}\), pre \(p\) rozmerné náhodné vektory \(\boldsymbol{X}_{i} = (X_{i 1}, \dots, X_{i p})^\top \in \mathbb{R}^p\) a rozsah náhodného výberu \(n \in \mathbb{N}\). Wishartovo rozdelenie je mnohorozmerným zobecnením jednorozmerného \(\chi^2\) rozdelenia v nasledujúcom zmysle: pre mnohorozmerný náhodný výber \(\boldsymbol{X}_{1}, \dots, \boldsymbol{X}_{n}\) (stĺpcové náhodné vektory) z \(p\) rozmerného normálneho rozdelenia \(N_{p}(\boldsymbol{0}, \Sigma)\) s nulovým vektorom stredných hodnôt a variančnou-kovariančnou maticou \(\Sigma\) (symetrická a pozitívne definitná matica) má príslušná kvadratická forma Wishartovo rozdelenie \[ \mathbb{X}^{\top}\mathbb{X} \sim W_{p}(\Sigma, n), \] s parametrami \(p \in \mathbb{N}\) (dimenzia), \(n \in \mathbb{N}\) (prozsah náhodného výberu) a \(\Sigma\) (variančná-kovariačná matica náhodného výberu \(\boldsymbol{X}_{1}, \dots, \boldsymbol{X}_{n}\) kde \(\mathbb{X} = (\boldsymbol{X}_{1}, \dots, \boldsymbol{X}_{n})^{\top}\)). Podobne ako v jednorozmernom prípade pre náhodný výber \(X_{1}, \dots, X_{n}\) (náhodné veličiny) z normálelneho rozdelenia \(N(0,1)\), má príslušná kvadratická forma \[ \boldsymbol{X}^{\top}\boldsymbol{X} \sim \chi_{n}^2, \] \(\chi^2\) rozdelenie, pre \(\boldsymbol{X} = (X_{1}, \dots, X_{n})^\top\). Je zrejmé, že pre náhodný výber s rozsahom \(n \in \mathbb{N}\) z jednorozmerného normálneho rozdelenia \(N(0,1)\) má náhodná veličina \(\mathbb{X}^\top\mathbb{X}\) (jednorozmerné) Wishartovo rozdelenie \(W_{1}(1, n)\), ktoré je ekvivalentné s \(\chi_{n}^2\) rozdelením. Wishartovo rozdelenie predstavuje rodinu náhodných rozdelení pre definovaných na symetrických, pozitívne semi-definitných .náhodných maticiach. Príslušná hustota Wishartovho rozdelenia má nasledujäci tvar: \[
f(\mathcal{X}) = \frac{1}{2^{np/2} |\Sigma|^{n/2} \Gamma_{p}(\frac{n}{2})} \cdot |\mathcal{X}|^{\frac{n - p - 1}{2}} e^{-(1/2) tr(\Sigma^{-1}\mathcal{X})},
\] kde \(\mathcal{X}\) je náhodná matica typu \(p\times p\) a \(\Gamma_{p}(\cdot)\) predstavuje mnohorozmerné zobecnenie jednorozmernej Gamma funkcie \(\Gamma(\cdot)\). V programe R sú k dispozícii rôzne možnosti (knižnice a príkazy) pre prácu s Wishartovým rozdelením. Niektoré z týchto nástrojov využijeme v následujúcej časti. Samostatne (teoretické a praktické úlohy)
Pre jednoduchú ilustráciu použijeme jednorozmerný generátor: náhodný výber z Wishartovho rozdelenia \(W_{1}(\Sigma = 1, n = 10)\) (resp. ekvivalentne z \(\chi^2\) rozdelenia s \(n = 10\) stupňami voľnosti) získame pomocou pomocu funkcie
Pre obecný rozmer \(p \in \mathbb{N}\) použijeme analogický príkaz s vhodne definovanou variančnou-kovariačnou maticou \(\Sigma\):
V prípade, že \(p = 1\), môžeme ekvivalentnosť Wishartovho rozdelenia \(W_{1}(\Sigma = 1, n)\) a \(\chi^2\) rozdelenia s \(n\) stupňami voľnosti jednoducho overiť aj vizuálne, napr. pomocou histogramu, alebo príslušného neparametrického odhadu hustôt.
Dvojrozmerné Wishartovo rozdelenie (rozdelenie náhodných symetrických matíc typu \(2 \times 2\)) je už ale výrazne náročnejšie vizualizovať vhodným spôsobom. Jedná z možnosti je napr. následujúci graf, ktorý zobrazuje \(2 \times 2\) maticu ako usporiadaný vektor - t.j., náhodná matica \(\boldsymbol{X}_i\) je tvorená dvoma vektormi \((x_{11}, x_{21})^\top\) a \((x_{12}, x_{22})^\top\). Tieto vektory definujú v dvojrozmernej \(xy\) rovine (\(xy\) scatterplot) počiatočný a koncový bod úsečky. Úsečky su následne vyzualizované v grafe (počiatočný bod – t.j. bod určený vektorom \((x_{11}, x_{21})^\top\) je v grafe zvýraznený). Graf možno nie je úplne intuitívny, ale umožňuje napríklad jednoznačnu a priamočiaru reprodukciu pôvodných hodnôt náhodného výberu.
Iné možnosti grafickej reprezentácie náhodného výberu z Wishartovho rozdelenia by boli napríklad vizualizácie založené na vlastných čislach, vlastných vektoroch, alebo ďalšie. Väčšinou ale neumožňujú takto jednoduchú spätnú rekonštrukciu náhodných matíc na základe samotného grafu. Samostatne
2. Hotellingovo \(\boldsymbol{T^2}\) rozdelniePodobným spôsobom, ako je v jednorozmernom prípade definované \(t\)-rozdelenie s \(n\) stupňami voľnosti, môžeme defnovať aj jeho mnohorozmerné zobecnenie. V jednorozmernom prípade sa jedná o náhodnú veličinu s normálnym \(N(0,1)\) rozdelením, ktorá je podelená inou, na nej nezávislou náhodnou veličinou, ktorej kvadrát má \(\chi^2\) s \(n\) stupňami voľnosti (a navyše je štandardizovaná odmocninou z týchto stupńov voľnosti). Mnohorozmerné zobecnenie (t.j., náhodná veličina s Hotellingovým \(T^{2}\) rozdelením) je definované predpisom \[ n \boldsymbol{Y}^{\top} \mathbb{M}^{-1} \boldsymbol{Y} \sim T^{2}(n, p), \] kde \(p \in \mathbb{N}\) je dimenzia/rozmer náhodného vektoru \(Y \sim N_{p}(0, \mathbb{I})\) a \(n \in \mathbb{N}\) je parameter Wishartovho rozdelenia náhodnej matice \(\mathbb{M} \sim W_{p}(\mathbb{I}, n)\). Analogicky ako v jednorozmernom prípade, prepokládame, že náhodný vektor \(\boldsymbol{Y}\) je nezávsilý od náhodnej matice \(\mathbb{M}\). V špeciálnom prípade, pre \(p = 1\), dostaneme jednorozmerné Fisherovo F rozdelenie s jedným a s \(n\) stupňami voľnosti (čo je vlastne ekvivalentné s rozdelením kvadrátu náhodnej veličiny s \(t\) rozdelením s \(n\) stupňami voľnosti). Hotellingovo \(T^2\) rozdelenie s prametrami \(p, n \in \mathbb{N}\) preto možno považovať aj za mnohorozmerné zobecnenie Fisherovho F rozdelenia. Medzi oboma rozdeleniami je dokonca jednoznačná analytická súvislosť, ktorú je možné vyjadriť pomocou vzťahu \[ T^{2}(p, n) \equiv \frac{n p}{n - p + 1}F_{p, n - p + 1}. \] Náhodný výber z jednorozmerného Fisherovho rozdelenia preto môže byť efektívne použitý aj k tomu, aby sme získali kritické hodnoty mnohorozmerného Hotellingovho \(T^2\) rozdelenia. Príslušná transformácia medzi Hotellingovým \(T^2\) rozdelením a Fisherovým F rozdelením závisí iba na parametroch \(n, p \in \mathbb{N}\). Úlohu týchto parametrov (resp. efekt týchto parametrov) v Hotellingovom \(T^2\) rozdelení môžeme opäť jednoducho vizualizovať, napríklad pomocou náhodného generátora z Fisherovho F rozdelenia (v programe R príkaz
Pre pripomenutie, náhodná veličina \(X\) s Fisherovým F rozdelením \(F_{df_1, df_2}\) má strednú hodnotu a rozptyl definované predpismi:
\[ (n - 1)\Big(\overline{\boldsymbol{X}} - \boldsymbol{\mu}\Big)^\top \mathcal{S}^{-1} \Big(\overline{\boldsymbol{X}} - \boldsymbol{\mu}\Big) \sim T^2(p, n - 1), \] čo lze ekvivalentne zapísať aj do tvaru \[ \frac{n - p}{p} \Big(\overline{\boldsymbol{X}} - \boldsymbol{\mu}\Big)^\top \mathcal{S}^{-1} \Big(\overline{\boldsymbol{X}} - \boldsymbol{\mu}\Big) \sim F_{p, n - p}. \] Toto je následne možné aplikovať pri úlohach o inferencii pre neznámy vektor stredných hodnôt – napr. pri štatistických testoch, alebo pri konštrukcii konfidenčných oblastí pre vektor neznámych stredných hodnôt \(\boldsymbol{\mu}\), kde \(\boldsymbol{\mu} = (\mu_{1}, \dots, \mu_{p})^{\top}\). V praxi sa často využíva namiesto confidenčného regiónu pre \(\boldsymbol{\mu}\) (čo môže byť nepraktické hlavne pre vyšší rozmer dimenzie \(p\)) radšej súbor intervalov spoľahlivosti pre jednotlivé zložky \(\boldsymbol{\mu}\), tak aby bola celková pravdepodobnosť pokrytia pod kontrolou – najčastejšie vyžadujeme pokrytie minimálne \((1 - \alpha)\times 100~\%\) pre vhodné a dostatočne malé hodnoty \(\alpha \in (0,1)\). Analogicky, v prípade štatistického testu definujeme dvojicu hypotéz \[ H_{0}: \boldsymbol{\mu} = \boldsymbol{\mu}_{0} \in \mathbb{R}^{p} \] \[ H_{1}: \boldsymbol{\mu} \neq \boldsymbol{\mu}_{0} \in \mathbb{R}^{p} \] a využijeme testovú štatistiku \[ (n - 1)\Big(\overline{\boldsymbol{X}} - \boldsymbol{\mu}_{0}\Big)^\top \mathcal{S}^{-1} \Big(\overline{\boldsymbol{X}} - \boldsymbol{\mu}_{0}\Big), \] ktorá má za platnosti nulovej hypotézy \(T^2(p, n - 1)\) rozdelenie. Ekvivalentne, testová štatistika vyjadrená v tvare \[ \frac{n - p}{p} \Big(\overline{\boldsymbol{X}} - \boldsymbol{\mu}_{0}\Big)^\top \mathcal{S}^{-1} \Big(\overline{\boldsymbol{X}} - \boldsymbol{\mu}_{0}\Big) \] má za platnosti nulovej hypotézy Fisherovo \(F\)-rozdelenie s \(p\) a \(n - p\) stupňami voľnosti. V programe R je k dispozícii knižnica Analogickým spôsobom je možné skonštruovať aj konfidenčnú oblasť - tzv. konfidenčný elipsoid \(\boldsymbol{\mu} \in \mathbb{R}^p\). Keďže platí, že \[
\frac{n - p}{p} \Big(\overline{\boldsymbol{X}} - \boldsymbol{\mu}_{0}\Big)^\top \mathcal{S}^{-1} \Big(\overline{\boldsymbol{X}} - \boldsymbol{\mu}_{0}\Big) \sim F_{p, n - p},
\] tak nasledujúca množina \[
\left\{\boldsymbol{\mu} \in \mathbb{R}^p;~ \Big( \overline{\boldsymbol{X}} - \boldsymbol{\mu}\Big)^\top \mathcal{S}^{-1} \Big( \overline{\boldsymbol{X}} - \boldsymbol{\mu}\Big) \leq \frac{p}{n - p} F_{p, n- p}(1 - \alpha) \right\}
\] je konfidenčnou oblasťou pre neznámy vektor stredných hodnôt \(\boldsymbol{\mu} \in \mathbb{R}^p\) s pravdepodobnosťou pokrytia \(\alpha = 1 - \alpha\). Jedná sa o ellipsoid v \(\mathbb{R}^p\). Ilustračný príklad v 2D:
Poznámka
Príklad I: ozdiel dvoch vektorov stredných hodnôt / stejná variančná-kovariančná maticaHotellingove \(T^2\) rozdelenie použijeme najprv pre test o rovnosti dvoch neznámych vektorových parametrov stredných hodnôt. K dispozícii máme náhodný výber \(\boldsymbol{X}_{1}, \dots, \boldsymbol{X}_{n} \sim N_{p}(\boldsymbol{\mu}_{1}, \Sigma)\) a na ňom nezávislý náhodný výber \(\boldsymbol{Y}_{1}, \dots, \boldsymbol{Y}_{M} \sim N_{p}(\boldsymbol{\mu}_{2}, \Sigma)\). Parametre stredných hodnôt – t.j., p rozmerné pevné, ale neznáme vektory – sú obecne rôzne \(\boldsymbol{\mu}_{1} \neq \boldsymbol{\mu}_{2}\), ale variačna-kovariančná matica je pre oba náhodné výbery stejná (hoci neznáma). Rovnaká je samozrejme aj dimenzia náhodných výberov. Zaujíma nás test nulovej hypotézy \[ H_{0}: \boldsymbol{\mu}_1 = \boldsymbol{\mu}_{2} \] oproti obecnej alternatíve, že nulová hypotéza neplatí. Je zrejmé, že pre výberové priemery \(\overline{X}_{1}\) a \(\overline{X}_{2}\) platí, že \[ (\overline{X}_{1} - \overline{X}_{2}) \sim N_{p}\Bigg(\boldsymbol{\Delta}, \frac{n + m}{n m} \Sigma\Bigg), \] a tiež \[ n\mathcal{S}_{1} + m\mathcal{S}_{2} \sim W_{p}(\Sigma, n + m - 2), \] kde \(\mathcal{S}_{1}\) a \(\mathcal{S}_{2}\) sú empriciké odhady variančnej-kovariančnej matice \(\Sigma\) spočítané samostatne na základe prvého a druhého náhodného výberu. Kritický obor pre daný test je preto definovaný následovne: \[ \frac{nm(n + m - p - 1)}{p(n + m)^2}(\overline{\boldsymbol{X}}_{1} - \overline{\boldsymbol{X}}_{2})^{\top} \mathcal{S}^{-1} (\overline{\boldsymbol{X}}_{1} - \overline{\boldsymbol{X}}_{2}) \geq F_{p, n + m - p - 1}(1 - \alpha). \]Príklad II: Rozdiel dvoch vektorov stredných hodnôt / rôzne variančné-kovariančné maticeAnalogicky ako v predchádzajúcom príklade, opäť uvažujme náhodný výber \(\boldsymbol{X}_{1}, \dots, \boldsymbol{X}_{n} \sim N_{p}(\boldsymbol{\mu}_{1}, \Sigma_{1})\) a na ňom nezávislý druhý náhodný výber \(\boldsymbol{Y}_{1}, \dots, \boldsymbol{Y}_{M} \sim N_{p}(\boldsymbol{\mu}_{2}, \Sigma_{2})\), s obecne rôznymi parametrami stredných hodnôt \(\boldsymbol{\mu}_{1} \neq \boldsymbol{\mu}_{2}\), ale tentokrát aj s potenciálne rôznymi (neznámymi) variančnými-kovariančnými maticami. Opäť nás zaujíma test nulovej hypotézy o rovnosti vektorových parametrov stredných hodnôt, t.j., nulová hypotéza v tvare \[ H_{0}: \boldsymbol{\mu}_1 = \boldsymbol{\mu}_{2} \] oproti obecnej alternatíve, že mnulová hypotéza neplati. Je zrejmé, že platí \[ (\overline{X}_{1} - \overline{X}_{2}) \sim N_{p}\Bigg(\boldsymbol{\Delta}, \frac{\Sigma_{1}}{n} + \frac{\Sigma_{2}}{m}\Bigg), \] a taktiež \[ (\overline{X}_{1} - \overline{X}_{2})^\top \Big(\frac{\Sigma_{1}}{n} + \frac{\Sigma_{2}}{m}\Big)^{-1} (\overline{X}_{1} - \overline{X}_{2}) \sim \chi_{p}^{2}. \] S využitím vyššie uvedeného môžeme zostrojiť testovú štatistiku a analogickym spôsobom ako v predchádzajom prípade získame kritický obor na základe ktorého rozhodneme o zamietnuti, resp. nezamietnuti nulovej hypotézy. Samostatne
Ilustračný príklad:
Využijeme datový súbor
Príslušné empirické odhady neznámych vektorov stredných hodnôt aj variačných-kovariačných matíc sú:
Zaujíma nás test nulovej hypotézy, či (neznáme) stredné koncentrácie v prvom kontajneri (
Samotný test:
Otázky
Príslušné simultánne intervaly spoľahlivosti pre (všetky) lineárne kombinácie jednotlivých zložiek \(\boldsymbol{\mu} \in \mathbb{R}^{p}\) (lineárne kombinácie definované parametrami \(\boldsymbol{a}^\top\) získame pomocou vzťahu \[ P\Big(\forall \boldsymbol{a} \in \mathbb{R}^{p};~ \boldsymbol{a}^\top \boldsymbol{\mu} \in \big( \boldsymbol{a}^\top\overline{\boldsymbol{X}} - \sqrt{K_{\alpha} \boldsymbol{a}^\top \mathcal{S} \boldsymbol{a}}, \boldsymbol{a}^\top\overline{\boldsymbol{X}} + \sqrt{K_{\alpha} \boldsymbol{a}^\top \mathcal{S} \boldsymbol{a}} \big) \big)\Big) = 1 - \alpha, \] kde \(K_{\alpha}\) je príslušný transformácia kvantilu Fisherovho \(F\) rozdelenia v tvare \(K_{\alpha} = \frac{p}{n - p} F_{p, n - p}(1 - \alpha)\) a \(\mathcal{S}\) výberová variančná-kovariančná matica.
3. Wilkovo Lambda rozdelnieToto rozdelenie je odvodené z dvoch nezávislých náhodných matíc s Wishartovým rozdelenim. Vpodstate sa jedná o mnohorozmerné zobecnenie jednorozmerného Fisherovho F rozdelenia a používa sa hlavne k inferencii dvoch variačných-kovariačných matíc (analogicky, ako sa jednorozmerné Fisherovo F rozdelenie používa k inferencii o dvoch parametroch rozptylu). Pre dve náhodné a vzájomné nezávislé náhodné matice \[ \mathbb{A} \sim W_{p}(\mathbb{I}, n) \quad \textrm{a} \quad \mathbb{B} \sim W_{p}(\mathbb{I}, m) \] môžeme definovať náhodnú veličinu \(\frac{|\mathbb{A}|}{|\mathbb{A} + \mathbb{B}|}\) ktorej rozdelenie je Wilkovo Lambda, t.j., \(\Lambda(p, n, m)\). Toto rozdelenie sa tiež používa v súvislosti s testom pomerom vierohodnosti. Analogickym spôsobom, ako funguje metóda analýzy rozptylu (ANOVA) na základe Fisherovho F rozdelenia, v mnohorozmernom prípade používame mnohorozmerné zobecnenie (MANOVA), ktorá vychádza z Wilkovho Lambda rozdelenia. V programe R príkaz Ilustračný príklad
Domáca (samostatná) úloha(Deadline: Piate cvičenie / 30.03.2021)V R knižnici
|