NMST539 | Cvičenie 3

Mnohorozměrné normální rozdělení

LS 2020/2021 | 16/03/21 | (online výuka)

zdrojový Rmd súbor (kódovanie UTF8)

Outline tretieho cvičenia:

  • mnohorozmerné normálne rozdelenie (združené, marginálne, podmienené rozdelenia);
  • lineárne kombinácie náhodných veličín a vektorov s normálnym rozdelením;
  • normalita vs. nezávislosť;

Štatisticky program R je k dispozícii (GNU public licence) na adrese https://www.r-project.org

RStudio (tzv. “user-friendly” interface - jeden z mnohých, ktoré na internete nájdete): RStudio.

Užitočné návody a manuály pre prácu s programom R:

  • Bína, V., Komárek, A. a Komárková, L.: Jak na jazyk R. (PDF súbor)
  • Komárek, A.: Základy práce s R. (PDF súbor)
  • Kulich, M.: Velmi stručný úvod do R. (PDF súbor)
  • De Vries, A. a Meys, J.: R for Dummies. (ISBN-13: 978-1119055808)


Odborná literatúra:
  • Hardle, W. and Simar.L.: Applied Multivariate Statistical Analysis. Springer, 2015
  • Mardia, K., Kent, J., and Bibby, J.:Multivariate Analysis, Academic Press, 1979.




1. Podmienené normálne rozdelenie

Pre pripomenutie – náhodný výber z mnohorozmerného normálneho rozdelenia je pomocou programu R možné získať niektorým z nasledujúcich možnosti:
  • knižnica mvtnorm a funkcia (mnohorozmerný generátor) rmvnorm();
  • knižnica MASS a funkcia (mnohorozmerný generátor) mvrnorm();
  • využitím vhodných podmienených rozdelení a jednorozmerného generátoru rnorm();
  • prípadne iné (vhodné) knižnice a balíčky pre program R;

Pre jednoduchosť uvažujme dvoj-rozmerné normálne rozdelenie náhodného vektoru \(\Big(\begin{array}{x}X_{1}\\X_{2}\end{array}\Big)\), čo sa väčšinou vyjadruje pomocou zápisu

\(\Big(\begin{array}{x}X_{1}\\X_{2}\end{array}\Big) \sim N_{2}\left(\boldsymbol{\mu} = \Big(\begin{array}{c} \mu_{1} \\ \mu_{2}\end{array}\Big), \Sigma = \left( \begin{array}{cc} \sigma_{1}^{2} & \sigma_{12} \\\sigma_{21} & \sigma_{2}^{2} \end{array} \right) \right)\),

kde \(\boldsymbol{\mu} \in \mathbb{R}^2\) je vektor stredných hodnôt a matica \(\Sigma\) je tzv. variančná-kovariačná matica náhodného vektoru \(\Big(\begin{array}{x}X_{1}\\X_{2}\end{array}\Big)\), o ktorej sa obecne predpokladá, že je pozitívne definitná a symetrická (teda \(\sigma_{12} = \sigma_{21}\)).

Príslušná dvojrozmerná hustota má tvar

\(\large{f(\boldsymbol{x}) = \frac{1}{2 \pi |\Sigma|^{1/2}} exp\Big\{ -\frac{1}{2} (\boldsymbol{x} - \boldsymbol{\mu})^{\top} \Sigma^{-1} (\boldsymbol{x} - \boldsymbol{\mu}) \Big\},}\)


pre ľubovolný bod z dvojrozmernej reálnej plochy, \(\boldsymbol{x} = (x_{1}, x_{2})^{\top} \in \mathbb{R}^{2}\).

Pomocou združenej hustoty je možné jednoducho (integrovaním) vyjadriť marginálne rozdelenia jednotlivých zložiek, t.j., náhodných veličín \(X_{1}\) a \(X_{2}\). Z definície podmienenej hustoty je následne možné vyjadriť podmienené rozdelenie (hustotu) náhodnej veličiny \(X_{1}\) pri pozorovanej hodnote \(X_{2}\) (alebo, analogicky, podmienené rozdelenie náhodnej veličiny \(X_{2}\) pri danej hodnote náhodnej veličiny \(X_{1}\)).

  • Pre získanie/určenie marginálneho rozdelenia náhodnej veličiny \(X_{1}\) je potrebné spočítať integrál \(f_1(x_{1}) = \int_{\mathbb{R}} f(x_{1}, x_{2}) \mbox{d}x_{2}\) a analogicky pre učenie marginálneho rozdelenia náhodnej veličiny \(X_{2}\), je nutné spočítať integrál \(f_2(x_{2}) = \int_{\mathbb{R}} f(x_{1}, x_{2}) \mbox{d}x_{1}\), kde zakaždým integrujeme združené rozdelenie (hustotu) vzhľadom k prvej, resp. vzhľadom k druhej premennej (obecne vzhľadom k ostatným premenným). Intuitívne tušíme, že marginálne rozdelenia náhodných veličín \(X_{1}\) a \(X_{2}\) sú opäť normálne, t.j., platí nasledujúce:

    \(X_{1} \sim N(\mu_1, \sigma_1^2)~~~\) a \(~~~X_{2} \sim N(\mu_2, \sigma_2^2)\).


  • Podmienené rozdelenie – napríklad podmienené rozdelenie náhodnej veličiny \(X_{2}\) pri danej hodnote \(X_{1} = x_{1}\) je opäť normálne, a jednoducho sa overí (udělejte samostatne), že platí nasledujúce:

    \((X_{2} | X_{1 } = x_{1}) \sim N\Big(\mu_{2} + \frac{\sigma_{21}(x_1 - \mu_1)}{\sigma_{1}^2}, \sigma_{2}^2 - \frac{\sigma_{12}\sigma_{21}}{\sigma_{1}^2}\Big).\)
    Analogické rozdelenie lze odvodiť aj pre podmienené rozdelenie náhodnej veličiny \(X_1\) pri danej hodnote \(X_2 = x_2\).



Pomocou programu R a niekoľkých jednoduchých príkladov spočítame marginálne a podmienené rozdelenia pre náhodný vektor s daným (mnohorozmerným) normálnym rozdelením. Využijeme R knižnicu mvtnorm (knižnica musí byť nainštalovaná v programe R). Knižnicu iniciallizujeme pomocou príkazu

library("mvtnorm")

Pre jednoduchosť, náhodný vektor bude mať dvojrozmerné normálne rozdelenie s vektorom stredných hodnôt \(\boldsymbol{\mu} = (0,0)^\top\) a variačnou-kovariančnou maticou \(\Sigma = \left( \begin{array}{cc} 1 & 0.8 \\0.8& 1\end{array} \right)\). Chceme spočítať podmienené rozdelenie náhodnej veličiny \(X_{2}\), za podmienky, že platí \(X_{1} = 0.7\).

Samostatne


  • Aký je (lineárny) vzťah medzí náhodnými veličinami \(X_1\) and \(X_2\)? Je možné tento vzťah formálne kvantifikovať?

  • Z pohľadu geometrie, resp. lineárnej regresie je možné uvažovať aj takto: pre náhodný výber z daného dvojrozmerného rozdelenia reprezentovaný v \(xy\) scatterplote, je možné zostrojiť regresnu priamku, ktorá v určitom vhodnom zmysle data dobre reprezentuje. Táto přimka je jednoznančne určená dvoma parametrami – interceptom a smernicou.

    Máte aspoň intuitívnu predstavu, ako tieto parametre získať a čo presne reprezentujú?
    Porovnajte nasledujúce výstupy a zároveň vizuálne oveřte, že regresní prímka (ktorá je učená parametrami v príkaze lm()) anozaj prechádza bodom, který je určený ako c(mean(sample[,2]), mean(sample[,1])) – t.j. výberovým priemerom hodnot na ose \(x\) a výberovým priemerom hodnot na ose \(y\).

    n <- 100
    sample <- rmvnorm(n, c(0, 0), matrix(c(1, 0.8, 0.8, 1),2,2))
    (summary(lm(sample[,1] ~ sample[,2])))
    ## 
    ## Call:
    ## lm(formula = sample[, 1] ~ sample[, 2])
    ## 
    ## Residuals:
    ##     Min      1Q  Median      3Q     Max 
    ## -1.0884 -0.3282  0.0557  0.3330  0.9934 
    ## 
    ## Coefficients:
    ##              Estimate Std. Error t value Pr(>|t|)    
    ## (Intercept) -0.003759   0.050693  -0.074    0.941    
    ## sample[, 2]  0.699249   0.050201  13.929   <2e-16 ***
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## Residual standard error: 0.5046 on 98 degrees of freedom
    ## Multiple R-squared:  0.6644, Adjusted R-squared:  0.661 
    ## F-statistic:   194 on 1 and 98 DF,  p-value: < 2.2e-16
    (cor(sample[,1], sample[,2]) * sd(sample[,1]) /sd(sample[,2]))
    ## [1] 0.6992494
    plot(sample[,1] ~ sample[,2], pch = 21, bg = "gray")
    abline(lm(sample[,1] ~ sample[,2]), col = "red", lwd = 2)
    lines(c(-4, 4) ~ rep(mean(sample[,2]), 2), col = "blue", lty = 2)
    lines(rep(mean(sample[,1]), 2) ~ c(-4, 4), col = "blue", lty = 2)




Pomocou nasledujúcich príkazov sa možeme názorne podívať na združené rozdelenie, jednotlivé marginálne rozdelenia náhodných zložiek \(X_1\) a \(X_2\) a tiež na podmienené rozdelenie náhodného vektoru \(X_{2}\), za podmienky, že platí \(X_{1} = 0.7\).

Sigma <- matrix(c(1,.8,.8,1), nrow=2) ## variance-covariance matrix

x <- seq(-3,3,0.01)
contour(x,x,outer(x,x,function(x,y){dmvnorm(cbind(x,y),sigma=Sigma)}), col = "blue")

abline(v=.7, lwd=2, lty=2, col = "red")
text(0.75, -2, labels=expression(x[1]==0.7), col = "red", pos = 4)

### conditional distribution of X2 | X1 = 0.7
y <- dnorm(x, mean =  0.8 * 0.7, sd = sqrt(1 - 0.8^2))
lines(y-abs(min(x)),x,lty=2,lwd=2, col = "red")

### marginals
m1 <- m2 <- dnorm(x, 0, 1)
lines(x, m1 - abs(min(x)), lty = 1, lwd = 2, col = "gray30")
lines(m2 - abs(min(x)), x, lty = 1, lwd = 2, col = "gray30")

Dokážete v predchádzajúcom obrázku jednoznačne identifikovať združené rozdelenie (zobrazené pomocou modrých kontúr s maximálnou hodnotou združenej hustoty v bode [0,0]), jednotlivé marginálne rozdelenia (Gaussová křivka na ose \(x\) pre \(X_1\) a na ose \(y\) pre \(X_2\)) a podmienené rozdelenie náhodnej veličiny \(X_{2}\), za podmienky, že platí \(X_{1} = 0.7\) (červená Gaussová křivka na ose \(y\))?

Podmienené rozdelenie náhodnej veličiny \(X_2\) je samozrejme možné definovať a zobraziť pre rôzne/ľubovolné hodnoty \(X_{1} = x_1\). Obrázok nižšie napríklad zobrazuje podmienené rozdelenie \((X_{2} | X_{1} = -1\)):

contour(x,x,outer(x,x,function(x,y){dmvnorm(cbind(x,y),sigma=Sigma)}), col = "blue")
abline(v=-1, lwd=2, lty=2, col = "red")

### conditional distribution of X2 | X1 = - 1
y2 <- dnorm(x, mean = 0.8 * (- 1), sd = sqrt(1 - 0.8^2))
lines(-y2 + max(x),x,lty=2,lwd=2, col = "red")

Alebo analogicky:

contour(x,x,outer(x,x,function(x,y){dmvnorm(cbind(x,y),sigma=Sigma)}), col = "blue")
abline(v=-1, lwd=1, lty=1, col = "red")
lines(y2 - 1 ,x,lty=2,lwd=2, col = "red")

Dokážete v predchádzajúcich obrázkoch identifikovať strednú hodnotu podmieneného rozdelenia? Všimnite si, že rozptyl podmieneného rozdelenia je zakaždým rovnaký (platí tzv. predpoklad homoskedasticity).

V prípade použitia hustejšieho gridu bodov \(x_{1} \in \mathbb{R}\) dostaneme získame názornú ídeu lineárnej regresie – t.j. modelovania podmienenej strednej nahodnej veličiny \(Y\) (tzv. response, resp. v našom prípade náhodnej veličiny \(X_2\)) pri daných hodnotách regresorov (v našom prípade \(X_1\)).

contour(x,x,outer(x,x,function(x,y){dmvnorm(cbind(x,y),sigma=Sigma)}), col= "blue")
condN <- function(x, cx){dnorm(x, mean = 0.8 * cx, sd = sqrt(1 - 0.8^2))}
for (i in seq(-2, 2, by = 0.25)){col <- colors()[grep("red",colors())][4*i + 9]; 
                                 lines(condN(x, i) + i, x, lwd = 2, col = col);
                                 abline(v = i, lwd=1, lty=1, col = col)}

Pripomenutie z lineárnej regresie


Za predpokladu, že data (t.j., náhodný vektor \((X_1, X_2)^\top\)) majú združené normálne rozdelenie, tak prostredníctvom lineárnej regresie – lineárnej regresnej přimky – nemodelujeme pouze podmienenú strednú hodnotu, ale vpodstate celé podmienené rozdelenie, ktoré je opäť normálne.

Porovnajte predchádzajúci graf s nasledujúcim:

set.seed(1234)
s <- rmvnorm(5000, c(0, 0), Sigma)
plot(s, pch = 21, bg = "lightblue", xlim = c(-3, 3), ylim = c(-3, 3), xlab = "", ylab = "", cex = 0.8)
abline(lm(s[,2] ~ s[,1]), col = "red", lwd = 2)

Pre ľubovolné \(x \in \mathbb{R}\) zobrazuje červená přímka príslušnú strednú hodnotu podmieneného rozdelenia \((X_2 | X_1 = x)\).

set.seed(1234)
s <- rmvnorm(5000, c(0, 0), Sigma)
plot(s, pch = 21, bg = "lightblue", xlim = c(-3, 3), ylim = c(-3, 3), xlab = "", ylab = "", cex = 0.8)
abline(lm(s[,2] ~ s[,1]), col = "red", lwd = 2)

for (i in seq(-2, 2, by = 0.25)){col <- colors()[grep("red",colors())][4*i + 9]; 
                                 lines(condN(x, i) + i, x, lwd = 2, col = col);
                                 abline(v = i, lwd=1, lty=1, col = col)}



Samostatne


  • Pripomeňte si obecný vzťah pre podmienené rozdelenie náhodného vektoru \(X_{2}\) za podmienky \(X_{1} = x_{1}\), ak platí, že celkové združené rozdelenie náhodného vektoru \((X_{1}^\top, X_{2}^\top)^\top\) je normálne a \(X_{1}\) je \(p\)-rozmerný náhodný vektor pre \(p > 1\) a \(X_{2}\) je \(q\)-rozmerný náhodný vektor pre \(q > 1\).

  • Uvažujte mnohorozmerné normálne rozdelenie pre \(p \geq 4\), t.j., alespoň štyri náhodné zložky. Spočítajte podmienené rozdelnie háhodného vektoru \((X_{i_1}, X_{i_2})\) pre \(i_1, i_2 \in \{1, 2, 3, 4\}\), pri podmienke ostatných premenných. Vytvorte graf príslušných kontúr dvojrozmerného podmieneného pri rôznych hodnotách náhodných veličin v podmienke.

  • Opäť je dôležité si uvedomiť, že zo znalosti združeného rozdelenia náhodného vektoru je možné získať lubovolné marginálne rozdelenie, prípadne akékoľvek podmienené rozdelenie niektorých zložiek, za podmienky iných zložiek náhodného vektoru. Na druhej strane, ani znalosť všetkých marginálných rozdelení nie je postačujúca k tomu, aby sme poznali celkove združené rozdelenie. Špeciálne si preto treba uvedomiť, že marginálne normálné rozdelenie jednotlivých zložiek (dokonca aj viacerých – ale nie všetkých zároveň) ešte neimplikuje združenú normalitu celého náhodného vektoru.


Poznámka


Pre obecné \((p + q)\)-mnohorozmerné normálne rozdelenie

\(\Big(\begin{array}{x}\boldsymbol{X}_{1}\\\boldsymbol{X}_{2}\end{array}\Big) \sim N_{p + q}\left(\boldsymbol{\mu} = \Big(\begin{array}{c} \boldsymbol{\mu}_{1} \\ \boldsymbol{\mu}_{2}\end{array}\Big), \Sigma = \left( \begin{array}{cc} \Sigma_{11} & \Sigma_{21} \\\Sigma_{12} & \Sigma_{22} \end{array} \right) \right)\)



platí pre ľubovolné \(\boldsymbol{X}_{1} \in \mathbb{R}^{p}\) (obecne vektor \(p\) náhodných zložiek) a \(\boldsymbol{X}_{2} \in \mathbb{R}^{q}\) (náhodný vektor zostávajúcich \(q\) premenných) pre \(p, q \in \mathbb{N}\), že podmienené rozdelenie \(X_1\), za podmienky \(X_2 = x_2\), je dané predpisom

\((\boldsymbol{X}_{1} | \boldsymbol{X}_{2} = \boldsymbol{x}_{2}) \sim N_{p}\left(\boldsymbol{\mu}_{1} + \Sigma_{12}\Sigma_{22}^{-1}(\boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} ), \Sigma = \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \right),\)

kde \(\boldsymbol{\mu}_{1}\) a \(\boldsymbol{\mu}_{2}\) sú príslušné vektory stredných hodnôt a variačná-kovariačná matica \(\Sigma\) je rozdelená do príslušných blokov vyššie.




2. Podmienené normálne rozdelenie pomocou knižnice ‘condMVNorm()’

Jednoduchá a pomerne stručná R knižnica ‘condMVNorm()’ umožnuje získať mnohorozmerné normálne podmienené rozdelenie pri definovaní konkrétnej hodnoty podmienky. Knižnicu je nutné najprv nainštalovať pomocou príkazu install.packages("condMVNorm"). Príslušné príkazy sú dcmvnorm() a condMVN() (help k príkazom: ?dcmvnorm a ?condMVN).

library("condMVNorm")

Funkcie z knižnice použijeme na predchádzajúci príklad dvojrozmerného normálneho rozdelenia s nulovým vektorom stredných hodnot a variančnou-kovariančnou maticou \(\Sigma = \left( \begin{array}{cc} 1 & 0.8 \\ 0.8 & 1 \end{array} \right)\).

Chceme získať podmienené rozdelenie náhodnej zložky \(X_{2}\), za podmienky, že \(X_1 = 0.7\):

condDist <- condMVN(mean = c(0,0), sigma = Sigma, dependent.ind = 2, given.ind = 1, X.given = 0.7)

a tiež

dcmvnorm(0, mean = c(0,0), sigma = Sigma, dependent.ind = 2, given.ind = 1, X.given = 0.7)
## [1] 0.4301297

porovnáme s následujúcim:

dnorm(0, condDist$condMean, sqrt(condDist$condVar))
## [1] 0.4301297


Samostatne


  • Pomocou helpu k jednotlivým príkazom sa podívajte na implementáciu jednotlivých funkcii. Na konkrétnych príkladoch si vyskúšajte ich fungovanie.
  • Je nutné pamätať na to, že niektoré funkcie v programe R vyžaduju ako porameter směrodatnú chybu a iné výžaduju hodnotu rozptylu.


3. Podmienené normálne rozdelenie – ilustračný príklad

Pre jednoduchú ilustráciu budeme uvažovať dataset mtcars, ktorý je k dispozícii v štandardnej inštalácii programu R (pre podrobnejšie informácie ohľadom datasetu mtcars je možné použiť help ?mtcars).

summary(mtcars)
##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000
attach(mtcars)

V nasledujúcom budeme predpokladať, že premenné ‘mpg’ (miles per gallon), ‘hp’ (horse power) a ‘disp’ (displacement) sú združene normálne rozdelené, t.j. náhodný vektor \((X_{1}, X_{2}, X_{3})^{\top} = (mpg, hp, disp)^{\top}\) má trojrozmerné normálne rozdeleníe s neznámym vektorom stredných hodnôt \(\boldsymbol{\mu} = (\mu_{1}, \mu_{2}, \mu_{3})^{\top} \in \mathbb{R}^{3}\) a nejakou (opäť neznámou) symetrickou a pozitívne definitnou variačnou-kovariančnou maticou \(\Sigma\).

Pomocou programu R získame príslušné odhady pre \(\boldsymbol{\mu} = (\mu_{1}, \mu_{2}, \mu_{3})^{\top} \in \mathbb{R}^{3}\) a pre \(\Sigma\). Odhady – resp. výberové charakteristiky:

mu <- apply(cbind(mpg, hp, disp), 2, mean) 
Sigma <- cov(cbind(mpg, hp, disp))

Následne nás zaujíma, aké je (odhadované) podmienené rozdelenie premennej “miles per gallon” (‘mpg’) pri daných hodnotách “horse power” a “displacement”, konkrétne \((X_{2}, X_{3})^{\top} = (120,120)^{\top}\)?

A príslušné podmienené rozdelenie získame jednoducho pomocou príkazu:

condMean <- mu[1] + Sigma[1, 2:3] %*% solve(Sigma[2:3,2:3]) %*% (c(120, 120) - mu[2:3])
condSigma <- Sigma[1,1] - Sigma[1, 2:3] %*% solve(Sigma[2:3,2:3]) %*% Sigma[2:3, 1]

Za predpokladu, že náhodný vektor \((X_{1}, X_{2}, X_{3})^{\top} = (mpg, hp, disp)^{\top}\) má mnohorozmerné normálne rozdelenie, získame podmienené normálne rozdelenie so strednou hodnotou a rozptylom:

condMean
##          [,1]
## [1,] 24.11354
condSigma
##         [,1]
## [1,] 9.14495

Príslušný graf:

plot(dnorm(x <- seq(0, 35, length = 500), mean = condMean, sd = sqrt(condSigma)) ~ x, 
                                           xlab = "Miles per gallon", ylab = "Conditional Density", 
                                           type = "l", lwd = 2, col = "red", 
                                           xlim = c(0, 35), ylim = c(0,0.18))
lines(dnorm(x, mean(mpg), sd(mpg)) ~ x, lwd = 1)
legend(0, 0.175, legend = c("Conditional distribution: MPG | HP = 120 & Disp = 120", 
                           "Estimated Normal Distribution of MPG"), col = c("red", "black"), lty = c(1,1))

Samostatne


  • Pokúste sa vytvoriť jednoduchý lineárny regresný model, kde “miles per gallon” bude vystupovať ako závislá premenná a nezávislé premenné sú “horse power” a “displacement”. Pomocou modelu získajte príslušné odhady parametrov.

    m <- lm(mpg ~ hp + disp, data = mtcars)
  • Následne pomocou modelu odhadnite strednú hodnotu premennej “miles per gallon”, za podmienky, že sa jedná o auto s “horse power = 120” a “displacement = 120”.

    CondMean <- m$coeff[1] + m$coeff[2] * 120 + m$coeff[3] * 120
  • Porovnajte podmienenú strednú hodnotu získanu z výrazu podmieneného normálneho rozdelenia za predpokladu združenej normality a podmienenú strednú hodnotu získanu vramci metódy lineárnej regresie. Čo sa stane, ak namiesto troch premenných, budeme uvažovať napr. viac-rozmernú závislú premennú, alebo viacej nezávislých premenných?
  • Pripomeňte si, čo plati ohľadom nezávislosti a nulovosti kovariancie obecne a čo platí ohľadom nezávislosti a kovariancie za predpokladu normality. Pokúste sa navrhnúť jednoduchý príklad, kde pomocou simulácii budete daný fakt vhodne ilustrovať pomocou obrázku.



Teoretické príklady


  • Príklad 1
    Uvažujte náhodný vektor \(\boldsymbol{X}\) s dvojrozmerným normálnym rozdelením \(N_{2} \left( \left( \begin{array}{c}1\\2\end{array} \right), \left( \begin{array}{cc} 2 & 1\\1 & 2\end{array} \right) \right)\) a podmienený náhodný vektor \(\boldsymbol{Y} | \boldsymbol{X}\), tak, že platí \[ \boldsymbol{Y} | \boldsymbol{X} \sim N_{2}\left( \left( \begin{array}{c} X_{1}\\ X_{1} + X_{2} \end{array} \right), \left( \begin{array}{cc} 1 & 0\\ 0 & 1 \end{array} \right) \right). \]

    Spočítajte podmienené rozdelenie \(Y_2 | Y_{1}\) a rozdelenie náhodného vektoru \(\boldsymbol{W} = \boldsymbol{X} - \boldsymbol{Y}\).


  • Príklad 2
    Uvažujte náhodný vektor \(\boldsymbol{X} \sim N_{2}(\boldsymbol{\mu}, \Sigma)\), s vektorom stredných hodnôt \(\boldsymbol{\mu} = (2,2)^\top\) a variančnou-kovariančnou maticou \(\Sigma = \mathbb{I}_2\) (jednotková matica). Nechť \(\mathbb{A} = (1, 1)\) a \(\mathbb{B} = (1, -1)\). Ukážte, že náhodné veličiny \(\mathbb{A}\boldsymbol{X}\) a \(\mathbb{B}\boldsymbol{X}\) sú nezávislé.


  • Príklad 3
    Uvažujte náhodný vektor \((X, Y, Z)^\top \sim N_3(\boldsymbol{\mu}, \Sigma)\). Spočítajte \(\boldsymbol{\mu}\) a \(\Sigma\), ak viete, že platí následujúce:

    • \(Y | Z \sim N(-Z, 1)\);
    • \(\mu_{Z|Y} = -\frac{1}{3} - \frac{1}{3}Y\);
    • \(X | (Y, Z) \sim N(2 + 2Y + 3Z, 1)\);
    Spočítajte podmienené rozdelenie \(X|Y\) a podmienené rozdelenie \(X | Y + Z\).


  • Príklad 4
    Předpokládejme, že platí:
    • \(Z \sim N(0,1)\);
    • \(Y | Z \sim N(1 + Z, 1)\);
    • \(X | (Y, Z) \sim N(1 - Y, 1)\);
    Nájdite rozdelenie náhodného vektoru \((X, Y, Z)^\top\) a podmienené rozdelenie \(Y | (X, Z)\). Uvažujte lineárne transformácie \(U = 1 + Z\) a \(V = 1 - Y\) a nájděte združené rozdelenie náhodného vektoru \((U, V)^\top\). Spočítajte strednú hodnotu \(E(Y | U = 2)\).




Domáca (samostatná) úloha

(Deadline: Štvrté cvičenie / 23.03.2021)

  • Podľa vlastného výberu spočítajte alespoň jeden (teoretický) príklady uvedený v predchádzajúcej sekcii. Výsledok ověrte v programe R pomcou simulácii.
  • Vyššie bolo uvedené, že zo združeného normálneho rozdelenia náhodného vektoru je možné jednoznačne určiť/spočítať príslušné marginálne rozdelenia jednotlivých zložiek (aj viacerých) a tieto rozdelenia sú opäť normálne. Opačne však ani znalosť všetkých marginálných rozdelení jednotlivých zložiek (aj viacerých súčasne, avšak nie všetkých zároveň) – aj keď sú normálne — nestačí obecne k tomu, aby sme dokázali povedať, či združené rozdelenie celého vektoru je normálne, alebo není.

    Pokúste sa premyslieť si jednoduchý príklad s dvojrozmerným náhodným vektorom \((X_1, X_2)^\top\) (resp. maximálne s trojrozmerným náhodným vektorom \((X_1, X_2, X_3)^\top\)), ktorého všetky zložky majú marginálne normálne rozdelenie, ale celkovo náhodný vektor \((X_1, X_2)^\top\) nemá združené dvojrozmerné normálne rozdelenie (resp. náhodný vektor \((X_1, X_2, X_3)^\top\) nemá združené trojrozmerné normálne rozdelenie).
  • Vhodným spôsobom Váš príklad ilustrujte pomocou obrázku/obrázkov.
  • Riešenie umiestnite na svoju webovú stránku, najneskôr v utorok, 23.03.2021, do 14:00.