Letný semester 2023-2024 | Cvičenie 8 | 29.04.2024
Prihlásenie k SAS OnDemand: https://www.sas.com/en_us/software/on-demand-for-academics.html
Doporučená literatúra a ďalšie užitočné materiályV doterajších častiach cvičenia nás zaujímal hlavne prípad, keď o
závislej premennej \(Y \in \mathbb{R}\)
(t.j., reálna náhodná veličina, ktorá bola opakovane meraná na \(n \in \mathbb{N}\) vzájomne nezávislých
subjektoch) môžeme predpokladať, že je spojitá a prípadne navyše aj
podmienene normálne rozdelená (t.j., základný lineárny regresný model s
náhodnými efektami). Matematicky je tento fakt vyjadrený prostredníctvom
zápisu \[
\boldsymbol{Y}_i | \boldsymbol{b}_i \sim N_{m_i}\Big(
\mathbb{X}_i\boldsymbol{\beta} + \mathbb{Z}_i\boldsymbol{b}_i, \Sigma_i
\Big),
\] kde \(\boldsymbol{Y}_i = (Y_{i1},
\dots, Y_{i m_i})^\top \in \mathbb{R}^{m_i}\) je vektor
opakovaných meraní vrámci \(i\)-teho
subjektu (pre \(i \in \{1, \dots,
n\}\)) a \(\boldsymbol{b}_i = (b_{i1},
\dots, b_{i q})^\top \in \mathbb{R}^q\) je vektor náhodných
(nepozorovaných) efektov vrámci \(i\)-teho subjektu. Väčšinou predpokládame,
že \(\boldsymbol{b}_i \sim N_q(\boldsymbol{0},
\mathbb{D})\). Jednotlivé vektory \(\boldsymbol{Y}_1, \dots, \boldsymbol{Y}_n\)
sú vzájomné nezávislé (v zápise sa niekedy používa výraz \(\boldsymbol{Y}_i | \boldsymbol{b}_i\) a
niekedy spávnejší zápis \(\boldsymbol{Y}_i |
\boldsymbol{X}_{ij},\boldsymbol{b}_i\)).
V praxi sa ale často stane, že predpoklad (mnohorozmerného)
normálneho rozdelenia pre opakovane pozorovania – t.j., náhodné vektory
\(\boldsymbol{Y}_i\), pre \(i =1, \dots, n\) je nerealistický a je
nutné hľadať iný pravdepodobnostný model (napr. pretože sledovaná
závislá premenná informuje výhradne len o úspechu/neúspechu liečby –
binárna premenná – alebo sa všeobecne jedná o realizácie nejakej
diskrétnej náhodnej veličiny, alebo má náhodná veličina síce spojité
rozdelenie, ale nie je možné predpokladať normalitu). Ak je možné naviac
postulovať (predpokladať) konkrétne rozdelenie pre závislú premennú (to
znamená aj možnosť definovať celkovú vierohodnosť), tak je vhodné použíť
tzv. zovšeobecnené lineárne modely s náhodnými efektami
(generalized linear model with random effects). Jedná sa o rozšírenie
triedy zovšeobecnených lineárnych regresných modelov (GLM) v podobnom
zmysle, ako sú lineárne regresné modely s náhodnými efektami
zovšeobecnením klasických lineárnych regresných modelov. Ak nie je možné
apriórne postulovať (predpokladať) nejaké vhodné pravdepodobnostné
rozdelenie pre závislú premennú \(\boldsymbol{Y}\), tak je nutné využiť iné
odhadovacie metódy a postupy (napr. tzv. GEE, ktoré budeme diskutovať
neskôr).
Na rozdiel od klasických lineárnych regresných modelov, ktoré predpokládajú nezávislé pozorovania, je nutné pri modeloch s náhodnými efektami zohľadniť korelačnú štruktúru v rámci opakovaných pozorovaní – čo platí aj pre lineárne regresné modely s náhodnými efektami, aj pre zovšeobecnené lineárne regresné modely s náhodnými efektami. Avšak zatiaľ čo u klasických lineárnych regresných modelov prítomnosť náhodných efektov (viac-menej) nemá vplyv na celkovú interpretáciu odhadnutých parametrov (interpretácia nezávisí na uvažovanej korelačnej štruktúre), u zovšeobecnených regresných modelov môžu rôzne predpoklady o variančnej-kovariančnej (závislostnej) štruktúre viesť k rôznej interpretácii výsledných odhadnutých parametrov.
Pri analýze dat je preto o to dôležitejšie dbať na správnu špecifikáciu korelačnej štruktúry a správny popis jednotlivých zdrojov variability – t.j. variabilita medzi jednotlivými subjektami a variabilita opakovaných pozorovaní v rámci konkrétheho jedinca (vrámci konrétnych subjektov).
V následujúcich častiach stručne popíšeme hlavne prvé dva z uvedených modelov.
V prvom rade je užitočné pripomenuť si základnú terminológiu modelov
s náhodnými efektami v jednoduchom (lineárnom) prípade.
Marginálny model modeluje podmienenú strednú hodnotu závislej premennej vrámci konkrétnej sub-populácie (t.j., skupiny subjektov, ktoré zdieľajú rovnaké vlastnosti vzhľadom k vysvetľovaným/nezávislým premenným). Stredná hodnota náhodnje veličiny \(Y_{ij}\) (t.j., odpoveď \(i\)-teho subjektu na \(j\)-te opakované meranie) je modelovaná ako (lineárna) funkcia vysvetľujúcich premenných obsiahnutých vo vektore \(\boldsymbol{X}_{ij}\).
Podobnú (marginálnu) vlastnosť majú aj štandardné lineárne regresné modely, ktoré su založené na tzv. ``cross-sectional’’ datach. Interpretácia vektoru odhadnutých parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) v lineárnom regresnom modeli s náhodnými efektami je ideovo totožná s interpretáciou odhadnutých neznámych parametrov v klasickom lineárnom regresnom modeli. Pre GLM zovšeobecnenie teda platí následujúce:
Takto definované GLM modely pre opakované/longitudinálne pozorovania
predstavujú prirodzenú analógiu v rovnakom zmysle, ako GLM modely
zovšeobecňujú model klasickej lineárnej regresie.
Ako jednoduchý ilustračný príklad môžeme uvažovať data \(\{(Y_{ij}, X_{ij})\}_{i = 1}^n\), kde každý subjekt je meraný \(m \in \mathbb{N}\) krát.
Postupne môžeme písať:
PROC GLM
– viď podrobnejší návod napr. na tejto stránke:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_glm_toc.htm
Tieto modely predstavujú priame zovšeobecnenie klasického lineárneho regresného modelu s náhodnými efektami určeného pre normálne data na modely ktoré su vhodné pre modelovanie závislej premennej ktorá je diskrétna (a samozrejme obsahuje z8vislostnú štruktúru v rámci jednotivých subjektov – t.j. opakované pozorovania).
Jednoduchý príklad zmienený výššie by sme mohli matematicky formulovať následovne: \[ logit(\mu_{ij}) = (\beta_0^* + b_i) + \beta_1^* X_{ij}, \] kde \(b_i \sim N(0, \nu^2)\) je náhodný efekt (náhodný intercept), ktorý modeluje variabilitu medzi subjektami (heterogenita medzi subjektami \(i = 1, \dots, n\)), Je dôležité si uvedomiť následujúce vlastnost:
Základnou vlastnosťou/schopnosťou GLM modelov s náhodným
efektami je umožnenie modelovať určitu mieru heterogenity medzi
jednotlivými subjektami. Niekedy sa tieto modely nazývajú aj tzv.
latent variable models (pretože náhodné efekty sú obecne
nepozorované – t.j., latentné).
PROC GLIMMIX
– viď podrobnejší návod napr. na
tejto stránke:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_glimmix_overview.htm?
Tzv. “transition” modely predpokládajú špeficifickú štruktúru korelácie v rámci opakovaných pozorovaní. Jednotlivé pozorovania závislej premennej \(Y\) sú priamo podmienené predchádzajúcimi hodnotami realizácii v rámci daného subjektu. Exaktnú matematický zápis zavisi od typu podmienenej štruktúry, ktorú pre jednotlivé opakované pozorovania predpokládame (napr. Markovský model prváho radu, resp. autokorelačný model rádu \(k \in \mathbb{N}\)).
Pre jednoduchú ilustráciu je možné predpokladať napr. model \[ g(E[Y_{ij} | \boldsymbol{X}_{ij}, Y_{i(j-1)}]) = \boldsymbol{X}_{ij}^\top\boldsymbol{\beta} + \alpha Y_{i(j-1)}, \] kde \(i = 1, \dots, n\) a \(j = 2, \dots, m_i\). Je samozrejme otázne, akým spôsobom sa vysporiadať s prvým meraním (t.j., napr. baseline hodnota \(Y_{i1}\) v rámci každého subjektu) a samozrejme existujú rôzne návrhy, možnosti, aj modely.
Podstatnou otázkou pri tranzitných modeloch je aj záležitosť
interpretácie—jednak vzhľadom k času \(t\) kedy sú opakované pozorovania v rámci
subjektu uskutočnené a tiež vzhľadom k parametru \(\alpha \in \mathbb{R}\), ktorý modeluje
závislosť na bezprostrednom predchádzajúcom pozorovani.