Letný semester 2025-2026 | Cvičenie 7 | 27.04.2026
Prihlásenie k SAS OnDemand:
https://www.sas.com/en_us/software/on-demand-for-academics.html
Nutná je registrácia s vytvorenie účtu s vlastným identifikačným číslom
a potvrdenie registrácie prostredníctvom (univerzitného) emailu zadaného
pri registrácii. Identifikačné číslo užívateľa (vo forme
uXXX, kde
XXX je samotné číslo uživateľa)
sa vyskytuje v jednotlivých SAS skriptoch uvedených nižšie (symbol
XXX v skriptoch je potrebné
nahradiť príslušným identifikačným číslom užívateľa).
Doteraz nás zaujímal hlavne prípad, keď o závislej premennej \(Y \in \mathbb{R}\) (t.j., reálna náhodná veličina, ktorá bola opakovane meraná na \(N \in \mathbb{N}\) vzájomne nezávislých subjektoch) sa dá predpokladať, že je spojitá a jej podmienene rozdelenie je normálne, alebo aspoň blízke normálnemu rozdeleniu (t.j., základný lineárny regresný model s náhodnými efektami). Matematicky je tento fakt vyjadrený prostredníctvom zápisu \[ \boldsymbol{Y}_i | \boldsymbol{w}_i \sim N_{n_i}\Big( \mathbb{X}_i\boldsymbol{\beta} + \mathbb{Z}_i\boldsymbol{w}_i, \Sigma_i \Big), \] kde \(\boldsymbol{Y}_i = (Y_{i1}, \dots, Y_{i n_i})^\top \in \mathbb{R}^{n_i}\) je vektor opakovaných meraní v rámci \(i\)-teho subjektu (pre \(i \in \{1, \dots, N\}\)) a \(\boldsymbol{w}_i = (w_{i1}, \dots, w_{i r})^\top \in \mathbb{R}^r\) je vektor náhodných (nepozorovaných) efektov v rámci \(i\)-teho subjektu. Väčšinou sa navyše predpokladá, že \(\boldsymbol{w}_i \sim N_r(\boldsymbol{0}, \mathbb{G})\). Jednotlivé vektory \(\boldsymbol{Y}_1, \dots, \boldsymbol{Y}_N\) sú vzájomné nezávislé, pričom pri zápise vyššie sa niekedy používa výraz \(\boldsymbol{Y}_i | \boldsymbol{w}_i\) a niekedy korektnejší zápis v tvare \(\boldsymbol{Y}_{i j} | \boldsymbol{X}_{i j},\boldsymbol{w}_i\)
Z takto formulovaného hierarchického modelu je možné jednoducho odvodiť aj tzv. marginálny model \[ \boldsymbol{Y}_i | \mathbb{X}_i \sim N_{n_i}\Big( \mathbb{X}_i\boldsymbol{\beta}, \mathbb{Z}_i \Sigma_i \mathbb{Z}_i^\top \Big), \] pričom interpretácia vektoru neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) je v prípade oboch formulácii totožná.
V praxi sa často stane, že predpoklad (mnohorozmerného) normálneho rozdelenia pre opakované pozorovania – t.j., náhodné vektory \(\boldsymbol{Y}_i \in \mathbb{R}^{n_i}\) pre \(i =1, \dots, N\) – je nerealistický a je nutné hľadať iný pravdepodobnostný model (napr. z dôvodu, že sledovaná závislá premenná informuje výhradne len o úspechu/neúspechu liečby – t.j., binárna závislá premenná – alebo sa všeobecne jedná o realizácie nejakej diskrétnej náhodnej veličiny, prípadne má náhodná veličina síce spojité rozdelenie, ale nie je možné predpokladať normalitu).
Ak je možné naviac postulovať (predpokladať) konkrétne rozdelenie pre
závislú premennú (to znamená aj možnosť definovať celkovú vierohodnosť),
tak je vhodné použíť tzv. zovšeobecnené lineárne modely s náhodnými
efektami (generalized linear model with random effects). Jedná sa o
rozšírenie triedy zovšeobecnených lineárnych regresných modelov (GLM) v
podobnom zmysle, ako sú lineárne regresné modely s náhodnými efektami
zovšeobecnením klasických lineárnych regresných modelov (podrobnejšie o
tomto type modelov v následujúcom cvičení). Ak však nie je možné
apriórne predpokladať konkrétne pravdepodobnostné rozdelenie pre závislú
premennú \(\boldsymbol{Y}\), tak je
nutné využiť iné odhadovacie metódy, napr. tzv. pseudo-vierohodnosť,
alebo GEE.
Na rozdiel od klasických lineárnych regresných modelov, ktoré predpokládajú nezávislé pozorovania, je nutné pri modeloch pre korelované pozorovania zohľadniť korelačnú štruktúru v rámci opakovaných pozorovaní Avšak zatiaľ čo u klasických lineárnych regresných modelov prítomnosť náhodných efektov (viac-menej) nemá vplyv na výslednú interpretáciu odhadnutých parametrov (t.j., interpretácia \(\boldsymbol{\beta} \in \mathbb{R}^p\) nezávisí na uvažovanej korelačnej štruktúre), u zovšeobecnených regresných modelov môžu rôzne predpoklady o variančnej-kovariančnej (závislostnej) štruktúre opakovaných pozorovaní (resp. iné modely) viesť k inej interpretácii výsledných odhadnutých parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\).
Pri analýze dat je preto dôležité dbať na správnu špecifikáciu korelačnej štruktúry a správny popis jednotlivých zdrojov variability. Na druhu stranu, variančná-kovariančná štruktúra je často implikovaná modelom pre podmienenú strednú hodnotu a konkrétnym rozdelením z rodiny rozdelení exponenciálneho typu.
V odbornej literatúre existujú rôzne modifikácie GLM modelov pre data s korelovanými (longitudinálnymi/opakovanými) pozorovaniami. V praxi sa ale najčastejšie používajú niektoré z následujúcej postupov:
V podstate pre všetky typy vyššie uvedených modelov slúžia v programe
SAS procedúry PROC GLIMMIX, PROC GENMOD,
PROC GEE, prípadne PROC NLMIXED. Jednotlivým
procedúram sa budeme podrobnejšie venovať v následujúcich cvičeniach.
Pre základnú syntax, ktorá je vo viacerých smeroch odlišná od procedúry
PROC MIXED je možné využiť následujúce odkazy:
PROC GLIMMIX: PROC GENMOD: PROC GEE: PROC NLMIXED: V následujúcej časti sa podrobnejšie pozrieme na prvý typ modelov, tzv. marginálne modely (pre korelované pozorovania a nenormálne rozdelenú závislú premennú).
V prvom rade je užitočné pripomenuť si základnú terminológiu modelov s náhodnými efektami v jednoduchom modeli (za predpokladu normality):
Obecně platí, že marginálny model modeluje podmienenú strednú hodnotu závislej premennej v rámci konkrétnej sub-populácie (t.j., skupiny subjektov, ktoré zdieľajú rovnaké vlastnosti vzhľadom k vysvetľovaným/nezávislým premenným zaznamenaných vo vektore regresorov \(\boldsymbol{X} \in \mathbb{R}^p\)). Stredná hodnota náhodnej veličiny \(Y_{ij}\) (t.j., odpoveď \(i\)-teho subjektu na \(j\)-te opakované meranie) je modelovaná ako (lineárna) funkcia vysvetľujúcich premenných obsiahnutých vo vektore \(\boldsymbol{X}_{ij} \in \mathbb{R}^p\).
Tento princíp štandardne funguje pre lineárne regresné modely, ktoré su založené na tzv. ‘’cross-sectional’’ datach (resp. na tzv. ‘’cross-sekčnom’’ porovnávaní). Interpretácia vektoru odhadnutých parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) v marginálnom lineárnom regresnom modeli pre nenormálne rozdelené data je principiálne totožná s interpretáciou odhadnutých neznámych parametrov v klasickom lineárnom regresnom modeli. Pre GLM zovšeobecnenie teda platí následujúce:
Takto definované GLM modely pre opakované/longitudinálne/zhlukované pozorovania predstavujú prirodzenú analógiu podobne ako GLM modely zovšeobecňujú model klasickej lineárnej regresie pre nenormálne rozdelené data.
Pre jednoduchú ilustráciu uvedieme data \(\{(Y_{ij}, X_{ij})\}_{i = 1}^N\), kde každý z \(N \in \mathbb{N}\) subjektov je meraný \(n \in \mathbb{N}\) krát a závislá premenná je binárna, t.j., \(Y_{i,j} \in \{0,1\}\), teda platí:
PROC GLM – viď podrobnejší návod napr. na tejto stránke:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_glm_toc.htm
Pre vektor opakovaných (korelovaných) pozorovaní \(\boldsymbol{Y}_i = (Y_{i1}, \dots, Y_{i n_i})^\top \in \mathbb{R}^{n_i}\) pre daný subjekt \(i \in \{1, \dots, N\}\) a príslušné vektory vysvetľujúcich (nezávislých) premenných (t.j., stĺpce matice) \(\mathbb{X}_i = (\boldsymbol{X}_{i1}, \dots, X_{i n_i})^\top \in \mathbb{R}^{n_i \times p}\) chceme odhadnúť združené (podmienené) rozdelenie \[ P[\boldsymbol{Y}_i = \boldsymbol{y} | \mathbb{X}_i] \] resp. združenú podmienenú strednú hodnotu \(\boldsymbol{\mu}_i = E[\boldsymbol{Y}_i | \mathbb{X}_i]\) a to ako nelineárnu funkciu (prostredníctvom prelinkovania – tzv. linkovej funkcie) lineárneho prediktoru \(\mathbb{X}_i \boldsymbol{\beta}\) pre vektor neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\). V prípade závislej premennej, ktorá má alternatívne rozdelenie (i.e., \(Y_{ij} \in \{0, 1\}\)), dokonca platí \[ \boldsymbol{\mu}_i = E[\boldsymbol{Y}_i | \mathbb{X}_i] = P[\boldsymbol{Y}_i = \boldsymbol{y} | \mathbb{X}_i] \]
Variančná matica, resp. korelačná štruktúra opakovaných pozorovaní, teda \(Var[\boldsymbol{Y}_i |\mathbb{X}_i] = \mathbb{V}_i(\boldsymbol{\alpha})\) je odhadnutá priamo pomocou vzťahu medzi prvým a druhým momentom (na základe predpokladaného alternativného rozdelenia z exponenciálnej rodiny rozdelení) a marginálnych rozdelení, napr. \(P[Y_{ij} = y_{j}, Y_{ik} = y_k |\mathbb{X}_{i}]\) pre \(i = 1, \dots, N\) a \(j,k \in \{1, \dots, n_i\}\), kde \(j \neq k\), ale napr. aj marginálných rozdelení vyšších rádov, t.j., napríklad pomocou marginálnych pravdepodobností \(P[Y_{ij} = y_{j}, Y_{ik} = y_{k}, Y_{il} = y_{l} | \mathbb{X}_i]\) pre \(j \neq k \neq l\) a vektor \(\boldsymbol{y} = (y_1, \dots, y_{n_i})^\top\).
V literatúre existujú rôzne modely a odhadovacie postupy pre marginálne modely. V následujej časti je diskutovaná tzv. GEE metóda (postavená na využití marginálov prvého rádu pre odhad parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) a marginálov vyššich rádov pre odhad parametrov \(\boldsymbol{\alpha} \in \mathbb{R}^q\)).
Zobecňené odhadovacie rovnice (GEE – resp. ``Generalized Estimating
Equations’’) predstavené v článku Liang and Zeger (1986)
[Longitudinal Data Analysis Using Generalized Linear Models,
Biometrika, 73(1),13–22] definujú jeden z metodologických postupov,
ako odhadovať marginálne regresné modely (pre závislú premennú s obecným
rozdelením exponenciálneho typu) na základe
korelovaných/longitudinálných dat. Jedná sa teda o prípady, ktoré by sme
za predpokladu nekorelovanosti (resp. nezávislostí) analyzovali pomocou
klasických GLM regresných modelov (t.j. data, o ktorých nie je možné
predpokládať normálne rozdelenie, prípadne uvažovať spojitý charakter
závislej premennej).
GLM pre nezávisle data (náhodný výber)
Predpoklad konkrétneho rozdelenia umožňuje formulovať explicitné
podmienky (t.j. rovnice) pre prvý a druhý (podmienený) moment. Odhad
neznámych parametrov \(\boldsymbol{\beta} \in
\mathbb{R}^p\) preto získame riešením \(p\) nelineárnych (momentových) rovníc v
tvare \[
\sum_{i = 1}^n \frac{\partial \mu_{i}}{\partial \boldsymbol{\beta}}
v_i^{-1}(Y_{i} - \mu_i) = \boldsymbol{0},
\] kde \(v_i = \phi v(\mu_i)\).
Rovnice sa typicky riešia napríklad pomocou iteračného Newton-Raphson
algoritmu.
Málokedy majú totíž rovnice explicitné riešenie.
Analógia pre longitudinálne/korelované data
Základný princíp odhadovania modelov na základe longitudinálných pozorovaní zostáva rovnaký, ako v prípade klasických GLM modelov pre nezávislé data. Pre longitudinálne data \(\{(Y_{ij}, \boldsymbol{X}_{ij}); i = 1, \dots, N; j = 1, \dots, n_i\}\) merané na \(N \in \mathbb{N}\) nezávislých subjektov (pričom celkový počet pozorovaní je \(\mathcal{N} = \sum_{i = 1}^N n_i\) a \(\boldsymbol{X}_{ij} \in \mathbb{R}^p\)) špecifikujeme analogické podmienky pre (podmienenú) strednú hodnotu \[ \mu_{i j} = E\Big[Y_{i j} | \boldsymbol{X}_{ij}\Big]= g^{-1}(\boldsymbol{X}_{ij}^\top\boldsymbol{\beta}); \] resp. vyjadrené vektorovo/maticovo pre jednotlivé (nezávsilé) subjekty ako \[ \boldsymbol{\mu}_i = (\mu_{i1}, \dots, \mu_{i n_i})^\top = E\Big[\boldsymbol{Y}_{i}| \mathbb{X}_{i}\Big] = g^{-1}\big(\mathbb{X}_i \boldsymbol{\beta}\big) \] s variančnou-kovariačnou maticou \(\mathcal{V}_i = Var \boldsymbol{Y}_i \in \mathbb{R}^{n_i \times n_i}\). Spolu s predpokladom konkrétneho rozdelenia pre náhodné veličiny \(Y_{ij}\) (t.j. stochastická časť modelu) to vedie na riešenie nelineárnych rovníc (ktoré opäť špecifikujú prvé dva momenty) \[ \sum_{i = 1}^n \frac{\partial \boldsymbol{\mu}_{i}^\top}{\partial \boldsymbol{\beta}} \mathcal{V}_i^{-1}(\boldsymbol{Y}_{i} - \boldsymbol{\mu}_i) = \boldsymbol{0}. \]
Korelovanosť opakovaných pozorovaní je zohľadnená v štruktúre
variančnej-kovariančnej matice \(\mathcal{V}_i\), ktorú je ale na rozdiel
GLM modelov pre nekorelované pozorovania nutné odhadovať navyše. To sa
robí pomocou tzv. matice pracovných korelácii (resp. tzv.
``working correlation matrix’’). Základný pricíp je rozložiť
variančnú-kovariančnú maticu náhodného vektoru \(\boldsymbol{Y}_i = (Y_{i 1}, \dots, Y_{i
n_i})^\top\) do tvaru \[
\mathcal{V}_i = \phi \mathcal{A}_i^{1/2}
\mathcal{R}(\boldsymbol{\alpha})\mathcal{A}_i^{1/2},
\] kde \(\mathcal{A}_i \in
\mathbb{R}^{n_i \times n_i}\) je diagonálna matica s prvkami
\(v(\mu_{i j})\) pre \(j = 1, \dots, n_i\) na diagonále a matica
\(\mathcal{R}(\boldsymbol{\alpha}) \in
\mathbb{R}^{m_i \times m_i}\) je matica korelácii opakovaných
pozorovaní vo vektore \(\boldsymbol{Y}_i\), ktorá závisí na
parametroch \(\boldsymbol{\alpha} \in
\mathbb{R}^\ell\) (a na diagonále má hodnoty jedna).
Korelované data ale nie nutne vznikajú iba v prípade opakovaných pozorovaní (t.j., longitudinálne profily pre \(N \in \mathbb{N}\) vzájomne nezávislých subjektov). Analogicky sa môže jednať o nezávislé subjekty združené do niekoľkých skupín – tzv. clustrov — v rámci ktorých je možne považovať subjekty za vzájomne korelované. Takúto koreláciu medzi jednotlivými pozorovaniami je nutné správne zohľadníť, ak je cieľom štatistickej analýzy následná inferencia (intervaly spoĽahlivosti, prípadne štatistické testy nulovej a alternatívnej hypotézy).
V programe SAS sú k dispozícii dve hlavné/základné procedúry, ktoré umožňujú odhadovať regresné modely pre nenormálne data na základe GEE metodológie:
PROC GENMOD – podrobná implementácia procedúry
napr. tu: PROC GEE – podrobná implementácia procedúry napr.
tu: PROC GENMODPROC GENMOD je na
stránke:Jednoduchý (marginálny, teda populačný) GEE model pre pacientov so
sklerózou multiplex (kde ako závislú premennú budeme uvažovať veličinu
NEDA – No Evidence of Disease Activity) získame
následujúcim spôsobom:
libname sm '/home/uXXX/sasuser.v94';
filename reffile '/home/uXXX/sasuser.v94/data/sm_data2.csv';
proc import datafile=reffile
dbms=csv
out=sm.data
replace;
getnames=yes;
run;
data sm.data;
set sm.data;
timeCls = time;
run;
proc print data=sm.data;
run;
proc genmod data=sm.data;
class id gender timeCls;
model NEDA = gender age time / d=binomial link=logit;;
repeated subject = id / withinsubject = timeCls corrw covb type=exch modelse;
run;
Podstatná čast zdrojového kódu vyššie je tzv.
repeated statement – riadok, ktorý explicitne špecifikuje
oparkované/korelované pozorovania a tým pádom aj použitie GEE metódy.
Podstatné je aj porovnanie oboch tabuliek s odhadnutými pevnými efektami
(Empirical estimates
vs. Model-based estimates). Empirické odhady sú správne, ak
je správne špecifikovaná podmienená stredná hodnota (jedná sa o tzv.
robustný sandwichový odhad). Odhady založené na modeli výchadzajú zo
špecifikovanej variančnej-kovariačnej (resp. korelačnej)
matice.
Porovnajte model pre opakované/korelované pozorovania so štandardným GLM modelom pre nula/jedna závislú premennú:
proc genmod data=sm.data;
class id gender timeCls;
model NEDA = gender age time / d=binomial;
run;
Základný postup pri modelovaní longitudinálnych dat o ktorých nie je možné predpokládať normálne rozdelenie (a teda využiť klasický lineárny model s náhodnými efektami) by sa asi dal formalizovať v následujúcich krokoch:
Pre ilustráciu využijeme ešte procedúru PROC GENMOD pre
regresiu Posonových počtov, kde hodnotu EDSS budeme interpretovať ako
celočíselný kladný ukazateľ stavu nemoci:
proc genmod data=sm.data;
class id gender timeCls;
model EDSS = gender age time / d=poisson;
repeated subject = id / withinsubject = timeCls corrw covb type=ar(1) modelse;
run;
Porobnajte posledný model (s korelačnou štruktúrou modelovanou
pomocou \(AR(1)\)) s analogickým
modelom, kde korelačná štruktúra bude špecifikovaná pomocou
type = unstr a vysvetlite rozdiely.
corrw v
REPEATED STATEMENT.
PROC GEEAnalogicky ako v prípade procedúry PROC GENMOD, aj
procedúra PROC GEE implementuje základné zobecnené
odhadovacie rovnice navrhnuté v članku Liang and Zeger (1986).
Odhadovaný model je teda marginálnym modelom (t.j. populačným modelom).
Procedúry PROC GENMOD a PROC GEE sú za
predpokladu konceptu MCAR ekvivalentné, avšak štandardná implementácia
GEE odhadovacích rovníc vedie v prípade MAR konceptu (tzv. “Missing At
Random”) k nekonzistentným odhadom a nutná je tzv. vážená verzia
obecných odhadovacích rovníc — ktorá je práve implementovaná v procedúre
PROC GEE (tzv. weighted GEE, predstavené v článku
Fitzmaurice, Laird, and Ware (2011)).
Procedúra PROC GEE navyše implementuje aj tzv.
alternujúcu logistickú regresiu (ALS), kde sa využívajú logaritmi
pomerov šancí.
PROC GEE:PROC GEE je aj na
tejto
stránke;
Porovnajte následujúci výstup z procedúry PROC GEE s
predchádzajúcim výstupom z procedúry PROC GENMOD.
proc gee data=sm.data;
class id gender timeCls;
model NEDA = gender age time / dist=binomial link=logit;
repeated subject=id / within=timeCls type=exch corrw covb modelse;
run;
Analogický model pre Poissonovú regresiu:
proc gee data=sm.data;
class id gender timeCls;
model EDSS = gender age time / dist=poisson link=log;
repeated subject=id / within=timeCls type=exch corrw covb modelse;
run;
PROC GENMOD využíva iteratívne postupy k získaniu
odhadov pre pevné efekty, ale aj pre odhady korelačnej štruktúry.
Naproti tomu procedúra PROC GEE môže využívať neiteratívne
postupy;
PROC GENMOD, ktorá ale môže byť výpočetne
náročnejšia;
PROC GEE – všimnite si
rozdielnp syntax v porovnaní so syntaxou procedúry
PROC GENMOD.
PROC GLIMMIXAlternatívna možnosť pre marginálny model je využiť procedúru
PROC GLIMMIX – podrobná syntax napr. na tejto stránke:
https://documentation.sas.com/doc/en/pgmsascdc/v_062/statug/statug_glimmix_syntax01.htm.
Jedná sa ale uý o SAS procedúru, ktorá umožňuje aj implementáciu
náhodných efektov.
Odhadovanie finálneho modelu pomocou procedúry
PROC GLIMMIX je založené na linearizácii a následnom
použití (residuálnej) pseudo-vierohodnosti pričom korelačná štruktúra je
odhadovaná zo získaných rezídui (špecifikácia type=cs
znamená tzv. exchangeable korelačnú štruktúru).
Pseudo-vierohodnosť – vychádza z klasickej vierohodnostnej
funkcie, ale pre “nespočítateľnosť” (intractability) sa využíva nejaká
vhodná aproximácia združenej vierohodnosti, napr. pomocou marginálnych
vierohodnosti, alebo pomocou podmienených vierohodnosti (GLIMMIX,
Laplace, RMPL, …). Inferencia založená na princípe vierohodností je
približná.
Kvázi-vierohodnosť – nevyužíva vierohodnosť ako takovú (t.j., není potrebná špecifikácia (združeného) rozdelenia), ale vychádza pouze zo špecifikácie prvých dvoch momentov. Štandardné postupy založené na vierohodnosti (GENMOD, AIC, testy pomerom vierohodnosti, …) nie sú aplikovateľné.
proc glimmix data=sm.data method=RMPL;
class id gender timeCls;
model NEDA = gender age time / dist=binomial link=logit solution;
random _residual_ / subject=id type=cs; /* CS = exchangeable */
run;
Procedúra PROC GLIMMIX môže byť teda využitá pre
aproximáciu GEE modelu. GEE využíva odhadovacie rovnice a špecifikáciu
prvých dvoch momentov (kvázi-vierohodnosť). Odhady
variančnej-kovariančnej štruktúry sú štandardne získavané pomocou
robustných sandwichových odhadov. Naproti tomu proc
PROC GLIMMIX využíva pseudo-vierohodnosť a linearízaciu.
GEE (PROC GENMOD a PROC GEE) vyžaduje
špecifikáciu opakovaných pozorovaní a tzv. working correlation matrix
prostredníctvom repeated statement.
PROC GLIMMIX koreláciu rezídui v lineárnom parametrickom
modeli.
PROC GENMOD,
PROC GEE a PROC GLIMMIX ale pre nezávislé
pozorovania – t.j. bez použitia repeated statementu.
PROC GLIMMIX regresný model pre
Poissonové počty a výsledky porovnajte s ostatnými SAS procedúrami.
V mnohých prípadoch sú modely získane z PROC GENMOD,
PROC GEE a PROC GLIMMIX veľmi podobné, ale je
medzi nimi zásadnú rozdiel. Procedúry PROC GENMOD a
PROC GEE využívajú princíp odhadovacách rovníc (GEE) a nie
su postavené na princípe maximalizácie vierohodnosti. Z výpočetného
hľadiska sa jedná o pomerne rýchle algoritmy, ktoré sú určené aj pre
rozsiahle datové súbory.
Naproti tomu procedúra PROC GLIMMIX využíva celkovú
vierohodnosť a odhady parametrov sú získané metódou maximálnej
vierohodnosti. V ilustrácii použitej vyššie sa síce jedná o marginálny
model, ktorý koreláciu opakovaných pozorovaní modeluje len pomocou
vzájomne korelovaných rezídíí (viď
random _residual_ / subject=id type=cs;), ale samotná
procedúra umožňuje aj odhadovanie hierarchyckých modelov s náhodnými
efektami. Z výpočetného hľadiska sa ale jedná o výrazne zložitejší
algoritmus.
Porovnanie všetkých troch zmienených SAS procedúr pre prípad marginálnych modelov:
|
|
| Source: ChatGPT |