# 5. cvičení: # CLT, interval spolehlivosti # simulace, výpočty na reálných datech # vyčistit prostor # spustit R, Rcmdr, TeachingDemos (uvnitř Rcmdr) včetně restartu # # demonstrace CLT # pomocí Distributions | Continuous | ... # prohlédnout si hustoty N(0,1), # exponenciálního exp(0.333), # rovnoměrného na (0,1), # beta s parametry 0.35 a 0.25 # v grafech lze listovat, # pro beta (a rovnoměrné) není bohužel dobře patrná nulová úroveň # # chování průměru z výběrů rozsahu n z TĚCHTO čtyř rozdělení: # Demos | Central limit theorem .. # po řadě např. pro n = 1, 2, 5, 20, 100 # (stále lze listovat) # měřítka nejsou stejná, protože ani limitní normální rozdělení # nemají stejné parametry # # demonstrace CI # Demos | Confidence intervals for the mean # "měřenou" veličinu lze interpretovat jako IQ (odpovídají OBA parametry) # při počátečním nastavení by interval měl být zhruba +- 15 * 2 / 5 = 6 # při n= 4 pak přibližně +- 15 * 2 / 2 = 15 # měnit rozsah výběru, SPOLEHLIVOST i ne(znalost) sigma, # zdůraznit závislost na n^(-1/2), skutečnost, že se do střední # hodnoty intervalem NEMUSÍME trefit, opět pomůže paměť grafů # # načíst reálnější data (Kojeni.rda) abychom neztráceli čas, tak formát RData # buď poklepáním na tlačítko vedle Data set (pokud jsou data v prac. adresáři) # nebo pomocí Data | Load data a vyhledat ... # data zobrazit pomocí View data set, nechat někde stranou na obrazovce # pozor, faktor Vzdelani by to chtelo prekodovat, aby výstupy uváděly # jednotlivé kategorie v přirozeném pořadí, pomocí commanderu snadno # # v Commanderu jsem samotný interval spolehlivosti nenašel, # nejsnazší výpočet intervalu spolehlivosti je pomocí # confint(lm(x~1)) confint(lm(delka~1,data=Kojeni)) # interpretovat! # nesmyslnost interpretace, že v intervalu je 95 % pozorování: # histogram pomocí hist(Kojeni$delka) abline(v=confint(lm(delka~1,data=Kojeni)),col="red") # respektive CI = confint(lm(delka~1,data=Kojeni)) # uložíme meze intervalu # a spočítáme, kolik pozorování uvnitř mezí leží sum(Kojeni$delka>=CI[1] & Kojeni$delka<=CI[2]) # # pro jistotu vypočítat znovu podrobně: prumer = mean(Kojeni$delka) n = length(Kojeni$delka) sd = sd (Kojeni$delka) pulka = sd/sqrt(n)*qt(0.975,n-1) c(prumer-pulka,prumer+pulka) # confint(lm(vyska.m~1,data=Kojeni)) # vypovídá o všech dětech za předpokladu, # že podíl hochů a podíl dívek ve výběru odpovídá podílům v populaci confint(lm(vyska.m~1,data=Kojeni,subset=HochL)) confint(lm(vyska.m~1,data=Kojeni,subset=!HochL)) # # Statistics | Summaries | Numerical ... vyska.m třídit podle Hoch # Graphs | Plot of means | vyska.m podle Hoch zvolit confidence intervals # porovnat grafy s číselnými statistikami #