Základy biostatistiky LS 2004/2005
1. cvičení
Začátek práce v laboratoři, seznámení s
NCSS, jeho spuštění
Popisné statistiky - míra polohy, krabicový diagram
Spuštění počítače, Windows, poznámky
k přednášce
- každý
student
pracuje na svůj
účet
- doporučuje
se,
aby si
student zřídil
ve svém pracovním prostoru adresář pro soubory k biostatistice
- stručný
text
přednášky je dostupný
na internetu, lze jej číst pomocí internetového prohlížeče s programem
GSview nebo Acrobat Reader
- k vyzkoušení této možnosti spustit
internetový prohlížeč, např. MS Internet Explorer
- http://www.karlin.mff.cuni.cz/~zvara
- najít
odkaz
(přednášky) a otevřít (pro tisk vhodnější verze
pro tisk)
NCSS (Number Cruncher Statistical Systém)
- vlastní spuštění
doporučuji programu NCSS 2001
doporučuji
provést
pomocí speciální ikony Biostatistika umístěné
na ploše (nastaví tečku jako desetinný oddělovač, zničí zapamatované
nastavení šablon)
- NCSS 2001 je licencovaný
program, který
obsahuje mnoho metod
na zpracování dat (http://www.ncss.com), existuje zkušební verze
omezená na 30 dní a malé datové soubory
- NCSS
Junior je
volně šiřitelná
zjednodušená verze programu; obsahuje většinu toho, co ve výuce budeme
potřebovat, je však méně pohodlná (tamtéž, Download)
- NCSS 2001 pracuje se
dvěma základními
okny (Data, Output) a potřebným počtem oken pro šablony (formulujeme
požadavky
na činnost, kterou požadujeme; NCSS Junior umožňuje otevřít vždy jediné
okno s šablonou)
- datové soubory
jsou v adresáři P:\Home2\zvara\biostat
- pro načtení do
programu volíme
příslušný soubor s příponou S0 ("es nula", někdy
S0Z)
- pokud chceme data
zkopírovat jinam, musíme
kopírovat dva soubory, jejichž
názvy se liší
pouze příponou:
*.S0 a *.S1 (případně také *.S2 atd.)
Okno NCSS Data
- načteme
deti11.S0 (File | Open)
- okno dá veškeré
informace o
datech, manipulace s nimi (uspořádání, transformace, načítání, ukládání)
- Variable Info (nultý list
tabulky, datový
soubor *.S0) - informace o veličinách
- název veličiny
(nezačínat číslicí,
nepoužívat značky matematických operací ani mezeru …)
- český
slovní
popis veličiny
(Variable Label)
- slovních
označení pro hodnoty
celočíselných veličin (Value labels)
- určení
počtu
desetinných míst
pro zápis do tabulky (počítá se s původní nezaokrouhlenou hodnotou)
- transformace
(logaritmus, součet
veličin, jejich podíl atd.)
- Sheet1 (když se
naplní sloupce,
pak Sheet2 atd.) obsahuje vlastní
číselné
hodnoty
- pro
veličiny
používané ke třídění
(nominální měřítko, faktor) lze použít přímo slovní vyjádření
Úprava dat, uspořádání
- jaký je věk
nejstaršího
otce?
- Data | Sort |
Sort Database
by | VEKO | Ascendindg přerovná řádky podle rostoucího věku otců (popis
hodnot proměnné SEX, tj. SEX_KOD a SEX_POPIS
zůstane na místě!)
- jaký je medián
věku otců? jaké
jsou kvartily? (29, 23, 36)
- jaký
je medián
věku matek, jaké
jsou kvartily? (data znovu uspořádat,=>23,20,34)
Popisné statistiky
- Analysis | Descriptive
Statistics
| Descriptive Stats otevře šablonu
- v záložce
Variables zvolíme
proměnou (VEKM), ostatní políčka musí
být prázdná (resp.. NONE)
- Reports: zvolíme pouze
Summary
Section, Quartile Section,
Stem-Leaf Section
- výkonný
příkaz
(trojúhelník
vlevo nahoře) nebo F9 nebo Run | Run Procedure otevře okno Output s
výsledky
Okno NCSS Output
- umožňuje pohled
do dvou pracovních
souborů ve formátu *.RTF (umí jej číst
např. MS Word)
- Current Output se
po každém
spuštění nějaké procedury přepisuje, jeho obsah lze připojit
na konec zápisníku Log pomocí File | Add Output to Log nebo ikonkou
umístěnou
nahoře zcela vlevo
- oba
tyto pracovní
soubory lze
pod zvoleným názvem uložit, editovat, tisknout atd.
Popisné statistiky pro VEKM
- vyluštit, jak je
jedenáct hodnot
věku matky zapsáno v diagramu Stem-Leaf (lodyha s listy)
- pozor
na
jednotky (popsány v
posledním řádku)
- hloubka
(Depth)
vyjadřuje vzdálenost
od bližšího extrému (minima, maxima), což umožňuje najít medián
- přečíst
spočítané
statistiky,
vysvětlit jejich význam (kromě Standard Error, LCL a UCL)
- zkontrolovat
výpočet zejména
mediánu a obou kvartilů, případně doplnit dolní a horní decil
- zkusit
vložit
český popis proměnné
pomocí Reports | Variable Names | Labels, případně upravit font (Arial
CE)
Grafické znázornění kvartilů a mediánu
(Box Plot)
- vrátit se do dat
(například
pomocí dolní lišty, okno pro data má žlutočervenou kostku)
- Graphics | Box Plots
- Variables: Variables VEKO
| Grouping Variable
musí být prázdné
| Filter Active nezaškrtnuté
- na grafu identifikujte
medián, oba kvartily,
konce tykadel
- v
šabloně upravte
svislé měřítko
- Vertical:
Major
Ticks 7 (proč?),
Minor Ticks 4 (proč?)
- upravený soubor
uložit (do vlastního
adresáře?)
Samostatná činnost
- vložit
soubor deti12.S0
- uspořádat
podle
věku otce
- samostatně
(ručně) spočítat
medián a kvartily (27, 24, 29.75)
- nechat
spočítat
stejné popisné
statistiky
- nechat nakreslit
krabicový diagram (co je
jiné?)
Kam až sahá tykadlo
- proč
jsou zvlášť
zobrazeni dva
otcové?
- proč je horní
tykadlo tak krátké,
jak je dlouhé? (29.75+1.5(29.75-24)=38.375,
24-1.5(29.75-24)=15.375)
- poznamenat (na tabuli) věk 44letého
otce, medián a kvartily
- změnit
věk
44letého otce na
32 roků
- změní
se průměr
a kvartily?
(proč?)
- zůstane
věk
tohoto otce oddělen?
- poznamenat znovu na
tabuli
- vyzkoušet (se stejnými
otázkami) i jiné
hodnoty pro věk tohoto otce
- jak může být
tento otec nejstarší,
aby tykadlo sahalo až k němu? (proč právě 38.375?)
Ukončení práce
- podle
potřeby
uložit data (File | Save nebo File | Save As)
- podle
potřeby
uložit výsledky
ze zápisníku ve formátu RTF
- odklepnout DOSovské okno
V případě
potřeby (velice pracovití studenti) lze podobné zkoumání dělat
s dalšími veličinami
050223-KZv.