Professional Documents
Culture Documents
Statisztikai adatfeldolgozás
számítástechnikai lehetőségei
2006
2
Tartalomjegyzék
Bevezetés......................................................................................................................1
1 A statisztikai adatfeldolgozás és annak számítógépes támogatási lehetőségei...3
2 Az adatfeldolgozás szakaszai és jellemzői............................................................4
3 Az adatfeldolgozást támogató számítógépes programok.......................................7
4 Az MS Excel alkalmazása statisztikai adatfeldolgozásban...................................8
5 Az R statisztikai programnyelv alkalmazása statisztikai adatfeldolgozásban.....12
6 Főbb eloszlástípusok és ábrázolási lehetőségek...................................................21
7 Egyenletes eloszlás..............................................................................................22
8 Binomiális eloszlás (Bernoulli eloszlás)..............................................................25
9 Poisson-eloszlás...................................................................................................28
10 Exponenciális eloszlás.......................................................................................30
11Normális eloszlás................................................................................................33
12 Ábrázolási lehetőségek......................................................................................37
13 Hisztogramok.................................................................................................39
14 Pont-, vonal-, oszlop- és kördiagramok.........................................................43
15 Boxplot ábrázolás...........................................................................................49
16 Páronkénti ábrázolás......................................................................................54
17 Egyéb ábrázolási technikák............................................................................56
18 Alapstatisztikák....................................................................................................62
19 Helyzeti és számított középértékek....................................................................62
20 Számtani átlag................................................................................................62
21 Harmonikus átlag...........................................................................................64
22 Mértani átlag..................................................................................................64
23 Négyzetes átlag..............................................................................................65
24 Módusz...........................................................................................................66
25 Medián...........................................................................................................66
26 Kvantilisek.....................................................................................................67
27 A szóródás és mérőszámai.................................................................................68
28 A ferdeség (skewness) és a csúcsosság (kurtosis) ............................................69
29 A középértékek és a szóródás kiszámításának lehetőségei az Excelben és az R
rendszerben.............................................................................................................71
30 Hipotézistesztelés, alapvető paraméteres és nem-paraméteres statisztikai próbák
................................................................................................................................78
31 A hipotézisvizsgálat menete..........................................................................78
32 u-próba...........................................................................................................79
33 t-próba............................................................................................................81
34 F-próba...........................................................................................................84
35 χ2-próba.........................................................................................................85
36 Mintavételezés, varianciaanalízis.......................................................................90
37 Mintavételi eljárások..........................................................................................90
38 A varianciaanalízis.............................................................................................92
39 Egytényezős varianciaanalízis.......................................................................92
40 Kéttényezős varianciaanalízis........................................................................98
I
41 Korreláció és regressziószámítás......................................................................103
42Korrelációszámítás............................................................................................103
43 Regressziószámítás..........................................................................................105
44 Kétváltozós lineáris regresszió....................................................................105
45 Többváltozós lineáris regresszió..................................................................113
46 Idősorok elemzése............................................................................................117
47 Többváltozós statisztikai módszerek................................................................122
48 Faktor- és főkomponensanalízis......................................................................122
49 Diszkriminanciaanalízis...................................................................................129
50 Klaszterelemzés...............................................................................................131
Irodalomjegyzék......................................................................................................132
II
Bevezetés
1
Ma már egyre több elemzési lehetőséget biztosító szoftver áll rendelkezésre és az
elmúlt évtizedekben az elemzési módszerek is hatalmas mértékben fejlődtek. A
könyvben, mint elemzési módszerekkel, a statisztikai módszerekkel foglalkozunk. A
statisztikai módszerekkel megalapozott döntések azonban csak akkor lesznek
helyesek, a gyakorlatban is jól interpretálhatók, ha sikerül megtalálni a megfelelő
módszert és az alkalmazásánál körültekintően, a statisztika szabályainak megfelelően
járunk el. Tisztában kell lennünk azzal is, hogy a társadalmi és gazdasági jelenségek
statisztikai vizsgálata a nem teljes információjú döntések kategóriájába tartozik, és az
elemzésnél, valamint a kapott eredmények felhasználásánál erről sohasem szabad
megfeledkezni. A bizonytalansággal szembenézni természetesen nem mindig könnyű
dolog, és ezért néha úgy teszünk, mintha nem is létezne, ugyanakkor a vizsgált
jelenség természetének megfelelő módszer és eljárás kiválasztásával és egzakt
alkalmazásával a probléma nagyrészt kezelhető.
2
1 A statisztikai adatfeldolgozás és annak számítógépes
támogatási lehetőségei
3
információt előállítani. A statisztika tehát hasznos információt állít elő többnyire
számok felhasználásával.
A mintavétel azt jelenti, hogy a teljes csoport vagy populáció helyett, annak
valamilyen szempont szerint kiválasztott részéről szerzünk be adatokat a megadott
jellemzők vonatkozásában. Előnye a gyorsabb és olcsóbb adatgyűjtés, hátránya a
pontosságban és a részletességben bekövetkező veszteség.
4
reakcióidő feltétlenül szükségessé teszi az adatfeldolgozás megfelelő technikai és
módszertani támogatását.
5
figyelembe venni, hogy a programmal olyan információkat biztosítsunk, hogy azok a
döntéshozatalhoz a lehető legkönnyebben felhasználhatóak legyenek. Az egész
adatfeldolgozást a döntéshozatal alá kell rendelni. Az előzőek figyelembe vételével
használhatunk egyszerűbb és bonyolultabb programokat is. Kisebb adatmennyiség és
egyszerűbb módszerek esetén jó szolgálatot tehetnek a táblázatkezelő programok, de
nagyobb adattömegek és bonyolultabb számítások esetén célprogramokat célszerű
használni. Nagy adatmennyiség feldolgozása esetén szükség lehet az adatok
adatbázisban történő tárolására is, ami meghatározhatja, hogy mely feldolgozó
programok vehetők számításba. Fontos szempont lehet az is, hogy az adott program
milyen típusú outputok előállítására képes. Előfordulhat, hogy az outputot tárolni
kell és később más programmal továbbfeldolgozást kell végezni rajta, vagy szükség
lehet olyan outputra, amely lehetővé teszi az információk megfelelő formában
történő továbbítását vagy nyilvánosságra hozatalát (pl. internet).
6
3 Az adatfeldolgozást támogató számítógépes programok
• MicrOsiris • Minitab
• Scilab • SAS
• OpenStat • S-plus
• R • SPSS
• Octave • STATISTICA
• ViSta • XPlore
• WinIDAMS
A programok között felsorolásra került a SAS Institute rendszere is, amely ugyan
tartalmaz statisztikai alrendszert is, de az egész rendszer valójában egy integrált
7
üzleti intelligencia rendszerként fogható fel. Ez a programrendszer nagyon
széleskörű szolgáltatásokat biztosít a felhasználók számára, de a magas ára (és a
rendszer viszonylagos bonyolultsága) nem teszi lehetővé, hogy a vállalkozások nagy
száma használja ezt a rendszert.
8
A képlet egy olyan összefüggés (kifejezés), amely ugyanazon vagy más
munkalapokon lévő adatokat használ fel különböző számítások, műveletek
elvégzéséhez. A képletek megadásához szükségünk van azok szintaxisának az
ismeretére is, mert különben hibát követhetünk el. A szintaxis egy programnyelv
használatára vonatkozó szabályok összessége. A számítás folyamatát az Excelben a
képletek szintaxisa szabja meg. A képletek begépelését az „=” vagy a „+” jellel kell
kezdenünk.
9
• Statisztikai függvények
• Szöveg és adat függvények
1. ábra
A függvényvarázsló használata
10
írni. A zárójelek az argumentum sorozat kezdetét és végét jelzik az Excelnek. A
zárójeleket párosával kell használni, és sem előttük, sem utánuk nem állhat szóköz.
Az argumentumokat a zárójelek között kell megadni. Az argumentum szám, szöveg,
logikai érték, tömb, hibaérték vagy hivatkozás lehet, azaz bármi, ami az
argumentumban megkívánt típusú értéket adja. Több függvényhez megadhatunk
olyan argumentumo(ka)t is, amely(ek) a számítások végrehajtásához nem feltétlenül
szükségesek (opcionális argumentum).
11
Az MS Excel előnye, hogy könnyű hozzáférni, használata viszonylag könnyen
megtanulható és a táblázatos forma lehetővé teszi az adatok könnyű áttekintését és
kezelését. Az elemzési lehetőségeken túl az Excel különböző adatbeviteli
lehetőségeket biztosít a billentyűzeten keresztüli beviteltől az adatbázisokból történő
adat kinyerésig. Mindezeken túl adatainkat, illetve az elemzés eredményeit sokféle
formában ábrázolhatjuk is, illetve lehetőségünk van különböző táblázatokban történő
megjelentetésükre is.
1
A program és az alapvető dokumentációk letölthetők a http://www.r-project.org/ honlapról.
2
A program letölthető a http://www.statistiklabor.de/en/ honlapról.
12
Az R környezet egy integrált szoftver eszköz adatmanipulációs, számítási és grafikus
megjelenítési lehetőségekkel, amelyek magukban foglalják a következőket:
• hatékony adatkezelési és tárolási lehetőség,
• tömbökön számításokat végző operátorok,
• széleskörű, koherens, integrált adatelemzési eszközök,
• az adatelemzés grafikus megjelenítési lehetőségei képernyőn, nyomtatott
formában, illetve web-es felületeken,
• magas szintű, mégis egyszerű és hatékony programozási nyelv, amely
tartalmazza a hagyományos programozási elemeket is.
2. ábra
Az R nyelv script üzemmódú működési felülete
13
adatokkal, hanem adatsorokkal dolgozunk, ezért ez a működési mód lehetővé teszi a
gyors és egyszerű munkavégzést. Például, ha az alábbi adatokkal a megadott össze-
függést szeretnénk kiszámolni, akkor azt a következőképpen tehetjük:
3. ábra
A Statistical Lab induló felülete
>3 x = c(1, 2, 3, 4, 5, 6)
> y = c(2.5, 3.4, 5.4, 3.8, 4.6, 6.1)
>z= x*y+1
3
A ’>’ szimbólum a prompt jel, amely után lehet az utasításokat begépelni.
14
A nyelv lehetővé teszi, hogy a vektorokra a megszokott műveleti jeleket,
függvényeket használjuk, illetve magunk is írhatunk függvényeket, amelyek más
műveletekben felhasználhatók, esetleg a későbbi felhasználáshoz tárolhatók is.4 A
vektorok nemcsak numerikus értékeket, hanem logikai és karakter értékeket is
tartalmazhatnak.
4. ábra
Műveletvégzés az R rendszerben
15
Data frame példa: 10 embertől megkérdezték a súlyát és a magasságát és
feljegyezték a nemüket (N – nő, F – férfi), az adatokból a következő lépésekben lehet
data frame-et létrehozni (eredmény - 5. ábra):
> súly = c(55, 65, 52, 70, 76, 61, 80, 57, 68, 85)
> magasság = c(151, 166, 148, 180, 178, 164, 180, 160, 162, 179)
> nem = c(’N’, ’F’, ’N’, ’F’, ’F’, ’N’, ’F’, ’N’, ’N’, ’F’)
> személyek = c(”Személy_1”, ”Személy_2”, ”Személy_3”, ”Személy_4”,
+6 ”Személy_5”, ”Személy_6”, ”Személy_7”, ”Személy_8”, ”Személy_9”,
+ ”Személy_10”)
> vizsgálat = data.frame(személyek, súly, magasság, nem,
+ row.names=”személyek”)
> vizsgálat 7
2. feladat:
Hozzunk létre egy függvényt, amely a szórást (standard eltérést) számítja ki (6. ábra).
A szórás képlete:
∑( x − x )
n
2
i
i =1
SD( x) =
n−1
6
Ha egy utasítás nem fér el egy sorban, akkor több sorban is megadható, és a ’+’ szimbólum a
folytató sort jelenti.
7
A változó nevének beírása és Enter után kiírásra kerül a változó tartalma. Változónévként lehet
ékezetes betűket is használni.
16
std = function(x) sqrt(sum((x - mean(x))^2) / (length(x) - 1))8
5. ábra
A „data frame” példa eredménye
17
internetről is. Web oldalról a következőképpen olvashatunk be adatokat (jelen
esetben egy data frame-et):
xx = read.table(http://www.econ.unideb.hu/tarnoczi/buscalc/stocks.txt")
6. ábra
Függvény létrehozása az R rendszerben
Az utasítás a honlapról egy táblázatot olvas be, amely a BUX indexet, az OTP, az
EGIS és a BCHEM részvények záróárfolyamát, kereskedési mennyiségét és értékét
tartalmazza. Ha a beolvasott ’data frame’-et hozzárendeljük a rendszerhez (attach),
akkor az oszlop elnevezésekre, mint változókra hivatkozhatunk is.
18
RExcel.xla Excel bővítmény segítségével a Microsoft Excelből is adhatók át adatok
és hívhatók meg R utasítások a 7. ábrán látható menürendszer felhasználásával. Ez a
megoldás kibővíti mind az Excel, mind az R rendszer lehetőségeit. Jól ki lehet
használni az R által biztosított szélesebb körű ábrázolási lehetőségeket, és az Excelbe
felvitt adatokat, elvégzett számítások eredményeit átadhatjuk az R rendszernek, és az
ott meglévő csomagok segítségével alaposabb elemzéseket is végezhetünk.
7. ábra
Az Rexcel.xla által biztosított menü az R rendszer használatához
Ellenőrző kérdések:
1. Mi a statisztikai adatfogalom?
19
2. Milyen módjai vannak az adatgyűjtésnek?
3. Mit jelent az adat információvá válása?
4. Melyek a számítógépes-adatfeldolgozás szakaszai?
5. Melyek a statisztikai adatok fő fajtái, és mi jellemzi azokat?
6. Melyek az Microsoft Excel főbb jellemzői?
7. Mi a függvényvarázsló szerepe az MS Excelben?
8. Az R statisztikai programnyelv (rendszer) jellemzői?
9. Hogyan foglalhatók össze az R rendszer főbb előnyei?
20
6 Főbb eloszlá stípusok és ábrázolási lehetőségek
21
• pbinom – eloszlásfüggvény: arra ad választ, hogy mennyi annak a
valószínűsége, hogy a véletlen változó kisebb, mint x.
• qbinom – kvantilis függvény: a p… függvény inverze, és arra ad választ,
hogy melyik érték felel meg az adott valószínűségnek.
• rbinom – véletlen számok generálása (egyszerre több véletlen számot is
generál és egy vektorba helyezi azokat)
7 Egyenletes eloszlás
1
f ( x) = , ha a<x<b és f(x) = 0 egyébként.
b−a
22
Az Excel nem biztosít igazán jó lehetőséget az egyenletes eloszlású értékek
előállítására, ugyan a RANDBETWEEN függvény lehetővé teszi, hogy megadott
intervallumba eső véletlen számokat állítsunk elő. Az R rendszer a (d,b,q,r)unif
függvénnyel lehetővé teszi az eloszlással való számolást. Még jobb lehetőséget
biztosít a sample függvény, amelyet használhatunk ismétléses, illetve ismétlés
nélküli formában.
3. feladat
• a magyar kártya lapjaiból válasszunk ki 8-at (ez már egy kicsit összetettebb
feladat, használnunk kell a paste13 utasítást is)
> kártya = paste(c(”piros”, ”tök”, ”zöld”, ”makk”),
+ rep(c(7:10, ”alsó”, ”felső”, ”király”, ”ász”), 4))14
> sample(kártya, 8)
[1] "makk ász" "tök 8" "tök felső" "piros alsó" "tök felső"
[6] "piros 7" "zöld király" "piros alsó"
10
Az eredménysor elején lévő szám ’[1]’ a vektor indexére utal. Ha több soros eredményt kapunk,
akkor soronként az előző sor elemszámának figyelembe vételével folytatódik a számozás.
11
”F” – fej; ”Í” - írás
12
A 3. paramétert, amely az ismételhetőségre vonatkozik, mert az alapértelmezés, hogy nincsen
ismétlés.
13
Az argumentumaiból karakter sztringet hoz létre, és a rész sztrigeket összefűzí.
14
A ’rep’ a megadott számnak (4) megfelelően többszörözi a megadott adatsorozatot.
23
4. feladat
> x = runif(1000)
> hist(x, probability=TRUE, col=gray(0.8),
+ main=”[0,1] egyenletes eloszlás”, ylab=”sűrűség”)15
> curve(dunif(x, 0, 1), add=T)16
8. ábra
1000 darab egyenletes eloszlású véletlen szám
15
probability = TRUE – a hisztogram gyakoriságokat ábrázol
col – az oszlopokat kitöltő szín
main – a hisztogram címe
ylab, xlab – az y, illetve az x tengelyek elnevezése
16
A megadott függvényhez vagy kifejezéshez kapcsolódó görbe megrajzolása.
24
8 Binomiális eloszlás (Bernoulli eloszlás)
X ~ Binominális(N, p)
Ahol a „~” jel „eloszlású”-ként olvasható, azaz a teljes kifejezés azt jelenti, hogy az
X egy (N, p) paraméterű binomiális eloszlás. A binomiális kísérletek esetében fontos
feltételezés, hogy az N előre rögzített, a p minden próbálkozás esetén ugyanaz, és
25
bármely próba kimenete nem befolyásolja a többi próbák kimeneteit. Ha N = 1,
akkor azt mondjuk, hogy az X Bernoulli(p) eloszlást követ, és így írjuk:
X ~ Bernoulli(p)
N!
P[ X =k]= * pk * (1 −p) N −k
k!( N −k)!
vagy egyszerűen
N N −k
P[ X =k] =
k * p * (1−)
k
ahol
N- a minta mérete (próbálkozások száma)
k- a megfigyelések száma
p- az 1-gyel kódolt megfigyelések arány
26
5. feladat
Megoldás az R rendszerben:
[1] 0.3773536
27
6. feladat
9 Poisson-eloszlás
28
• események, amelyek látszólag véletlenszerűen keletkeznek az adott
tartományban,
• létezik egy alaparány, amelyen az események előfordulnak.
Például, az iskolában a tanulók vagy jelen vannak vagy nincsenek. Annak az esélye,
hogy az összes tanuló hiányzik elég kicsi. Annak a valószínűsége, hogy X számú
gyerek hiányzik az iskolából az iskola méretével (n) növekszik. Egy másik példa
lehet a hallgatók lemorzsolódása (kimaradása). Minden egyes hallgató lehet
kimaradó vagy nem kimaradó „állapotban”. A hallgató kimaradásának a
valószínűsége rendszerint elég kicsi. Annak a valószínűsége, hogy X hallgató fog
kimaradni egy megadott időszakban Poisson-eloszlással írható le.
X ~Poisson(λ)
29
λk * e−λ
P[ X =k] =
k!
7. feladat
Egy készülék meghibásodásainak átlagos száma 10000 működési óra alatt 10.
Határozzuk meg annak a valószínűségét, hogy a készülék 200 működési óra alatt
nem romlik el!
Excel:
=POISSON(0;200*10/10000;HAMIS)
0,818730753
R rendszer:
10 Exponenciális eloszlás
30
között eltelt idő modellezhető (például, egy bankjegykiadó automata a kéréstől
számítva mennyi idő múlva adja ki a pénzt).
X ~Exponenciális(λ)
8. feladat
31
figyelembe vételével készítsünk egy hisztogramot 100 véletlen szám generálásával
(9. ábra).
9. ábra
Véletlenszerű exponenciális adatok
32
11Normális eloszlás
10. ábra
A normális eloszlás sűrűségfüggvénye és a paraméterek jelentése
33
és a magatartástudományokban, a központi határeloszlás tételének következtében. A
természettudományokban a jelenségek többsége jól közelíthető a normál eloszlással.
A normál eloszlásnak nagy a jelentősége a statisztika több területén is, mint például a
mintavételi eljárások.
2* π* σ
Y2
1 −
P(Y) = *e 2
2* π
X −µ
z=
σ
változó N(0,1) standard normális eloszlású. Ezért, ha az x1, x2, …, xn minta egy N(μ,
σ) eloszlású populációból származik, akkor a minta z étékei, azaz a standardizált
mintaelemek, standard normális eloszlásúak lesznek.
X ~Normál(μ, σ)
34
Μ -∞ .. +∞ σ σ
μ
9. feladat
Excel:
A valószínűségi értéket a ”C6 – C5” művelet elvégzése után kapjuk. (Az Excel egyik
hátránya, hogy a táblázatból első rátekintésre nem látszik, hogyan számoltunk, csak
ha a megfelelő cellá(k)ra lépünk és megnézzük az abban szereplő képletet.)
R rendszer:
35
[1] 66.87123
10. feladat
Excel:
R rendszer:
36
Az R rendszerben a feladat megoldása egyszerűbb, mert egyetlen függvénnyel
eljuthatunk az eredményhez. (Az R általában sokkal szélesebb számítási
lehetőségeket biztosít, mint az Excel.17)
12 Ábrázolási lehetőségek
A régi kínai mondás szerint: egy kép tízezer szónál többet ér. Bár ez nem mindig
igaz, kétségtelen, hogy egy jó ábra sok szöveget pótol. A mérnöki, hivatalos és
tudományos közlésben az ábrák legfontosabb célja a mondanivaló szemléletessé
tétele.
17
A szélesebb körű számítási lehetőséget az is biztosítja, hogy sok helyen fejlesztettek/fejlesztenek ki
speciális alkalmazásokat, amiket később szabadon hozzáférhetővé tesznek. Még nagyobb lenne a
jelentősége az R rendszernek, ha magas szintű grafikus felület is támogatná.
37
• láthatóság
Minden kép, ábra és táblázat megfelelő méretű, kontrasztos, jól olvasható
legyen. Az ábra segítségével felkelthetjük a figyelmét, arra késztetve, hogy
utánanézzen a pontos értékeknek a táblázatban.
• érthetőség
Illusztrációink a szöveg gondos tanulmányozása nélkül is érthetőek legyenek,
ne kívánjanak az olvasótól nagy erőfeszítést.
11. ábra
Összetett ábrázolás az R rendszerben
38
A R rendszer nem csak az ábrák típusában biztosít többféleséget, hanem azok
kivitelezésében, és milyenségében. (12. ábra
12. ábra
Az R rendszer grafikus lehetőségei
13 Hisztogramok
Azt is mondhatjuk, hogy a hisztogram egy olyan táblázat grafikus verziója, amely azt
mutatja meg, hogy a megfigyelések milyen aránya esik a megadott kategóriákba, és
39
ahol a kategóriák (oszlopok) rendszerint egymást nem átfedő, de egymás mellett lévő
intervallumok.
11. feladat
> élettartam = c(423, 369, 387, 411, 393, 394, 371, 377, 389, 409, 392, 408,
+ 431, 401, 363, 391, 405, 382, 400, 381, 399, 415, 428, 422, 396, 372, 410,
+ 419, 386, 390)
40
> hist(élettartam, main="Élettartam teszt eredménye",
+ xlab="élettartam (perc)",ylab="gyakoriság")18
13. ábra
Az R rendszerben készített hisztogram
18
A hist függvénynek további paraméterei is vannak, amelyekkel a hisztogram tovább fínomítható. A
további parancsok a Help (?) utasítással megnézhetők.
19
Az R rendszerben, ha egy név több részből áll, akkor a részeket ponttal lehet összekapcsolni.
20
Az egyes elnevezések jelentései:
breaks – intervallum határok
counts – intervallumok egyedszámai
intensities (densities) – a relatív gyakoriságok
mids – intervallum közepek
equidist – egyenlő intervallum méret vagy nem
41
14. ábra
A 13. ábrán látható hisztogram jellemzői
Excel:
42
xlim = range(breaks), ylim = NULL, xlab = xname, ylab, axes = TRUE,
plot = TRUE, labels = FALSE, nclass = NULL, ...)21
15. ábra
Az Excelben előállított hisztogram
Az R esetében az alap lehetőség mindig egy nagyon egyszerű ábra létrehozása vagy
számítás elvégzése, ami paraméterezéssel tovább finomítható és nagyon elegánsan
kivitelezett ábrák is létrehozhatók. Mivel a paraméterek többségének kezdő értéke is,
amint az a hist függvényből is látható, ezeket nem szükséges megadni, és akkor a
program a kezdő értékkel számol, de ha akarjuk, ezeket meg tudjuk változtatni.
21
A függvény paramétereinek pontos jelentése az R rendszer help utasításának segítségével
megnézhető (?hist vagy help(hist)). A help minden R függvény esetében jól használható és
megfelelő információt ad a függvény használatáról. A helpben találhatók példák is a függvény
használatához és néhány függvény esetében adatfile-okat is mellékelnek, amelyek segítségével a
függvények kipróbálhatók.
43
változó közötti oksági kapcsolatot, de jelezhetik a kapcsolat fennállását (regresszió)
és a kapcsolat erősségét (korreláció) is. A két változó értékei az X és az Y tengelyen
jelennek meg, ahol általában az X tengely tartalmazza a mért értéket, és az Y tengely
pedig a másik változónak ahhoz kapcsolódó mértékét jeleníti meg. A pontdiagram
használatának általában az a célja, hogy azt vizsgáljuk meg, milyen kapcsolat lehet
két változó között, és a kapcsolatot a pontok tendenciájának a meredeksége jelzi. A
kapcsolat alapvetően háromféle lehet: pozitív (emelkedő), negatív (csökkenő) vagy
nincsen kapcsolat.
44
16. ábra
A grafikonvarázsló az Excelben.
12. példa
45
időbeni változását mutatja be, vagy különböző tételeket hasonlít össze. A kategóriák
horizontálisan (vízszintesen), az értékek vertikálisan (függőlegesen) helyezkednek el,
ezzel kiemelve az időbeli változást. A halmozott oszlopdiagramok az egyedinek az
egészhez való viszonyát tükrözik. Az oszlopdiagrammal gyakorlatilag megegyezik a
sávdiagram, ahol az egyes oszlopok vízszintesen helyezkednek el.
17. ábra
Pontdiagram az R rendszerben
13. feladat
Egy felmérés során 25 főt kérdeztek meg a sörivási szokásaikról, hogy melyik típust
szeretik: belföldi doboz (1), belföldi üveg (2), csapolt (3) és import (4). A válaszok:
3411343313212123231111431
46
Az Excelben a normál oszlopdiagram előállítása viszonylag egyszerű (18. ábra), de
ha gyakorisági sorként vagy arányként szeretnénk ábrázolni, akkor el kell végezni
bizonyos csoportosításokat, számításokat.
Excel:
18. ábra
Sörivási szokások felmérésének ábrázolása
R rendszer
47
> barplot(table(sörivás), col=cl[1:25], main=”Sörivás teszt”,
+ sub=„gyakoriság”)
> barplot(table(sörivás)/length(sörivás), col=cl[1:25],
+ main=”Sörivás teszt”, sub=”arány”)
19. ábra
Oszlop diagram az R rendszerben
48
jelenít meg, ezért egy fontos jellemző kiemelésére a leghasznosabb. Mivel a részek
az egészhez való arányviszonyának bemutatására szolgál, ezért csak akkor
alkalmazható, ha ismerjük az alaphalmazra vonatkozó adatokat.
15 Boxplot ábrázolás
A boxplot erősségei:
• grafikusan mutatja be egy változó értékeinek az elhelyezkedését és
terjedelmét,
• jelzéseket ad az adatok szimmetriájáról és ferdeségéről,
• más módszerektől eltérően megmutatja, hogy az adathalmaznak vannak-e
extrém pontjai,
49
• jó és gyors összehasonlítási lehetőséget biztosít különböző adathalmazok
számára.
extrém pontok
max.
min. Q3 + 1.5 * IQR
Q1 Q3
20. ábra
Általános boxplot ábrázolás
14. feladat
50
> társaságok = names(ewr)
> ewr.aktuális = ewr[,3:10]27
> boxplot(ewr.aktuális)
21. ábra
Taxi beérkezési és kiindulási idők a Newark Repülőtéren
> par(mfrow=c(2,4))
> attach(ewr)
> for(i in 3:10) boxplot(ewr[,i] ~ as.factor(inorout), main=társaságok[i])
> detach(ewr)
27
A szükséges oszlopok kiválogatása, az 1. oszlop az éveket, a második a hónapokat tartalmazza,
amelyekhez nincsen szükség az ábrázoláshoz.
51
22. ábra
A taxi beérkezési és kiindulási időpontok külön-külön ábrázolása
repülőjáratonként az EWR repülőtéren
52
kiválasztjuk Az adatsorok formázása… menüt, majd a Mintázat – Vonal
almenüben bejelöljük a Nincs paramétert. Ezt tesszük az összes vonal
esetében.
2. Újra kiválasztjuk Az adatsorok formázása… menüt, majd a Beállítások
almenüben beállítjuk a Különbségvonalak és a Pozitív/negatív eltérés
paramétereket, valamint a Köz paraméterhez beírunk 150-et (ez állítja be
a box szélességét).
23. ábra
Boxplot ábrázolás az Excelben
53
15. feladat
16 Páronkénti ábrázolás
A páronkénti ábrázolás egy nagyon jól használható magas szintű ábrázolási funkció
többváltozós összefüggések megjelenítésére és vizsgálatára. Különösen hasznos, ha
az adatainkban lévő tendenciákat szeretnénk megismerni.
Legyen adott egy X1, X2, …, Xk változókat tartalmazó ábrázolandó mátrix, amely
változóit egy lapon páronként akarjuk ábrázolni mátrix formában (k oszlop és k sor).
A mátrix i-edik sora és j-edik oszlopa az Xi és az Xj változókat mutatja be. Az
előzőekből látható, hogy a páronkénti ábrázolás (pairwise vagy scatter plot)
valójában egy nagyon egyszerű dolog, de a megjelenítésnek sok alternatívája
lehetséges:
• Például az ábrázolási mátrix diagonáljában, egyszerűen egy 45 fokos vonalat
kapunk az Xi – Xi változók ábrázolása esetén, de a diagonálist üresen is
hagyhatjuk, vagy beleírhatjuk a változók elnevezéseit is.
• Vagy egy másik probléma, hogy az Xi – Xj és az Xj – Xi csak a tengelyek
felcserélést jelenti, egyébként megegyeznek. Az utóbbi esetben elhagyhatjuk
a diagonális alatti ábrákat.
54
24. ábra
Eloszlások ábrázolása hisztogrammal és boxplottal
55
• Vannak-e kiugró (extrém) adatok?
• Van-e klaszterképzési (csoportba rendezési) lehetőség az adatokban?
16. feladat
> library(UsingR)
> data(emissions)
> pairs(emissions, labels=c("GDP", "GDP/fő", "CO2"),
+ main="Szórásdiagram")
56
25. ábra
A pairs függvény felhasználása páronkénti szórásdiagram előállítására
A speciális ábrázolási lehetőségek közül a hegedű (violin) ábrát mutatjuk be, ami a
boxplot és a sűrűségdiagram lényegének a kombinációja. Tulajdonképpen az egy
boxplot elkészítésével indul, és azután a boxplot mindkét oldalához hozzáadódik egy
sűrűség diagram, amely az átláthatóság érdekében tükörképpel van megadva. A
hegedű ábra létrehozásához egy a rendszerhez tartozó adathalmazt használunk fel, az
InsectSprays-t. A jobb megértés érdekében egymás mellett megadjuk a boxplot, a
violinplot és a sűrűségdiagram formát is. (26. ábra)
> library(UsingR)
> data(InsectSprays)
> par(mfrow=c(1,3))
> boxplot(count ~ spray, data=InsectSprays, col="lightgray")
> simple.violinplot(count ~ spray, data=InsectSprays, col="lightgray")
> simple.densityplot(count ~ spray, data=InsectSprays)
57
26. ábra
A violindiagram ábrázolása a boxplot és a sűrűségdiagram társaságában
17. feladat
Hozzuk létre a kétváltozós normális eloszlás 3 dimenziós ábráját úgy, hogy az ábrára
rákerüljön az eloszlás függvény is. (A feladat megoldása kicsit bonyolult, de szép
ábrát kapunk.) A kétváltozós normális eloszlás sűrűségfüggvénye
1
1 ( x1 − µ1) 2 x1 − µ1 x2 − µ2 ( x2 − µ2 )
2
f ( x) = * exp− * − 2* ρ * * +
(
2*π * σ11*σ12 * 1− ρ 2 ) (
2* 1− ρ
2
)
σ11 σ11 σ 22 σ 22
A feladat megoldása:
58
1. a függvény létrehozása az R-ben
> f = function(x1, x2)
+{
+ term1 = 1 / (2 * pi * sqrt(s11 * s22 *(1 - rho^2)))
+ term2 = -1 / (2 *(1 - rho^2))
+ term3 = (x1 - mu1)^2 / s11
+ term4 = (x2 - mu2)^2 / s22
+ term5 = -2 * rho * ((x1 - mu1) * (x2 - mu2)) / (sqrt(s11) * sqrt(s22))
+ term1 * exp(term2 * (term3 + term4 - term5))
+}
2. kezdőértékek megadása
> mu1 = 0 # expected value of x1
> mu2 = 0 # expected value of x2
> s11 = 10 # variance of x1
> s12 = 15 # covariance of x1 and x2
> s22 = 10 # variance of x2
> rho = 0.5 # correlation coefficient of x1 and x2
> x1 = seq(-10, 10, length=41) # generating the vector series x1
> x2 = x1 # copying x1 to x2
28
A megadott vektorok felhasználásával, előállítja a 3. paraméterként megadott függvény értékeit, és
elhelyezi a z-ben.
59
+ col = "lightgreen", theta = 30, phi = 20, r = 50, d = 0.1, expand = 0.5,
+ ltheta = 90, lphi = 180, shade = .75, ticktype = "detailed", nticks = 5)
1 1 ( x1 − µ1) 2 x1 − µ1 x2 − µ2 ( x2 − µ2 )
2
f ( x) = * exp− * − 2* ρ * * +
(
2*π * σ 11*σ 12 * 1− ρ 2 ) (
2* 1− ρ
2
) σ 11 σ 11 σ 22 σ 22
27. ábra
A kétváltozós normális eloszlás 3 dimenziós ábrázolása
Ellenőrző kérdések:
1. Mi az egyenletes-eloszlás fő jellemzője?
2. Milyen jelenségek vizsgálatában alkalmazzák általában a binomiális-
eloszlást?
3. Melyik eloszlást szokták a „kis számok törvényének” nevezni?
4. Melyek az exponenciális-eloszlás fő jellemzői?
60
5. Miért tartják a normális eloszlást gyakorlati szempontból a
legfontosabb eloszlástípusnak?
6. Mikor nevezünk egy valószínűségi változót standard normális
eloszlásúnak?
7. Melyek az ábrák készítésének alapelvei?
8. Hogyan történik az adatok hisztogrammal való ábrázolása?
9. Mi jellemzi a pont-, a vonal-, az oszlop- és a kördiagramot?
10. Milyen főbb statisztikai jellemzők jelennek meg a boxplot
ábrázolásban?
11. Mi a lényege a páronként ábrázolásnak, és milyen kérdésekre adhat
választ ez az ábrázolási mód?
12. Milyen diagramokat foglal magában a violindiagram?
61
18 Alapstatisztikák
Megkövetelhető az is, hogy a középérték tipikus legyen, azaz olyan érték, amely
közel áll az előforduló értékek zöméhez, amely körül sűrűsödnek az értékek. Nagyon
fontos, hogy a használt középérték egyértelműen legyen definiálva, és könnyen
értelmezhető legyen.
20 Számtani átlag
62
számtani átlag, amelynek egyszerű formája a megfigyelési egységekhez tartozó
értékek (Xi) összegének és a megfigyelési egységek számának (n) a hányadosa, ami a
következő képlettel adható meg:
n
∑X
i =1
i
X=
n
∑f * X
i =1
i i
X= k
∑f
i =1
i
63
lehetnek például a különböző készlet kimutatások. A kronologikus átlag
kiszámításának képlete:
X1 + Xn n−1
+∑Xi
2 i =2
X=
n−1
21 Harmonikus átlag
n
Xh = n
1
∑
i =1 X i
∑f
i =1
i
Xh = k
1
∑f * X
i =1
i
i
22 Mértani átlag
64
Mértani (geometriai) átlagot akkor számolunk, ha az átlagolandó értékek szorzatának
van tárgyi jelentése. Ilyen esettel általában dinamikus viszonyszámokkal történő
számítások során találkozhatunk.
n
X g =n X i 29
i =1
∑ fi k
X g = i =1 Xifi
i =1
23 Négyzetes átlag
∑x
i =1
2
i
Xq =
n
29
A ∏ szimbólum a szorzatot jelenti.
65
n
∑f x
i =1
i
2
i
Xq = n
∑f
i =1
i
24 Módusz
25 Medián
n+1
A medián sorszáma:
2
66
A képletből következően páros esetszám esetén a medián törtszám lesz, és ebben az
esetben mediánnak a két középső szám egyszerű számtani átlagát tekintjük.
A medián kevésbé érzékeny az extrém értékekre, mint az átlag és ezért erősen ferde
eloszlások esetén jobb mérőeszköz lehet.
26 Kvantilisek
n+1
Q1 sorszáma (25%):
4
3* (n+1)
Q1 sorszáma (75%):
4
67
27 A szóródás és mérőszámai
Q3 −Q1
IQ =
2
∑X i =1
i −X
δ=
n
68
A szóródás leggyakrabban használt mutatószáma a négyzetes eltérés vagy szórás,
amely az ismérvértékek és a számtani átlaguk eltéréseinek négyzetes átlaga.
Számítása
∑( X )
n
2
i −X
i =1
σ=
n
∑ f *( X )
k
2
i i −X
i =1
σ= k
∑f
i =1
i
69
∑( X )
n
4
i −X
i =1
k=
n*σ 4
28. ábra
Az eloszlások ferdesége
A ferdeség számítása:
∑( X )
n
3
i −X
i =1
k=
n*σ 3
70
29 A középértékek és a szóródás kiszámításának lehetőségei az Excelben és
az R rendszerben
18. feladat
Aktív keresők
Év
száma (fő)
1995 3 727.90
1996 3 669.60
1997 3 654.20
1998 3 657.00
1999 3 687.10
2000 3 749.80
2001 3 824.50
2002 3 828.10
2003 3 843.50
2004 3 853.90
1. táblázat
Az aktív keresők száma Magyarországon
Excel:
Az Excelben a főbb jellemzők együttes kiszámítását az Eszközök – Adatelemzés –
Leíró statisztika menüvel végezhetjük el. (29. ábra)
71
29. ábra
Az aktív keresők statisztikai jellemzőinek meghatározása
30
Minimum, alsó kvartilis, medián, átlag, felső kvartilis, maximum.
31
Minimum, alsó sarokpont, medián, felső sarokpont, maximum.
72
30. ábra
A summary és a fivenum függvények használata az R-ben
Excel R
ÁTL. ELTÉRÉS
ÁTLAG mean
CSÚCSOSSÁG
FERDESÉG
HARM. KÖZÉP
KVARTILIS quantile
MAX max
MEDIÁN median
MÉRTANI.KÖZÉP
MIN min
MÓDUSZ
PERCENTILIS
SZÓRÁS sd
VAR var
IQR
2. táblázat
Az Excel és az R nyelv alap statisztikát számító függvényei
19. feladat
73
Kombájn típus Műszakóra/100 ha
Kombájn1 55
Kombájn2 70
Kombájn3 100
Kombájn4 75
Az Excelben való megoldást a 31. ábra mutatja be. (Az adatok az ábrán egyenként
kerültek megadásra, de lehetett volna cellahivatkozást is használni.)
31. ábra
Az átlagos műszakóra kiszámítása Excelben
> length(müó.szüks)/(sum(1.0/müó.szüks))
74
20. feladat
1 hektár
Felhasznált
műtrágyázott
Megye megnevezése összes műtrágya
területre felhasznált
(t)
műtrágya kg/ha
Bács-Kiskun 33622.6 139
Békés 18716.6 84
Csongrád 15773.4 121
Hajdú-Bihar 19584.9 117
Jász-Nagykun-Szolnok 22905.8 101
Pest, Budapest 22869.0 165
Szabolcs-Szatmár-Bereg 18943.6 117
3. táblázat
Műtrágyázás az Alföldön
75
32. ábra
Az átlagos műtrágyázás az Alföldön
R rendszer:
Függvény létrehozása:
Függvény behelyettesítése:
21. feladat
76
33. ábra
Az aktív keresők számának átlagos növekedési üteme
Az átlag kiszámítása
> mértani.átlag(aktív.kereső)
77
30 Hipotézistesztelés, alapvető paraméteres és nem-paraméteres statisztikai
próbák
31 A hipotézisvizsgálat menete
78
A hipotézisvizsgálatokban fontos szerepe van az alternatív hipotézisnek, ami a
nullhipotézistől eltérő hipotézis matematikai megfogalmazása. Egy nullhipotézishez
több alternatív hipotézis is megfogalmazható, amelyek lehetnek egyszerűek (H1: a =
2) és összetettek (H1: 1 < a < 3).
32 u-próba
79
azonosnak tekinthető az m-mel), vagy jelentősen nagyobb, mint ami a véletlennel
magyarázható (ekkor a minta átlaga statisztikai szempontból nem egyezik meg m-
mel).
x −m
u=
σ
n
ahol
• x a vizsgált valószínűségi változó átlaga a mintában,
• σ : a vizsgált valószínűségi változó ismert szórása,
• m : az előre adott érték, amihez az átlagot viszonyítjuk, és
• n : a minta elemszáma.
A kétmintás u-próba azt vizsgálja, hogy két külön mintában egy-egy valószínűségi
változó átlagai egymástól szignifikánsan különböznek-e. A próba alkalmazásának
feltételei:
• a vizsgált valószínűségi változók normális eloszlásúak,
• a vizsgált valószínűségi változók intervallum vagy arányskálán mértek,
• a vizsgált valószínűségi változók populáción belüli szórásai ismertek,
• a vizsgált valószínűségi változók függetlenek.
Alternatív hipotézis: a két mintában a két átlag statisztikai szempontból nem egyezik
meg. [H1 : E(x) ≠ E(y)]
x− y
u=
σ x2 σ 2y
+
n m
80
ahol
• x az egyik valószínűségi változó átlaga a mintájában,
• y a másik valószínűségi változó átlaga a mintájában,
33 t-próba
x −m
u=
s
n
ahol
• x a vizsgált valószínűségi változó átlaga a mintában,
• s a vizsgált valószínűségi változó becsült szórása,
• m az előre megadott érték, amihez az átlagot viszonyítjuk és
• n a minta elemszáma.
81
Szabadságfok: n - 1
A kétmintás t-próba azt vizsgálja, hogy két külön mintában egy-egy valószínűségi
változó átlagai egymástól szignifikánsan különböznek-e. A próba alkalmazásának
feltételei:
• a vizsgált valószínűségi változók normális eloszlásúak,
• a vizsgált valószínűségi változók intervallum vagy arányskálán mértek,
• a vizsgált valószínűségi változók szórásai megegyeznek (a kétmintás u-
próbától eltérően itt nem kell ismernünk az elméleti értéküket, elegendő
becsülnünk a minták alapján),
• a vizsgált valószínűségi változók függetlenek.
Alternatív hipotézis: a két mintában a két átlag statisztikai szempontból nem egyezik
meg. [H1 : E(x) ≠ E(y)]
x−y n* m* (n+m−2)
t= *
(n−1) * s +(m−1) * s
2
x
2
y
n+m
ahol
• x az egyik valószínűségi változó átlaga a mintájában,
• y a másik valószínűségi változó átlaga a mintájában,
Szabadságfok: n1 + n2 -1
82
22. feladat
Egy új gyógyszer hatását mérik, ezért két csoportot vizsgálnak, az egyik csoport a
gyógyszert kapja, a másik placebót. Azt vizsgálják, hogy mennyi idő alatt gyógyul
meg az, aki a gyógyszert kapja és mennyi idő alatt (nap), aki a másik anyagot. Az
eredmény
gyógyszer: 15, 10, 13, 7, 9, 8, 21, 9, 14, 8
placebo: 15, 14, 12, 8, 14, 7, 16, 10, 15, 12
34. ábra
Gyógyszer hatásának vizsgálata
Az R rendszerben a t.test függvényt használhatjuk fel. (35. ábra) A számítás során
kicsit eltérő adatokat kaptunk, de a végkövetkeztetés ugyanaz, nincsen igazi
(szignifikáns) különbség az átlagok között.
83
35. ábra
Gyógyszer hatásának tesztelése
34 F-próba
Az F-próba azt vizsgálja, hogy két külön mintában egy-egy valószínűségi változó
szórásai egymástól szignifikánsan különböznek-e.
Alternatív hipotézis: a két mintában a két átlag statisztikai szempontból nem egyezik
meg. [H1 : σ1 ≠ σ2]
s12
F=
s22
ahol
• s1 az egyik valószínűségi változó szórása,
• s2 a másik valószínűségi változó szórása.
84
35 χ2-próba
A χ2-próba próbastatisztikája
χ =∑
2
k
(f i − fi* ) 2
i =1 fi*
ahol
• fi az i-edik ismérvváltozathoz tartozó megfigyelt gyakoriság,
• fi* az i-edik ismérvváltozathoz tartozó várható gyakoriság.
Szabadságfok: k – 1
23. feladat
Pont 1 2 3 4 5 6
Dobás 22 21 22 27 22 36
85
A kapott adatok eloszlása megfelelő-e?
Az Excelben végzett számítást a 36. ábra, míg az R rendszerben végzettet a 37. ábra
tartalmazza. Mindkét esetben ugyanazt kaptuk eredményül, és megállapítható, hogy
nincsen okunk elvetni azt a hipotézist, hogy a kockadobás eredménye megfelelően
illeszkedik a normális eloszlásra, ami azzal is alátámaszthatunk, ha elkészítjük a
dobások hisztogramját vagy boxplotját, vagy a kettőt együtt.
36. ábra
A kockadobás eloszlása illeszkedésének vizsgálata Excelben
86
37. ábra
A kockadobás illeszkedésének vizsgálata R-ben
24. feladat
Sérülés(kár) szint
nincs kicsi közepes Jelentős
Biztonsági Igen 12813 647 359 42
Nem 65963 4000 2642 303
öv
87
38. ábra
A biztonsági öv használatának és nem használatának összehasonlítása
25. feladat
Van két dobókocka, az egyik szabályos, a másikat manipulálták. Dobjunk a
szabályos kockával 200-at és 100-at a manipulálttal. A kérdés, hogy a két sorozat
származhat-e ugyanabból az eloszlásból?
Megoldás az R-ben:
> kocka.szab = sample(1:6, 200, p=c(1,1,1,1,1,1)/6, replace=T)
> kocka.nem.szab = sample(1:6,100, p=c(0.5,0.5,1,1,1,2)/6, replace=T)
> eredm.szab = table(kocka.szab)
> eredm.nem.szab = table(kocka.nem.szab)
> rbind(eredm.szab, eredm.nem.szab)
> chisq.test(rbind(eredm.szab, eredm.nem.szab))
88
39. ábra
Homogenitás vizsgálat az R rendszerben
Ellenőrző kérdések:
89
36 Mintavételezés, varianciaanalízis
A gyakorlatban szinte soha sincs arra lehetőségünk, hogy az adott sokaság minden
tagját megvizsgáljuk. A mintavétel célja, hogy olyan adatokat nyerjünk, melyek
segítségével a populációra vonatkozóan megalapozott állításokat tehetünk. A minket
érdeklő sokasági változók jellemzőit (a populáció bizonyos paramétereit) a mintából
M
számolt statisztikákkal becsüljük. Egy adott populációból
N
különböző mintát
37 Mintavételi eljárások
90
kiválasztott elsődleges egységeken32 belül minden másodlagos
egységet33 megfigyelünk.
• Többlépcsős
A mintasokasághoz több lépcsőben jutunk el. Az első lépésben
kiválasztjuk az elsődleges egységeket, majd ezután a kiválasztott
elsődleges egységeken belül végzünk további mintavételeket.
• Rétegzett kiválasztás
Lényege a minta belső összetételének mesterséges megjavítása. A
sokaság egységeit kiegészítő információ alapján csoportosítjuk,
miközben arra törekszünk, hogy minél homogénebb csoportokat
nyerjünk, amelyeket rétegeknek nevezünk. A kiválasztás az egyes
rétegekből külön-külön és egymástól függetlenül történik, rétegen
belül egyszerű véletlen kiválasztást alkalmazva.
b. Nem véletlen kiválasztás
• Kvótakiválasztás
• Koncentrált kiválasztás
• Önkényes kiválasztás
c. Szisztematikus kiválasztás
A mintavétel alapját képező nyilvántartásból egyenlő távolságra álló
egyedeket választunk ki. Úgy is értelmezhető, hogy a sokaságot n egyenlő
rétegre osztjuk és rétegenként egy elemből álló mintát veszünk.
32
Elsődleges mintavételi egységnek tekintjük a nyilvántartásban felsorolt egységeket.
33
Másodlagos mintavételi egységnek tekintjük azon sokaság egységeit, amelyekre a megfigyelés
irányul.
91
hibányi távolságra), becsléseknek közelítőleg 95 százaléka esik a
paramétertől ± 2 standard hibányi távolságra, és becsléseknek
közelítőleg 99,9 százaléka esik a paraméter körüli ±3 standard hiba
szélességű sávba.
38 A varianciaanalízis
39 Egytényezős varianciaanalízis
92
A t-próbát két független minta tesztelésére használtuk. A varianciaanalízist hasonló
célból használjuk, de általában több mint két független minta (kísérlet)
összehasonlítására.
függetlenek.
93
SS K
F=
SS B
4. táblázat
A varianciaanalízis táblája
26. feladat
94
A varianciaanalízis megoldására az Excelben az Eszközök – Adatelemzés –
Egytényezős varianciaanalízis utasítást használjuk. A számítás eredményét a 40. ábra
mutatja be, amelyből megállapítható, hogy az eltérő takarmányozásnak van hatása és
az eltérések nem a véletlennek tudhatók be.
Tyúkok
Takarmány
1 2 3 4 5
A 94 86 69 78 73
B 114 99 97 108 111
C 97 84 94 87 93
D 81 77 90 85 75
5. táblázat
A takarmányozási kísérlet eredménye
40. ábra
A takarmánykísérlet értékelése Excelben
95
Az R rendszerben történő megoldást a 41. ábra tartalmazza. Az ábrából láthatjuk,
hogy az F-próba szignifikancia szintje 0,1 %, azaz a nullhipotézist el kell vetni, és a
kezelés szignifikánsan különbözik a hibától. Az előző megállapítás azt jelenti, hogy a
takarmányozásnak van hatása a tyúkok tojástermelésére.
41. ábra
Az R rendszerben elvégzett varianciaanalízis
> s = data.frame(k1,k2,k3,k4)
> boxplot(s, main="Takarmányozási kísérlet", ylab="Tojástermelés",
+ xlab="Takarmányok")
96
42. ábra
A takarmányozási kísérlet eredményének ábrázolása boxplot diagrammal
27. feladat
1. értékelő: 4, 3, 4, 5, 2, 3, 4, 5
2. értékelő: 4, 4, 5, 5, 4, 5, 4, 4
97
3. értékelő: 3, 4, 2, 4, 5, 5, 4, 4
43. ábra
A pályázatértékelők összehasonlítása
40 Kéttényezős varianciaanalízis
98
• Vajon a növények magasságára vonatkozó mérések a különböző
hőmérsékletek esetében ugyanabból a sokaságból származnak-e. Ebben az
esetben a tápoldatok hatását hagytuk figyelmen kívül.
• Figyelembe véve a különböző tápoldatok, és a hőmérsékletkülönbség okozta
eltéréseket (amelyeket az első és a második lépésben kimutattunk), vajon az
összes {tápoldat, hőmérséklet} értékpárt jelölő hat minta ugyanabból a
sokaságból származik-e. Az alternatív hipotézis szerint nem kizárólag a
hőmérséklet vagy a tápoldat változása okozhat eltérést, az egyes {tápoldat,
hőmérséklet} párok esetében más hatások is felléphetnek.
28. feladat
Egy patkányokon végzett toxicitás vizsgálatban 3 mérget használtak (I, II, III) és
négyféle kezelést alkalmaztak (A, B, C, D), a vizsgálatokat 4 ismétlésben végezték.
A vizsgálat során a patkányok túlélési idejét mérték tíz órákban. Az eredményt a 6.
táblázat tartalmazza.
Megoldás az R rendszerben:
99
Kezelés
Méreg
A B C D
0.31 0.82 0.43 0.45
0.45 1.10 0.45 0.71
I
0.46 0.88 0.63 0.66
0.43 0.72 0.76 0.62
0.36 0.92 0.44 0.56
0.29 0.61 0.35 1.02
II
0.40 0.49 0.31 0.71
0.23 1.24 0.40 0.38
0.22 0.30 0.23 0.30
0.21 0.37 0.25 0.36
III
0.18 0.38 0.24 0.31
0.23 0.29 0.22 0.33
6. táblázat
A toxicitási kísérlet eredménye
100
44. ábra
A toxicitási vizsgálat boxplot diagramjai
45. ábra
A toxicitás vizsgálat varianciaanalízisének eredménye
101
Ellenőrző kérdések:
1. Mi a mintavétel célja?
2. Milyen mintavételi eljárásokat ismerünk?
3. Mi a standard hiba?
4. Melyek az egytényezős varianciaanalízis jellemzői?
5. Minek a megállapításában játszik szerepet az F-próba az egytényezős
varianciaanalízisben?
6. Mikor van szükség két- vagy többtényezős varianciaanalízisre?
7. Milyen típusai lehetnek a kéttényezős varianciaanalízisnek?
102
41 Korreláció és regressziószámítás
42Korrelációszámítás
Amikor két változó mennyiség úgy függ össze egymással, hogy a független változó
adott értékéhez a függő változó egy jól meghatározott értéke tartozik,
függvénykapcsolatról beszélünk. A függvény alakját a változók közötti kapcsolat
jellege szabja meg. Gyakran előfordul azonban olyan, hogy a változó mennyiségek
között nem teljesen határozott az összefüggés: a független változó (x) minden
értékéhez a függő változó (y) bizonyos statisztikus sokasága tartozik, oly módon,
hogy az y eloszlása az x változásával meghatározott módon szintén változik. Ebben
az esetben az x és y közötti összefüggést korrelációs kapcsolatnak nevezzük.
Ilyenkor az összefüggést az egyik változó (x) és a másik változó (y) várható értéke
között tudjuk megadni. Tehát a korrelációs kapcsolat közbenső állapotot foglal el
a pontos függvényszerű összefüggések és a változók teljes függetlensége között
(az ilyen jellegű kapcsolatot sztochasztikusnak is nevezik).
103
A korrelációszámítás képlete:
Tegyük fel, hogy egy populáció vizsgálata során ki tudtuk számítani a populációbeli
korrelációs együtthatót két változó közötti lineáris kapcsolat mérésére. Ha ez az
együttható 0 lenne, azt mondhatnánk, hogy nincs korreláció a két változó között.
Tehát, ha egy mintát vizsgálunk, akkor a mintából számított korrelációs együttható 0-
hoz közeli értéke arra enged következtetni, hogy nincs korreláció a két változó
között. 0-tól távol eső (1-hez vagy -1-hez közeli) értékek pedig bizonyos korreláció
meglétére engednek következtetni. A statisztikai szempontból el kell tudnunk
dönteni, hogy r értéke elég messze van-e 0-tól ahhoz, hogy elég nagy biztonsággal
állíthassuk, hogy valóban fennáll.
104
Ez a próba egy t eloszlású statisztikával hajtható végre. Bebizonyítható, hogy ha igaz
a nullhipotézis, a következő, t-vel jelölt statisztika t-eloszlású n-2 szabadságfokkal:
43 Regressziószámítás
Y=a+b*X
105
(a + b * xi)’ különbségek kicsik. Mivel ezek a különbségek pozitívak és negatívak is
lehetnek, vegyük ezek négyzetét és összegezzük a különbségek négyzetét. Így a
következő összeget kapjuk, melyet minimalizálnunk kell:
ahol az sx és az sy az x1, x2, ... , xn és az y1, y2, ... , yn minták standard eltérései
(szórásai). A képletből látható, hogy az ’r’ és a ’b’ előjele megegyezik, mivel a
standard eltérés mindig pozitív. Tehát negatív korreláció esetén a regressziós egyenes
meredeksége negatív és fordítva. Bizonyítható, hogy ugyanaz a t-próba alkalmazható
a regressziós együttható nullától való eltérésének szignifikanciájára, mint a
korreláció szignifikanciájának vizsgálatára.
106
29. feladat
Kukorica
Gazdaság Földminőség
termésátlaga
sorszáma aranykorona/ha
t/ha
1 24.1 8.9
2 34.1 9.8
3 40.5 10.5
4 17.7 8.1
5 19.1 8.3
6 15.5 7.2
7 26.2 9.0
8 19.4 8.3
9 19.3 8.2
10 14.1 7.0
11 18.6 8.1
12 18.2 8.0
13 17.9 8.0
14 19.3 8.5
15 20.1 9.0
16 21.2 8.9
17 25.2 9.3
18 28.6 9.7
19 32.1 10.0
20 38.5 10.3
7. táblázat
A kukorica termésátlagának alakulása
A korreláció- és regressziószámítás az Excel táblázatkezelőben az Eszközök –
Adatelemzés – Korreláció, valamint az Eszközök – Adatelemzés – Regresszió
utasításokkal végezhető el. A számítás eredményét a 46. ábrán láthatjuk. Az ábrából
látható, hogy a vizsgált két tényező között szoros pozitív korreláció van, és az F-
próba értékei alapján az is megállapítható, hogy a regressziós függvénnyel az adott
összefüggés jól leírható, illetve a termésátlagot befolyásolja a föld minősége. Az r-
négyzet vagy determinációs együttható azt jelzi, hogy a független változó mintegy 88
107
%-ban határozza meg a függő változót, azaz a földminőség a kukorica termésátlagát.
Az F-próba segítségével az egész regresszióval kapcsolatos megállapításokat
tehetünk, míg az együtthatók megbízhatóságát (nullától való különbözőségüket) a t-
próbával ellenőrizhetjük. A kiszámított t-próbák alapján megállapítható, hogy
mindkét együttható szignifikánsan nagyobb a nullától.
46. ábra
A földminőség és a kukorica termésátlag közötti összefüggés kiszámítása
108
Az elemzéshez a 7. táblázat adatait használtuk fel és először elkészítettük a két
változó összefüggésének pontdiagramját (47. ábra). A 47. ábrából látható, hogy az
összefüggés elég jól közelíthető egy egyenessel.
47. ábra
A földminőség és a kukoricatermés közötti összefüggés pontdiagramja
Ezután elvégezzük a regresszió kiszámítását. (48. ábra) A 48. ábra felső részén az
’lm’ függvény használatával megkaptuk a regressziósfüggvény együtthatóit. Ha több
információt szeretnénk kapni az összefüggésvizsgálatról, akkor az ’lm’ eredményét
egy változóba kell elhelyezni és ennek a változónak a segítségével többféle
eredményt is előállíthatunk. Az egyik ilyen lehetőség a ’summary’ függvény
használata, amelynek az eredménye a 48. ábra második részében látható.
109
48. ábra
Regressziószámítás az R rendszerben (kukoricatermés – földminőség)
• reziduumok ($residual)
• számított értékek ($fitted.values)
• együtthatók ($coefficients)
• reziduumok szabadságfoka ($df.residual)
110
49. ábra
A regressziós függvény ábrázolása
111
50. ábra
A plot(regr) eredménye
51. ábra
A regresszió varianciaanalízise
A nem-lineáris regresszióval részletesen nem foglalkozunk, mert az alapadatok
transzformálásával bármilyen olyan regressziós függvény előállítható, ahol az
112
alapfüggvény linearizálható. Az R rendszerben a transzformációt a regressziót
meghatározó függvény is el tudja végezni, pl.: lm(log(y) ~ x).
Y = a + b1 * X1 + b2 * X2 + ... + bn * Xn
113
1 131 91 84 5.1
2 179 124 99 6.7
3 214 137 99 7.5
4 134 68 69 3.2
5 147 77 55 3.7
6 171 117 103 6.5
7 135 86 73 4.4
8 255 150 105 8.5
9 129 69 54 3.2
10 139 99 94 3.5
11 123 89 101 3.1
12 242 158 58 6.8
13 227 147 112 6.7
14 293 169 108 9.2
15 274 205 129 9.8
16 188 142 144 8.2
17 152 89 65 4.9
18 163 66 45 3.1
19 136 84 86 4.2
20 270 188 70 8.6
21 220 161 96 8.6
22 228 145 85 7.0
23 206 97 84 5.5
24 238 106 102 5.9
25 112 59 58 3.8
26 180 110 98 5.9
8. táblázat
A műtrágyázás hatása a termésátlagra
114
52. ábra
A többváltozós regressziószámítás paraméterezési lehetőségei az Excelben
115
53. ábra
A többváltozós regresszió eredménye az Excelben
54. ábra
A többváltozós regresszió megoldása az R rendszerben
116
46 Idősorok elemzése
ˆ t =b0 +b1 *t
y
117
n
n
∑y
∑t * y t
t
b1 = t =1
b0 = t =1 n
n ∑t
t =1
2
118
55. ábra
Az adatok tendenciája simítás nélkül
56. ábra
Az adatok tendenciája simítással
119
57. ábra
Adatok logaritmusának a simítása
58. ábra
Az idősor simítás eredménye
120
Ellenőrző kérdések:
1. Mit vizsgálunk a korrelációszámítással?
2. Mire használható a regressziószámítás?
3. Milyen következtetésekre juthatunk a regresszión elvégzett F-próba
által?
4. Milyen következtetésekre juthatunk a regressziós együtthatókon
elvégzett t-próbák által?
5. Milyen típusai vannak az idősorok elemzésének?
6. Mi az idősorelemzés lényege?
121
47 Többváltozós statisztikai módszerek
48 Faktor- és főkomponensanalízis
122
A megoldáshoz nagyon kevés támpontunk van:
1. A megfigyelési változókból kell visszakövetkeztetnünk a háttérváltozókra.
2. A megfigyelési változók többé-kevésbé korrelálnak egymással, korrelációs
rendszert képeznek, amelyet matematikailag a korrelációs koefficiensekkel,
illetve az azokat összefoglaló korrelációs mátrixszal fejezünk ki.
3. Legfeljebb annyi háttérváltozót feltételezünk, ahány megfigyelési változónk
van, de általában az várható, hogy a háttérváltozók száma kisebb.
A faktorok nem korrelálnak egymással. Ugyanis, amíg korrelálnak, addig van közös
részük, tehát tovább faktorizálhatók. Arra is van azonban lehetőség, hogy egymással
korreláló faktorokat hozzunk létre, sőt a korreláció mértékét meg is határozzuk. Ezt
az eljárást nevezik ferdeszögű forgatásnak, rotációnak.
X i =aiI * FiI +aiII * FiII +... +aiq * Fiq +... +bim * Fim +ei Fie
ahol
X i - az i-edik standardizált megfigyelési változó,
F - a standardizált faktorváltozó (analóg a főkomponensanalízis
standardizált C főkomponens változójával)
a – a közös faktorok súlya (közös faktor, amelyik több megfigyelési változót
befolyásol)
b – az egyedi faktorok súlya (egyedi faktor, amelyik csak egy megfigyelési
változót befolyásol)
e – a hibafaktor súlya (hibafaktor, amelyik származhat mérési
pontatlanságból, a korrelációs együtthatók becslési hibájából)
123
Az alapkérdés az, hogy az X megfigyelési változó varianciáját milyen mértékben
befolyásolják a közös faktorok, az egyedi faktor és a hiba. A befolyásolás mértékét a
faktorsúlyok négyzetei fejezik ki
q
s i =∑aij2 +bim2 +ei2
2
j =1
ahol
i – az X megfigyelési változó általános indexe,
q – a közös faktorok száma,
q
∑a
j =1
2
ij - a közös faktorok súlyainak négyzetösszege, amit kommunalitásnak
neveznek (h2).
124
A változók számának csökkentése során az is kiderül, hogy melyek a jelentéktelen
változó, azaz mely változóknak kicsi a magyarázó ereje a függő (eredmény) változó
vonatkozásában.
p
C j =u1j * X1 +u2 j * X 2 +...+uij * X i +...+unj * X n =∑uij * X i
i =1
ahol
Cj – a főkomponensek, főkomponensváltozók
Xi – a standardizált ismérvértékek
uij – a főkomponens koefficiensek
p – az ismérvek száma
125
együtthatók egyenletenként más és más vektorokat képeznek (uI). A vektorok
meghatározása a sajátvektor számítással történik. Egy adott p rangú,
szimmetrikus A mátrixhoz p számú λ sajátérték, és minden sajátértékhez
egyetlen uj sajátvektor tartozik.
30. feladat
126
A harmadik és a negyedik utasítás az eredeti értékek átlagát és szórását írja ki (a
főkomponenselemzés a regressziószámításhoz hasonlóan objektum orientált eljárás).
59. ábra
A főkomponenselemzés eredménye
127
60. ábra
A főkomponenselemzés főkomponensváltozói
61. ábra
A főkomponensek súlyainak ábrázolása
128
62. ábra
A főkomponensek elhelyezkedése
49 Diszkriminanciaanalízis
129
• Egynél több kvantitatív tulajdonság együttes figyelembevételével
kimutatható-e szignifikáns különbség a két csoport között.
• Az megfigyelési egységeknek a két csoportba történt eredeti besorolásának
helyességét kvantitatív változók alapján ellenőrizzük, vagy reprodukáljuk.
• Keresünk egy függvényt, amely segítségével eldönthető, hogy egy további
megfigyelt egyed melyik csoportba sorolandó.
• Minden egyes egyedet több tulajdonság együttes figyelembevételével
számszerű értékkel kívánunk jellemezni.
• A két csoportra középértékeket számíthatunk ki, amelyek segítségével
számszerűsíteni tudjuk a két csoport közötti különbséget.
• Megvizsgálhatjuk, hogy a két csoport különbsége mennyire függ az egyes
tulajdonságoktól.
ahol
wi a diszkriminancia együtthatókat
Xi a standardizált megfigyelési változókat jelenti
130
50 Klaszterelemzés
A klaszterelemzés célja az, hogy a bevont változók szerint adott (k) számú homogén
csoportot különíthessünk el. A klaszteranalízis összefüggések halmazát vizsgálja,
nem tesz különbséget függő és független változó között, hanem a változók halmazán
belüli kölcsönös összefüggéseket vizsgálja. Elsődleges célja, hogy a megfigyelési
egységeket relatíve homogén csoportokba rendezze a kiválasztott változók alapján.
Az adott csoportba tartozó megfigyelési egységek viszonylag hasonlítanak egymásra,
de különböznek más csoportok tagjaitól.
Ellenőrző kérdések:
1. Mi a faktor- és a főkomponensanalízis lényege?
2. Miben különbözik a faktor- és a főkomponens analízis?
3. Mire használható a diszkriminanciaanalízis?
4. Mi a klaszterelemzés lényege?
131
Irodalomjegyzék
132