P. 1
Statisztikai adatfeldolgozás (Excel és R)

Statisztikai adatfeldolgozás (Excel és R)

5.0

|Views: 6,991|Likes:
Published by tarnoczi.tibor

More info:

Published by: tarnoczi.tibor on Jan 09, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

05/08/2014

pdf

text

original

Sections

  • Bevezetés
  • 1.1. Az adatfeldolgozás szakaszai és jellemz i
  • 1.2. Az adatfeldolgozást támogató számítógépes programok
  • 1.3. Az MS Excel alkalmazása statisztikai adatfeldolgozásban
  • 1.4. Az R statisztikai programnyelv alkalmazása statisztikai adat-
  • 2. F bb eloszlástípusok és ábrázolási lehet ségek
  • 2.1. Egyenletes eloszlás
  • 2.2. Binomiális eloszlás (Bernoulli eloszlás)
  • 2.3. Poisson-eloszlás
  • 2.4. Exponenciális eloszlás
  • 2.5.Normális eloszlás
  • 2.6. Ábrázolási lehet ségek
  • 2.6.1. Hisztogramok
  • 2.6.2. Pont-, vonal-, oszlop- és kördiagramok
  • 2.6.3. Boxplot ábrázolás
  • 2.6.4. Páronkénti ábrázolás
  • 2.6.5. Egyéb ábrázolási technikák
  • 3. Alapstatisztikák
  • 3.1. Helyzeti és számított középértékek
  • 3.1.1. Számtani átlag
  • 3.1.2. Harmonikus átlag
  • 3.1.3. Mértani átlag
  • 3.1.4. Négyzetes átlag
  • 3.1.5. Módusz
  • 3.1.6. Medián
  • 3.1.7. Kvantilisek
  • 3.2. A szóródás és mér számai
  • 3.3. A ferdeség (skewness) és a csúcsosság (kurtosis)
  • próbák
  • 3.5.1. A hipotézisvizsgálat menete
  • 3.5.2. u-próba
  • 3.5.3. t-próba
  • 3.5.4. F-próba
  • 4. Mintavételezés, varianciaanalízis
  • 4.1. Mintavételi eljárások
  • 4.2. A varianciaanalízis
  • 4.2.1. Egytényez s varianciaanalízis
  • 4.2.2. Kéttényez s varianciaanalízis
  • 5.1.Korrelációszámítás
  • 5.2. Regressziószámítás
  • 5.2.1. Kétváltozós lineáris regresszió
  • 5.2.2. Többváltozós lineáris regresszió
  • 5.3. Id sorok elemzése
  • 6.1. Faktor- és f komponensanalízis
  • 6.2. Diszkriminanciaanalízis
  • 6.3. Klaszterelemzés
  • Irodalomjegyzék

Tar nóc z i Ti bor

St at i s z t i kai adat f e l dol goz ás
s z ámí t ás t e c hni kai l e he t ős é ge i























2006
I
Tartalomjegyzék

Bevezetés .................................................................................................................................... 1
1. A statisztikai adatfeldolgozás és annak számítógépes támogatási lehetőségei ................ 3
1.1. Az adatfeldolgozás szakaszai és jellemzői ....................................................... 4
1.2. Az adatfeldolgozást támogató számítógépes programok .................................. 7
1.3. Az MS Excel alkalmazása statisztikai adatfeldolgozásban .............................. 8
1.4. Az R statisztikai programnyelv alkalmazása statisztikai adatfeldolgozásban 12
2. Főbb eloszlástípusok és ábrázolási lehetőségek ................................................................ 21
2.1. Egyenletes eloszlás ......................................................................................... 22
2.2. Binomiális eloszlás (Bernoulli eloszlás) ......................................................... 25
2.3. Poisson-eloszlás .............................................................................................. 28
2.4. Exponenciális eloszlás .................................................................................... 30
2.5. Normális eloszlás ............................................................................................ 33
2.6. Ábrázolási lehetőségek ................................................................................... 37
2.6.1. Hisztogramok ........................................................................................... 39
2.6.2. Pont-, vonal-, oszlop- és kördiagramok ................................................... 43
2.6.3. Boxplot ábrázolás .................................................................................... 49
2.6.4. Páronkénti ábrázolás ................................................................................ 54
2.6.5. Egyéb ábrázolási technikák ..................................................................... 56
3. Alapstatisztikák ................................................................................................................... 62
3.1. Helyzeti és számított középértékek ................................................................. 62
3.1.1. Számtani átlag .......................................................................................... 62
3.1.2. Harmonikus átlag ..................................................................................... 64
3.1.3. Mértani átlag ............................................................................................ 65
3.1.4. Négyzetes átlag ........................................................................................ 65
3.1.5. Módusz ..................................................................................................... 66
3.1.6. Medián ..................................................................................................... 66
3.1.7. Kvantilisek ............................................................................................... 67
3.2. A szóródás és mérőszámai .............................................................................. 68
3.3. A ferdeség (skewness) és a csúcsosság (kurtosis) .......................................... 69
3.4. A középértékek és a szóródás kiszámításának lehetőségei az Excelben és az R
rendszerben ............................................................................................................ 71
3.5. Hipotézistesztelés, alapvető paraméteres és nem-paraméteres statisztikai
próbák .................................................................................................................... 78
3.5.1. A hipotézisvizsgálat menete .................................................................... 78
3.5.2. u-próba ..................................................................................................... 79
3.5.3. t-próba ...................................................................................................... 81
3.5.4. F-próba ..................................................................................................... 84
3.5.5. χ
2
-próba .................................................................................................... 85
4. Mintavételezés, varianciaanalízis ...................................................................................... 90
4.1. Mintavételi eljárások ....................................................................................... 90
4.2. A varianciaanalízis .......................................................................................... 92
4.2.1. Egytényezős varianciaanalízis ................................................................. 92
4.2.2. Kéttényezős varianciaanalízis .................................................................. 98
II
5. Korreláció és regressziószámítás ..................................................................................... 103
5.1. Korrelációszámítás ........................................................................................ 103
5.2. Regressziószámítás ........................................................................................ 105
5.2.1. Kétváltozós lineáris regresszió ............................................................... 105
5.2.2. Többváltozós lineáris regresszió ............................................................ 113
5.3. Idősorok elemzése ......................................................................................... 117
6. Többváltozós statisztikai módszerek .............................................................................. 122
6.1. Faktor- és főkomponensanalízis .................................................................... 122
6.2. Diszkriminanciaanalízis ................................................................................ 129
6.3. Klaszterelemzés ............................................................................................. 131
Irodalomjegyzék ................................................................................................................... 132


1
Bevezetés

A társadalmi jelenségek és folyamatok elemzése az objektív valóság megfigyelésén
és megértésén alapszik. Magában foglalja a megfigyelések eredményeinek
rendszerezését, a lényeg megállapítását, az ellentmondások és a fejlődési tendenciák
feltárását, valamint a jelenségek és folyamatok ok-okozati kapcsolatainak tisztázását.
Az elemzés, mint irányítási funkció komplex és rendszeres tevékenységnek
tekinthető.

A globalizálódó, vagy inkább már a globalizálódott gazdaságban az erősödő verseny
egyre inkább előtérbe helyezi a gyors és minőségi vezetői döntéshozatal jelentőségét.
A társadalom és a gazdaság szinte minden területén, a döntések megfelelő szintű
támogatásához, elengedhetetlenül szükség van elemzések végzésére. A társadalmi és
a gazdasági folyamatok felgyorsulása és a reakcióidő lecsökkenése miatt a döntési
folyamatra kevesebb idő maradt, ugyanakkor a megoldandó problémák
bonyolultsága és a döntéshez felhasználandó információ mennyisége megnövekedett.
Ilyen környezetben még inkább növekszik az igény vezetői döntéshozatal
számítógépes támogatására. Nagyobb vállalatok esetében ma már elképzelhetetlen,
hogy megalapozott döntéseket lehessen hozni megfelelő számítógépes rendszerek
igénybevétele nélkül.

Az elmúlt néhány évtized alatt a számítástechnika mind a hardver, mind a szoftver
vonatkozásában hatalmas fejlődésen ment keresztül. Ma már általában nem az a
kérdés, hogy meg lehet-e oldani az adott problémát számítógéppel, mert az esetek
többségében erre megvan a lehetőség. Ma már inkább azt a kérdést kell előtérbe
helyezni, hogyan oldható meg a probléma úgy, hogy a számítógép a felhasználó által
könnyen kezelhető módon, a lehető legmagasabb szintű támogatást tudja nyújtani. A
számítógépes rendszerek csak megfelelő számítógépes és szakmai intelligenciával
működtethetők, ami azt is megköveteli, hogy a szakmai képzés elengedhetetlen
részének kell lennie az alapvető számítástechnikai és informatikai intelligencia
megszerzésének.

2
Ma már egyre több elemzési lehetőséget biztosító szoftver áll rendelkezésre és az
elmúlt évtizedekben az elemzési módszerek is hatalmas mértékben fejlődtek. A
könyvben, mint elemzési módszerekkel, a statisztikai módszerekkel foglalkozunk. A
statisztikai módszerekkel megalapozott döntések azonban csak akkor lesznek
helyesek, a gyakorlatban is jól interpretálhatók, ha sikerül megtalálni a megfelelő
módszert és az alkalmazásánál körültekintően, a statisztika szabályainak megfelelően
járunk el. Tisztában kell lennünk azzal is, hogy a társadalmi és gazdasági jelenségek
statisztikai vizsgálata a nem teljes információjú döntések kategóriájába tartozik, és az
elemzésnél, valamint a kapott eredmények felhasználásánál erről sohasem szabad
megfeledkezni. A bizonytalansággal szembenézni természetesen nem mindig könnyű
dolog, és ezért néha úgy teszünk, mintha nem is létezne, ugyanakkor a vizsgált
jelenség természetének megfelelő módszer és eljárás kiválasztásával és egzakt
alkalmazásával a probléma nagyrészt kezelhető.

A statisztika módszertanával minden elemzést végzőnek annak ellenére tisztában kell
lennie, hogy sok könnyen használható, a számításokat támogató program áll
rendelkezésre, mert a számítások elvégzése után komoly feladatot jelent a kapott
eredmények értelmezése. Azt is tudomásul kell vennünk, hogy a realitások világa a
korlátozások világa, ami azt jelenti, hogy a különböző statisztikai módszereket
alkalmazva arra kell törekednünk, hogy inkább a gyakorlati szempontokat
részesítsük előnyben a módszertani eleganciával szemben. A módszerek
megkövetelte alaposságot azonban sohasem szabad figyelmen kívül hagyni.

A statisztikai módszertan megismerése hozzájárulhat az egyes számítási eljárások
pontosabb használatához, és megkönnyíti a kapott eredmények jobb értelmezését, a
jelenségek ok-okozati kapcsolatainak megmagyarázását. A bonyolultabb módszerek
(pl. faktor-, főkomponens-, klaszter- és diszkriminancia-elemzés) lehetővé tehetik új
összefüggések feltárását megismerését, illetve új megvilágításba helyezhetnek már
feltárt kapcsolatokat.

3
1. A stati szti kai adatfel dol gozás és annak számí tógépes
támogatási l ehetőségei

A statisztika latin eredetű, a "status" szóból származik, amelyet állapotnak és
államnak is fordíthatunk; arra utal, hogy a statisztika tárgya mindig valamilyen
állapot leírására szolgál. Az ebbe a körbe tartozó adatok - természetesen - kielégítik
az informatika általános adatfogalmát, de annál kicsit szűkebbek.

Azt mondhatjuk, hogy a statisztika által használt adatfogalom mindig valamilyen - a
valós világra vonatkozó - kísérlet, megfigyelés, vizsgálat eredményeként adódik, s a
legtöbbször számként jelenik meg, méghozzá általában nem is egy számként - hanem
több adatként. Ahogy matematikai statisztikai könyvek gyakran fogalmaznak: a
statisztika a véletlen tömegjelenségekkel, ezek törvényeivel foglalkozik.

A mindennapokban egyre több új és reagálásra késztető problémával szembesülünk.
A kormányok, a vállalatok és a társadalom széles rétegei több információt
igényelnek, mint bármikor ezelőtt, hogy megfelelő segítséget kapjanak a problémák
megoldásához szükséges döntések meghozatalához. Ez az igény helyez különös
hangsúlyt az adatgyűjtésre és az összegyűjtött adatok feldolgozására, az adatok
döntéshozatalhoz szükséges információvá alakítására, és a kapott információ
megfelelő formában történő bemutatására.

Mielőtt a fenti tevékenységekkel foglalkoznánk célszerű megérteni az adat, az
információ és a statisztikai feldolgozás fogalmakat. Az adatok megfigyeléseket vagy
tényeket jelentenek, amelyek összegyűjtve, rendszerezve és kiértékelve válnak
információvá, majd tudássá. Az előzőek alapján az információ tehát adott
felhasználási célból rendszerezett és feldolgozott adatot jelent, amely már
közvetlenül felhasználható a döntéshozatalban.

A statisztika az információ előállításához és bemutatásához biztosít általános
módszereket. A statisztika általában numerikus adatokkal dolgozik, és többnyire
azokon a tudományterületeken használható, amelyek numerikus adatokból kívánnak
4
információt előállítani. A statisztika tehát hasznos információt állít elő többnyire
számok felhasználásával.


1.1. Az adatfeldolgozás szakaszai és jellemzői

A vállalatok és a magánszemélyek adatokat gyűjtenek, mert nekik vagy valaki
másnak a döntéshozatalhoz információra van szüksége. Az adatgyűjtésnek általában
három fő formáját szoktuk megkülönböztetni: összeírás, mintavétel és adminisztráció
útján. Mindhárom adatgyűjtési módnak vannak előnyei és hátrányai, önállóan és
egymással összehasonlítva is. A módszer kiválasztása több tényezőtől is függhet.

Az összeírás azt jelenti, hogy adatot gyűjtünk megadott jellemzők vonatkozásában
egy megadott csoport vagy populáció minden egyes tagjára vonatkozóan. Előnye a
pontosság és a részletesség, hátránya a magas költség és időigény.

A mintavétel azt jelenti, hogy a teljes csoport vagy populáció helyett, annak
valamilyen szempont szerint kiválasztott részéről szerzünk be adatokat a megadott
jellemzők vonatkozásában. Előnye a gyorsabb és olcsóbb adatgyűjtés, hátránya a
pontosságban és a részletességben bekövetkező veszteség.

Az adminisztráció útján történő adatgyűjtés a szervezet napi tevékenysége során
összegyűjtött adatokat értjük. Az adatgyűjtés ebben az esetben szorosan kapcsolódik
a szervezet tevékenységéhez. Előnye a pontosság, egyszerűség és az idősoros adat
előállás, hátránya a rugalmatlanság és a külső kontroll hiánya.

Az adat feldolgozatlan tény, és ha rendszerezzük, és az igényeknek megfelelően
bemutatjuk, akkor válik információvá. Az adat információvá válása több lépésen
keresztül megy végbe, amely lépések alkotják az adatfeldolgozási folyamatot. Az
adatmennyiség növekedésével a feldolgozási folyamat egyre hosszabbá válik, és
egyre bonyolultabb módszereket igényelhet. A folyamat, megfelelő teljesítményű
számítógépekkel és a feldolgozást magas szinten támogató programokkal jelentős
mértékben lerövidíthető. Napjaink felgyorsult világa, és az ehhez társuló lerövidült
5
reakcióidő feltétlenül szükségessé teszi az adatfeldolgozás megfelelő technikai és
módszertani támogatását.

Az adatok számítógépes feldolgozása – az összegyűjtött adattömeg milyenségének
függvényében - a következő fázisokat foglalhatja magában:
• az adatok kódolása,
• az adatok rögzítése,
• az adatok szerkesztése, rendszerezése,
• az adatokon elvégzett műveletek.

Mielőtt az adatokat a számítógépbe bevinnénk, szükségessé válhat az adatok
kódolása. A kódolás jelentheti a megfelelő azonosítókkal történő ellátást, az
adatokhoz egységes jellemzők rendelését vagy akár a nem numerikus adatok
numerikussá tételét is (pl. kérdőívek feldolgozása). A kódolásra azért lehet szükség,
hogy a nyers adatok számítógépre vitelét és számítógépes feldolgozását könnyebbé
tegyük.

Az adatok rögzítése jelentheti az adatok számítógépbe vitelét, más adatbázisokból
történő kinyerését és adathordozókon a feldolgozó programok által igényelt
formában történő tárolását. A megfelelő formában tárolt adatok könnyebbé és
gyorsabbá teszik az adatokon elvégzendő manipulációkat.

Az adatok szerkesztése és rendszerezése jelentheti az adatok ellenőrzését, az
adatokban meglévő problémák kiküszöbölését, az adatrekordok valamilyen
szempontok szerinti rendezését, vagy a rendezéshez szükséges információk
megadását. A szerkesztés és rendszerezés gyorsabbá tehető speciális számítógépes
programok segítségével. Az adatok pontatlansága, érvénytelensége, hiányossága az
eredmények interpretálási hatékonyságát fogja rontani.

Az adatfeldolgozási folyamat utolsó lépése a szükséges adatmanipulációk, illetve
számítások elvégzése, az igényelt output előállítása. Az adatmanipulációhoz
szükséges program kiválasztása annak függvénye, hogy milyen számításokra van
szükségünk, illetve milyen outputot szeretnénk előállítani. Minden esetben azt kell
6
figyelembe venni, hogy a programmal olyan információkat biztosítsunk, hogy azok a
döntéshozatalhoz a lehető legkönnyebben felhasználhatóak legyenek. Az egész
adatfeldolgozást a döntéshozatal alá kell rendelni. Az előzőek figyelembe vételével
használhatunk egyszerűbb és bonyolultabb programokat is. Kisebb adatmennyiség és
egyszerűbb módszerek esetén jó szolgálatot tehetnek a táblázatkezelő programok, de
nagyobb adattömegek és bonyolultabb számítások esetén célprogramokat célszerű
használni. Nagy adatmennyiség feldolgozása esetén szükség lehet az adatok
adatbázisban történő tárolására is, ami meghatározhatja, hogy mely feldolgozó
programok vehetők számításba. Fontos szempont lehet az is, hogy az adott program
milyen típusú outputok előállítására képes. Előfordulhat, hogy az outputot tárolni
kell és később más programmal továbbfeldolgozást kell végezni rajta, vagy szükség
lehet olyan outputra, amely lehetővé teszi az információk megfelelő formában
történő továbbítását vagy nyilvánosságra hozatalát (pl. internet).

A vizsgálat jellege szerint a statisztika adatainak két nagy fajtáját különböztetjük
meg: a mérhető és a megállapítható adatokat. Amennyiben az adatunk valamilyen
mérés termékeként keletkezik, akkor mérhető adatról beszélhetünk. A mérés -
általánosítva - nem más, mint egy hozzárendelés, ami a valós világ egy bizonyos
objektuma (illetve annak része) és egy szám között áll fenn. Figyelembe véve azt is,
hogy nem minden jelenség mérhető megfelelő szabatossággal, a mérés fogalmát
általánosíthatjuk: a mérhető adatok tehát egy olyan skálán helyezkednek el, amelyet
hasonlónak tekinthetünk valamilyen mérőműszer skálájához.

Megállapítható adatokhoz úgy juthatunk, ha a mérés szerepét egy megállapítás veszi
át. A megállapításban szereplő kategóriákhoz tartozhat számérték, de olyan eset is
lehetséges, amikor nem kapcsolódik hozz á számérték (pl.: egy adott személy neme).
Ide tartoznak az "igen - nem"-mel megválaszolható kérdések is.

Amennyiben az adatok között hierarchiát értelmezünk, akkor belátható, hogy a
megállapítható adatok alacsonyabb rendűek, mint a mérési adatok. Ennek oka
egyszerű: nyilvánvaló, hogy számokkal sokkal egyszerűbb műveleteket végezni,
mint a megállapításokkal (kategóriákkal). Ráadásul a mérhető adatok mindig
átalakíthatóak megállapíthatókká, az ellenkező lehetőség azonban nem áll fenn.

7
1.2. Az adatfeldolgozást támogató számítógépes programok

A vállalkozások napjainkban a kiélezett verseny követelményeinek csak
számítógépes adatfeldolgozással tudnak megfelelni. A felhasznált számítógépes
rendszerek egyre szélesebb szolgáltatásokat nyújtanak a felhasználóknak. Ezen
rendszerek használata ugyanakkor a számítástechnikát, és a használt programot
megfelelő szinten használni képes felhasználókat igényel. Azt is látnunk kell, hogy
az egyre többet tudó programok egyre bonyolultabbakká válnak, és az áruk is egyre
magasabb lesz. Általában olyan programokat célszerű beszerezni, amelyek
használata rövid idő alatt elsajátítható és a használatuk is viszonylag egyszerű.

Napjainkban nagyon sok statisztikai számításokra alkalmas program létezik, a
táblázatkezelő programoktól az integrált statisztikai programrendszerekig. A
legkönnyebben hozzáférhető program a Microsoft Excel táblázatkezelő programja,
amely része a Microsoft Windows Office-nak, így szinte minden számítógépen
hozzáférhető. Sok statisztikai elemző program is létezik, köztük például a
következők:

Ingyenes programok Kereskedelmi forgalomban
beszerezhető programok
• MicrOsiris • Minitab
• Scilab • SAS
• OpenStat • S-plus
• R • SPSS
• Gnumeric • STATGRAPHICS Plus
• Octave • STATISTICA
• ViSta • XPlore
• WinIDAMS

A programok között felsorolásra került a SAS Institute rendszere is, amely ugyan
tartalmaz statisztikai alrendszert is, de az egész rendszer valójában egy integrált
8
üzleti intelligencia rendszerként fogható fel. Ez a programrendszer nagyon
széleskörű szolgáltatásokat biztosít a felhasználók számára, de a magas ára (és a
rendszer viszonylagos bonyolultsága) nem teszi lehetővé, hogy a vállalkozások nagy
száma használja ezt a rendszert.

A tananyaghoz kapcsolódó példák megoldásához két programot fogunk használni.
Az egyik a széles körben elérhető MS Excel táblázatkezelő, a másik az R statisztikai
programnyelv. Az első programot azért választottuk, mert azt gondoljuk, hogy az
szerves része a számítástechnikai alapintelligenciának, és ismerete az alapvető
elvárások közé tartozik. A második program pedig azért került kiválasztásra, mert
szinte minden operációs rendszeren működik, ingyenesen hozzáférhető és nagyon
sok szolgáltatással rendelkezik.


1.3. Az MS Excel alkalmazása statisztikai adatfeldolgozásban

A Microsoft Excel (továbbiakban: Excel) táblázatkezelő szinte minden PC-n
megtalálható, ezért a számítógép használók széles köre számára biztosít különböző
számítási és jelentéskészítési lehetőséget. Az Excel hatékony elemzési,
kommunikációs és megosztási szolgáltatásokat kínál, amelyek segítségével az
adatokból információt nyerhetünk. Az Excel egyszerűbbé teszi a csoportmunkát,
valamint lehetővé teszi az adatok védelmét és az adatokhoz való hozzáférés
szabályozását. Ezen kívül használható a szabványos XML-formátum is, és így
egyszerűbben részt vehetünk az üzleti folyamatokban.

Az Excel más hasonló táblázatkezelő programokhoz hasonlóan az adatokat
táblázatban (munkalapon), pontosabban fogalmazva a táblázatok celláiban (a sorok
és az oszlopok kereszteződése), mezőiben tárolja. A táblázatokat sorok és oszlopok
alkotják, illetve más megközelítésben, a táblázat cellái oszlopokba és sorokba
rendeződnek. A munkalapok egy munkafüzetet alkotnak, amely tartalma egy önálló
fájlba menthető. A munkafüzet a fájl nevét kapja, és a munkafüzet összes
alkotóeleme ellátható névvel, amely nevekre a képletekben hivatkozni is lehet. A
képletekben azonban hivatkozhatunk munkalap tartományokra is (vektor, mátrix).

9
A képlet egy olyan összefüggés (kifejezés), amely ugyanazon vagy más
munkalapokon lévő adatokat használ fel különböző számítások, műveletek
elvégzéséhez. A képletek megadásához szükségünk van azok szintaxisának az
ismeretére is, mert különben hibát követhetünk el. A szintaxis egy programnyelv
használatára vonatkozó szabályok összessége. A számítás folyamatát az Excelben a
képletek szintaxisa szabja meg. A képletek begépelését az „=” vagy a „+” jellel kell
kezdenünk.

Az Excel képletekben, kifejezésekben függvényeket is használhatunk. A függvények
lehetnek beépítettek és saját fejlesztésűek. Az Excel több mint 300 beépített
függvénnyel rendelkezik. A függvények begépelhetők a billentyűzetről vagy
megadhatók az „f
x
” függvényvarázslóval is. A függvényvarázsló táblázatos
formában lehetőséget biztosít a függvény argumentumainak (paramétereinek) a
megadására, és segítséget is biztosít az egyes paraméterek értelmezéséhez. A
függvényargumentumok helyes megadása esetén, a függvényvarázsló alján (Érték:)
megjelenik a számított érték is (1. ábra). A függvényvarázsló gyorsabbá és
kényelmesebbé teszi a függvények megadását és szerkesztését. A függvények
argumentumaként megadhatók konstans értékek, cella és tartomány (tömb)
hivatkozások is. A függvények segítségével egyszerű és összetett számításokat is
végezhetünk.

Az Excel beépített függvényei jól használhatók az üzleti élet különböző területein.
Az Excel beépített függvényeivel a munka- és makrólapokon, a gyakorta előforduló
számításokat hajthatjuk végre. Az Excel függvény csoportjai:
• Adatbázis függvények
• Dátum és idő függvények
• Külső függvények (a bővítménykezelő segítségével tölthetők be)
• Mérnöki függvények
• Pénzügyi függvények
• Információs függvények
• Logikai függvények
• Kereső és hivatkozási függvények
• Matematikai és trigonometriai függvények
10
• Statisztikai függvények
• Szöveg és adat függvények



1. ábra
A függvényvarázsló használata

Azokat az értékeket, amelyeket a függvényeknek adunk a műveletek
végrehajtásához, a függvény argumentumainak, a függvényből visszakapott értékeket
pedig eredménynek nevezzük.

A függvényeket a munkalap képleteiben használhatjuk. A függvény leírásakor a
karakterek sorrendjét (leírási szabályait) a függvény szintaxisának nevezzük. Az
összes függvényt azonos szabályok szerint kell leírni. Ha nem tartjuk be az előírt
szintaxist, az Excel hibaüzenetet jelenít meg, amely a képletben lévő hibára hívja fel
a figyelmet. Ha a függvény a képlet elején szerepel, akkor eléje egyenlőségjelet kell
11
írni. A zárójelek az argumentum sorozat kezdetét és végét jelzik az Excelnek. A
zárójeleket párosával kell használni, és sem előttük, sem utánuk nem állhat szóköz.
Az argumentumokat a zárójelek között kell megadni. Az argumentum szám, szöveg,
logikai érték, tömb, hibaérték vagy hivatkozás lehet, azaz bármi, ami az
argumentumban megkívánt típusú értéket adja. Több függvényhez megadhatunk
olyan argumentumo(ka)t is, amely(ek) a számítások végrehajtásához nem feltétlenül
szükségesek (opcionális argumentum).

Az argumentumok állandók vagy képletek is lehetnek. Ha argumentumként képletet
használunk, ebben szerepelhetnek további függvények is. Ha egy függvény
argumentuma maga is függvény, azt beágyazott függvénynek nevezzük. Az Excel
képleteiben legfeljebb hét szint mélységig ágyazhatunk egymásba függvényeket.

A függvények egyik csoportja a statisztikai elemzésekhez biztosít különböző
eljárásokat, és az Eszközök menü Adatelemzés almenüjében is találhatók különböző
összetettebb statisztikai elemzési (modellezési) lehetőségek:
• Egytényezős varianciaanalízis
• Kéttényezős varianciaanalízis ismétlésekkel és ismétlések nélkül
• Korreláció- és kovariancia analízis
• Leíró statisztikák
• Exponenciális simítás
• Kétmintás F-próba a szórásnégyzetre
• Fourier-analízis
• Mozgóátlag
• Véletlenszám generálás
• Rangsor és százalékos rangsor
• Regresszió
• Mintavétel
• Kétmintás párosított t-próba a várható értékekre
• Kétmintás t-próba egyenlő és nem-egyenlő szórásnégyzeteknél
• Kétmintás z-próba a várható értékekre

12
Az MS Excel előnye, hogy könnyű hozzáférni, használata viszonylag könnyen
megtanulható és a táblázatos forma lehetővé teszi az adatok könnyű áttekintését és
kezelését. Az elemzési lehetőségeken túl az Excel különböző adatbeviteli
lehetőségeket biztosít a billentyűzeten keresztüli beviteltől az adatbázisokból történő
adat kinyerésig. Mindezeken túl adatainkat, illetve az elemzés eredményeit sokféle
formában ábrázolhatjuk is, illetve lehetőségünk van különböző táblázatokban történő
megjelentetésükre is.


1.4. Az R statisztikai programnyelv alkalmazása statisztikai adat-
feldolgozásban

Az R statisztikai programnyelv az S-plus (Bell Laboratories) kereskedelmi
forgalmazású statisztikai programnyelv ingyenes, szabad fejlesztésű változata.
1
Az R
nyelv szinte minden operációs rendszer alatt működik. Használata egyszerű, mégis
nagyon sokféle feladat megoldására alkalmas. Az R rendszer egy programnyelv és
egy környezet statisztikai feladatok megoldására és ábrázolására. A nyelv
alapváltozata párbeszédes üzemmódban script-ek megadásával használható (2. ábra),
de ma már léteznek olyan fejlesztések is, amelyek lehetővé teszik a program
elfogadható szintű grafikus felületen történő használatát is (pl.: Rcmdr, JGR,
Statistical Lab
2
) (3. ábra).

A nyelv kiváló, beépített help (segítség) rendszerrel rendelkezik, ami nagymértékben
megkönnyíti az egyes parancsok, függvények használatát. Az R amellett, hogy
lehetővé teszi különböző statisztikai feladatok megoldását, lényegében egy könnyen
megtanulható és használható programnyelv is. Fontos megjegyezni, hogy a
statisztikai elemzések széles körének elvégzése (lineáris és nem-lineáris modellezés,
klasszikus statisztikai tesztek, idősor elemzések, osztályozások, stb.) nem igényel
programozási ismertet. Programozásra csak akkor van szükség, ha a rendelkezésre
álló csomagok között nem találjuk a számunkra szükségeset, vagy a meglévők
valamelyikét át szeretnénk alakítani. Az R rendszer könnyen bővíthető.


1
A program és az alapvető dokumentációk letölthetők a http://www.r-project.org/ honlapról.
2
A program letölthető a http://www.statistiklabor.de/en/ honlapról.
13
Az R környezet egy integrált szoftver eszköz adatmanipulációs, számítási és grafikus
megjelenítési lehetőségekkel, amelyek magukban foglalják a következőket:
• hatékony adatkezelési és tárolási lehetőség,
• tömbökön számításokat végző operátorok,
• széleskörű, koherens, integrált adatelemzési eszközök,
• az adatelemzés grafikus megjelenítési lehetőségei képernyőn, nyomtatott
formában, illetve web-es felületeken,
• magas szintű, mégis egyszerű és hatékony programozási nyelv, amely
tartalmazza a hagyományos programozási elemeket is.



2. ábra
Az R nyelv script üzemmódú működési felülete

Az R nyelv különböző adatstruktúrákon képes műveletet végezni. Az alap adat-
struktúra a vektor. Az R nyelv alapértelmezésben minden megadott adatot vektornak
tekint, és műveleteket is alapvetően vektorokkal végez. A megadott változók is
alapértelmezésben vektorok. Mivel a statisztikai elemzésben általában nem egyedi
14
adatokkal, hanem adatsorokkal dolgozunk, ezért ez a működési mód lehetővé teszi a
gyors és egyszerű munkavégzést. Például, ha az alábbi adatokkal a megadott össze-
függést szeretnénk kiszámolni, akkor azt a következőképpen tehetjük:



3. ábra
A Statistical Lab induló felülete


>
3
x = c(1, 2, 3, 4, 5, 6)
> y = c(2.5, 3.4, 5.4, 3.8, 4.6, 6.1)
> z = x * y + 1

Eredményül a z vektort kapjuk. A számítás során a két vektor megfelelő elemei
szorzódnak össze, és minden elemhez hozzáadásra kerül 1 (4. ábra).


3
A ’>’ szimbólum a prompt jel, amely után lehet az utasításokat begépelni.
15
A nyelv lehetővé teszi, hogy a vektorokra a megszokott műveleti jeleket,
függvényeket használjuk, illetve magunk is írhatunk függvényeket, amelyek más
műveletekben felhasználhatók, esetleg a későbbi felhasználáshoz tárolhatók is.
4
A
vektorok nemcsak numerikus értékeket, hanem logikai és karakter értékeket is
tartalmazhatnak.

5


4. ábra
Műveletvégzés az R rendszerben

Az R nyelv más adatstruktúrákat is tud létrehozni és azokon műveleteket végezni.
Ilyen adatstruktúrák lehetnek a mátrixok (tömbök), a factor-ok, a listák, a data frame-
ek. Ezen adatstruktúrák létrehozása különböző függvények segítségével lehetséges.
A létrehozott struktúrákkal szintén képes műveleteket végezni az R nyelv. A
mátrixok esetében lehetőség van a lineáris algebrában megszokott mátrix műveletek
elvégzésére is, ami leegyszerűsíti a különböző statisztikai számítások elvégzését.

A factor a vektor egy speciális formája, ahol a vektorok különböző szintjei
alakíthatók ki, ami jól használható különböző kategóriák megjelenítéséhez, mind a
modellezésben és mind az ábrázolásokban. A data frame lényegében egy
általánosított mátrix, ahol a különböző oszlopok eltérő típusokat is jelenthetnek, de
egy adott oszlopnak ugyanazt a típust kell tartalmaznia. A data frame oszlopainak és
sorainak neveket is adhatunk, és a számításokban ezekkel a nevekkel hivatkozhatunk
is az adott oszlopra vagy sorra. Így lényegében táblázatokat tudunk létrehozni. A
data frame lényegében adatoszlopok listájának is tekinthető.

4
A vektorokra alapozott műveletvégzés, programozás esetén, az esetek többségében feleslegessé teszi
az ún. ciklusutasítások használatát, ami jelentős mértékben megkönnyíti a programozást.
5
A ’c’ függvény az argumentumait egy vektorrá vagy listává konvertálja. Az argumentumok tipusa
tetszőleges lehet.
16
1. feladat
Data frame példa: 10 embertől megkérdezték a súlyát és a magasságát és
feljegyezték a nemüket (N – nő, F – férfi), az adatokból a következő lépésekben lehet
data frame-et létrehozni (eredmény - 5. ábra):
> súly = c(55, 65, 52, 70, 76, 61, 80, 57, 68, 85)
> magasság = c(151, 166, 148, 180, 178, 164, 180, 160, 162, 179)
> nem = c(’N’, ’F’, ’N’, ’F’, ’F’, ’N’, ’F’, ’N’, ’N’, ’F’)
> személyek = c(”Személy_1”, ”Személy_2”, ”Személy_3”, ”Személy_4”,
+
6
”Személy_5”, ”Személy_6”, ”Személy_7”, ”Személy_8”, ”Személy_9”,
+ ”Személy_10”)
> vizsgálat = data.frame(személyek, súly, magasság, nem,
+ row.names=”személyek”)
> vizsgálat
7



Az előzőekben említett adatstruktúráknak nemcsak a programozásban van szerepük,
hanem a már kész statisztikai eljárások használatát is jelentős mértékben
megkönnyítik, amint azt később a konkrét statisztikai alkalmazásoknál látni is
fogjuk.


2. feladat:
Hozzunk létre egy függvényt, amely a szórást (standard eltérést) számítja ki (6. ábra).
A szórás képlete:







6
Ha egy utasítás nem fér el egy sorban, akkor több sorban is megadható, és a ’+’ szimbólum a
folytató sort jelenti.
7
A változó nevének beírása és Enter után kiírásra kerül a változó tartalma. Változónévként lehet
ékezetes betűket is használni.
( )
1
) (
1
2


=

=
n
x x
x SD
n
i
i
17
A függvény létrehozása a képlet alapján az R nyelvben:

std = function(x) sqrt(sum((x - mean(x))^2) / (length(x) - 1))
8




5. ábra
A „data frame” példa eredménye

Az egyenlőségjel bal oldalán található „std” a függvény neve. Az egyenlőségjel jobb
oldalán található függvényt a „function” utasítással kell kezdeni, és az utána lévő
zárójelben kell megadni a függvény attribútumait
9
. A függvény beépített
függvényeket is meghív:
• sqrt négyzetgyökvonás
• sum összegzés
• mean átlagszámítás
• length a vektor hossza




8
A függvény létrehozását a képlet elemeihez ragaszkodva oldottam meg. A valóságban ez az eljárás
egyszerűbben is létrehozható (és az igazat megvallva a függvény ’sd’ néven létezik is az R-ben):
std = function(x) sqrt(var(x))
9
Lehetőség van az attributumoknak kezdő érték megadására is. Ilyenkor, ha az attributum hiányzik,
akkor a megadott értékkel számol a program.
18
A R statisztikai programnyelv többféle adatbeolvasási lehetőséggel is rendelkezik.
Vihetünk be adatokat billentyűzetről, olvashatunk be file-okból vagy akár az
internetről is. Web oldalról a következőképpen olvashatunk be adatokat (jelen
esetben egy data frame-et):

xx = read.table(http://www.econ.unideb.hu/tarnoczi/buscalc/stocks.txt")



6. ábra
Függvény létrehozása az R rendszerben

Az utasítás a honlapról egy táblázatot olvas be, amely a BUX indexet, az OTP, az
EGIS és a BCHEM részvények záróárfolyamát, kereskedési mennyiségét és értékét
tartalmazza. Ha a beolvasott ’data frame’-et hozzárendeljük a rendszerhez (attach),
akkor az oszlop elnevezésekre, mint változókra hivatkozhatunk is.

Lehetőségünk van különböző formátumban megadott adatok beolvasására is, illetve
adatokat vehetünk át más rendszerekből is (pl.: Excel, SAS, SPSS, stb.). A rendszer
azt is biztosítja, hogy különböző adatbázis-kezelő rendszerek által létrehozott
adatbázisokból nyerjünk ki adatokat, illetve ilyen adatbázisokba vigyünk be adatokat.

Egy statisztikai programrendszer használatához elengedhetetlenül szükséges az
ábrázolási lehetőségek biztosítása. Az R nyelv nagyon magas szintű ábrázolási
lehetőségeket biztosít, a statisztikai ábrák széles körét képes létrehozni, de lehetőség
van a felhasználó általi új ábrázolási módok kialakítására is. A rendszer nagyon
lényeges szolgáltatása több, esetleg különböző típusú, ábrának egy keretben történő
elhelyezése.

Az R rendszerhez tartozó R(D)COM szerver lehetőséget biztosít standard
alkalmazásokkal történő összekapcsolódáshoz is. Ami azt jelenti, hogy az adott
19
rendszerből adatokat és utasításokat küldhetünk az R rendszerbe, és az R rendszer az
utasítások végrehajtásának eredményét visszaküldi a hívó rendszernek. Pl.: az
RExcel.xla Excel bővítmény segítségével a Microsoft Excelből is adhatók át adatok
és hívhatók meg R utasítások a 7. ábrán látható menürendszer felhasználásával. Ez a
megoldás kibővíti mind az Excel, mind az R rendszer lehetőségeit. Jól ki lehet
használni az R által biztosított szélesebb körű ábrázolási lehetőségeket, és az Excelbe
felvitt adatokat, elvégzett számítások eredményeit átadhatjuk az R rendszernek, és az
ott meglévő csomagok segítségével alaposabb elemzéseket is végezhetünk.

Az R rendszer további lehetőségei, hogy különböző grafikus programozási
lehetőségek is beépítésre kerültek (Tcl/Tk, Java), és lehetőség van a meglévő eljárás
csomagokhoz megfelelő input és output felületet elkészíteni. Igaz, ez már komolyabb
programozási feladatot jelent, de a Tcl/Tk nyelv grafikus utasításai viszonylag
könnyen megtanulhatók, és alkalmazhatók.



7. ábra
Az Rexcel.xla által biztosított menü az R rendszer használatához

20
Ellenőrző kérdések:
1. Mi a statisztikai adatfogalom?
2. Milyen módjai vannak az adatgyűjtésnek?
3. Mit jelent az adat információvá válása?
4. Melyek a számítógépes-adatfeldolgozás szakaszai?
5. Melyek a statisztikai adatok fő fajtái, és mi jellemzi azokat?
6. Melyek az Microsoft Excel főbb jellemzői?
7. Mi a függvényvarázsló szerepe az MS Excelben?
8. Az R statisztikai programnyelv (rendszer) jellemzői?
9. Hogyan foglalhatók össze az R rendszer főbb előnyei?

21
2. Főbb el oszl ástí pusok és ábrázol ási l ehetőségek

A valószínűségi eloszlások alapkoncepciónak tekinthetők a statisztikai
vizsgálatokban, amelyek mind elméleti mind gyakorlati szinten használunk. Az
eloszlások típusaival, tulajdonságaik felderítésével és megismerésével a
valószínűségszámítás foglalkozik. A matematikai statisztika minden megállapítását,
következtetését erre alapozza. A fejezetben leírtak megértéséhez az alapvető
valószínűségszámítási ismeretek meglétét feltételezzük.

Különböző kutatásokból nyert adatok kiértékeléséhez kapcsolódóan szükségessé
válhat hipotézisek megfogalmazása a vizsgálatba bevont változók eloszlásának a
meghatározásához, illetve bizonyos vizsgálatok elvégzéséhez szükségünk lehet
valamilyen ismert eloszlást követő véletlen számok előállítására. Fontos lehet az a
kísérlet vagy adatgyűjtés során létrejött adatsorok tesztelése előtt azok eloszlásának
meghatározása is. Előrejelzési célból is szükséges lehet annak megismerése, hogy
adattömegünk eloszlása milyen formát követ. Ahhoz, hogy az előzőeket
megtehessük, szükségünk van az elméleti eloszlástípusok alapvető jellemzőinek és
tulajdonságainak a megismerésére.

Melyik eloszlást használjuk? Tudnunk kell, hogy bizonyos jelenségek rendszerint
meghatározott eloszlást követnek. Például, azok a változók, amelyekhez független
véletlen események végtelen sorozata tartozik általában normális eloszlást követnek.
Azok a változók, amelyeknek az értékei rendkívül ritka események eredményei
általában Poisson-eloszlást követnek. Azok a főbb eloszlástípusok, amelyeket
például a túlélési modellekhez javasolnak, az exponenciális és a Weibull-eloszlások.

A főbb eloszlástípusokkal történő számítások mind az Excelben, mind az R nyelvben
megtalálhatóak. A különbség abban jelentkezik, hogy az Excelben csak az eloszlások
valószínűségértékének és sűrűségfüggvényének a kiszámítását biztosító függvények
találhatók (pl.: BINOM.ELOSZLÁS), addig az R rendszerben minden
eloszlástípushoz négy függvény található, például:
• dbinom – sűrűségfüggvény: általában a sűrűségfüggvény megrajzolásához
használják.
22
• pbinom – eloszlásfüggvény: arra ad választ, hogy mennyi annak a
valószínűsége, hogy a véletlen változó kisebb, mint x.
• qbinom – kvantilis függvény: a p… függvény inverze, és arra ad választ,
hogy melyik érték felel meg az adott valószínűségnek.
• rbinom – véletlen számok generálása (egyszerre több véletlen számot is
generál és egy vektorba helyezi azokat)

Ebben a fejezetben a nevezetesebb eloszlástípusok és azok főbb jellemzői kerülnek
bemutatásra.


2.1. Egyenletes eloszlás

A diszkrét eloszlások közül az egyik legfontosabb az ún. egyenletes-eloszlás. A
diszkrét egyenletes-eloszlás bemutatását elsősorban az indokolja, hogy az egyik
legfontosabb valószínűségszámítási tétel, a központi határeloszlás tétele levezetését
ennek segítségével szoktuk szemléltetni. A diszkrét egyenletes eloszlás gyakorlati
előfordulása viszonylag ritka, jelentősége csekély. Ez a lehető legegyszerűbb eset,
valamennyi értékhez ugyanakkora gyakoriság tartozik. A relatív gyakoriság a
különböző kategóriák, osztályok számának reciprokával egyenlő: a "férfi-nő", illetve
"fej vagy írás" esetében két osztály van, s ezért egyketted, azaz 0,5 (50 %) a relatív
gyakoriság, a dobókockánál egyhatod (0,167 = 16,7 %), a közlekedési lámpa fénye
(vörös, sárga, zöld; 0, 1, 2; 0,33 = 33 %), vagy a lottóhúzás.

X egyenletes eloszlású az (a,b) intervallumon (a<b) (jele: X U(a,b) eloszlású), ha
a b
x f

=
1
) ( , ha a<x<b és f(x) = 0 egyébként.

Az egyenletes eloszlást a gyakorlatban igen ritkán alkalmazzuk, ezért
bonyolultabban számítható várható értékét és szórását nem adjuk meg.

Az előzőekből is következően, az egyenletes eloszlás értékei egy adott [a, b]
tartományba esnek, ahol az ’a’ és a ’b’ értéke a probléma függvénye.
23
Az Excel nem biztosít igazán jó lehetőséget az egyenletes eloszlású értékek
előállítására, ugyan a RANDBETWEEN függvény lehetővé teszi, hogy megadott
intervallumba eső véletlen számokat állítsunk elő. Az R rendszer a (d,b,q,r)unif
függvénnyel lehetővé teszi az eloszlással való számolást. Még jobb lehetőséget
biztosít a sample függvény, amelyet használhatunk ismétléses, illetve ismétlés
nélküli formában.


3. feladat
• dobjunk 10-szer egy kockával
> sample(1:6, 10, replace=TRUE)
[1] 6 1 4 2 5 4 1 6 1 1
10

• dobjunk 20-szor egy pénzérmével
> sample(c(”F”,”Í”), 20, TRUE)
[1] "Í" "Í" "F" "F" "Í" "Í" "Í" "Í" "F" "F" "Í" "Í" "Í" "F" "F" "Í" "F" "F" "F"
[20] "F"
11

• állítsunk elő 5 számot az ötös lottóhoz
> sample(1:90, 5)
12

[1] 17 7 69 66 47
• a magyar kártya lapjaiból válasszunk ki 8-at (ez már egy kicsit összetettebb
feladat, használnunk kell a paste
13
utasítást is)
> kártya = paste(c(”piros”, ”tök”, ”zöld”, ”makk”),
+ rep(c(7:10, ”alsó”, ”felső”, ”király”, ”ász”), 4))
14

> sample(kártya, 8)
[1] "makk ász" "tök 8" "tök felső" "piros alsó" "tök felső"
[6] "piros 7" "zöld király" "piros alsó"



10
Az eredménysor elején lévő szám ’[1]’ a vektor indexére utal. Ha több soros eredményt kapunk,
akkor soronként az előző sor elemszámának figyelembe vételével folytatódik a számozás.
11
”F” – fej; ”Í” - írás
12
A 3. paramétert, amely az ismételhetőségre vonatkozik, mert az alapértelmezés, hogy nincsen
ismétlés.
13
Az argumentumaiból karakter sztringet hoz létre, és a rész sztrigeket összefűzí.
14
A ’rep’ a megadott számnak (4) megfelelően többszörözi a megadott adatsorozatot.
24
4. feladat
Állítsunk elő 1000 darab 0 és 1 közötti egyenletes eloszlású véletlen számot és a
kapott értékeket és ábrázoljuk hisztogrammal (8. ábra).

> x = runif(1000)
> hist(x, probability=TRUE, col=gray(0.8),
+ main=”[0,1] egyenletes eloszlás”, ylab=”sűrűség”)
15

> curve(dunif(x, 0, 1), add=T)
16



8. ábra
1000 darab egyenletes eloszlású véletlen szám




15
probability = TRUE – a hisztogram gyakoriságokat ábrázol
col – az oszlopokat kitöltő szín
main – a hisztogram címe
ylab, xlab – az y, illetve az x tengelyek elnevezése
16
A megadott függvényhez vagy kifejezéshez kapcsolódó görbe megrajzolása.
25
2.2. Binomiális eloszlás (Bernoulli eloszlás)

A diszkrét eloszlások nagyon sok esetben, megállapítható változók viselkedését írják
le jól. Abban a - legegyszerűbb - esetben, ha a változó csak két értéket vehet föl -
hasonlóan a logikai értékekhez -, akkor az értékek eloszlása binomiális eloszlást
határoz meg.

A statisztikusok gyakran vizsgálnak olyan típusú jelenségeket, amelyekben
– egy megismételhető esemény sikeres vagy sikertelen kimenetelű,
– sok ismétlődés figyelhető meg,
– a siker és a sikertelenség megszámlálható,
– a sikerek száma segít ismereteket szerezni a sikeresség valószínűségéről.

Az ilyen jellegű jelenségek jellemzője, hogy a vizsgált populáció egyedeinek egyik
hányada megadott tulajdonságú. A két kimenetű (dichotóm) jelenséghez kapcsolódó
kísérleteket N-szer elvégezve (N próbát téve), az egyik alternatíva
bekövetkezéseinek a száma (X) binomiális eloszlást követ. A kísérletben P(X) annak
a valószínűsége, hogy az egyik alternatíva k-szor bekövetkezik. A binomiális
kísérletek nagyon elterjedtek. Ilyenek lehetnek például orvosi kísérletek, toxicitási
tesztek, ökológiai kísérletek, minőség ellenőrzések.

A két kimenetű események a 0 és az 1 számjegyekkel kódolhatók. Például, egy adott
eseményhez kapcsolódó személyekből (populációból) mintát veszünk (N) és meg-
vizsgáljuk, hogyan alakul az eseményben résztvevő férfiak személyek aránya. A
vizsgálatban az 1-es számjegy jelenti a férfiakat, a 0 pedig a nőket. Egy ilyen
populációból vett mintában a sikeres találatok száma X (az 1-es számmal kódoltak).
A sikeresség valószínűsége p-vel jelölhető. Az előzőek így a következőképpen is
leírhatók:
X ~ Binominális(N, p)

Ahol a „~” jel „eloszlású”-ként olvasható, azaz a teljes kifejezés azt jelenti, hogy az
X egy (N, p) paraméterű binomiális eloszlás. A binomiális kísérletek esetében fontos
feltételezés, hogy az N előre rögzített, a p minden próbálkozás esetén ugyanaz, és
26
bármely próba kimenete nem befolyásolja a többi próbák kimeneteit. Ha N = 1,
akkor azt mondjuk, hogy az X Bernoulli(p) eloszlást követ, és így írjuk:
X ~ Bernoulli(p)

Az egyedi próbálkozásokat egy binomiális kísérletben Bernoulli-próbálkozásoknak
nevezzük. Amikor binomiális kísérletet hajtunk végre, az X egy 0 és N közötti egész
értéket vesz fel, és tudnunk kell a hozzákapcsolódó valószínűséget, azaz a P[X = k]-t
a k valamennyi 0 és N közötti értékére. Ez a valószínűség a következő egyenlőséggel
adható meg:
k N k
p p
k N k
N
k X P



= = ) 1 ( * *
)! ( !
!
] [


vagy egyszerűen


ahol
N - a minta mérete (próbálkozások száma)
k - a megfigyelések száma
p - az 1-gyel kódolt megfigyelések arány

Az eloszlás általános statisztikai jellemző
Átlag Terjedelem Szórás Relatív szórás
N * p 0 .. N
p) (1 *p* N −
p * N
p (1 ) −



5. feladat
Mekkora valószínűséggel találunk egy 5 %-os selejtaránnyal jellemezhető
tömeggyártásból kivett 20 elemű véletlen mintában 1 db selejtes terméket?
p = 0,05 k = 1 N = 20
k N k
p
k
N
k X P


|
|
¹
|

\
|
= = ) 1 ( * * ] [
27
Excel megoldás:

Az „Eloszlásfv” attribútum a függvény fajtáját megadó logikai érték: ha IGAZ, a
BINOM.ELOSZLÁS az eloszlásfüggvény értékét számítja ki (amely annak a
valószínűsége, hogy csak a sikeresek sikeresek), egyébként a sűrűségfüggvényét
(amely a sikeresek valószínűsége).

A megoldás a függvényvarázslóban található és értéke: 0,377353603

Megoldás az R rendszerben:
> dbinom(1, 20, 0.05)
[1] 0.3773536


6. feladat
Tételezzük fel, hogy a gyógykezelés 75 %-ban eredményes. A kezelést 4 páciens
esetében alkalmazzák. Átlagosan 4 páciensből 3 reagál a kezelésre, de ostoba dolog
lenne azt gondolni, hogy minden 4 páciensből 3 mindig reagál a kezelésre. A reagáló
28
páciensek száma próbálkozásról próbálkozásra változni fog, mégpedig binomiális
eloszlásnak megfelelően.

> sikeresség = c(0, 1, 2, 3, 4)
> valószínűség = dbinom(sikeresség, 4, 0.75)
> data.frame(sikeresség, valószínűség, row.names="sikeresség")

Eredmény a különböző sikerességi értékek esetén, amelyek az első oszlopban
találhatók:




2.3. Poisson-eloszlás

A diszkrét eloszlások közül legfontosabb a Poisson-eloszlás - amely a binomiális
eloszlás határesetként (bizonyos feltételek mellett) valósulhat meg. Az ad neki
ekkora jelentőséget, hogy igen gyakran lép fel a természetben és jó közelítését adja a
gyakorlatban előforduló véletlen változónak.

A Poisson-eloszlás a diszkrét binomiális eseményekhez kapcsolódó eseményeket írja
le, amely megfigyelési típusok a következő helyzetekben fordulnak elő:
• egy vizsgálat tárgyköre, rendszerint egy terület vagy egy időblokk,
• események, amelyek látszólag véletlenszerűen keletkeznek az adott
tartományban,
• létezik egy alaparány, amelyen az események előfordulnak.

Ilyenek esetek fordulhatnak elő például ökológiai vizsgálatoknál, számítógép
programozásnál, minőség ellenőrzések esetében, genetikai kutatásokban, közlekedési
29
vizsgálatokban és a vevők kiszolgálásánál (pl.: üzletben, bankban, okmányirodában,
stb.).

Például, az iskolában a tanulók vagy jelen vannak vagy nincsenek. Annak az esélye,
hogy az összes tanuló hiányzik elég kicsi. Annak a valószínűsége, hogy X számú
gyerek hiányzik az iskolából az iskola méretével (n) növekszik. Egy másik példa
lehet a hallgatók lemorzsolódása (kimaradása). Minden egyes hallgató lehet
kimaradó vagy nem kimaradó „állapotban”. A hallgató kimaradásának a
valószínűsége rendszerint elég kicsi. Annak a valószínűsége, hogy X hallgató fog
kimaradni egy megadott időszakban Poisson-eloszlással írható le.

A Poisson-eloszlást szokták a kis számok „törvényének” is nevezni, mert az, a ritkán,
de nagyon nagy valószínűséggel, bekövetkező események előfordulási számának a
valószínűségi eloszlása.

Azt az arányt, amelyen az események előfordulnak rendszerint λ-val jelölik, a
vizsgálati területen előforduló események számát pedig X-szel, és a jelenség a
következőképpen is leírható:
X ~Poisson(λ)

Fontos követelmény a Poisson-típusú vizsgálatokkal, hogy a két esemény nem
fordulhat elő egyszerre pontosan ugyanazon a helyen és időben, hogy az l ll l
1
helyen
előforduló esemény nincsen hatással bármely más l ll l
2
helyen előforduló eseményre,
valamint az események felmerülésének aránya a vizsgálati területen nem változik.
Amikor egy Poisson-kísérlet kerül megfigyelésre, az X egy nem-negatív egész
számmá változik, és a hozzákapcsolódó valószínűség a következő egyenlettel adható
meg:
[ ]
!
*
k
e
k X P
k λ
λ

= =


A statisztika egyik alapvető témája az a mennyiségi (kvantitatív) vizsgálati mód,
amely lehetőséget biztosít számunkra, hogy a tanulmányozott jelenségről ismereteket
szerezzünk (pl.: egy Poisson-eloszlás λ arányáról).
30
Az eloszlás általános statisztikai jellemző
Átlag Terjedelem Szórás Relatív szórás
Λ 0 .. +∞
λ
λ
1



7. feladat
Egy készülék meghibásodásainak átlagos száma 10000 működési óra alatt 10.
Határozzuk meg annak a valószínűségét, hogy a készülék 200 működési óra alatt
nem romlik el!

Excel:
=POISSON(0;200*10/10000;HAMIS)
0,818730753

R rendszer:
> dpois(0, 200 * 10 / 10000)
[1] 0.8187308


2.4. Exponenciális eloszlás

Az exponenciális eloszlást olyan Poisson-folyamatok modellezésére használhatjuk,
amelyeknél egy kezdetben az A állapotban lévő objektum, λ időegységenként
konstans valószínűséggel, a B állapotba tud elmozdulni. Az időegység, amely alatt az
állapot aktuálisan megváltozik, egy λ paraméterű exponenciális véletlen változóval
írható le. Tehát az exponenciális eloszlás egy folyamatosan zajló folyamat
állapotváltozási idejét írja le. Az exponenciális eloszlás függvénnyel az események
között eltelt idő modellezhető (például, egy bankjegykiadó automata a kéréstől
számítva mennyi idő múlva adja ki a pénzt).

31
A valós világban a konstans arányú (vagy egység időnkénti valószínűség)
megközelítés ritkán kielégítő. Például, a bejövő telefonhívások napszakonkénti
aránya különbözik, de ha kijelölünk egy időintervallumot, akkor már egy nagyjából
konstans arányt találhatunk, és az exponenciális eloszlás az idő jó becslő
modelljeként használható a következő telefonhívások beérkezéséhez. Az
exponenciális eloszlás használható a következő esetekben is: az idő, amíg a
következő autóbaleset bekövetkezik; az idő, amíg a radioaktív részecske lebomlik; a
kockadobások száma, ami ahhoz szükséges, hogy tizenegyszer dobjunk 6-ost egymás
után; az idő, amíg egy nagy meteor becsapódás tömegpusztító eseményt okoz; a
távolság egy DNA szálon bekövetkezett mutációk között; az időtáv az utcai
gyilkosságok között egy adott utcán; stb.

Ezekben a példákban az várható, hogy a hívások, az idő és a távolság többnyire rövid
lesz és csak kevés esetben hosszú. Így a sűrűség X = 0 közelében lesz nagy és
csökken, amint az X növekszik. Ezekben az esetekben lehet hasznos az exponenciális
sűrűség
0 *
1
) ( > =

x e x p
x
λ
λ


Az X egy paraméterű exponenciális eloszlást követ, azaz
X ~Exponenciális(λ)

Az eloszlás általános statisztikai jellemző
Átlag Terjedelem Szórás Relatív szórás
Λ 0 .. +∞ λ 1


8. feladat
Egy villanyégő átlagos élettartama 2500 óra, az exponenciális eloszlás szerint
alakuló élettartam átlaga 2500. Az eloszlás paramétere 1/átlag. Az előző értékek
32
figyelembe vételével készítsünk egy hisztogramot 100 véletlen szám generálásával
(9. ábra).

> x = rexp(100, 1/2500)
> hist(x, probability=TRUE, col=gray(0.9),
+ main=”Exponenciális eloszlás”, ylab=”sűrűség”)
> curve(dexp(x, 1/2500), add=T)


9. ábra
Véletlenszerű exponenciális adatok





33
2.5.Normális eloszlás

Mind elméleti mind gyakorlati szempontból valószínűleg a normális eloszlás a
legfontosabb eloszlás típus a statisztikában, mert
• több hagyományos statisztikai teszt azon a feltételezésen alapszik, hogy az
adatok normális eloszlást követnek,
• a statisztikai modellekben, mint például a lineáris és a nem-lineáris regresszió
esetében, azt feltételezzük, hogy a hiba normális eloszlást követ,
• a normális eloszlást használjuk több hipotézis teszt és a konfidencia
intervallum meghatározása esetében a szignifikancia szint megkereséséhez.

A normális eloszlás folytonos, szimmetrikus eloszlástípus. A grafikon, a függvény
görbéje haranghoz hasonlít, a csúcsa lekerekített - sem lapos, sem hegyes nem lehet.
Mindezek miatt "harang-görbének", vagy Gauss-görbének is szokták nevezni (10.
ábra). Kétoldalt messze (elvileg végtelen messze) elnyúlik, de a maximumához
viszonylag közel már annyira megközelíti az x tengelyt, hogy sem rajzolni nem lehet,
sem számításba venni nem kell. Jellegén belül formája nagyon változatos lehet:
kiemelkedőbb, vagy lapultabb; a függőleges y tengelyt is metszheti.



10. ábra
A normális eloszlás sűrűségfüggvénye és a paraméterek jelentése

Azt is szokták mondani, hogy a normál eloszlás a klasszikus statisztikai elmélet
gerince, a központi határeloszlás tétele következtében. A normál eloszlás, mint a
kvantitatív jelenségek modellezési módszere alapvető fontossággal bír a természet-
34
és a magatartástudományokban, a központi határeloszlás tételének következtében. A
természettudományokban a jelenségek többsége jól közelíthető a normál eloszlással.
A normál eloszlásnak nagy a jelentősége a statisztika több területén is, mint például a
mintavételi eljárások.

Gyakran van szükség az Y folytonos véletlen változó modellezésére, amelynek a
sűrűsége harang alakot követ. Minden ilyen esetben a véletlen változó várhatóan
rendelkezik egy központi értékkel, amely körül a megfigyelések többsége
csoportosul, és ahogy távolodunk a központi értéktől, egyre kevesebb és kevesebb
megfigyelést találhatunk. Ez azt jelenti, hogy a valószínűségi sűrűségfüggvény a
legnagyobb értékkel a centrumban rendelkezik, amely a centrumtól mindkét irányba
távolodva csökken. A normális eloszlás függvény
2
σ
µ Y
*
2
1
e *
σ * π * 2
1
P(Y)
|
¹
|

\
| −

=


A normális eloszlás speciális esete a standard normális eloszlás, amikor a µ = 0 és a
σ = 1. Ebben az esetben az eloszlásfüggvény
2
Y
e *
π * 2
1
P(Y)
2

=


Ha az X valószínűségi változó N(µ, σ) normális eloszlású, akkor a


változó N(0,1) standard normális eloszlású. Ezért, ha az x
1
, x
2
, …, x
n
minta egy N(µ,
σ) eloszlású populációból származik, akkor a minta z étékei, azaz a standardizált
mintaelemek, standard normális eloszlásúak lesznek.

Az Y µ átlagú és σ szórású normál eloszlást követ, azaz
X ~Normál(µ, σ)

σ
µ −
=
X
z
35
Az eloszlás általános statisztikai jellemző
Átlag Terjedelem Szórás Relatív szórás
Μ -∞ .. +∞ σ
µ
σ



9. feladat
Egy laboratóriumban a kísérleti patkányok testsúlyait normális eloszlásúnak találták
µ =14 átlaggal és σ =2 szórással. Egy ilyen populációban mi annak a valószínűsége,
hogy a patkányok testsúlya 10 és 15 közé esik?

Excel:


A valószínűségi értéket a ”C6 – C5” művelet elvégzése után kapjuk. (Az Excel egyik
hátránya, hogy a táblázatból első rátekintésre nem látszik, hogyan számoltunk, csak
ha a megfelelő cellá(k)ra lépünk és megnézzük az abban szereplő képletet.)




36
R rendszer:
> (pnorm(15, 14, 2) - pnorm(10, 14, 2)) * 100
[1] 66.87123

Tehát várhatóan a populáció 66.87 %-ának a testsúlya fog 10 és 15 közé esni.


10. feladat
A vámpír denevérek tépőfogainak a hossza normális eloszlást követ µ = 28 mm
átlaggal és σ = 4 mm szórással. Azoknak az állatoknak a harapása halálos, akiknek a
tépőfogmérete a populáció felső 5 %-ába esik. Számítsuk ki, hogy ez hány mm-es
fogméretet jelent.

Excel:


A megoldás előállítása a táblázatból nem látszik pontosan. A megoldás előállításához
fel kell használni az ”Eszközök” menüpontban lévő ”Célértékkeresés” almenüt,
amelynek segítségével meghatározzuk a standard normális eloszlás értékét, és annak
felhasználásával a táblázat C5 cellájában látható képlet segítségével meghatározzuk
azt az értéket, amely már a megadott intervallumba esik.

R rendszer:

> qnorm(0.05, 28, 4, lower.tail = FALSE)
[1] 34.57941

37
Az R rendszerben a feladat megoldása egyszerűbb, mert egyetlen függvénnyel
eljuthatunk az eredményhez. (Az R általában sokkal szélesebb számítási
lehetőségeket biztosít, mint az Excel.
17
)


2.6. Ábrázolási lehetőségek

A régi kínai mondás szerint: egy kép tízezer szónál többet ér. Bár ez nem mindig
igaz, kétségtelen, hogy egy jó ábra sok szöveget pótol. A mérnöki, hivatalos és
tudományos közlésben az ábrák legfontosabb célja a mondanivaló szemléletessé
tétele.

A diagramok (vagy más néven grafikonok) segítségével az adataink könnyen
szemléletessé, jól áttekinthetővé tehetők, így azok értelmezése egyszerűbbé válik.
Szinte minden táblázatkezelő lehetővé teszi, hogy adatainkat diagram formájában is
megjeleníthessük. Sok program esetében - ilyen az Excel és az R is - a táblázat adatai
és a diagramok szerves egységet képeznek, ami többek között azt jelenti, hogy a
táblázat adatainak megváltoztatásakor a diagram automatikusan módosul.

Az ábrák készítésének vannak olyan alapelvei, amelyek általánosan érvényesek
minden típusra, mint például
• szükségesség
Csak akkor alkalmazzunk illusztrációt, ha valóban szükséges, ha új
információt ad.
• pontosság
Legyen az ábra összhangban a szöveggel, ugyanaz legyen a mondanivalója.
• szerkesztés
A jó ábra tetszetős, nem túlzsúfolt, mégsem semmitmondó. A szerkesztés
igazodjon a tartalomhoz, és esztétikailag is pozitív benyomást keltsen az
olvasóban.


17
A szélesebb körű számítási lehetőséget az is biztosítja, hogy sok helyen fejlesztettek/fejlesztenek ki
speciális alkalmazásokat, amiket később szabadon hozzáférhetővé tesznek. Még nagyobb lenne a
jelentősége az R rendszernek, ha magas szintű grafikus felület is támogatná.
38
• láthatóság
Minden kép, ábra és táblázat megfelelő méretű, kontrasztos, jól olvasható
legyen. Az ábra segítségével felkelthetjük a figyelmét, arra késztetve, hogy
utánanézzen a pontos értékeknek a táblázatban.
• érthetőség
Illusztrációink a szöveg gondos tanulmányozása nélkül is érthetőek legyenek,
ne kívánjanak az olvasótól nagy erőfeszítést.

A következőkben tárgyalt ábrázolási lehetőségek – kisebb-nagyobb eltérésekkel -
többnyire megtalálhatók mind az Excelben és mind az R statisztikai rendszerben.
Ugyanakkor az R rendszer sokkal többféle ábrázolási lehetőséget biztosít, mint az
Excel táblázatkezelő és az R-ben könnyen létre tudunk hozni összetett ábrákat is (11.
ábra).



11. ábra
Összetett ábrázolás az R rendszerben

39
A R rendszer nem csak az ábrák típusában biztosít többféleséget, hanem azok
kivitelezésében, és milyenségében. (12. ábra



12. ábra
Az R rendszer grafikus lehetőségei


2.6.1. Hisztogramok

A hisztogramok nagyon hasznos grafikus lehetőségek egy változó adatainak
megjelenítésére, és fontos eszközei lehetnek a kutató- és elemző munkának,
amelyeket általában gyakorisági sorokból készítenek. A hisztogram egy rendezett
minta előre kitűzött változó-tartományaiba eső elemek számát vagy gyakoriságát
ábrázolja. A hisztogram részekre bontja a sokaságot (osztályokat képez) és megadja
az egyes részsokaságokhoz tartozó megfigyelésszámot. Az egyes részsokaságok
egyedszámát általában oszlopok formájában jeleníti meg, és az oszlopok nagysága az
egyedek részsokaságonkénti arányát mutatja.

Azt is mondhatjuk, hogy a hisztogram egy olyan táblázat grafikus verziója, amely azt
mutatja meg, hogy a megfigyelések milyen aránya esik a megadott kategóriákba, és
40
ahol a kategóriák (oszlopok) rendszerint egymást nem átfedő, de egymás mellett lévő
intervallumok.

A hisztogramoknak több fajtája is lehetséges. Ebben a részben csak a két alapformát
mutatjuk be:
• Az első forma az intervallumonkénti elemszámot mutatja be, ahol az
oszlopok magassága egyenlő a rész sokaság arányával az összsokaságon
belül, és az oszlopok abszolút számokat mutatnak.
• A második forma a vertikális skálát tekintve különbözik az első formától,
mert az oszlopok magassága az összsokaságon belüli százalékos arányt
képviseli és az oszlopértékek összege 100 %. Ezt a formát akkor célszerű
használni, ha az arányokat akarjuk összehasonlítani.

A hisztogram a következőket mutatja meg grafikusan:
• az adathalmaz közzépontja,
• az adathalmaz terjedelme,
• az adathalmaz ferdesége,
• kiugró adatok jelenléte,
• többszörös módusz jelenléte az adathalmazban.

Az előzőek alapján, összefoglalva azt is mondhatjuk, hogy a hisztogramok
megmutatják az adathalmaz eloszlásának alakját. Vigyáznunk kell azonban az
intervallumok számának a megválasztásánál, mert túl kevés intervallum kitűzésekor
az információ szegényes lesz, túl sok esetén pedig a kapott ábra lesz áttekinthetetlen.

11. feladat
30 db AA típusú elemet teszteltek az élettartamuk megállapítása érdekében, és a
következő adatokat kapták (perc):

R rendszerben (13. ábra):
> élettartam = c(423, 369, 387, 411, 393, 394, 371, 377, 389, 409, 392, 408,
+ 431, 401, 363, 391, 405, 382, 400, 381, 399, 415, 428, 422, 396, 372, 410,
+ 419, 386, 390)
41
> hist(élettartam, main="Élettartam teszt eredménye",
+ xlab="élettartam (perc)",ylab="gyakoriság")
18




13. ábra
Az R rendszerben készített hisztogram

Lehetőség van a hisztogram jellemzőinek a kiíratására és feldolgozására is (14. ábra),
ha az eredményt egy változóban eltároljuk (pl.: élettartam.hisztogram.jellemzők
19
)

> hist(élettartam, plot = F
20
)



18
A hist függvénynek további paraméterei is vannak, amelyekkel a hisztogram tovább fínomítható. A
további parancsok a Help (?) utasítással megnézhetők.
19
Az R rendszerben, ha egy név több részből áll, akkor a részeket ponttal lehet összekapcsolni.
20
Az egyes elnevezések jelentései:
breaks – intervallum határok
counts – intervallumok egyedszámai
intensities (densities) – a relatív gyakoriságok
mids – intervallum közepek
equidist – egyenlő intervallum méret vagy nem
42


14. ábra
A 13. ábrán látható hisztogram jellemzői

Excel:
Az Excelben az Eszközök menü Adatelemzés almenüjéből érhető el a hisztogram
készítés. Az eljárás segítségével egy cellatartomány adatai és az adatkategóriák
alapján egyenkénti és halmozott gyakoriságok számíthatók ki. A hisztogram
eljárással az adathalmazban egy megadott érték előfordulásainak számát is ki lehet
számítani (15. ábra).

Az Excelben egyszerű a hisztogram létrehozása, de csak egyszerűbb hisztogramok
hozhatók létre. Jelen feladatban ugyan az látszik, hogy az Excel hisztogramja szebb
kivitelezésű, de ha megnézzük az R alábbi hisztogram-függvény paraméterezési
lehetőségeit, akkor azt látjuk, hogy még sok lehetőséget lehetne használni:

hist(x, breaks = "Sturges", freq = NULL, probability = !freq,
include.lowest = TRUE, right = TRUE, density = NULL, angle = 45,
col = NULL, border = NULL, main = paste("Histogram of" , xname),
43
xlim = range(breaks), ylim = NULL, xlab = xname, ylab, axes = TRUE,
plot = TRUE, labels = FALSE, nclass = NULL, ...)
21




15. ábra
Az Excelben előállított hisztogram

Az R esetében az alap lehetőség mindig egy nagyon egyszerű ábra létrehozása vagy
számítás elvégzése, ami paraméterezéssel tovább finomítható és nagyon elegánsan
kivitelezett ábrák is létrehozhatók. Mivel a paraméterek többségének kezdő értéke is,
amint az a hist függvényből is látható, ezeket nem szükséges megadni, és akkor a
program a kezdő értékkel számol, de ha akarjuk, ezeket meg tudjuk változtatni.


2.6.2. Pont-, vonal-, oszlop- és kördiagramok

A pontdiagramokat általában két változó közötti lehetséges kapcsolat vizsgálatára,
megjelenítésére alkalmazzák. Ezek a diagramok általában nem mutatják meg a két

21
A függvény paramétereinek pontos jelentése az R rendszer help utasításának segítségével
megnézhető (?hist vagy help(hist)). A help minden R függvény esetében jól használható és
megfelelő információt ad a függvény használatáról. A helpben találhatók példák is a függvény
használatához és néhány függvény esetében adatfile-okat is mellékelnek, amelyek segítségével a
függvények kipróbálhatók.
44
változó közötti oksági kapcsolatot, de jelezhetik a kapcsolat fennállását (regresszió)
és a kapcsolat erősségét (korreláció) is. A két változó értékei az X és az Y tengelyen
jelennek meg, ahol általában az X tengely tartalmazza a mért értéket, és az Y tengely
pedig a másik változónak ahhoz kapcsolódó mértékét jeleníti meg. A pontdiagram
használatának általában az a célja, hogy azt vizsgáljuk meg, milyen kapcsolat lehet
két változó között, és a kapcsolatot a pontok tendenciájának a meredeksége jelzi. A
kapcsolat alapvetően háromféle lehet: pozitív (emelkedő), negatív (csökkenő) vagy
nincsen kapcsolat.

A vonaldiagram numerikus mennyiség(ek) folytonos skála feletti változását
szemléltető grafikon. Matematikailag függvényábrázolás adott pontokban ismert
értékek alapján. Interpolációra (köztes értékek becslésére) és extrapolációra alkalmas
(szélső értékek becslésére, előrejelzésre). A vonaldiagram egy lehetőség annak
összefoglalására, hogy az információ két ”darabja” hogyan viszonyul egymáshoz és
hogyan változnak egymás függvényében. A vonaldiagram lehet olyan grafikontípus
is, amely egyenlő közönként elhelyezkedő adatok változását vagy trendjét mutatja.
Az adatok adatpontok egy sorozatát összekötő vonalként jelennek meg. A
vonaldiagram hasonlít a területdiagramra, de a vonaldiagram inkább a trendeket
emeli ki. Nem szabad vonaldiagramot alkalmazni olyan adatsor esetén, amelyben az
adatok között nincs (pl. mért értéken alapuló) átmenet. Ez ugyanis azt sugallja, hogy
két szomszédos érték közötti részre vonatkozóan is rendelkezünk információval,
pedig ez nem igaz.

Pont- és vonaldiagramot mindkét programban egyszerűen lehet létrehozni. Az
Excelben a grafikonvarázslóval tudunk létrehozni ilyen típusú grafikonokat a Pont
vagy a Grafikon parancsok segítségével (16. ábra).

Az R rendszerben a ”plot” függvénnyel tudunk pont- vagy vonaldiagramokat
létrehozni.





45


16. ábra
A grafikonvarázsló az Excelben.


12. példa
Generáljunk 100 db Poisson-eloszlású, λ = 5 paraméterű véletlen számot, és
ábrázoljuk az egyes számokhoz tartozó gyakoriságokat egy pontdiagramban (17.
ábra).

> plot(table(rpois(100,5)), type = "p", col = "red", lwd=10,
+ main="Poisson véletlen számok(lambda=5)",
+ ylab="gyakoriság",xlab="véletlenszámok")


Az oszlopdiagram a diszkrét – vagyis elkülönült elemekből álló, nem folytonos –
kategóriákhoz tartozó számadatok szemléletes összevetésére szolgáló ábrázolási
módszer. A számadatokat az oszlopok magassága jelzi. Az oszlopdiagram az értékek
46
időbeni változását mutatja be, vagy különböző tételeket hasonlít össze. A kategóriák
horizontálisan (vízszintesen), az értékek vertikálisan (függőlegesen) helyezkednek el,
ezzel kiemelve az időbeli változást. A halmozott oszlopdiagramok az egyedinek az
egészhez való viszonyát tükrözik. Az oszlopdiagrammal gyakorlatilag megegyezik a
sávdiagram, ahol az egyes oszlopok vízszintesen helyezkednek el.



17. ábra
Pontdiagram az R rendszerben


13. feladat
Egy felmérés során 25 főt kérdeztek meg a sörivási szokásaikról, hogy melyik típust
szeretik: belföldi doboz (1), belföldi üveg (2), csapolt (3) és import (4). A válaszok:
3 4 1 1 3 4 3 3 1 3 2 1 2 1 2 3 2 3 1 1 1 1 4 3 1

Készítsünk oszlopdiagramot a gyakoriságok és az arányok ábrázolásásra.
47
Az Excelben a normál oszlopdiagram előállítása viszonylag egyszerű (18. ábra), de
ha gyakorisági sorként vagy arányként szeretnénk ábrázolni, akkor el kell végezni
bizonyos csoportosításokat, számításokat.

Excel:


18. ábra
Sörivási szokások felmérésének ábrázolása

R rendszer
Az R rendszer beépített utasításainak köszönhetően a probléma viszonylag
egyszerűen megoldható. A megoldást három oszlopdiagramban mutatjuk be,
mégpedig úgy, hogy az oszlopdiagramokat egy keretben helyezzük el (19. ábra).

> sörivás = c(3, 4, 1, 1, 3, 4, 3, 3, 1, 3, 2, 1, 2, 1, 2, 3, 2, 3, 1, 1, 1, 1, 4, 3, 1)
> par(mfcol=c(1,3))
22

> cl =colors()
23


22
Ezzel az utasítással lehet mátrix elrendezésű grafikon sorozatot létrehozni. Az első érték az
oszlopok számát, a második érték a sorok számát jelenti. Jelen esetben 1 sort és 3 oszlopot hozunk
létre.
23
Beolvassuk az összes lehetséges színt, ami 658 darab.
48
> barplot(sörivás, col=cl[1:25], main=”Sörivás teszt”, sub=”alap”)
> barplot(table(sörivás), col=cl[1:25], main=”Sörivás teszt”,
+ sub=„gyakoriság”)
> barplot(table(sörivás)/length(sörivás), col=cl[1:25],
+ main=”Sörivás teszt”, sub=”arány”)



19. ábra
Oszlop diagram az R rendszerben

A halmozott oszlopdiagramban (osztott oszlopdiagram) az egyes adatsorokat
szimbolizáló oszlopok egymás tetejére kerülnek, így nemcsak az egyes oszlopok
nagysága, hanem azok együttes értéke is leolvasható. Ezt a diagramtípust
használhatjuk pl. az egyes havi gáz-, villany- és telefonszámlánk ábrázolására. Így
leolvasható az egyes számlák, valamint a teljes havi rezsi nagysága is.

A kördiagram viszonylag kisszámú érték és csak egyetlen adatsor megjelenítésére
alkalmas, ahol az egyes körcikkek aránya fejezi ki a részadatok nagyságát, a tételeket
49
az egészhez viszonyított arányát mutatja be. A kördiagram csak egy adatsorozatot
jelenít meg, ezért egy fontos jellemző kiemelésére a leghasznosabb. Mivel a részek
az egészhez való arányviszonyának bemutatására szolgál, ezért csak akkor
alkalmazható, ha ismerjük az alaphalmazra vonatkozó adatokat.

Az Excelben a Grafikonvarázslót tudjuk használni kördiagramok ábrázolására, míg
az R-ben a ”pie” függvényt.


2.6.3. Boxplot ábrázolás

A boxplot-ok (vagy „szakállas ábrák”) egyfajta összefoglaló statisztikát (medián,
felső és alsó kvartilis, maximum és minimum érték) készítenek egydimenziós
adatokról és ezt az összefoglaló statisztikát speciális formában (2. ábra) megjelenítik
A 20. ábra alapján a boxplot a következőképpen interpretálható:
• a ’doboz’ az adatok középső 50 %-át tartalmazza, a ’doboz’ felső sarka az
adatok 75 %-át (harmadik kvartilis), míg az alsó sarka a 25 %-át (első
kvartilis) jelzi, amit interkvartilis távolságnak (IQR) neveznek;
• a ’dobozban’ található vonal a mediánt jelzi;
• ha a ’dobozban’ található medián-vonal nem egyenlő távolságra van az alsó
vagy a felső saroktól, akkor az adatok asszimetrikusak (ferdeség);
• a ’dobozból’ kiinduló vertikális vonalak végei a maximális és a minimális
értéket jelzik, kivéve azt az esetet, amikor az adatok kívül esnek az
interkvartilis távolság másfélszeresén;
• az extrém pontok (apró körökkel, pontokkal jelölve), ha az értékek kívül
esnek az ”1.5 * IQR” távolságon akár az első, akár a harmadik kvartilis
esetében.

A boxplot erősségei:
• grafikusan mutatja be egy változó értékeinek az elhelyezkedését és
terjedelmét,
• jelzéseket ad az adatok szimmetriájáról és ferdeségéről,
50
• más módszerektől eltérően megmutatja, hogy az adathalmaznak vannak-e
extrém pontjai,
• jó és gyors összehasonlítási lehetőséget biztosít különböző adathalmazok
számára.


20. ábra
Általános boxplot ábrázolás


14. feladat
A UsingR csomagban (package) lévő EWR adathalmaz
24
és boxplot ábrázolási mód
felhasználásával ábrázoljuk a taxik beérkezési és kiindulási időpontjait a Newark
repülőtérre az egyes repülőgép társaságok vonatkozásában (1999-2001), egy ábrában
(21. ábra). Az adathalmaz 46 sort és 11 oszlopot tartalmaz, amelyek különböző
hónapokban tartalmazzák a taxik adatait. A repülőgépkódok: AA (American
Airlines), AQ (Aloha Airlines), AS (Alaska Airlines), CO (Continental Airlines), DL
(Delta Airlines), HP (America West Airlines), NW (Northwest Airlines), T TW
(Trans World Airlines), UA (United Airlines), US (US Airways), és WN (Southwest
Airlines).

24
Az EWR adatokat tartalmazó csomag megtalálható az R programrendszer könyvtárában a ”library-
UsingR” alkönyvtárban, ahol megtalálható az adatokat leíró help-file is.

extrém pontok
Q3 + 1.5 * IQR
Q1 Q3
min.
max.
51
> library(UsingR)
25

> data(ewr)
26

> társaságok = names(ewr)
> ewr.aktuális = ewr[,3:10]
27

> boxplot(ewr.aktuális)



21. ábra
Taxi beérkezési és kiindulási idők a Newark Repülőtéren

Majd ábrázoljuk egy ”lapon”, de különálló boxplotokban a különböző
légitársaságokhoz tartozó beérkezési és kiindulási időket. (22. ábra)

> par(mfrow=c(2,4))
> attach(ewr)
> for(i in 3:10) boxplot(ewr[,i] ~ as.factor(inorout), main=társaságok[i])
> detach(ewr)

25
A UsingR csomag betöltése.
26
A csomag több adathalmazt is tartalmaz, az ”ewr” adathalmaz betöltése.
27
A szükséges oszlopok kiválogatása, az 1. oszlop az éveket, a második a hónapokat tartalmazza,
amelyekhez nincsen szükség az ábrázoláshoz.
52


22. ábra
A taxi beérkezési és kiindulási időpontok külön-külön ábrázolása
repülőjáratonként az EWR repülőtéren

A boxplot ábrázolás az Excelben is megvalósítható (23. ábra), csak jóval
bonyolultabban, mint az R rendszerben. Az Excelben történő boxplot ábrázoláshoz
először ki kell számítanunk a jellemző értékeket: alsó kvartilis, minimum, medián,
maximum, felső kvartilis. A kiszámított jellemzőket táblázatba kell foglalni. Az
elkészült táblázatot, a megnevezésekkel együtt ki kell jelölni, majd meg kell hívni a
grafikus varázslót, ahol a grafikon ábratípust választjuk ki. A grafikonkészítés 2.
lépésében Az adatsorok jellemzőnél a Sorokban paramétert jelöljük be, majd a 3.
lépésben megadhatjuk a grafikon megnevezéseit és befejezzük a grafikonkészítést.
Az elkészült grafikon egy vonal- és pontdiagram, amit át kell alakítanunk boxplot
diagrammá. Ennek a menete a következő:
1. Törölnünk kell a vonaldiagramokat, és csak a pontdiagramot tartjuk meg.
Az egér jobb oldali gombjával a grafikon első vonalára kattintunk, és
53
kiválasztjuk Az adatsorok formázása… menüt, majd a Mintázat – Vonal
almenüben bejelöljük a Nincs paramétert. Ezt tesszük az összes vonal
esetében.
2. Újra kiválasztjuk Az adatsorok formázása… menüt, majd a Beállítások
almenüben beállítjuk a Különbségvonalak és a Pozitív/negatív eltérés
paramétereket, valamint a Köz paraméterhez beírunk 150-et (ez állítja be
a box szélességét).



23. ábra
Boxplot ábrázolás az Excelben

Az R rendszer lehetővé teszi hisztogram és boxplot együttes megjelenítését is, a
”simple.hist.and.boxplot” függvény felhasználásával, aminek segítségével a két
grafikon közötti viszonyt is láthatjuk. A két grafikon együttes használata az adatok
jobb értékelhetőségét is biztosítja.




54
15. feladat
A feladatban néhány eloszlástípust (binomiális, Poisson, exponenciális és normális)
mutatunk be a kettős ábrázolással (24. ábra).

> binomiál=rbinom(100, 20, 0.05)
> poiss=rpois(100,5)
> expon=rexp(100)
> normál=rnorm(100,20,5)
> par(mfrow=c(2,2))
> simple.hist.and.boxplot(binomiál, main=”Binomiális-eloszlás”)
> simple.hist.and.boxplot(poiss, main=”Poisson-eloszlás”)
> simple.hist.and.boxplot(expon, main=”Exponenciális-eloszlás”)
> simple.hist.and.boxplot(normál, main=”Normális-eloszlás”)


2.6.4. Páronkénti ábrázolás

A páronkénti ábrázolás egy nagyon jól használható magas szintű ábrázolási funkció
többváltozós összefüggések megjelenítésére és vizsgálatára. Különösen hasznos, ha
az adatainkban lévő tendenciákat szeretnénk megismerni.

Legyen adott egy X
1
, X
2
, …, X
k
változókat tartalmazó ábrázolandó mátrix, amely
változóit egy lapon páronként akarjuk ábrázolni mátrix formában (k oszlop és k sor).
A mátrix i-edik sora és j-edik oszlopa az X
i
és az X
j
változókat mutatja be. Az
előzőekből látható, hogy a páronkénti ábrázolás (pairwise vagy scatter plot)
valójában egy nagyon egyszerű dolog, de a megjelenítésnek sok alternatívája
lehetséges:
• Például az ábrázolási mátrix diagonáljában, egyszerűen egy 45 fokos vonalat
kapunk az X
i
– X
i
változók ábrázolása esetén, de a diagonálist üresen is
hagyhatjuk, vagy beleírhatjuk a változók elnevezéseit is.
• Vagy egy másik probléma, hogy az X
i
– X
j
és az X
j
– X
i
csak a tengelyek
felcserélést jelenti, egyébként megegyeznek. Az utóbbi esetben elhagyhatjuk
a diagonális alatti ábrákat.
55



24. ábra
Eloszlások ábrázolása hisztogrammal és boxplottal

• Gondot okozhat az ábrák nagy száma, mert nehéz lehet a tengelyekre
vonatkozó elnevezések informatív és átlátható megjelenítése. Ez bizonyos
mértékig megoldható, ha az elnevezéseket a két oldal (mind a sorok és mind
az oszlopok esetében) között felváltva használjuk
• A jobb áttekinthetőség érdekében szükséges lehet, hogy az egyes ábrák
között üres helyeket hagyjunk.

A páronkéti ábra mátrix a következő kérdésekre adhat választ:
• Van-e páronkénti kapcsolat a változók között?
• Ha van kapcsolat, akkor milyen a kapcsolat természete?
56
• Vannak-e kiugró (extrém) adatok?
• Van-e klaszterképzési (csoportba rendezési) lehetőség az adatokban?


16. feladat
Napjaink egyik sokat tárgyalt kérdése a melegházhatás, amelynek befolyásolója a
CO
2
emisszió. Az emissions adathalmaz különböző európai országok és az USA
1999-es adatait tartalmazza az összes GDP, az egy főre jutó GDP és a CO
2
emisszió
vonatkozásában. Az R rendszerben pairs függvénnyel elő tudunk állítani egy
szórásdiagramot valamennyi párt figyelembe véve (25. ábra). A pairs függvénynek
sok paramétere van az ábra alakítására.

> library(UsingR)
> data(emissions)
> pairs(emissions, labels=c("GDP", "GDP/fő", "CO2"),
+ main="Szórásdiagram")


2.6.5. Egyéb ábrázolási technikák

Az R rendszerben szinte mindenfajta ábra előállítható, a grafikus lehetőségek nagyon
fontos és különösen sokoldalú komponensét képezik a programnak. A beépített
grafikus függvényeknek nagy számával tudunk dolgozni, de magunk is hozhatunk
létre új ábra típusokat. A grafikus lehetőségeket használhatjuk interaktív módban,
ahol az alap ábra újabb attribútumok hozzáadásával vagy a már megadottak
megváltoztatásával lépésenként továbbfejleszthető, valamint batch üzemmódban is.
A terjedelmi korlátok miatt valamennyi lehetőséget bemutatni nem lehet, de a
rendszerhez kapcsolódó szakkönyvekből könnyen meg lehet ismerkedni valamennyi
lehetőséggel. Az R rendszer csomagjai között sok speciális ábrázolási technikát
megvalósító csomaggal is találkozhatunk (http://cran.r-project.org/src/contrib/
PACKAGES.html).


57


25. ábra
A pairs függvény felhasználása páronkénti szórásdiagram előállítására

A speciális ábrázolási lehetőségek közül a hegedű (violin) ábrát mutatjuk be, ami a
boxplot és a sűrűségdiagram lényegének a kombinációja. Tulajdonképpen az egy
boxplot elkészítésével indul, és azután a boxplot mindkét oldalához hozzáadódik egy
sűrűség diagram, amely az átláthatóság érdekében tükörképpel van megadva. A
hegedű ábra létrehozásához egy a rendszerhez tartozó adathalmazt használunk fel, az
InsectSprays-t. A jobb megértés érdekében egymás mellett megadjuk a boxplot, a
violinplot és a sűrűségdiagram formát is. (26. ábra)

> library(UsingR)
> data(InsectSprays)
> par(mfrow=c(1,3))
> boxplot(count ~ spray, data=InsectSprays, col="lightgray")
> simple.violinplot(count ~ spray, data=InsectSprays, col="lightgray")
> simple.densityplot(count ~ spray, data=InsectSprays)
58


26. ábra
A violindiagram ábrázolása a boxplot és a sűrűségdiagram társaságában

Az ábrázolási lehetőségek közül végezetül egy bonyolultabb formát is bemutatunk,
mégpedig egy 3 dimenziós ábrát, amely egy kétváltozós normális eloszlás
sűrűségfüggvényét ábrázolja és felírjuk rá a képletet és a kezdőértékeket is (27.
ábra). Az ábra létrehozása több lépésben oldható meg, és minimális programozási
ismereteket is igényel.


17. feladat
Hozzuk létre a kétváltozós normális eloszlás 3 dimenziós ábráját úgy, hogy az ábrára
rákerüljön az eloszlás függvény is. (A feladat megoldása kicsit bonyolult, de szép
ábrát kapunk.) A kétváltozós normális eloszlás sűrűségfüggvénye



A feladat megoldása:
( )
( )
( ) ( )
¦
)
¦
`
¹
¦
¹
¦
´
¦


+
− −





=
22
2
2 2
22
2 2
11
1 1
11
2
1 1
2
2
12 11
* * * 2 *
1 * 2
1
exp *
1 * * * * 2
1
) (
σ
µ
σ
µ
σ
µ
ρ
σ
µ
ρ
ρ σ σ π
x x x x
x f
59
1. a függvény létrehozása az R-ben
> f = function(x1, x2)
+ {
+ term1 = 1 / (2 * pi * sqrt(s11 * s22 *(1 - rho^2)))
+ term2 = -1 / (2 *(1 - rho^2))
+ term3 = (x1 - mu1)^2 / s11
+ term4 = (x2 - mu2)^2 / s22
+ term5 = -2 * rho * ((x1 - mu1) * (x2 - mu2)) / (sqrt(s11) * sqrt(s22))
+ term1 * exp(term2 * (term3 + term4 - term5))
+ }
2. kezdőértékek megadása
> mu1 = 0 # expected value of x1
> mu2 = 0 # expected value of x2
> s11 = 10 # variance of x1
> s12 = 15 # covariance of x1 and x2
> s22 = 10 # variance of x2
> rho = 0.5 # correlation coefficient of x1 and x2
> x1 = seq(-10, 10, length=41) # generating the vector series x1
> x2 = x1 # copying x1 to x2
3. A kétváltozós normális eloszlás sűrűségfüggvényének kiszámítása
> z = outer(x1, x2, f)
28

4. A sűrűségfüggvény képletének az összeállítása a TEX szövegszerkesztőnek
megfelelő utasításkészlet segítségével:
> p.s = expression(italic(f)~(bold(x)) ==
+ frac(1,2~pi~sqrt( sigma[11]~sigma[22]~(1-rho^2)))~phantom(0)^
+ bold(.)~exp~bgroup("{", list(-frac(1,2(1-rho^2)), bgroup("[",
+ frac((x[1]~-~mu[1])^2, sigma[11])~-~2~rho~frac(x[1]~-~mu[1],
+ sqrt(sigma[11]))~ frac(x[2]~-~mu[2],sqrt(sigma[22]))~+~
+ frac((x[2]~-~mu[2])^2, sigma[22]),"]")),"}"))
5. A függvény megrajzolása és a képlet kiírása
> persp(x1, x2, z, main = "Kétváltozós normális eloszlás", sub = p.s,

28
A megadott vektorok felhasználásával, előállítja a 3. paraméterként megadott függvény értékeit, és
elhelyezi a z-ben.
60
+ col = "lightgreen", theta = 30, phi = 20, r = 50, d = 0.1, expand = 0.5,
+ ltheta = 90, lphi = 180, shade = .75, ticktype = "detailed", nticks = 5)
6. Az alapparaméterek kiírása az ábrára
> mtext(expression(list(mu[1]==0, mu[2]==0, sigma[11]==10,
+ sigma[22]==10, sigma[12]==15, rho==0.5)), side=3)

13
( )
( )
( ) ( )
¦
)
¦
`
¹
¦
¹
¦
´
¦


+
− −





=
22
2
2 2
22
2 2
11
1 1
11
2
1 1
2
2
12 11
* * * 2 *
1 * 2
1
exp *
1 * * * * 2
1
) (
σ
µ
σ
µ
σ
µ
ρ
σ
µ
ρ
ρ σ σ π
x x x x
x f

27. ábra
A kétváltozós normális eloszlás 3 dimenziós ábrázolása




Ellenőrző kérdések:
1. Mi az egyenletes-eloszlás fő jellemzője?
2. Milyen jelenségek vizsgálatában alkalmazzák általában a binomiális-
eloszlást?
3. Melyik eloszlást szokták a „kis számok törvényének” nevezni?
4. Melyek az exponenciális-eloszlás fő jellemzői?
61
5. Miért tartják a normális eloszlást gyakorlati szempontból a
legfontosabb eloszlástípusnak?
6. Mikor nevezünk egy valószínűségi változót standard normális
eloszlásúnak?
7. Melyek az ábrák készítésének alapelvei?
8. Hogyan történik az adatok hisztogrammal való ábrázolása?
9. Mi jellemzi a pont-, a vonal-, az oszlop- és a kördiagramot?
10. Milyen főbb statisztikai jellemzők jelennek meg a boxplot
ábrázolásban?
11. Mi a lényege a páronként ábrázolásnak, és milyen kérdésekre adhat
választ ez az ábrázolási mód?
12. Milyen diagramokat foglal magában a violindiagram?

62
3. Al apstati szti kák

Túlesve a legfontosabb eloszlásokkal kapcsolatos elemi ismereteken, láthatjuk, hogy
a gyakorisági eloszlás, ha jóval kevesebb adat figyelembevételét is követeli meg a
mintánál, meglehetősen nehezen jellemezhető. Jó lenne az adatokat - lehetőleg -
minél tömörebben jellemezni. Egy numerikus adathalmaz alapvető jellemzőiként a
középértéket és a terjedelmet szokták megadni, amelyeket még ki lehet egészíteni
más jellemzőkkel is.


3.1. Helyzeti és számított középértékek

Az egyik leggyakrabban használt statisztikai jellemző a középérték, amely azonos
fajta számszerű adatok tömegének közös jellemzője. Azokat a középértékeket,
amelyeket számítással határozunk meg, számított középértékeknek nevezzük (átlag),
amelyeket pedig az elhelyezkedésük alapján, azokat helyzeti középértékeknek
nevezzük (pl.: medián).

A középértékekkel szemben támaszthatunk bizonyos követelményeket, amelyeknek
a különböző középértékek különböző mértékben tesznek eleget. Ilyen követelmény,
hogy a középérték valóban közepes helyzetet foglaljon el, tehát legyen nála kisebb és
nagyobb érték is, vagyis érvényesüljön, hogy
X
min
< K <X
max


Megkövetelhető az is, hogy a középérték tipikus legyen, azaz olyan érték, amely
közel áll az előforduló értékek zöméhez, amely körül sűrűsödnek az értékek. Nagyon
fontos, hogy a használt középérték egyértelműen legyen definiálva, és könnyen
értelmezhető legyen.

3.1.1. Számtani átlag

A minta középértékének a leírására több lehetőség is van, de közülük a leginkább
elterjedt az átlag használata. A különböző átlagok közül a leggyakrabban használt a
63
számtani átlag, amelynek egyszerű formája a megfigyelési egységekhez tartozó
értékek (X
i
) összegének és a megfigyelési egységek számának (n) a hányadosa, ami a
következő képlettel adható meg:




A fenti képlet alapján úgy is fogalmazhatnánk, hogy a számtani átlag az a szám,
amellyel az egyes megfigyelési értékeket helyettesítve azok összege változatlan
marad.

A számtani átlagot általában akkor használjuk, ha a megfigyelési egységek
összegének tárgyi értelme van. A számtani átlag közel szimmetrikus eloszlások
esetén jó mérőszáma a középértéknek, de félrevezető lehet ferde eloszlások esetében,
mert erősen befolyásolhatják a „végeken” lévő értékek. Normál eloszlás esetén a
számtani átlag a leghatékonyabb, és ebből következően az összes középtendencia
mérőszám közül a legkevésbé kitett a minta ingadozásainak.

Ha az adatainkat valamilyen szempont szerint csoportosítjuk, és gyakorisági sorokat
hozunk létre, akkor a számlálóban szereplő értékösszeget, az egyes csoportokat
jellemző értékek, és a hozzájuk tartozó gyakoriságok (f
i
) szorzatösszegeként állítjuk
elő, a nevezőben szereplő egyedszámot pedig a gyakoriságok összege adja:



=
=
=
k
i
i
k
i
i i
f
X f
X
1
1
*


Ezt az összefüggést súlyozott számtani átlagnak nevezzük. Az összefüggésben a ’k’ a
csoportok számát jelenti.

A kronologikus átlag a számtani átlag speciális formája, amelyet olyan idősorok
esetében használunk, amikor az értékek között nyitó- és záróérték is szerepel. Ilyenek
n
X
X
n
i
i ∑
=
=
1
64
lehetnek például a különböző készlet kimutatások. A kronologikus átlag
kiszámításának képlete:

1
2
1
2
1

+
+
=


=
n
X
X X
X
n
i
i
n


3.1.2. Harmonikus átlag

Harmonikus átlagszámításra általában akkor kerül sor, amikor az átlagolandó értékek
reciprok értékei összegének van tárgyi értelme. Ebből következően, a harmonikus
átlag az a szám, amelyet az egyes átlagolandó értékek helyébe helyettesítve, azok
reciprokainak összege nem változik:


=
=
n
i i
h
X
n
X
1
1


A harmonikus átlag használatára általában a fordított intenzitási viszonyszámokból,
illetve indexekből történő átlagszámítás esetén van szükség. Ebből következően a
harmonikus átlag lényegében nem más, mint a megfigyelési egységek reciprokaiból
számított számtani átlag reciprok értéke.

A számtani átlaghoz hasonlóan lehetőség van a harmonikus átlag súlyozott formában
történő kiszámítására is:



=
=
=
k
i i
i
k
i
i
h
X
f
f
X
1
1
1
*




65
3.1.3. Mértani átlag

Mértani (geometriai) átlagot akkor számolunk, ha az átlagolandó értékek szorzatának
van tárgyi jelentése. Ilyen esettel általában dinamikus viszonyszámokkal történő
számítások során találkozhatunk.

A mértani átlag az a szám, amelyet az átlagolandó értékek helyébe téve azok szorzata
változatlan marad, a számítás képlete:

n
n
i
i g
X X
C
1 =
=
29


A mértani átlag súlyozott formája:


=
=
=
k
i
i
i
f
k
i
f
i g
X X
1
1
C


3.1.4. Négyzetes átlag

A négyzetes (kvadratikus) átlag az a szám, amellyel az átlagolandó értéket
helyettesítve, azok négyzetösszege nem változik. A négyzetes átlag önmagában
viszonylag ritkábban használt átlagforma, mert nagyon ritkán tudunk az átlagolandó
értékek négyzetösszegének tárgyi jelentést adni. Hasznos lehet az alkalmazása abban
az esetben, ha az átlagolandó értékek között pozitív és negatív számok is
előfordulnak, és az előjelnek nincsen jelentősége, a négyzetes átlaggal eltüntethető az
előjelek különbözősége. Kiszámításának képlete:

n
x
X
n
i
i
q

=
=
1
2



29
A ∏ szimbólum a szorzatot jelenti.
66
Az átlagszámításnál a négyzetgyököt mindig pozitív előjellel értelmezzük.

A négyzetes átlag súlyozott formája


=
=
=
n
i
i
n
i
i i
q
f
x f
X
1
1
2


3.1.5. Módusz

Bármely gyakorisági eloszlás görbéjét tekintjük: mindig értelmezhetünk olyan
értéket - vagy osztályközt - amelyre igaz, hogy ennek a legnagyobb a gyakorisága a
mintában.

A módusz helyzeti középérték. Diszkrét értékek esetén a módusz a leggyakrabban
előforduló ismérvérték. Ez alapján azt is mondhatnánk, hogy a módusz a
legáltalánosabb, a legjellemzőbb, tipikus érték. Meghatározásához nincsen szükség
számításra, értékét egy gyakorisági sorból vagy egy hisztogramból rátekintéssel meg
tudjuk állapítani.

Folytonos ismérvek esetében a módusz a gyakorisági görbe maximumához tartozó
érték, mert ezen érték körül sűrűsödnek a legjobban a megfigyelési egységek.

Bizonyos esetekben a szélsőérték iránti érzéketlenség miatt célszerű a móduszt
használni a többi középértékkel szemben.

Hátrány lehet, hogy esetenként több módusza is lehet egy sokaságnak.

3.1.6. Medián

A medián is helyzeti középérték, amely sorba rendezett értékek közül a középső,
vagyis amelynél ugyanannyi kisebb, mint nagyobb érték fordul elő. A medián értéke

67
A medián sorszáma:
2
1 + n


A képletből következően páros esetszám esetén a medián törtszám lesz, és ebben az
esetben mediánnak a két középső szám egyszerű számtani átlagát tekintjük.

A medián kevésbé érzékeny az extrém értékekre, mint az átlag és ezért erősen ferde
eloszlások esetén jobb mérőeszköz lehet.

Szimmetrikus eloszlások esetén az átlag, a módusz és a medián megegyezik. Ez azt
is jelenti, hogy az átlag általában magasabb, mint a medián pozitív irányban ferde
eloszlások esetében, és alacsonyabb, mint a medián negatív irányú ferdeség esetén.

3.1.7. Kvantilisek

A minta elhelyezkedését jellemezhetjük a kvantilisek segítségével. A t %-os
empirikus kvantilis az a legkisebb mintaelem, amelynél a mintaelemek t %-a kisebb,
vagy egyenlő. A 25 %-os, illetve 75 %-os kvantilist alsó (Q
1
), illetve felső (Q
3
)
kvartilisnek nevezzük.

A kvartilisek meghatározásánál a nagyság szerint rendezett sokaságból kell kiindulni.
A kvartilisek nem tartoznak a középértékek közé. A kvartilisek, mint az
elnevezésükből is következik, a sokaságot negyedekre osztják. Azt is mondhatnánk,
hogy a kvartilisek a mediánnál kisebb és a mediánnál nagyobb értékek mediánjai. A
mediánnál kisebb értékek mediánja az alsó kvartilis (Q
1
). A mediánnál nagyobb
értékeké pedig a felső kvartilis (Q
3
).

Q
1
sorszáma (25%):
4
1 + n


Q
1
sorszáma (75%):
4
) 1 ( * 3 + n


68
A kvartilisekhez hasonlóan lehet a sokaságot tized- vagy századrészekre osztani
(decilis, centilis).


3.2. A szóródás és mérőszámai

A középérték azáltal, hogy egyetlen értékbe sűrítve jellemzi a sokaságot, mintegy
kiegyenlíti a sokaságban rejlő különbözőségeket. Ez a tulajdonsága adja
használatának értelmét, de egyúttal korlátját is. Különböző sokaságokban az egyes
értékek átlagtól való eltérései lehetnek kisebbek vagy nagyobbak, ezért a sokaság
jellemzéséhez szükségünk lehet egy olyan jellemzőre, mérőeszközre is, ami arra ad
választ, hogyan helyezkedhetnek el a megfigyelési egységek az átlag körül. Azt a
sokaságot jobban jellemzi a középérték, amelynél kisebbek az átlagtól való eltérések,
mint azt, amelyben nagyobbak.

Szóródáson valamely mennyiségi ismérv értékeinek a különbözőségét értjük, amelyet
különböző mutatókkal mérhetünk.

A terjedelem a legegyszerűbb és legkönnyebben megérthető mérőeszköze a
szóródásnak, ami egyenlő a legnagyobb és a legkisebb érték különbségével. A
terjedelem nagyon érzékeny a szélső értékekre, mert csak két értéken alapszik.
Ugyanakkor a terjedelmet szinte soha nem használják a szóródás egyetlen
mérőszámaként, mert egyedül kevésbé informatív.

A kvartilis eltérés (interkvartilis terjedelem - IQ) a terjedelemhez nagyon hasonló
mérőszám, amely az alsó és a felső kvartilis különbségének a fele:

2
1 3
Q Q
IQ

=

Az átlagos abszolút eltérés (δ) a megfigyelési értékek és a számtani átlag eltérései
abszolút értékeinek a számtani átlaga:

69
n
X X
n
i
i ∑
=

=
1
δ

A szóródás leggyakrabban használt mutatószáma a négyzetes eltérés vagy szórás,
amely az ismérvértékek és a számtani átlaguk eltéréseinek négyzetes átlaga.
Számítása

( )
n
X X
n
i
i ∑
=

=
1
2
σ

A négyzetes eltéréssel – mint az a képletből is látható - az átlagtól való eltérések
átlagos nagyságát számítjuk ki. A képletben azért a négyzetes átlagot használjuk,
mert kvadratikus értelemben (kvadratikus minimum) a számtani átlag az a
középérték, amely a legközelebb áll az egyes átlagolandó értékekhez.
A szórás gyakorisági sorból történő kiszámítása súlyozott formában történik:

( )


=
=

=
k
i
i
k
i
i i
f
X X f
1
1
2
*
σ

A variancia a szórásnégyzet (σ
2
), és ugyanúgy a változékonyság mérésében van
szerepe, mint a szórásnak. A varianciát önállóan nem szoktuk használni, de sok
statisztikai számítás felhasználja.


3.3. A ferdeség (skewness) és a csúcsosság (kurtosis)

A ferdeség és a csúcsosság lényegében alak-mutatószámok, amelyek azt mutatják
meg, hogy egy adott sokaság milyen mértékben tér el az etalonnak tekintett normál
eloszlás gyakorisági görbéjétől.

70
A csúcsosság (vagy lapultság) az eloszlás „elnyúltságán” alapszik. A csúcsosság
általánosan használt mutatószáma
( )
4
1
4
*σ n
X X
k
n
i
i ∑
=

=

A normál eloszlás csúcsossági értéke 0.

A ferdeség az asszimetria mérőszámának is tekinthető. Ebből következően a jobbra
hosszan elnyúló eloszlásokat baloldali asszimetriájú eloszlásoknak (pozitív ferdeség),
míg a balra hosszan elnyúló eloszlásokat jobboldali asszimetriájú eloszlásoknak
(negatív ferdeség) nevezzük (28. ábra). A pozitív ferdeséggel rendelkező eloszlások
a gyakoribbak.

Pozitív ferdeség Negatív ferdeség Szimmetrikus eloszlás



28. ábra
Az eloszlások ferdesége

A ferdeség számítása:

( )
3
1
3
*σ n
X X
k
n
i
i ∑
=

=

A normális eloszlás ferdeségi értéke 0, mivel az szimmetrikus eloszlás. Általános
szabály, hogyha az átlag nagyobb, mint a medián, akkor pozitívan ferde az eloszlás,
és ha az átlag kisebb, mint a medián, akkor negatívan csúcsos az eloszlás.




71
3.4. A középértékek és a szóródás kiszámításának lehetőségei az Excelben és
az R rendszerben

A számított és a helyzeti középértékekhez, valamint a szóródáshoz tartozó, a két
programban elvégezhető számításokat összevontan mutatjuk be, mert egy-egy
adathalmazhoz célszerű többféle számítást is bemutatni. Ahogyan azt már korábban
is megállapítottuk, általában egy statisztikai jellemző nem mindig jellemzi
megfelelően a sokaságot.


18. feladat
A 1. táblázatban található adatok felhasználásával számítsuk ki a főbb statisztikai
jellemzőket.

Év
Aktív keresők
száma (fő)
1995
3 727.90
1996
3 669.60
1997
3 654.20
1998
3 657.00
1999
3 687.10
2000
3 749.80
2001
3 824.50
2002
3 828.10
2003
3 843.50
2004
3 853.90

1. táblázat
Az aktív keresők száma Magyarországon

Excel:
Az Excelben a főbb jellemzők együttes kiszámítását az Eszközök – Adatelemzés –
Leíró statisztika menüvel végezhetjük el. (29. ábra)
72


29. ábra
Az aktív keresők statisztikai jellemzőinek meghatározása

Az R rendszerben is van lehetőség különböző összegző statisztikák számítására. Az
első ilyen lehetőség a summary
30
vagy a fivenum
31
függvények használata. (30. ábra)
Ugyanúgy, mint az Excelben lehetőség van az egyes jellemzők külön-külön
kiszámítására is. A két programrendszerben számítható statisztikai jellemzőket a 2.
táblázat tartalmazza. A táblázatból látható, hogy van különbség a két rendszer között
és az Excelben számítható több mutató, de nem szabad elfelejteni, hogy az R
statisztikai programban sokkal könnyebb újabb függvényeket létrehozni, és tárolni,
majd újrafelhasználni. Általában ugyanannak a feladatnak a megoldása az Excelben
több munkát igényel, mint az R rendszerben.



30
Minimum, alsó kvartilis, medián, átlag, felső kvartilis, maximum.
31
Minimum, alsó sarokpont, medián, felső sarokpont, maximum.
73


30. ábra
A summary és a fivenum függvények használata az R-ben


Excel R
ÁTL. ELTÉRÉS
ÁTLAG mean
CSÚCSOSSÁG
FERDESÉG
HARM. KÖZÉP
KVARTILIS quantile
MAX max
MEDIÁN median
MÉRTANI.KÖZÉP
MIN min
MÓDUSZ
PERCENTILIS
SZÓRÁS sd
VAR var
IQR

2. táblázat
Az Excel és az R nyelv alap statisztikát számító függvényei


74
19. feladat
Mennyi idő alatt takarítanak be a kombájnok 100 hektár kukoricát, ha 100 ha
kukorica betakarításának műszakóra szükséglete különböző kombájnok esetében az
alábbi:

Kombájn típus Műszakóra/100 ha
Kombájn1 55
Kombájn2 70
Kombájn3 100
Kombájn4 75

Az Excelben való megoldást a 31. ábra mutatja be. (Az adatok az ábrán egyenként
kerültek megadásra, de lehetett volna cellahivatkozást is használni.)



31. ábra
Az átlagos műszakóra kiszámítása Excelben

Az R rendszerben nincsen külön függvény a harmonikus átlag számítására, annak
megoldására két lehetőség van (az adatok a müó.szüks változóban vannak):
75
1. Vagy beírjuk a képletet és kiszámítjuk
> length(müó.szüks)/(sum(1.0/müó.szüks))
2. Vagy készítünk egy függvényt, amit a későbbiekben is fel tudunk használni és a
megfelelő értékeket behelyettesítjük
> harm.átlag = function(x, n) n / sum(1/x)
> harm.átlag(müó.szüks, length(müó.szüks))


20. feladat
Az Alföld megyéiben a mezőgazdasági vállalatok műtrágya-felhasználása és a
műtrágyázott terület a 3. táblázatban szereplő volt. Számítsuk ki, hogy mennyi volt
az egy hektár műtrágyázott területre jutó műtrágya felhasználás az Alföldön?

Megye megnevezése
Felhasznált
összes műtrágya
(t)
1 hektár
műtrágyázott
területre felhasznált
műtrágya kg/ha
Bács-Kiskun 33622.6 139
Békés 18716.6 84
Csongrád 15773.4 121
Hajdú-Bihar 19584.9 117
Jász-Nagykun-Szolnok 22905.8 101
Pest, Budapest 22869.0 165
Szabolcs-Szatmár-Bereg 18943.6 117

3. táblázat
Műtrágyázás az Alföldön

A feladatot mindkét esetben a képlet felhasználásával tudjuk megoldani. A
különbség annyi, hogy az R rendszerben viszonylag egyszerűen létrehozható egy
képlet (függvény) és az le is tárolható további felhasználásra, addig az Excelben ez
kicsit bonyolultabb (32. ábra), de képlet ott is tárolható.
76


32. ábra
Az átlagos műtrágyázás az Alföldön

R rendszer:
Függvény létrehozása:
> s.harm.átlag = function(f, x) sum(f) / sum(f/x)
Függvény behelyettesítése:
> s.harm.átlag(felh.össz.műtr, műtr.1ha)
Eredmény: [1] 118.1743


21. feladat
A 1. táblázat adatainak felhasználásával számítsuk ki, hogy milyen ütemben változott
1995 és 2004 között Magyarországon a foglalkoztatottak száma. Az Excel ehhez a
számításhoz biztosít egy függvényt, amelynek a segítségével az eredmény
kiszámítható, de előtte meg kell határozni azokat a láncviszonyszámokat, amelyből
mértani átlagszámítást el tudjuk végezni. (33. ábra)
77


33. ábra
Az aktív keresők számának átlagos növekedési üteme

Az R rendszerben létre kell hozni egy függvényt. A létrehozandó függvényt úgy is el
lehet készíteni, hogy először számítsa ki a láncviszonyszámokat, és azután számolja
az átlagot.
1. Függvény létrehozása
> mértani.átlag = function(x)
+ {
+ x1 = x[-length(x)]
+ x2 = x[-1]
+ lánc = x2 / x1
+ xprod = cumprod(lánc)^(1/(length(x)-1))
+ xprod[length(xprod)]
+ }
Az átlag kiszámítása
> mértani.átlag(aktív.kereső)
Eredmény: [1] 1.003700


78
3.5. Hipotézistesztelés, alapvető paraméteres és nem-paraméteres statisztikai
próbák

Gyakran előfordul, hogy az ismeretlenek nagy száma, vagy a megfigyelési
lehetőségek korlátozottsága folytán, nem tudunk közvetlen módszereket alkalmazni,
illetve érdeklődésünk nem az ismeretlen paraméter konkrét értékére irányul, hanem
például arra: lehetséges-e, hogy két adott minta ugyanabból az eloszlásból
származott, vagy származhatott-e a minták egy konkrét eloszlásból, stb.

Például, egy növénytermesztési kísérletnél az egyik parcellán nem adunk műtrágyát,
másikon pedig adunk bizonyos adagot. Igazolandó feltevésünk az – a
termésnövekedés a valószínűségi változó -, hogyan befolyásolja a műtrágya a
valószínűségi változó eloszlását, várható értékét megváltoztatja-e.

Statisztikai hipotézisen egy, az alapeloszlás paramétereire, vagy magára az egész
alapeloszlásra vonatkozó feltevést értünk.

A statisztikai hipotézisek két nagy csoportra oszthatók. Abban az esetben, ha
feltevésünk az ismert típusú alapeloszlás egy vagy több ismeretlen paraméterére
vonatkozik, akkor paraméterre vonatkozó hipotézisről beszélünk. Ha az egész
alapeloszlás típusára vonatkozó feltevéssel élünk, akkor eloszlásra vonatkozó
hipotézisről beszélünk.

Azt az eljárást, amelynek segítségével eldöntjük, hogy az adott hipotézis konkrét
esetben elfogadható-e, vagy sem, hipotézisvizsgálatnak nevezzük.


3.5.1. A hipotézisvizsgálat menete

A hipotézisvizsgálat első lépése a nullhipotézis képzése, amelyben az az állítás jut
kifejezésre, hogy az eloszlás paramétere és annak feltételezett értéke, vagy a
tényleges és a feltételezett alapeloszlás között nincsen különbség.

79
A hipotézisvizsgálatokban fontos szerepe van az alternatív hipotézisnek, ami a
nullhipotézistől eltérő hipotézis matematikai megfogalmazása. Egy nullhipotézishez
több alternatív hipotézis is megfogalmazható, amelyek lehetnek egyszerűek (H
1
: a =
2) és összetettek (H
1
: 1 < a < 3).

Ezután létre kell hoznunk a próbafüggvényt, és ki kell jelölni azt az intervallumot,
amely tetszőleges valószínűséggel foglalja magában a próbafüggvény értékét. Az
intervallum két végpontját kritikus értéknek, a valószínűségi szintet pedig
szignifikancia-szintnek nevezzük.

Ha a próbafüggvénynek az értéke beleesik a megadott intervallumba (elfogadási
tartományba), akkor nincsen okunk kételkedni a nullhipotézis helyességében, azaz
nincsen szignifikáns eltérés a nullhipotézisünk feltételezése és a valóság között.


3.5.2. u-próba

Az u-próba lehet egymintás és kétmintás próba. Az egymintás u-próba azt vizsgálja,
hogy egy mintában egy valószínűségi változó átlaga szignifikánsan különbözik-e egy
adott m értéktől. A próba alkalmazásának feltételei:
• a vizsgált valószínűségi változó normális eloszlású,
• a vizsgált valószínűségi változó intervallum vagy arányskálán mért,
• a vizsgált valószínűségi változó populáción belüli szórása ismert (tehát nem a
minta alapján kell becsülnünk).
Nullhipotézis: a minta átlaga statisztikai szempontból megegyezik az előre megadott
m értékkel. [H
0
: x = m]

Alternatív hipotézis: a minta átlaga statisztikai szempontból nem egyezik meg az
előre megadott m értékkel. [H
1
: x ≠ m]

A "statisztikai szempontból" kifejezés itt arra utal, hogy az eltérés a mintából
kiszámolt átlag és az m érték között olyan minimális, hogy pusztán csak a véletlen
ingadozásnak tulajdonítható (ekkor a minta átlaga statisztikai szempontból
80
azonosnak tekinthető az m-mel), vagy jelentősen nagyobb, mint ami a véletlennel
magyarázható (ekkor a minta átlaga statisztikai szempontból nem egyezik meg m-
mel).

Az egymintás u-próba próbastatisztikája

n
m x
u
σ

=

ahol
• x a vizsgált valószínűségi változó átlaga a mintában,
• σ : a vizsgált valószínűségi változó ismert szórása,
• m : az előre adott érték, amihez az átlagot viszonyítjuk, és
• n : a minta elemszáma.

A kétmintás u-próba azt vizsgálja, hogy két külön mintában egy-egy valószínűségi
változó átlagai egymástól szignifikánsan különböznek-e. A próba alkalmazásának
feltételei:
• a vizsgált valószínűségi változók normális eloszlásúak,
• a vizsgált valószínűségi változók intervallum vagy arányskálán mértek,
• a vizsgált valószínűségi változók populáción belüli szórásai ismertek,
• a vizsgált valószínűségi változók függetlenek.

Nullhipotézis: a két mintában a két átlag statisztikai szempontból megegyezik. [H
0
:
E(x) = E(y)]

Alternatív hipotézis: a két mintában a két átlag statisztikai szempontból nem egyezik
meg. [H
1
: E(x) ≠ E(y)]

A kétmintás u-próba próbastatisztikája

81
m n
y x
u
y
x
2
2
σ
σ
+

=

ahol
• x az egyik valószínűségi változó átlaga a mintájában,
• y a másik valószínűségi változó átlaga a mintájában,
• σ
x
az egyik valószínűségi változó korrigált szórása,
• σ
y
a másik valószínűségi változó korrigált szórása,
• n az egyik minta elemszáma és
• m a másik minta elemszáma.


3.5.3. t-próba

A t-próba lehet egymintás és kétmintás próba. Az egymintás t-próba azt vizsgálja,
hogy egy mintában egy valószínűségi változó átlaga szignifikánsan különbözik-e egy
adott m értéktől. A próba alkalmazásának feltételei:
• a vizsgált valószínűségi változó normális eloszlású,
• a vizsgált valószínűségi változó intervallum vagy arányskálán mért.

Nullhipotézis: a minta átlaga statisztikai szempontból megegyezik az előre megadott
m értékkel. [H
0
: x = m]

Alternatív hipotézis: a minta átlaga statisztikai szempontból nem egyezik meg az
előre megadott m értékkel. [H
1
: x ≠ m]

Az egymintás t-próba próbastatisztikája

n
s
m x
u

=

ahol
• x a vizsgált valószínűségi változó átlaga a mintában,
82
• s a vizsgált valószínűségi változó becsült szórása,
• m az előre megadott érték, amihez az átlagot viszonyítjuk és
• n a minta elemszáma.

Szabadságfok: n - 1

A kétmintás t-próba azt vizsgálja, hogy két külön mintában egy-egy valószínűségi
változó átlagai egymástól szignifikánsan különböznek-e. A próba alkalmazásának
feltételei:
• a vizsgált valószínűségi változók normális eloszlásúak,
• a vizsgált valószínűségi változók intervallum vagy arányskálán mértek,
• a vizsgált valószínűségi változók szórásai megegyeznek (a kétmintás u-
próbától eltérően itt nem kell ismernünk az elméleti értéküket, elegendő
becsülnünk a minták alapján),
• a vizsgált valószínűségi változók függetlenek.

Nullhipotézis: a két mintában a két átlag statisztikai szempontból megegyezik. [H
0
:
E(x) = E(y)]

Alternatív hipotézis: a két mintában a két átlag statisztikai szempontból nem egyezik
meg. [H
1
: E(x) ≠ E(y)]

A kétmintás t-próba próbastatisztikája

m n
m n m n
s m s n
y x
t
y x
+
− +
− + −

=
) 2 ( * *
*
* ) 1 ( * ) 1 (
2 2


ahol
• x az egyik valószínűségi változó átlaga a mintájában,
• y a másik valószínűségi változó átlaga a mintájában,
• s
x
az egyik valószínűségi változó korrigált szórása,
• s
y
a másik valószínűségi változó korrigált szórása,
83
• n az egyik minta elemszáma és
• m a másik minta elemszáma.

Szabadságfok: n
1
+ n
2
-1


22. feladat
Egy új gyógyszer hatását mérik, ezért két csoportot vizsgálnak, az egyik csoport a
gyógyszert kapja, a másik placebót. Azt vizsgálják, hogy mennyi idő alatt gyógyul
meg az, aki a gyógyszert kapja és mennyi idő alatt (nap), aki a másik anyagot. Az
eredmény
gyógyszer: 15, 10, 13, 7, 9, 8, 21, 9, 14, 8
placebo: 15, 14, 12, 8, 14, 7, 16, 10, 15, 12

Az Excelben a feladat az Eszközök – Adatelemzés – Kétmintás párosított t-próba a
várható értékre menüben oldható meg. (34. ábra) Az eredményből láthatjuk, hogy a
két átlag egymástól szignifikánsan nem különbözik.



34. ábra
Gyógyszer hatásának vizsgálata
84
Az R rendszerben a t.test függvényt használhatjuk fel. (35. ábra) A számítás során
kicsit eltérő adatokat kaptunk, de a végkövetkeztetés ugyanaz, nincsen igazi
(szignifikáns) különbség az átlagok között.



35. ábra
Gyógyszer hatásának tesztelése


3.5.4. F-próba

Az F-próba azt vizsgálja, hogy két külön mintában egy-egy valószínűségi változó
szórásai egymástól szignifikánsan különböznek-e.

Nullhipotézis: a két mintában a két szórás statisztikai szempontból megegyezik. [H
0
:
σ
1
= σ
2
]

Alternatív hipotézis: a két mintában a két átlag statisztikai szempontból nem egyezik
meg. [H
1
: σ
1
≠ σ
2
]

A kétmintás t-próba próbastatisztikája

2
2
2
1
s
s
F =

ahol
85
• s
1
az egyik valószínűségi változó szórása,
• s
2
a másik valószínűségi változó szórása.

Az F-próbát a varianciaanalízis és a regresszióanalízis esetében alkalmazzuk.


3.5.5. χ
2
-próba

Az előzőekben tárgyalt hipotézis ellenőrzéseknél többször kellett a sokaság
eloszlására vonatkozó feltételezéssel élnünk, illetve a statisztikai ellenőrzések során
gyakran előforduló feladat különböző sokaságok valamely ismérv szerinti
megoszlásának összehasonlítása (illeszkedés-vizsgálat). A sokaság eloszlásában
szerepet játszik a véletlen, ezért ha egy megfigyelés (mintavétel) alapján kapott
tapasztalati eloszlás gyakoriságai nem teljesen azonosak az elméleti sűrűségfüggvény
szerint várható gyakoriságokkal, illetve ha a két tapasztalati megoszlás nem esik
teljesen egybe, számításba kell vennünk, hogy a különbségek nem szignifikánsak. Ez
a feltevés a próba nullhipotézise.

A próba alkalmazásának feltétele:
• a sokaság legalább 50 tagú kegyen,
• egy-egy ismérvváltozathoz tartozó várható gyakoriság legalább 5 legyen.

A χ
2
-próba próbastatisztikája

( )

=

=
k
i
i
i i
f
f f
1
*
2
*
2
χ
ahol
• f
i
az i-edik ismérvváltozathoz tartozó megfigyelt gyakoriság,

*
i
f az i-edik ismérvváltozathoz tartozó várható gyakoriság.
• k a megkülönböztetett ismérvváltozatok száma,

Szabadságfok: k – 1

86
23. feladat
Egy kockával 150-szer dobtunk és a következő eredményt kaptuk:
Pont 1 2 3 4 5 6
Dobás 22 21 22 27 22 36

A kapott adatok eloszlása megfelelő-e?

Az Excelben végzett számítást a 36. ábra, míg az R rendszerben végzettet a 37. ábra
tartalmazza. Mindkét esetben ugyanazt kaptuk eredményül, és megállapítható, hogy
nincsen okunk elvetni azt a hipotézist, hogy a kockadobás eredménye megfelelően
illeszkedik a normális eloszlásra, ami azzal is alátámaszthatunk, ha elkészítjük a
dobások hisztogramját vagy boxplotját, vagy a kettőt együtt.



36. ábra
A kockadobás eloszlása illeszkedésének vizsgálata Excelben



87


37. ábra
A kockadobás illeszkedésének vizsgálata R-ben

A χ
2
-próbának az illeszkedés-vizsgálat mellett további nevezetes alkalmazásai a
homogenitás-vizsgálat és a függetlenség-vizsgálat.

Függetlenség-vizsgálat a sztochasztikus kapcsolatok vizsgálatának egyik módszere.
Függetlenség-vizsgálat esetén a nullhipotézis az, hogy a két ismérv (változó)
független egymástól, az alternatív hipotézis pedig az, hogy nem. A próba
szabadságfoka: (n - 1) * (m - 1), ahol az n és az m a két minta változatainak a száma.


24. feladat
Egy vizsgálat az ütközések során elszenvedett károk komolyságát elemezte, a szerint,
hogy a biztonsági övet bekötötték vagy sem. A kérdés az volt, hogy a biztonsági öv
használata okoz-e különbséget? A vizsgálat eredménye:
Sérülés(kár) szint
nincs kicsi közepes Jelentős
Biztonsági
öv
Igen 12813 647 359 42
Nem 65963 4000 2642 303

Az eredmény a 38. ábrán található. A rendkívül alacsony p-érték alapján azt a
következtetést kell levonnunk, hogy a két változat nem független, ezért a
függetlenségi feltételezésünket el kell vetni. (A megfelelő táblázat létrehozásához
használni kell a data.frame függvényt.
88


38. ábra
A biztonsági öv használatának és nem használatának összehasonlítása

A homogenitás-vizsgálat esetében az u- és a t-próbákkal szemben az összehasonlított
változóknak nemcsak a várható értékére, hanem az eloszlására nézve is feltételezzük
az azonosságot a nullhipotézisben. A kérdés, hogy a két minta azonos sokaságból
származi-e? A nullhipotézisünk az, hogy mindkét adatsor ugyanabból az eloszlásból
származik. A szabadságfok: (sorok száma – 1) * (oszlopok száma – 1).


25. feladat
Van két dobókocka, az egyik szabályos, a másikat manipulálták. Dobjunk a
szabályos kockával 200-at és 100-at a manipulálttal. A kérdés, hogy a két sorozat
származhat-e ugyanabból az eloszlásból?

Megoldás az R-ben:
> kocka.szab = sample(1:6, 200, p=c(1,1,1,1,1,1)/6, replace=T)
> kocka.nem.szab = sample(1:6,100, p=c(0.5,0.5,1,1,1,2)/6, replace=T)
> eredm.szab = table(kocka.szab)
> eredm.nem.szab = table(kocka.nem.szab)
> rbind(eredm.szab, eredm.nem.szab)
> chisq.test(rbind(eredm.szab, eredm.nem.szab))

Az eredményt az R rendszerben számítottuk ki, ami a 39. ábrán látható. A kapott
eredmény elég alacsony, de még a nullhipotézis elfogadható, azaz származhat a két
minta ugyanabból az eloszlásból.
89


39. ábra
Homogenitás vizsgálat az R rendszerben



Ellenőrző kérdések:
1. Mi a különbség a helyzeti és a számított középértékek között?
2. Mi a kronológikus átlag és mikor használjuk?
3. Milyen számokból szoktunk harmónikus átlagot számítani?
4. Milyen viszonyszámokból számítanak mértani átlagot?
5. Mi a módusz és a medián?
6. Mi a kvartilis?
7. Melyek a szóródás fő mérőszámai?
8. Mi az interkvartilis terjedelem?
9. Mit jelent a ferdeség és a csúcsosság?
10. Mit értünk statisztikai hipotézisen?
11. Mire használható az u-próba?
12. Miben különbözi a t-próba az u-próbától?
13. Milyen számításokban használjuk az F-próbát?
14. Melyek a khi-négyzet próba alkalmazásai?

90
4. Mi ntavétel ezés, vari anci aanal í zi s

A gyakorlatban szinte soha sincs arra lehetőségünk, hogy az adott sokaság minden
tagját megvizsgáljuk. A mintavétel célja, hogy olyan adatokat nyerjünk, melyek
segítségével a populációra vonatkozóan megalapozott állításokat tehetünk. A minket
érdeklő sokasági változók jellemzőit (a populáció bizonyos paramétereit) a mintából
számolt statisztikákkal becsüljük. Egy adott populációból
|
|
¹
|

\
|
N
M
különböző mintát
vehetünk, ahol M a populáció elemszáma, N pedig a mintaelemszám. Ezek a minták
nem csak összetételükben, hanem a vizsgált jellemző szempontjából is
különbözhetnek. A mintajellemzők tehát maguk is valószínűségi változók, melyek
egy adott érték (a populációs paraméter) körül ingadoznak.

A reprezentatív megfigyelés logikai alapja az indukció, vagyis a következtetés azon
formája, amelynél egyes esetekből általánosító következtetést vonunk le. A
reprezentatív megfigyelés célja, hogy a sokaság jellemzőit a becsült értékkel
közelítse meg. Az így elkövetett véletlen hiba nagysága ellenőrizhető és
korlátozható.


4.1. Mintavételi eljárások

A reprezentatív statisztika a mintavételi eljárások különböző módjain alapszik,
amelyek lehetnek:
a. Véletlenen alapuló kiválasztás
• Egyszerű véletlen
Olyan kiválasztási eljárás, amelynek során az egységeket a
nyilvántartásból véletlenszerűen, egyenlő valószínűséggel választjuk
ki.
• Egylépcsős
Egylépcsős (csoportos) mintavételnek nevezzük az elsődleges
egységek kiválasztását egy nyilvántartásból abban az esetben, ha a
91
kiválasztott elsődleges egységeken
32
belül minden másodlagos
egységet
33
megfigyelünk.
• Többlépcsős
A mintasokasághoz több lépcsőben jutunk el. Az első lépésben
kiválasztjuk az elsődleges egységeket, majd ezután a kiválasztott
elsődleges egységeken belül végzünk további mintavételeket.
• Rétegzett kiválasztás
Lényege a minta belső összetételének mesterséges megjavítása. A
sokaság egységeit kiegészítő információ alapján csoportosítjuk,
miközben arra törekszünk, hogy minél homogénebb csoportokat
nyerjünk, amelyeket rétegeknek nevezünk. A kiválasztás az egyes
rétegekből külön-külön és egymástól függetlenül történik, rétegen
belül egyszerű véletlen kiválasztást alkalmazva.
b. Nem véletlen kiválasztás
• Kvótakiválasztás
• Koncentrált kiválasztás
• Önkényes kiválasztás
c. Szisztematikus kiválasztás
A mintavétel alapját képező nyilvántartásból egyenlő távolságra álló
egyedeket választunk ki. Úgy is értelmezhető, hogy a sokaságot n egyenlő
rétegre osztjuk és rétegenként egy elemből álló mintát veszünk.

A korábban már tárgyalt átlag és szórás fogalmakon túl, foglalkoznunk kell az ún.
standard hibával is. Egy becslő függvény szórását nevezzük az illető becslés standard
hibájának. A standard hiba megmutatja, hogy a mintából származó becslések milyen
mértékben szóródnak a populációs paraméter körül, vagyis megmondhatjuk, hogy a
populációs paraméter körüli bizonyos intervallumokba a mintabecslések mekkora
hányada fog esni: a mintából származó becsléseknek közelítőleg 68 százaléka esik a
paraméter körüli 1 standard hiba szélességű sávba (±1 standard hibányi távolságra),
becsléseknek közelítőleg 95 százaléka esik a paramétertől ±2 standard hibányi távolságra,

32
Elsődleges mintavételi egységnek tekintjük a nyilvántartásban felsorolt egységeket.
33
Másodlagos mintavételi egységnek tekintjük azon sokaság egységeit, amelyekre a megfigyelés
irányul.
92
és becsléseknek közelítőleg 99,9 százaléka esik a paraméter körüli ±3 standard hiba
szélességű sávba.


4.2. A varianciaanalízis

A varianciaanalízis több, azonos szórású, normális eloszlású populáció átlagának az
összehasonlítására szolgáló módszer, amelyet ANOVA néven is emlegetnek az angol
elnevezés betűinek rövidítéseként (Analysis of Variance). A varianciaanalízis a t-
próbák általánosítása több csoport esetére. Azért hívják varianciaanalízisnek, mert az
átlagokat hasonlítja ugyan, de ezt többféle módon definiált varianciák segítségével
teszi. A varianciaanalízis a teljes adathalmaz teljes-szóródását (összvarianciáját)
vizsgálja abból a szempontból, hogy azt csupán a véletlen ingadozás okozza-e, vagy
ahhoz valamilyen más tényező, pl. a csoportok átlagai közötti különbség is
hozzájárul.

Többféle varianciaanalízis van a kísérleti elrendezéstől függően. Amennyiben a
csoportok függetlenek, és csak egyetlen szempont szerint különböznek (pl. többféle
kezelést vagy többféle betegcsoportot hasonlítunk össze), akkor egytényezős
varianciaanalízisről beszélünk. Ha a csoportok függetlenek, de többféle szempont
szerint is vizsgálhatók (pl. nemek szerint és kezelések szerint is), akkor két- vagy
többtényezős varianciaanalízissel hasonlítjuk össze az átlagokat. Ha a csoportok
összetartozó minták csoportjai, (pl. ugyanazokon az egyedeken több mérést végeznek
több időpontban, vagy különböző kísérleti körülmények között), akkor az ún.
ismételt méréses varianciaanalízist kell alkalmazni.


4.2.1. Egytényezős varianciaanalízis

A t-próbát két független minta tesztelésére használtuk. A varianciaanalízist hasonló
célból használjuk, de általában több mint két független minta (kísérlet)
összehasonlítására.

93
Több csoport összehasonlítása lényegében a csoportok eloszlásának
összehasonlítását jelenti. Minden mérés hibával jár, a mintaadatok csoportonként
pusztán a véletlen miatt is különböznek. A kérdés éppen ez: annak eldöntése, hogy az
egyes minták ugyanabból a sokaságból származnak-e, vagy nem.

Az egyszempontos (egytényezős) varianciaanalízis több, általában párhuzamos
elrendezésű csoport valamely folytonos, normális eloszlású jellemzőjének átlagát
hasonlítja össze úgy, hogy a csoportok közt csak egyetlen szempont szerinti eltérést
vesz figyelembe. Az összehasonlítás alapja az F-próba, mely az átlagok különbségeit
jellemző ´csoportok közötti´ varianciát hasonlítja össze a véletlen ingadozást
jellemző ´csoportokon belüli´ varianciával. Szignifikáns eredmény esetén annyit
mondhatunk, hogy a populációk átlagai nem mind egyformák. A különbségek
megtalálása további vizsgálattal, pl. többszörös összehasonlításokkal vagy
kontrasztok vizsgálatával folytatható.

A varianciaanalízis alkalmazási feltételei:
1. Az egyes részsokaságokat jellemző Y
1
, Y
2
,.....Y
k
ismérvek normális
eloszlású valószínűségi változók.
2. Szórásuk azonos.
3. Az egyes részsokaságokból vett n
i
elemű minták (azaz a megfigyelések)
függetlenek.

A varianciaanalízis eredményei robusztusak (nem érzékenyek) az első két feltételtől
való mérsékelt eltérésre, de nagyon érzékenyek a 3. feltétel teljesülésére.

Az egyszempontos varianciaanalízis az összes varianciát két részre osztja, a
kezeléssel (csoportosítás) megmagyározott variancia és a hiba (amit a kezeléssel nem
tudunk megmagyarázni). (4. táblázat) Ha elvégeztük a szórásfelbontást, akkor a két
rész szórásnégyzet felhasználásával elvégezzük az F-próbát

B
K
SS
SS
F =

94
Az F-próba esetén az a feltételezésünk (nullhipotézisünk), hogy a kezelés és a hiba
szórásnégyzete szignifikánsan nem különbözik, azaz az adatok szórása nem
magyarázható meg kellő „súllyal” a kezeléssel. Ha az F-próba értéke kellő nagyságú,
és a hozzátartozó szignifikanciaszint kellően kicsi, akkor a nullhipotézist el lehet
vetni, azaz a kezelés kellő magyarázó erővel rendelkezik

Négyzetösszeg Szabadságfok Szórásnégyzet
Csoportosítás
(kezelés)
SS
K
= n Y Y
i
i
i
k
( ) −
=

2
1
k-1
MS
K
=
n Y Y
k
i
i
i
k
( ) −

=

2
1
1

Hiba
SS
B
= ( ) Y Y
ij
i
j
n
i
k i

= =
∑ ∑
2
1 1
n-k
MS
B
=
( ) Y Y
N k
ij
i
j
n
i
k i


= =
∑ ∑
2
1 1

Teljes
SS= ( ) Y Y
ij
j
n
i
k i

= =
∑ ∑
2
1 1
n-1
MS=
( ) Y Y
N
ij
j
n
i
k i


= =
∑ ∑
2
1 1
1


4. táblázat
A varianciaanalízis táblája


26. feladat
Tyúkok tojástermelését vizsgálták egy takarmányozási kísérletben. A kísérletben
négyféle takarmányt etettek. Minden kísérleti csoportban 5 tyúk volt. A tyúkok az 5.
táblázatban található tojástermelésének alapján vizsgáljuk meg, hogy az eltérő
takarmányozásnak volt-e hatása a tojástermelésre?

A varianciaanalízis megoldására az Excelben az Eszközök – Adatelemzés –
Egytényezős varianciaanalízis utasítást használjuk. A számítás eredményét a 40. ábra
mutatja be, amelyből megállapítható, hogy az eltérő takarmányozásnak van hatása és
az eltérések nem a véletlennek tudhatók be.
95
Takarmány
Tyúkok
1 2 3 4 5
A 94 86 69 78 73
B 114 99 97 108 111
C 97 84 94 87 93
D 81 77 90 85 75

5. táblázat
A takarmányozási kísérlet eredménye





40. ábra
A takarmánykísérlet értékelése Excelben


96
Az R rendszerben történő megoldást a 41. ábra tartalmazza. Az ábrából láthatjuk,
hogy az F-próba szignifikancia szintje 0,1 %, azaz a nullhipotézist el kell vetni, és a
kezelés szignifikánsan különbözik a hibától. Az előző megállapítás azt jelenti, hogy a
takarmányozásnak van hatása a tyúkok tojástermelésére.



41. ábra
Az R rendszerben elvégzett varianciaanalízis


A boxplot felhasználásával ábrázolhatjuk is a kísérletet. A 42. ábra is mutatja, hogy
az egyes kísérletek eredményei láthatóan eltérnek egymástól.
> s = data.frame(k1,k2,k3,k4)
> boxplot(s, main="Takarmányozási kísérlet", ylab="Tojástermelés",
+ xlab="Takarmányok")


97

42. ábra
A takarmányozási kísérlet eredményének ábrázolása boxplot diagrammal


27. feladat
Az egyik iskolában 27 ösztöndíj pályázatot kell értékelni. A munkát a gyorsabb
eredmény érdekében 3 emberre bízták. A pályázatokat véletlenszerűen osztották szét
az értékelők között. Ugyanakkor nem szeretnék, ha az értékelők személye döntené el
a pályázat sorsát, ezért a bizottság úgy döntött, hogy összehasonlítja a három értékelő
eredményét (43. ábra). Az értékelést 1-5 pontos rendszerben végezték. Az értékelés
eredménye
1. értékelő: 4, 3, 4, 5, 2, 3, 4, 5
2. értékelő: 4, 4, 5, 5, 4, 5, 4, 4
3. értékelő: 3, 4, 2, 4, 5, 5, 4, 4

98


43. ábra
A pályázatértékelők összehasonlítása


4.2.2. Kéttényezős varianciaanalízis

A kéttényezős varianciaanalízisben az összehasonlítandó csoportok két független
szempontból is vizsgálhatók (pl. kezelés és nemek szerint). Ekkor a két tényező (pl. a
kezelések közötti különbségek) hatásán kívül vizsgálható a kettő kölcsönhatása
(interakció) is, vagyis az, hogy a két tényező együtt másképpen hat-e, mint külön-
külön (pl. a kezelések közötti különbségek függnek-e a nemtől). A többtényezős
varianciaanalízisben többszörös kölcsönhatások is szerepelnek.

A kéttényezős varianciaanalízis használható, ha az adatok két különböző dimenzióba
sorolhatók. Adott például egy kísérlet, ahol a növények magasságát mérjük. A
növényeket különféle típusú tápoldattal kezeljük (A, B és C), továbbá különböző
hőmérsékleten tartjuk őket (alacsony és magas). Mind a hat lehetséges {tápoldat,
hőmérséklet} párosítás esetén azonos számú megfigyelés áll rendelkezésünkre a
növények magasságát illetően. Ebben az esetben a varianciaanalízissel a
következőket vizsgálhatjuk:
• Vajon a növények magasságára vonatkozó mérések a különböző tápoldatok
esetében ugyanabból a sokaságból származnak-e. Ez az elemzés nem veszi
figyelembe a hőmérséklet hatását.
99
• Vajon a növények magasságára vonatkozó mérések a különböző
hőmérsékletek esetében ugyanabból a sokaságból származnak-e. Ebben az
esetben a tápoldatok hatását hagytuk figyelmen kívül.
• Figyelembe véve a különböző tápoldatok, és a hőmérsékletkülönbség okozta
eltéréseket (amelyeket az első és a második lépésben kimutattunk), vajon az
összes {tápoldat, hőmérséklet} értékpárt jelölő hat minta ugyanabból a
sokaságból származik-e. Az alternatív hipotézis szerint nem kizárólag a
hőmérséklet vagy a tápoldat változása okozhat eltérést, az egyes {tápoldat,
hőmérséklet} párok esetében más hatások is felléphetnek.

A kéttényezős varianciaanalízis lehet ismétléses (cellánként több megfigyelés) vagy
ismétlés nélküli (cellánként egy megfigyelés). Kéttényezős, ismétlés nélküli
varianciaanalízis akkor használható, ha az adatok két különböző dimenzióba
sorolhatók, a kéttényezős, ismétléses varianciaanalízishez hasonlóan. Itt azonban
feltételezzük, hogy minden párhoz (például minden {tápoldat, hőmérséklet} párhoz)
csak egy megfigyelés tartozik. Ebben az esetben elvégezhetjük a kéttényezős,
ismétléses varianciaanalízis első és második lépését, a harmadik lépés elvégzéséhez
viszont nem rendelkezünk elegendő adattal.


28. feladat
Egy patkányokon végzett toxicitás vizsgálatban 3 mérget használtak (I, II, III) és
négyféle kezelést alkalmaztak (A, B, C, D), a vizsgálatokat 4 ismétlésben végezték.
A vizsgálat során a patkányok túlélési idejét mérték tíz órákban. Az eredményt a 6.
táblázat tartalmazza.

Megoldás az R rendszerben:
> toxi = read.table("c://Program Files//R//R-2.3.1//library//ascdata//
+ rats.txt", header=TRUE)
34

> attach(toxi)
35

> par(mfrow=c(1,2))
> plot(idő ~ kezelés + méreg, data=toxi)

34
Az adatok rendelkezésre álltak file-ban, ezért onnan kerültek beolvasásra.
35
Lehetővé teszi, hogy az oszlopneveket közvetlenül használjuk a függvényekben.
100
Méreg
Kezelés
A B C D
I
0.31 0.82 0.43 0.45
0.45 1.10 0.45 0.71
0.46 0.88 0.63 0.66
0.43 0.72 0.76 0.62
II
0.36 0.92 0.44 0.56
0.29 0.61 0.35 1.02
0.40 0.49 0.31 0.71
0.23 1.24 0.40 0.38
III
0.22 0.30 0.23 0.30
0.21 0.37 0.25 0.36
0.18 0.38 0.24 0.31
0.23 0.29 0.22 0.33

6. táblázat
A toxicitási kísérlet eredménye

Az számítások elvégzése során elkészítettük az egyes tényezők boxplot diagramjait
(44. ábra), amelyek bemutatják a tényezőkön belüli szempontokhoz tartozó adatok
elhelyezkedését. Ezt követően elvégzésre került a kéttényezős varianciaanalízis,
amelynek eredménye a 45. ábrán látható. A 45. ábrából azt is láthatjuk, hogy a
kéttényezős varianciaanalízis számításhoz ugyanazt a függvényt használtuk, amit az
egytényezős esetben, csak itt megadásra került a második tényező is. A függvény
segítségével többtényezős varianciaanalízis is elvégezhető. A varianciaanalízis
eredményéből azt láthatjuk, hogy az egyes tényezőkön (hatásokon) belül szignifikáns
különbség van, azaz az egyes mérgek és kezelések egymástól szignifikánsan
különböznek. Ugyanakkor a tényezők kölcsönhatása nem szignifikáns.



101

44. ábra
A toxicitási vizsgálat boxplot diagramjai





45. ábra
A toxicitás vizsgálat varianciaanalízisének eredménye
102
Ellenőrző kérdések:
1. Mi a mintavétel célja?
2. Milyen mintavételi eljárásokat ismerünk?
3. Mi a standard hiba?
4. Melyek az egytényezős varianciaanalízis jellemzői?
5. Minek a megállapításában játszik szerepet az F-próba az egytényezős
varianciaanalízisben?
6. Mikor van szükség két- vagy többtényezős varianciaanalízisre?
7. Milyen típusai lehetnek a kéttényezős varianciaanalízisnek?

103
5. Korrel áci ó és regresszi ószámí tás

A kísérletek során a rendszer állapotát jellemző paraméterek kapcsolatát vizsgáljuk.
A nyert adatok alapján felállítjuk a rendszer matematikai modelljét, vagy ha már
vannak ismereteink, akkor az előre felállított modell (hipotézis) érvényességét
ellenőrizzük. Aszerint, hogy két paraméter (változó) vagy egyidejűleg több
tulajdonság egymás közötti összefüggését vizsgáljuk, kétváltozós, illetve
többváltozós összefüggés vizsgálatról beszélünk. Magát az összefüggést
korrelációnak is nevezik. Az általunk tervszerűen változtatott paramétert független
változónak, az ennek hatására változó másikat függő változónak tekintjük.

Az összefüggés-vizsgálattal foglalkozik a korreláció- és regresszióanalízis.


5.1.Korrelációszámítás

Amikor két változó mennyiség úgy függ össze egymással, hogy a független változó
adott értékéhez a függő változó egy jól meghatározott értéke tartozik,
függvénykapcsolatról beszélünk. A függvény alakját a változók közötti kapcsolat
jellege szabja meg. Gyakran előfordul azonban olyan, hogy a változó mennyiségek
között nem teljesen határozott az összefüggés: a független változó (x) minden
értékéhez a függő változó (y) bizonyos statisztikus sokasága tartozik, oly módon,
hogy az y eloszlása az x változásával meghatározott módon szintén változik. Ebben
az esetben az x és y közötti összefüggést korrelációs kapcsolatnak nevezzük.
Ilyenkor az összefüggést az egyik változó (x) és a másik változó (y) várható értéke
között tudjuk megadni. Tehát a korrelációs kapcsolat közbenső állapotot foglal el
a pontos függvényszerű összefüggések és a változók teljes függetlensége között
(az ilyen jellegű kapcsolatot sztochasztikusnak is nevezik).

Két mennyiség közötti kapcsolat szorosságát jellemző mérőszámok közül a
legelterjedtebb a korrelációs együttható, vagy Pearson-féle korrelációs együttható.
Az együtthatót r-rel jelöljük, és a mérések közötti lineáris kapcsolat szorosságát méri.

104
A korrelációszámítás képlete:



A korrelációszámítás képletének számlálójában van a kovariancia, amely két változó
(X, Y) együttes változásának mértéke, ezért nevezik együttes szórásnak is. A
kovariancia előjele határozza meg a korreláció irányát (pozitív vagy negatív; a két
változó együtt változik vagy ellentétesen).

A korrelációs együttható értéke mindig -1 és 1 között van. Ha a pontok nem
fekszenek egy egyenes mentén, akkor azt mondjuk, hogy nincs korreláció közöttük (r
= 0), vagy gyenge korreláció van közöttük (r közel van 0-hoz.). Ha a pontok egy
egyenes mentén fekszenek, akkor r közel van +1-hez vagy -1-hez, ekkor azt
mondjuk, hogy a két változó között szoros vagy magas korreláció van. Ha a pontok
pontosan rajta vannak egy növekvő egyenesen, akkor r = 1, ha pedig egy csökkenő
egyenesen vannak pontosan rajta, akkor r = -1.

Tegyük fel, hogy egy populáció vizsgálata során ki tudtuk számítani a populációbeli
korrelációs együtthatót két változó közötti lineáris kapcsolat mérésére. Ha ez az
együttható 0 lenne, azt mondhatnánk, hogy nincs korreláció a két változó között.
Tehát, ha egy mintát vizsgálunk, akkor a mintából számított korrelációs együttható 0-
hoz közeli értéke arra enged következtetni, hogy nincs korreláció a két változó
között. 0-tól távol eső (1-hez vagy -1-hez közeli) értékek pedig bizonyos korreláció
meglétére engednek következtetni. A statisztikai szempontból el kell tudnunk
dönteni, hogy r értéke elég messze van-e 0-tól ahhoz, hogy elég nagy biztonsággal
állíthassuk, hogy valóban fennáll.

H
0
: korrelációs együttható a populációban = 0 (r = 0; ρ = 0)
H
1
: r ≠ 0


105
Ez a próba egy t eloszlású statisztikával hajtható végre. Bebizonyítható, hogy ha igaz
a nullhipotézis, a következő, t-vel jelölt statisztika t-eloszlású n-2 szabadságfokkal:




5.2. Regressziószámítás

A statisztikában a regressziószámítás, vagy regresszióanalízis során két vagy több
véletlen változó között fennálló kapcsolatot modellezzük. A regressziós modell
tulajdonságai alapján megkülönböztethetünk lineáris és nemlineáris regressziót, az
adataink alapján pedig idősor, keresztmetszeti, és panel regresszióanalízist.

A regressziós egyenletben a magyarázandó vagy függő változót (Y) a magyarázó
változók vagy regresszorok (X) segítségével magyarázzuk. A regressziós egyenletek
fontos eleme a maradék (reziduum) vagy hibaváltozó (e, u, vagy gyakran ε), vagyis a
modellünk által nem magyarázott rész. Ha a függő változónkat egy magyarázó
változó segítségével modellezzük, akkor kétváltozós regresszióról, ha pedig több X
változót is használunk, többváltozós regresszióról beszélünk.


5.2.1. Kétváltozós lineáris regresszió

A kétváltozós lineáris regresszió egyenletének általános alakja

Y = a + b * X

A regressziószámítás során úgy szeretnénk meghatározni az ’a’ és a ’b’ értékét, hogy
az egyenes a legjobban illeszkedjen az eredeti sokaság pontjaira. Tegyük fel, hogy
’n’ számú megfigyeléspárunk van: [x
i
, y
i
, i=1, 2, ... ,n]. Szeretnénk az y
i
-t (a függő
vagy eredményváltozót) az egyenes x
i
(a független vagy magyarázó változó) helyen
felvett értékeivel közelíteni, azaz az ’a + b - x
i
’-vel. A közelítés akkor jó, ha az ’y
i

106
(a + b * x
i
)’ különbségek kicsik. Mivel ezek a különbségek pozitívak és negatívak is
lehetnek, vegyük ezek négyzetét és összegezzük a különbségek négyzetét. Így a
következő összeget kapjuk, melyet minimalizálnunk kell:



A fenti összefüggésből következően a regressziós együtthatókat a következő
képletekkel tudjuk meghatározni:




A korrelációs és regressziós együttható között fennáll a következő összefüggés:



ahol az s
x
és az s
y
az x
1
, x
2
, ... , x
n
és az y
1
, y
2
, ... , y
n
minták standard eltérései
(szórásai). A képletből látható, hogy az ’r’ és a ’b’ előjele megegyezik, mivel a
standard eltérés mindig pozitív. Tehát negatív korreláció esetén a regressziós egyenes
meredeksége negatív és fordítva. Bizonyítható, hogy ugyanaz a t-próba alkalmazható
a regressziós együttható nullától való eltérésének szignifikanciájára, mint a
korreláció szignifikanciájának vizsgálatára.



107
29. feladat
Hajdú-Bihar megye néhány gazdaságában az adott földminőség mellett a kukorica
termésátlaga a 7. táblázatban látható módon alakult. Határozzuk meg a föld minősége
és a kukorica termésátlaga közötti összefüggés szorosságát. Ellenőrizzük a
korrelációs együttható megbízhatóságát.

Gazdaság
sorszáma
Földminőség
aranykorona/ha
Kukorica
termésátlaga
t/ha
1 24.1 8.9
2 34.1 9.8
3 40.5 10.5
4 17.7 8.1
5 19.1 8.3
6 15.5 7.2
7 26.2 9.0
8 19.4 8.3
9 19.3 8.2
10 14.1 7.0
11 18.6 8.1
12 18.2 8.0
13 17.9 8.0
14 19.3 8.5
15 20.1 9.0
16 21.2 8.9
17 25.2 9.3
18 28.6 9.7
19 32.1 10.0
20 38.5 10.3


7. táblázat
A kukorica termésátlagának alakulása
108
A korreláció- és regressziószámítás az Excel táblázatkezelőben az Eszközök –
Adatelemzés – Korreláció, valamint az Eszközök – Adatelemzés – Regresszió
utasításokkal végezhető el. A számítás eredményét a 46. ábrán láthatjuk. Az ábrából
látható, hogy a vizsgált két tényező között szoros pozitív korreláció van, és az F-
próba értékei alapján az is megállapítható, hogy a regressziós függvénnyel az adott
összefüggés jól leírható, illetve a termésátlagot befolyásolja a föld minősége. Az r-
négyzet vagy determinációs együttható azt jelzi, hogy a független változó mintegy 88
%-ban határozza meg a függő változót, azaz a földminőség a kukorica termésátlagát.
Az F-próba segítségével az egész regresszióval kapcsolatos megállapításokat
tehetünk, míg az együtthatók megbízhatóságát (nullától való különbözőségüket) a t-
próbával ellenőrizhetjük. A kiszámított t-próbák alapján megállapítható, hogy
mindkét együttható szignifikánsan nagyobb a nullától.




46. ábra
A földminőség és a kukorica termésátlag közötti összefüggés kiszámítása


109
Az R rendszerben a regresszió számításnak többféle lehetősége is van. Mi ezek közül
az ’lm’ függvénnyel foglalkozunk. Az ’lm’ egy objektum orientált függvény, ami azt
jelenti, hogy az alapszámítás elvégzése után az egyes objektumok meghívásával a
regresszió eredményének további részeit jeleníthetjük meg.

Az elemzéshez a 7. táblázat adatait használtuk fel és először elkészítettük a két
változó összefüggésének pontdiagramját (47. ábra). A 47. ábrából látható, hogy az
összefüggés elég jól közelíthető egy egyenessel.



47. ábra
A földminőség és a kukoricatermés közötti összefüggés pontdiagramja

Ezután elvégezzük a regresszió kiszámítását. (48. ábra) A 48. ábra felső részén az
’lm’ függvény használatával megkaptuk a regressziósfüggvény együtthatóit. Ha több
információt szeretnénk kapni az összefüggésvizsgálatról, akkor az ’lm’ eredményét
110
egy változóba kell elhelyezni és ennek a változónak a segítségével többféle
eredményt is előállíthatunk. Az egyik ilyen lehetőség a ’summary’ függvény
használata, amelynek az eredménye a 48. ábra második részében látható.



48. ábra
Regressziószámítás az R rendszerben (kukoricatermés – földminőség)

Az R rendszerben a regressziószámítás során, többek között, például a következő
jellemzők előállítására van lehetőségünk:
• reziduumok ($residual)
• számított értékek ($fitted.values)
• együtthatók ($coefficients)
• reziduumok szabadságfoka ($df.residual)

Az eredmény objektum (regr) felhasználásával elkészíthetjük a regressziós
függvényünk grafikonját is (49. ábra):
111
> plot(földmin, kuk.termés,
+ main="A kukoricatermés és a földminőség közötti összefüggés",
+ sub="kukoricatermés = 5.94 + 0.12 * földminőség")
> abline(regr)



49. ábra
A regressziós függvény ábrázolása

Ha a regressziós objektumot adjuk a plot grafikus függvény paraméterének, akkor a
rendszer az 50. ábrán látható grafikonokat készíti el a regresszióhoz kapcsolódóan.
Az ’anova’ függvény felhasználásával kiszámíthatjuk a regresszió F-próba értékét is.
112
Az 51. ábrán láthatjuk, hogy a magas F-érték azt jelzi, hogy a földminőséggel jól
magyarázható a termésátlag változása (szignifikanciaszint < 0.1 %).



50. ábra
A plot(regr) eredménye




51. ábra
A regresszió varianciaanalízise
113
A nem-lineáris regresszióval részletesen nem foglalkozunk, mert az alapadatok
transzformálásával bármilyen olyan regressziós függvény előállítható, ahol az
alapfüggvény linearizálható. Az R rendszerben a transzformációt a regressziót
meghatározó függvény is el tudja végezni, pl.: lm(log(y) ~ x).


5.2.2. Többváltozós lineáris regresszió

A kétváltozós lineáris regresszió egyenletének általános alakja

Y = a + b
1
* X
1
+ b
2
* X
2
+ ... + b
n
* X
n


Az egyenletből is látható, hogy többváltozós regressziószámításról akkor
beszélhetünk, ha a kapcsolat vizsgálat egyidejűleg kettőnél több ismérvre terjed ki.
Az ismérvek között sokfajta és bonyolult oksági kapcsolat létezhet.

A többváltozós regressziószámítás számítógépes megvalósítási szempontból nem
különbözik a kétváltozós esettől, csak ebben az esetben az egy eredményváltozó
mellett több magyarázó változó szerepel. Kapott regressziós együtthatókat parciális
regressziós együtthatóknak nevezzük. A teljes kapcsolat szorosságát a totális
(többszörös) korrelációs együtthatóval fejezzük ki. Az egyes változó kombinációk
egymásra hatását pedig a parciális korrelációs együtthatók fejezik ki.

A többváltozós regresszió esetén is először az Excelben történő megoldást mutatjuk
be. A 52. ábrán a regressziószámítás paramétereinek megadását mutatjuk be, az 53.
ábra pedig a megoldás eredményét tartalmazza. A paramétereket értelemszerűen kell
megadni, általában elegendő az alapértékek megadása (változók és az output helye),
de ha további információkra is szükségünk van, vagy pedig az eredményt szeretnénk
más számításban felhasználni, akkor a további paraméterek megadásával, további
eredményekhez is hozzájuthatunk. Ennek a struktúrája teljes mértékben megegyezik
a kétváltozós regressziónál bemutatottal.



114
Sor-
szám
Kijuttatott műtrágya hatóanyag (kg/ha) Termésátlag
t/ha N P K
1 131 91 84 5.1
2 179 124 99 6.7
3 214 137 99 7.5
4 134 68 69 3.2
5 147 77 55 3.7
6 171 117 103 6.5
7 135 86 73 4.4
8 255 150 105 8.5
9 129 69 54 3.2
10 139 99 94 3.5
11 123 89 101 3.1
12 242 158 58 6.8
13 227 147 112 6.7
14 293 169 108 9.2
15 274 205 129 9.8
16 188 142 144 8.2
17 152 89 65 4.9
18 163 66 45 3.1
19 136 84 86 4.2
20 270 188 70 8.6
21 220 161 96 8.6
22 228 145 85 7.0
23 206 97 84 5.5
24 238 106 102 5.9
25 112 59 58 3.8
26 180 110 98 5.9


8. táblázat
A műtrágyázás hatása a termésátlagra

115


52. ábra
A többváltozós regressziószámítás paraméterezési lehetőségei az Excelben

Az 53. ábra eredményeit értékelve a következő megállapításokat tehetjük. Az F-
próba értéke alapján megállapítható, hogy a független változókkal (műtrágya
adagok) együttesen a függő változó jól megmagyarázható (ezt támasztja alá a
többszörös korrelációs együttható magas értéke is). Ha viszont a parciális regressziós
együtthatók t-próbáit vesszük vizsgálat alá, az állapítható meg, hogy egyikre sem
mondhatjuk azt, hogy szignifikánsan különbözik nullától. Ezt okozhatja a magyarázó
változók közötti kölcsönhatás (kollinearitás) is. Ez azt jelent, hogy a regresszióval jól
bemutatható az összefüggés, de a regressziós együtthatók külön-külön nem
értelmezhetők.

A következőkben az R rendszerben mutatjuk be a többváltozós regressziószámítás
megoldását. (54. ábra) Ebben az esetben is ugyanazt a függvényt kell használni, mint
a kétváltozós esetben. A magyarázó változókat ’+’ jellel összekötve tetszőleges
változó megadható. Többváltozós esetben is lehetőség van a változók konvertálására,
amit a regressziót megoldó függvényben meg is lehet adni.

116


53. ábra
A többváltozós regresszió eredménye az Excelben




54. ábra
A többváltozós regresszió megoldása az R rendszerben
117
5.3. Idősorok elemzése

Valamely jelenség fejlődését, időbeli alakulását különböző tényezők idézik elő. A
fejlődés törvényszerűségeinek tanulmányozásakor az idősorok statisztikai
elemzésének egyik fő problémája éppen az egyes komponensek elkülönítése. A
statisztikai elemzés szempontjából a következő komponenseket különböztetjük meg:
1. Alapirányzat vagy trend.
2. Periodikus ingadozás.
3. Véletlen ingadozás.

Az idősorok komponenseinek áttekintése után könnyen megfogalmazhatjuk az
idősorok elemzésének ebből adódó feladatait. Mindenekelőtt a fejlődés
alapirányzatát célszerű megismerni, ami az idősor „kisimítását” jelenti, azaz a
szezonális, ciklikus és véletlen ingadozásokat próbáljuk „eltüntetni”. Ezt a
trendszámítással tudjuk elvégezni. A következő feladat az idényszerű hullámzás
mérése lehet, amivel a szezonindex-számítás foglalkozik.

A trendszámítás elvégezhető mozgóátlagolással vagy analitikus trendszámítással. A
trendszámítás feladata az idősor fő komponensének, az alapirányzatnak a kimutatása.

A mozgóátlagolás alapgondolata, hogy a trendet az eredeti sor dinamikus átlagaként
állítjuk elő. Először meg kell határozni a mozgóátlagolás tagszámát (k), amit úgy kell
megválasztani, hogy egy-egy ciklushoz tartozó adatok számával legyen egyenlő,
vagy ennek egészszámú többszöröse legyen. Ezután elvégezzük az átlagolást az első
’k’ taggal, majd mindig elhagyjuk az első tagot, és utolsónak betesszük a sor
következő tagját. Ezt a folyamatot addig végezzük, amíg az adataink el nem fogynak.

Az analitikus trendszámítás a regressziószámításra épül, de az idősorok jellemzőiből
következően lehetőségünk van bizonyos egyszerűsítésekre. A lineáris trendszámítás
során az
t b b y
t
* ˆ
1 0
+ =


egyenes egyenletét kell meghatározni. Az egyenlet paramétereinek meghatározása
118
n
y
b
n
t
t

=
=
1
0



=
=
=
n
t
n
t
t
t
y t
b
1
2
1
1
*


Az idősor értékeinek transzformálásával nem lineáris trendfüggvényeket is
meghatározhatunk, amelyek közül a következőket szokták használni:
• exponenciális trend,
• parabolikus trend,
• logisztikus trend.

Az előzőekben említett számításokon túl az idősorok elemzésében az utóbbi
évtizedekben jelentős mértékben megnőtt az autoregresszív és mozgóátlag-
folyamatok jelentősége (ARMA). A gyakorlatban előforduló, stacionárius viselkedést
mutató, véletlen folyamatok jól közelíthetők az ARMA folyamatokkal. Az ARMA
paraméterek meghatározását, vagyis az illesztést empirikus idősorok alapján
végezzük.

Az R rendszer ’stat’ csomagja több függvénnyel is rendelkezik az idősorokkal
kapcsolatos számításokhoz, illetve idősorok ábrázolásához. Például, az ’stl’
függvénnyel trend és szezonális komponensekbe transzformálhatjuk az idősort, az
’ar’ függvénnyel autoregresszív modelleket hozhatunk létre, az ’arima0’
függvénnyel pedig autoregresszív modellekbe integrált mozgóátlagokkal
végezhetünk számításokat. Az ’nlme’ csomag ’gls’ függvényével pedig viszonylag
komplex modelleket illeszthetünk.

A rendelkezésre álló modellek közül – terjedelmi korlátok miatt – csak az ’stl’
függvény néhány lehetőségét mutatom be.

> plot(stl(nottem, "per")) 55. ábra
> plot(stl(nottem, s.win = 4, t.win = 50, t.jump = 1)) 56. ábra
> plot(stllc <- stl(log(co2), s.window=21)) 57. ábra
> summary(stllc) 58. ábra
119


55. ábra
Az adatok tendenciája simítás nélkül




56. ábra
Az adatok tendenciája simítással
120


57. ábra
Adatok logaritmusának a simítása




58. ábra
Az idősor simítás eredménye
121
Ellenőrző kérdések:
1. Mit vizsgálunk a korrelációszámítással?
2. Mire használható a regressziószámítás?
3. Milyen következtetésekre juthatunk a regresszión elvégzett F-próba
által?
4. Milyen következtetésekre juthatunk a regressziós együtthatókon
elvégzett t-próbák által?
5. Milyen típusai vannak az idősorok elemzésének?
6. Mi az idősorelemzés lényege?
122
6. Többvál tozós stati szti kai módszerek

Az elemezni kívánt jelenségek többségénél nem lehet az összefüggéseket egyetlen
tulajdonság, megfigyelési változó segítségével leírni, és sokszor a megfigyelt
tulajdonságok mögött rejlő közös okváltozók, háttérváltozók érdekelnek bennünket.
A komplex háttérváltozók felderítéséhez megfelelő többváltozós statisztikai
eszközökre van szükségünk. A többváltozós módszerek alkalmazásának lehetőségét
alapvetően az elmúlt évtized hatalmas mértékű számítástechnikai fejlődése tette
lehetővé, mert a módszerek már régen rendelkezésre álltak, csak a számítások
elvégzése jelentett problémát a megfelelő eszköz hiányában.

A rendelkezésre álló többváltozós statisztikai módszerek közül csak a
legfontosabbakat tárgyaljuk, és azoknak is csak az alapjait. A bemutatott módszerek
mindegyike nagyon sok olyan lehetőséggel rendelkezik, ami a terjedelmi korlátok
miatt itt nem mutatható be.


6.1. Faktor- és főkomponensanalízis

Olyan statisztikai eljárás, melynek elsődleges célja az adatcsökkentés és –összegzés.
Gyakran nagyszámú változóval dolgozunk, amelyek egymással korrelálnak. Ezek
számát a kezelhetőség érdekében csökkenteni kell. Az elemzés során az egymással
kölcsönösen összefüggő változók közötti kapcsolatokat vizsgálunk, és ezeket néhány
magyarázó főkomponens/faktor alapján jelenítjük meg.

A faktoranalízis egy matematikai elemzési koncepció valamely többváltozós
összefüggésrendszer háttérváltozóinak a feltárására. A tudományos kutatásban a
jelenségkomplexumok mögötti háttérváltozók felismerése, azok számának a
meghatározása és számszerű kifejezése hozza a leglényegesebb előrehaladást.

A háttérváltozók feltárást nehezíti, hogy egy-egy háttérváltozó feltehetően csak több
megfigyelési változóval tudunk jellemezni, másrészt több háttérváltozó
befolyásolhatja ugyanazt a megfigyelési változót.
123
A megoldáshoz nagyon kevés támpontunk van:
1. A megfigyelési változókból kell visszakövetkeztetnünk a háttérváltozókra.
2. A megfigyelési változók többé-kevésbé korrelálnak egymással, korrelációs
rendszert képeznek, amelyet matematikailag a korrelációs koefficiensekkel,
illetve az azokat összefoglaló korrelációs mátrixszal fejezünk ki.
3. Legfeljebb annyi háttérváltozót feltételezünk, ahány megfigyelési változónk
van, de általában az várható, hogy a háttérváltozók száma kisebb.

A háttérváltozók feltárása szempontjából a kiindulási alap mindig a megfigyelési
változók korrelációs mátrixa. Ha valamelyik megfigyelési változó egyetlen más
változóval sem korrelál, akkor feltételezhető, hogy saját, önálló háttérváltozó idézi
elő a rajta megfigyelt jelenséget. Ha két vagy több megfigyelési változó között
szoros korreláció van, akkor egy közös háttérváltozót feltételezhetünk.

A faktorok nem korrelálnak egymással. Ugyanis, amíg korrelálnak, addig van közös
részük, tehát tovább faktorizálhatók. Arra is van azonban lehetőség, hogy egymással
korreláló faktorokat hozzunk létre, sőt a korreláció mértékét meg is határozzuk. Ezt
az eljárást nevezik ferdeszögű forgatásnak, rotációnak.

Valamely X megfigyelési változó modellje a faktoranalízisben


ie i im im iq iq iII iII iI iI i
F e F b F a F a F a X + + + + + + = * ... * ... * *

ahol

i
X - az i-edik standardizált megfigyelési változó,
F - a standardizált faktorváltozó (analóg a főkomponensanalízis
standardizált C főkomponens változójával)
a – a közös faktorok súlya (közös faktor, amelyik több megfigyelési változót
befolyásol)
b – az egyedi faktorok súlya (egyedi faktor, amelyik csak egy megfigyelési
változót befolyásol)
e – a hibafaktor súlya (hibafaktor, amelyik származhat mérési
pontatlanságból, a korrelációs együtthatók becslési hibájából)
124
Az alapkérdés az, hogy az X megfigyelési változó varianciáját milyen mértékben
befolyásolják a közös faktorok, az egyedi faktor és a hiba. A befolyásolás mértékét a
faktorsúlyok négyzetei fejezik ki


=
+ + =
q
j
i im ij i
e b a s
1
2 2 2
2


ahol
i – az X megfigyelési változó általános indexe,
q – a közös faktorok száma,

=
q
j
ij
a
1
2
- a közös faktorok súlyainak négyzetösszege, amit kommunalitásnak
neveznek (h
2
).

A főkomponens analízis a többváltozós statisztikai módszerek közül az egyik
legfontosabbnak tekinthető. Ezen a módszeren keresztül lehet világosan megérteni és
követni mindazokat a többváltozós módszereket, amelyek a sajátértékszámításra
épülnek. A főkomponens analízis alkalmazási lehetőségei közül, a
legfontosabbaknak talán a következők tekinthetők:
• A vizsgált ismérvek (változók) csoportosítása az egymás közötti
korrelációjuk, kapcsolatuk szorossága alapján. Felismerhetővé válnak az
összetartozó változók, lehetővé válik csoportok képzése.
• A változók számának a csökkentése, változócsoportokhoz háttérváltozók
(közös okváltozók) rendelése által.
• Változók csoportosítása és a csoportok grafikus ábrázolása.

Az előzőekből már látható, hogy a főkomponens analízis lényege, hogy az eredeti
változókat korrelációjuk alapján főkomponensekbe vonjuk össze, és ezáltal a sok
megfigyelési változóból kevesebb főkomponens keletkezik. A lényeg az, hogy
jelentős mértékben csökkenteni tudjuk az eredeti változó számot. A csökkentésnek
igazán akkor van értelme, ha a kapott főkomponenseknek valamilyen közös
elnevezést tudunk adni. Az előzőek figyelembe vételével jól alkalmazható a
125
főkomponens analízis a többváltozós regresszióanalízis helyett vagy annak
kiegészítéseként.

A változók számának csökkentése során az is kiderül, hogy melyek a jelentéktelen
változó, azaz mely változóknak kicsi a magyarázó ereje a függő (eredmény) változó
vonatkozásában.

A főkomponensek kiszámításának lépései:
1. Az ismérvértékek standardizálása. A standardizált értékek jellemzője, hogy
átlaguk 0, szórásuk pedig 1. A standardizálás egyik célja a mértékegységek
kiküszöbölése, hogy eltérő mértékegységű ismérvek is összehasonlíthatók
legyenek.
2. A standardizált változókból a főkomponens változók (C
j
) kiszámítása


=
= + + + + + =
p
i
i ij n nj i ij j j j
X u X u X u X u X u C
1
2 2 1 1
* * ... * ... * *
ahol
Cj – a főkomponensek, főkomponensváltozók
X
i
– a standardizált ismérvértékek
u
ij
– a főkomponens koefficiensek
p – az ismérvek száma

Az u
ij
koefficienseket a standardizált X változók kovariancia mátrixából számoljuk
ki, és ennek a j-edik sajátértékéhez, a λ
i
-hez tartozó u
j
sajátvektor elemei az u
ij

együtthatók.
a. Minden szimmetrikus mátrix átalakítható olyan diagonális mátrixszá,
amelyben a főátló összege egyenlő az eredeti mátrix főátlójának az
összegével, továbbá a főátló elemei csökkenő nagyságba rendeződnek,
függetlenül az eredeti mátrix sorainak sorrendjétől. Egy adott mátrixra csak
egyetlen ilyen megoldás létezik, ha egyáltalán van megoldás. Ezt az
átalakítást végezzük el a sajátérték számítással. Az új mátrix főátlójában
balról jobbra csökkenő sorrendben az eredeti mátrix ún. sajátértékei
(karakterisztikus értékei) állnak.
126
b. A sajátértékkel meghatároztuk az új mesterséges C változók varianciáit.
Ezután meg kell határoznunk az u
ij
együtthatókat, hogy az eredeti
változókból (X) kiszámíthassuk a mesterséges változókat (főkomponenseket)
(C). Az u
ij
együtthatók egyenletenként más és más vektorokat képeznek (u
I
).
A vektorok meghatározása a sajátvektor számítással történik. Egy adott p
rangú, szimmetrikus A mátrixhoz p számú λ sajátérték, és minden
sajátértékhez egyetlen u
j
sajátvektor tartozik.

A faktoranalízis általánosabban alkalmazott matematikai módszer, mint a
főkomponens analízis. Két módszerben sok közös vonás is van. Az eltérés – ami nem
lényegtelen – mindössze annyi, hogy a főkomponensanalízisben a korrelációs mátrix
főátlójában 1 szerepel, míg a faktoranalízis esetén a kommunalitások.


30. feladat
Egy élelmiszeripari laboratóriumban 14 búzafajtát vizsgáltak meg, és a búzák négy
minőségi tulajdonságát mérték. Vizsgáljuk meg a tulajdonságok
összefüggésrendszerét főkomponensanalízissel.

A vizsgálatot az R rendszerben végeztük el a ’prcomp’ főkomponenselemző
eljárással (stats package).

> búza = read.table("g://a//buzafaktor.txt", header=TRUE)
> prcomp(búza[,2:5], scale = TRUE)
> summary(fokomp)
> fokomp$x
> fokomp$scale
> fokomp$center
> plot(fokomp, main ="Búzafajták értékelése" )

A főkomponenselemzés eredménye az 59. ábrán látható. Az első számítás során
megkaptuk a főkomponens együtthatók mátrixát. A második számítás során arra
kapunk választ, hogy milyen mértékben részesednek az egyes főkomponensek az
127
összvarianciából. Az a főkomponenselemzés módszeréből következik, hogy mindig
az első komponens részesedik a legnagyobb mértékben a varianciából és így tovább.
A harmadik és a negyedik utasítás az eredeti értékek átlagát és szórását írja ki (a
főkomponenselemzés a regressziószámításhoz hasonlóan objektum orientált eljárás).



59. ábra
A főkomponenselemzés eredménye

A 60. ábrán a főkomponensváltozók értékei szerepelnek, amelyeknek az a
jellemzőjük, hogy az átlaguk nulla, a szórásuk pedig egyenlő a sajátértékeikkel. A
61. ábrán az egyes főkomponenssúlyokat a 62. ábrán pedig a főkomponensek
elhelyezkedését ábrázoltuk.

A faktoranalízis a főkomponensanalízishez hasonlóan számítható és hasonló ábrák,
értékek jeleníthetők meg. Az R rendszerben több függvény is van a faktoranalízis
elvégzésére, pl.: rfa, factorMineR.

128


60. ábra
A főkomponenselemzés főkomponensváltozói





61. ábra
A főkomponensek súlyainak ábrázolása
129


62. ábra
A főkomponensek elhelyezkedése


6.2. Diszkriminanciaanalízis

A diszkriminanciaanalízis olyan adatelemzési módszer, amelyet kategóriába tartozás
előrejelzésére lehet használni, és amelynél a kritériumváltozó kategorizált és a becslő
változók intervallumskálák.

A diszkriminanciaanalízis két csoport (pl.: A és B) szétválasztására alkalmas
módszer, több kvantitatív változó együttes figyelembevétele alapján. A módszer
kiindulási alapja, hogy minden megfigyelt egyedet megadott szempontok alapján
előre egy meghatározott csoportba soroltunk. A diszkriminanciaanalízis a korábban
már tárgyalt többváltozós regresszióanalízishez nagyon hasonló módszer, ahol
azonban a függő változó nem kvantitatív, hanem egy kvalitatív tulajdonság két
változata. A módszer segítségével a következő kérdésekre adhatunk választ:
130
• Egynél több kvantitatív tulajdonság együttes figyelembevételével
kimutatható-e szignifikáns különbség a két csoport között.
• Az megfigyelési egységeknek a két csoportba történt eredeti besorolásának
helyességét kvantitatív változók alapján ellenőrizzük, vagy reprodukáljuk.
• Keresünk egy függvényt, amely segítségével eldönthető, hogy egy további
megfigyelt egyed melyik csoportba sorolandó.
• Minden egyes egyedet több tulajdonság együttes figyelembevételével
számszerű értékkel kívánunk jellemezni.
• A két csoportra középértékeket számíthatunk ki, amelyek segítségével
számszerűsíteni tudjuk a két csoport közötti különbséget.
• Megvizsgálhatjuk, hogy a két csoport különbsége mennyire függ az egyes
tulajdonságoktól.

A diszkriminanciaanalízisben minden megfigyelési egységre, függetlenül egy adott
csoportba tartozásától, egy közös diszkriminanciaegyenlettel egyedi Z értéket,
diszkriminanciaváltozót számítunk ki. Az egyenlet

1 2 2 1 1
... ... X w X w X w X w Z
p i i
+ + + + + =

ahol
w
i
a diszkriminancia együtthatókat
X
i
a standardizált megfigyelési változókat jelenti

Néha előnyösebb lehet, ha az eredeti értékekkel számítjuk ki a fenti összefüggést, a Z
értéket. Erre alapvetően akkor van szükség, ha utólag újabb megfigyelési egységről
akarjuk eldönteni, hogy az egyik vagy a másik csoportba tartozik-e, mert ilyenkor a
megfigyelt értékkel kell a számítást végeznünk. A Z érték ebben az esetben is
ugyanaz marad.

A diszkriminanciaanalízis az R rendszerben az ’lda’ függvénnyel végezhető el.


131
6.3. Klaszterelemzés

A klaszterelemzés célja az, hogy a bevont változók szerint adott (k) számú homogén
csoportot különíthessünk el. A klaszteranalízis összefüggések halmazát vizsgálja,
nem tesz különbséget függő és független változó között, hanem a változók halmazán
belüli kölcsönös összefüggéseket vizsgálja. Elsődleges célja, hogy a megfigyelési
egységeket relatíve homogén csoportokba rendezze a kiválasztott változók alapján.
Az adott csoportba tartozó megfigyelési egységek viszonylag hasonlítanak egymásra,
de különböznek más csoportok tagjaitól.

A klaszterelemzés és a diszkriminanciaanalízis is csoportosítással foglalkozik. A
diszkriminanciaanalízis megköveteli a klaszterekbe tartozás előzetes ismeretét, s ez
alapján kialakít egy csoportosító szabályt. Ezzel szemben a klaszterelemzésnél nem
rendelkezünk előzetes ismerettel, a csoportok az adatok alapján alakulnak ki. A
módszer nagyon hasznos lehet például a marketing területén, hiszen ha tudjuk, hogy
a vásárlók fejében mely termékek alkotnak egy klasztert, akkor a szupermarketekben
az áruk megfelelő egymás mellé helyezésével jelentős extraprofitra lehet szert tenni.

A klaszterelemzés elvégzésére az R rendszer több lehetőséget is biztosít, mint pl.:
mclust, flexclust.



Ellenőrző kérdések:
1. Mi a faktor- és a főkomponensanalízis lényege?
2. Miben különbözik a faktor- és a főkomponens analízis?
3. Mire használható a diszkriminanciaanalízis?
4. Mi a klaszterelemzés lényege?
132
Irodal omjegyzék

1. Hunyadi L.-Mundruczó Gy.-Vita L.: Statisztika, Aula Kiadó, Budapest, 2000.
2. Kovalcsikné Pintér O.: Az Excel függvényei A-tól Z-ig, Computerbooks,
Budapest, 2004.
3. Köves P.-Párniczky G.: Általános statisztika, Közgazdasági és Jogi
Könyvkiadó, Budapest, 1975.
4. Reidmacher, H.P.: Excel közgazdászoknak: gazdasági feladatok megoldása,
Aula Kiadó, Budapest, 2000.
5. Sváb J.: Többváltozós módszerek a biometriában, Mezőgazdasági Kiadó,
1979.
6. Venables, W.N.-Smith, D.M.: An Introduction to R, 2005, [cran.r-
project.org/doc/manuals/R-intro.pdf]
7. Verzani, J.: SimpleR – Using R for Introductory Statistics, 2001, [cran.r-
project.org/doc/contrib/Verzani-SimpleR.pdf]
8. Vincze I.: Matematikai statisztika ipari alkalmazásokkal, Műszaki
Könyvkiadó, Budapest, 1975.
9. Zoonekynd, V.: Statistics with R, 2005, [http://zoonek2.free.fr/UNIX/48_R/
all.html]

Tartalomjegyzék
Bevezetés ....................................................................................................................................1 1. A statisztikai adatfeldolgozás és annak számítógépes támogatási lehet ségei ................3 1.1. Az adatfeldolgozás szakaszai és jellemz i ....................................................... 4 1.2. Az adatfeldolgozást támogató számítógépes programok.................................. 7 1.3. Az MS Excel alkalmazása statisztikai adatfeldolgozásban .............................. 8 1.4. Az R statisztikai programnyelv alkalmazása statisztikai adatfeldolgozásban 12 2. F bb eloszlástípusok és ábrázolási lehet ségek................................................................21 2.1. Egyenletes eloszlás ......................................................................................... 22 2.2. Binomiális eloszlás (Bernoulli eloszlás) ......................................................... 25 2.3. Poisson-eloszlás .............................................................................................. 28 2.4. Exponenciális eloszlás .................................................................................... 30 2.5. Normális eloszlás ............................................................................................ 33 2.6. Ábrázolási lehet ségek ................................................................................... 37 2.6.1. Hisztogramok ........................................................................................... 39 2.6.2. Pont-, vonal-, oszlop- és kördiagramok ................................................... 43 2.6.3. Boxplot ábrázolás .................................................................................... 49 2.6.4. Páronkénti ábrázolás ................................................................................ 54 2.6.5. Egyéb ábrázolási technikák ..................................................................... 56 3. Alapstatisztikák ...................................................................................................................62 3.1. Helyzeti és számított középértékek................................................................. 62 3.1.1. Számtani átlag .......................................................................................... 62 3.1.2. Harmonikus átlag ..................................................................................... 64 3.1.3. Mértani átlag ............................................................................................ 65 3.1.4. Négyzetes átlag ........................................................................................ 65 3.1.5. Módusz..................................................................................................... 66 3.1.6. Medián ..................................................................................................... 66 3.1.7. Kvantilisek ............................................................................................... 67 3.2. A szóródás és mér számai .............................................................................. 68 3.3. A ferdeség (skewness) és a csúcsosság (kurtosis) .......................................... 69 3.4. A középértékek és a szóródás kiszámításának lehet ségei az Excelben és az R rendszerben ............................................................................................................ 71 3.5. Hipotézistesztelés, alapvet paraméteres és nem-paraméteres statisztikai próbák .................................................................................................................... 78 3.5.1. A hipotézisvizsgálat menete .................................................................... 78 3.5.2. u-próba ..................................................................................................... 79 3.5.3. t-próba ...................................................................................................... 81 3.5.4. F-próba ..................................................................................................... 84 3.5.5. χ2-próba .................................................................................................... 85 4. Mintavételezés, varianciaanalízis ......................................................................................90 4.1. Mintavételi eljárások....................................................................................... 90 4.2. A varianciaanalízis .......................................................................................... 92 4.2.1. Egytényez s varianciaanalízis ................................................................. 92 4.2.2. Kéttényez s varianciaanalízis .................................................................. 98

I

................... Faktor................ 117 6............................ Kétváltozós lineáris regresszió ...... 103 5....................................... 105 5.. Klaszterelemzés ....... 122 6.................. Diszkriminanciaanalízis .............................. 132 II ........................ 131 Irodalomjegyzék ................................................................... Korrelációszámítás ........................................................ Korreláció és regressziószámítás ......................................................... 129 6....................................................... 103 5.......2.. Id sorok elemzése .............. Többváltozós statisztikai módszerek .............................. 113 5...................................5........................................................ 122 6.1.........................2.............................3...2........... Többváltozós lineáris regresszió ..............................................1............................................................... Regressziószámítás ....................és f komponensanalízis .............................................2.....2.......................................... 105 5..................1........................3.............................

a lényeg megállapítását. mert az esetek többségében erre megvan a lehet ség. Az elmúlt néhány évtized alatt a számítástechnika mind a hardver. vagy inkább már a globalizálódott gazdaságban az er söd verseny egyre inkább el térbe helyezi a gyors és min ségi vezet i döntéshozatal jelent ségét. hogy a számítógép a felhasználó által könnyen kezelhet módon. Az elemzés. mind a szoftver vonatkozásában hatalmas fejl désen ment keresztül. a lehet legmagasabb szint támogatást tudja nyújtani. A társadalmi és a gazdasági folyamatok felgyorsulása és a reakcióid lecsökkenése miatt a döntési folyamatra kevesebb id maradt. ami azt is megköveteli. mint irányítási funkció komplex és rendszeres tevékenységnek tekinthet . számítástechnikai és informatikai intelligencia 1 . A számítógépes rendszerek csak megfelel számítógépes és szakmai intelligenciával m ködtethet k. valamint a jelenségek és folyamatok ok-okozati kapcsolatainak tisztázását. Magában foglalja a megfigyelések eredményeinek rendszerezését. elengedhetetlenül szükség van elemzések végzésére. hogy a szakmai képzés elengedhetetlen részének kell lennie az alapvet megszerzésének. A társadalom és a gazdaság szinte minden területén. Ilyen környezetben még inkább növekszik az igény vezet i döntéshozatal számítógépes támogatására. hogyan oldható meg a probléma úgy. hogy meg lehet-e oldani az adott problémát számítógéppel. Ma már inkább azt a kérdést kell el térbe helyezni. az ellentmondások és a fejl dési tendenciák feltárását. a döntések megfelel szint támogatásához. Nagyobb vállalatok esetében ma már elképzelhetetlen. hogy megalapozott döntéseket lehessen hozni megfelel számítógépes rendszerek igénybevétele nélkül. A globalizálódó. ugyanakkor a megoldandó problémák bonyolultsága és a döntéshez felhasználandó információ mennyisége megnövekedett. Ma már általában nem az a kérdés.Bevezetés A társadalmi jelenségek és folyamatok elemzése az objektív valóság megfigyelésén és megértésén alapszik.

mert a számítások elvégzése után komoly feladatot jelent a kapott eredmények értelmezése. klaszter. a statisztikai módszerekkel foglalkozunk. A bonyolultabb módszerek (pl. a számításokat támogató program áll rendelkezésre. mint elemzési módszerekkel. hogy inkább a gyakorlati szempontokat megkövetelte alaposságot azonban sohasem szabad figyelmen kívül hagyni. és az elemzésnél. mintha nem is létezne. A könyvben. Azt is tudomásul kell vennünk. A statisztikai módszertan megismerése hozzájárulhat az egyes számítási eljárások pontosabb használatához. hogy sok könnyen használható. faktor-. a jelenségek ok-okozati kapcsolatainak megmagyarázását.Ma már egyre több elemzési lehet séget biztosító szoftver áll rendelkezésre és az elmúlt évtizedekben az elemzési módszerek is hatalmas mértékben fejl dtek. ugyanakkor a vizsgált jelenség természetének megfelel módszer és eljárás kiválasztásával és egzakt alkalmazásával a probléma nagyrészt kezelhet . A bizonytalansággal szembenézni természetesen nem mindig könny dolog. ha sikerül megtalálni a megfelel módszert és az alkalmazásánál körültekint en. a statisztika szabályainak megfelel en járunk el. Tisztában kell lennünk azzal is. hogy a különböz részesítsük el nyben a módszertani eleganciával statisztikai módszereket szemben. hogy a társadalmi és gazdasági jelenségek statisztikai vizsgálata a nem teljes információjú döntések kategóriájába tartozik. ami azt jelenti.és diszkriminancia-elemzés) lehet vé tehetik új összefüggések feltárását megismerését. a gyakorlatban is jól interpretálhatók. valamint a kapott eredmények felhasználásánál err l sohasem szabad megfeledkezni. f komponens-. 2 . és megkönnyíti a kapott eredmények jobb értelmezését. A módszerek alkalmazva arra kell törekednünk. hogy a realitások világa a korlátozások világa. A statisztikai módszerekkel megalapozott döntések azonban csak akkor lesznek helyesek. A statisztika módszertanával minden elemzést végz nek annak ellenére tisztában kell lennie. illetve új megvilágításba helyezhetnek már feltárt kapcsolatokat. és ezért néha úgy teszünk.

az információ és a statisztikai feldolgozás fogalmakat. Az el z ek alapján az információ tehát adott felhasználási célból rendszerezett és feldolgozott adatot jelent. amelyek numerikus adatokból kívánnak 3 . A mindennapokban egyre több új és reagálásra késztet problémával szembesülünk. az adatok döntéshozatalhoz szükséges információvá alakítására. méghozzá általában nem is egy számként . A statisztika az információ el állításához és bemutatásához biztosít általános módszereket. s a legtöbbször számként jelenik meg.természetesen . mint bármikor ezel tt. a vállalatok és a társadalom széles rétegei több információt igényelnek. Az adatok megfigyeléseket vagy tényeket jelentenek. arra utal. ezek törvényeivel foglalkozik. és a kapott információ megfelel formában történ bemutatására. amelyet állapotnak és államnak is fordíthatunk. megfigyelés.a valós világra vonatkozó . A statisztika általában numerikus adatokkal dolgozik. vizsgálat eredményeként adódik. hogy a statisztika tárgya mindig valamilyen állapot leírására szolgál. Ez az igény helyez különös hangsúlyt az adatgy jtésre és az összegy jtött adatok feldolgozására. majd tudássá. de annál kicsit sz kebbek. Ahogy matematikai statisztikai könyvek gyakran fogalmaznak: a statisztika a véletlen tömegjelenségekkel. A kormányok. Az ebbe a körbe tartozó adatok . rendszerezve és kiértékelve válnak információvá. A statisztikai adatfeldolgozás és annak számítógépes támogatási lehet ségei A statisztika latin eredet .hanem több adatként. amely már közvetlenül felhasználható a döntéshozatalban. hogy megfelel segítséget kapjanak a problémák megoldásához szükséges döntések meghozatalához.1.kielégítik az informatika általános adatfogalmát.kísérlet. és többnyire azokon a tudományterületeken használható. hogy a statisztika által használt adatfogalom mindig valamilyen . Miel tt a fenti tevékenységekkel foglalkoznánk célszer megérteni az adat. amelyek összegy jtve. a "status" szóból származik. Azt mondhatjuk.

és az igényeknek megfelel en bemutatjuk. hogy adatot gy jtünk megadott jellemz k vonatkozásában egy megadott csoport vagy populáció minden egyes tagjára vonatkozóan. és ha rendszerezzük. Mindhárom adatgy jtési módnak vannak el nyei és hátrányai. Az összeírás azt jelenti. Az adatmennyiség növekedésével a feldolgozási folyamat egyre hosszabbá válik. hátránya a pontosságban és a részletességben bekövetkez veszteség. Napjaink felgyorsult világa. mert nekik vagy valaki másnak a döntéshozatalhoz információra van szüksége. A módszer kiválasztása több tényez t l is függhet. hogy a teljes csoport vagy populáció helyett. A folyamat. El nye a pontosság és a részletesség. megfelel teljesítmény számítógépekkel és a feldolgozást magas szinten támogató programokkal jelent s mértékben lerövidíthet . amely lépések alkotják az adatfeldolgozási folyamatot. hátránya a magas költség és id igény. Az adatgy jtésnek általában három f formáját szoktuk megkülönböztetni: összeírás. akkor válik információvá. Az adminisztráció útján történ adatgy jtés a szervezet napi tevékenysége során összegy jtött adatokat értjük.információt el állítani. Az adat információvá válása több lépésen keresztül megy végbe. önállóan és egymással összehasonlítva is. El nye a pontosság. mintavétel és adminisztráció útján. 1. és egyre bonyolultabb módszereket igényelhet. hátránya a rugalmatlanság és a küls kontroll hiánya. A statisztika tehát hasznos információt állít el többnyire számok felhasználásával. annak valamilyen szempont szerint kiválasztott részér l szerzünk be adatokat a megadott jellemz k vonatkozásában. egyszer ség és az id soros adat el állás. Az adatgy jtés ebben az esetben szorosan kapcsolódik a szervezet tevékenységéhez. A mintavétel azt jelenti. El nye a gyorsabb és olcsóbb adatgy jtés. és az ehhez társuló lerövidült 4 .1. Az adat feldolgozatlan tény. Az adatfeldolgozás szakaszai és jellemz i A vállalatok és a magánszemélyek adatokat gy jtenek.

Az adatok számítógépes feldolgozása – az összegy jtött adattömeg milyenségének függvényében . az adatokban meglév problémák kiküszöbölését. hogy a nyers adatok számítógépre vitelét és számítógépes feldolgozását könnyebbé tegyük. érvénytelensége. az adatrekordok valamilyen szempontok szerinti rendezését. hogy milyen számításokra van szükségünk. Az adatok szerkesztése és rendszerezése jelentheti az adatok ellen rzését. A kódolás jelentheti a megfelel azonosítókkal történ ellátást. más adatbázisokból történ kinyerését és adathordozókon a feldolgozó programok által igényelt tárolását.reakcióid feltétlenül szükségessé teszi az adatfeldolgozás megfelel technikai és módszertani támogatását. Minden esetben azt kell 5 . az igényelt output el állítása. illetve milyen outputot szeretnénk el állítani. kérd ívek feldolgozása). szükségessé válhat az adatok kódolása. az adatokon elvégzett m veletek.a következ fázisokat foglalhatja magában: • • • • az adatok kódolása. A megfelel formában tárolt adatok könnyebbé és formában történ gyorsabbá teszik az adatokon elvégzend manipulációkat. rendszerezése. vagy a rendezéshez szükséges információk megadását. A kódolásra azért lehet szükség. az adatokhoz egységes jellemz k rendelését vagy akár a nem numerikus adatok numerikussá tételét is (pl. hiányossága az eredmények interpretálási hatékonyságát fogja rontani. Az adatok rögzítése jelentheti az adatok számítógépbe vitelét. Miel tt az adatokat a számítógépbe bevinnénk. Az adatfeldolgozási folyamat utolsó lépése a szükséges adatmanipulációk. A szerkesztés és rendszerezés gyorsabbá tehet speciális számítógépes programok segítségével. illetve számítások elvégzése. az adatok rögzítése. Az adatmanipulációhoz szükséges program kiválasztása annak függvénye. az adatok szerkesztése. Az adatok pontatlansága.

amikor nem kapcsolódik hozz á számérték (pl. mint a mérési adatok. hogy az adott program milyen típusú outputok el állítására képes. mint a megállapításokkal (kategóriákkal). hogy a programmal olyan információkat biztosítsunk. Ennek oka egyszer : nyilvánvaló. ami a valós világ egy bizonyos objektuma (illetve annak része) és egy szám között áll fenn. Figyelembe véve azt is. Fontos szempont lehet az is. a mérés fogalmát általánosíthatjuk: a mérhet adatok tehát egy olyan skálán helyezkednek el. hogy azok a döntéshozatalhoz a lehet legkönnyebben felhasználhatóak legyenek. hogy számokkal sokkal egyszer bb m veleteket végezni. hogy az outputot tárolni kell és kés bb más programmal továbbfeldolgozást kell végezni rajta. Amennyiben az adatunk valamilyen mérés termékeként keletkezik. Amennyiben az adatok között hierarchiát értelmezünk. vagy szükség lehet olyan outputra.nem más. hogy a megállapítható adatok alacsonyabb rend ek. amely lehet vé teszi az információk megfelel történ továbbítását vagy nyilvánosságra hozatalát (pl. amelyet hasonlónak tekinthetünk valamilyen mér m szer skálájához. A vizsgálat jellege szerint a statisztika adatainak két nagy fajtáját különböztetjük meg: a mérhet és a megállapítható adatokat. formában 6 . ami meghatározhatja. az ellenkez lehet ség azonban nem áll fenn. hogy mely feldolgozó programok vehet k számításba. Ide tartoznak az "igen . Az el z ek figyelembe vételével használhatunk egyszer bb és bonyolultabb programokat is. A megállapításban szerepl kategóriákhoz tartozhat számérték.: egy adott személy neme). El fordulhat. A mérés általánosítva . akkor mérhet adatról beszélhetünk. Kisebb adatmennyiség és egyszer bb módszerek esetén jó szolgálatot tehetnek a táblázatkezel programok. Az egész adatfeldolgozást a döntéshozatal alá kell rendelni. de olyan eset is lehetséges. hogy nem minden jelenség mérhet megfelel szabatossággal. ha a mérés szerepét egy megállapítás veszi át.nem"-mel megválaszolható kérdések is. internet). Ráadásul a mérhet adatok mindig átalakíthatóak megállapíthatókká. Megállapítható adatokhoz úgy juthatunk.figyelembe venni. Nagy adatmennyiség feldolgozása esetén szükség lehet az adatok adatbázisban történ tárolására is. akkor belátható. mint egy hozzárendelés. de nagyobb adattömegek és bonyolultabb számítások esetén célprogramokat célszer használni.

A legkönnyebben hozzáférhet program a Microsoft Excel táblázatkezel programja.1. köztük például a Ingyenes programok • • • • • • • • MicrOsiris Scilab OpenStat R Gnumeric Octave ViSta WinIDAMS Kereskedelmi forgalomban beszerezhet programok • • • • • • • Minitab SAS S-plus SPSS STATGRAPHICS Plus STATISTICA XPlore A programok között felsorolásra került a SAS Institute rendszere is. A felhasznált számítógépes rendszerek egyre szélesebb szolgáltatásokat nyújtanak a felhasználóknak. és az áruk is egyre magasabb lesz. Sok statisztikai elemz következ k: program is létezik. Az adatfeldolgozást támogató számítógépes programok A vállalkozások napjainkban a kiélezett verseny követelményeinek csak számítógépes adatfeldolgozással tudnak megfelelni. amely része a Microsoft Windows Office-nak. de az egész rendszer valójában egy integrált 7 . amelyek használata rövid id alatt elsajátítható és a használatuk is viszonylag egyszer .2. és a használt programot megfelel szinten használni képes felhasználókat igényel. így szinte minden számítógépen hozzáférhet . Napjainkban nagyon sok statisztikai számításokra alkalmas program létezik. Azt is látnunk kell. Ezen rendszerek használata ugyanakkor a számítástechnikát. a táblázatkezel programoktól az integrált statisztikai programrendszerekig. Általában olyan programokat célszer beszerezni. amely ugyan tartalmaz statisztikai alrendszert is. hogy az egyre többet tudó programok egyre bonyolultabbakká válnak.

A képletekben azonban hivatkozhatunk munkalap tartományokra is (vektor. és így egyszer bben részt vehetünk az üzleti folyamatokban. de a magas ára (és a rendszer viszonylagos bonyolultsága) nem teszi lehet vé. mert szinte minden operációs rendszeren m ködik. hogy az szerves része a számítástechnikai alapintelligenciának. és a munkafüzet összes alkotóeleme ellátható névvel. Az Excel egyszer bbé teszi a csoportmunkát. amelyek segítségével az adatokból információt nyerhetünk. 1. ingyenesen hozzáférhet és nagyon sok szolgáltatással rendelkezik. és ismerete az alapvet elvárások közé tartozik. A táblázatokat sorok és oszlopok alkotják. A munkalapok egy munkafüzetet alkotnak. 8 . amely nevekre a képletekben hivatkozni is lehet. valamint lehet vé teszi az adatok védelmét és az adatokhoz való hozzáférés szabályozását. A tananyaghoz kapcsolódó példák megoldásához két programot fogunk használni. ezért a számítógép használók széles köre számára biztosít különböz kommunikációs és megosztási szolgáltatásokat kínál. A második program pedig azért került kiválasztásra. Az MS Excel alkalmazása statisztikai adatfeldolgozásban A Microsoft Excel (továbbiakban: Excel) táblázatkezel számítási és jelentéskészítési lehet séget. mert azt gondoljuk. hogy a vállalkozások nagy száma használja ezt a rendszert. Ezen kívül használható a szabványos XML-formátum is. a táblázat cellái oszlopokba és sorokba rendez dnek. pontosabban fogalmazva a táblázatok celláiban (a sorok és az oszlopok keresztez dése). Ez a programrendszer nagyon széleskör szolgáltatásokat biztosít a felhasználók számára. amely tartalma egy önálló fájlba menthet . Az els programot azért választottuk.üzleti intelligencia rendszerként fogható fel. megtalálható. Az Excel szinte minden PC-n hatékony elemzési. Az Excel más hasonló táblázatkezel programokhoz hasonlóan az adatokat táblázatban (munkalapon). illetve más megközelítésben. mátrix). a másik az R statisztikai programnyelv.3. Az egyik a széles körben elérhet MS Excel táblázatkezel . A munkafüzet a fájl nevét kapja. mez iben tárolja.

kifejezésekben függvényeket is használhatunk. A képletek megadásához szükségünk van azok szintaxisának az ismeretére is. amely ugyanazon vagy más munkalapokon lév adatokat használ fel különböz számítások. A függvények begépelhet k a billenty zetr l vagy megadhatók az „fx” függvényvarázslóval is. mert különben hibát követhetünk el.és makrólapokon. Az Excel beépített függvényeivel a munka. A függvényargumentumok helyes megadása esetén. a gyakorta el forduló számításokat hajthatjuk végre. ábra). A szintaxis egy programnyelv használatára vonatkozó szabályok összessége. A függvényvarázsló táblázatos formában lehet séget biztosít a függvény argumentumainak (paramétereinek) a megadására. cella és tartomány (tömb) hivatkozások is. A függvények argumentumaként megadhatók konstans értékek. A függvények lehetnek beépítettek és saját fejlesztés ek. Az Excel beépített függvényei jól használhatók az üzleti élet különböz területein.A képlet egy olyan összefüggés (kifejezés). a függvényvarázsló alján (Érték:) megjelenik a számított érték is (1. A függvények segítségével egyszer és összetett számításokat is végezhetünk. Az Excel képletekben. és segítséget is biztosít az egyes paraméterek értelmezéséhez. Az Excel függvény csoportjai: • • • • • • • • • Adatbázis függvények Dátum és id függvények Küls függvények (a b vítménykezel segítségével tölthet k be) Mérnöki függvények Pénzügyi függvények Információs függvények Logikai függvények Keres és hivatkozási függvények Matematikai és trigonometriai függvények 9 . Az Excel több mint 300 beépített függvénnyel rendelkezik. A számítás folyamatát az Excelben a képletek szintaxisa szabja meg. A képletek begépelését az „=” vagy a „+” jellel kell kezdenünk. A függvényvarázsló gyorsabbá és kényelmesebbé teszi a függvények megadását és szerkesztését. m veletek elvégzéséhez.

Ha a függvény a képlet elején szerepel. A függvény leírásakor a karakterek sorrendjét (leírási szabályait) a függvény szintaxisának nevezzük. amelyeket a függvényeknek adunk a m veletek végrehajtásához. a függvény argumentumainak. a függvényb l visszakapott értékeket pedig eredménynek nevezzük. amely a képletben lév hibára hívja fel a figyelmet. Az összes függvényt azonos szabályok szerint kell leírni. ábra A függvényvarázsló használata Azokat az értékeket. az Excel hibaüzenetet jelenít meg. Ha nem tartjuk be az el írt szintaxist. A függvényeket a munkalap képleteiben használhatjuk.• • Statisztikai függvények Szöveg és adat függvények 1. akkor eléje egyenl ségjelet kell 10 .

azt beágyazott függvénynek nevezzük. logikai érték. és az Eszközök menü Adatelemzés almenüjében is találhatók különböz összetettebb statisztikai elemzési (modellezési) lehet ségek: • • • • • • • • • • • • • • • Egytényez s varianciaanalízis Kéttényez s varianciaanalízis ismétlésekkel és ismétlések nélkül Korreláció. A függvények egyik csoportja a statisztikai elemzésekhez biztosít különböz eljárásokat. Az argumentumok állandók vagy képletek is lehetnek. amely(ek) a számítások végrehajtásához nem feltétlenül szükségesek (opcionális argumentum). ami az argumentumban megkívánt típusú értéket adja. Az argumentum szám. hibaérték vagy hivatkozás lehet. Az argumentumokat a zárójelek között kell megadni.és kovariancia analízis Leíró statisztikák Exponenciális simítás Kétmintás F-próba a szórásnégyzetre Fourier-analízis Mozgóátlag Véletlenszám generálás Rangsor és százalékos rangsor Regresszió Mintavétel Kétmintás párosított t-próba a várható értékekre Kétmintás t-próba egyenl és nem-egyenl szórásnégyzeteknél Kétmintás z-próba a várható értékekre 11 . és sem el ttük. A zárójelek az argumentum sorozat kezdetét és végét jelzik az Excelnek. ebben szerepelhetnek további függvények is. tömb. azaz bármi. Ha egy függvény argumentuma maga is függvény. A zárójeleket párosával kell használni. Ha argumentumként képletet használunk. Több függvényhez megadhatunk olyan argumentumo(ka)t is.írni. szöveg. sem utánuk nem állhat szóköz. Az Excel képleteiben legfeljebb hét szint mélységig ágyazhatunk egymásba függvényeket.

szabad fejlesztés változata. függvények használatát. Az R statisztikai programnyelv alkalmazása statisztikai adatfeldolgozásban Az R statisztikai programnyelv az S-plus (Bell Laboratories) kereskedelmi forgalmazású statisztikai programnyelv ingyenes. ami nagymértékben megkönnyíti az egyes parancsok.) nem igényel programozási ismertet. Az elemzési lehet ségeken túl az Excel különböz lehet ségeket biztosít a billenty zeten keresztüli bevitelt l az adatbázisokból történ adat kinyerésig.statistiklabor. osztályozások.r-project. 12 . 1. beépített help (segítség) rendszerrel rendelkezik. klasszikus statisztikai tesztek. mégis nagyon sokféle feladat megoldására alkalmas.Az MS Excel el nye. stb. Az R rendszer könnyen b víthet .1 Az R nyelv szinte minden operációs rendszer alatt m ködik. illetve az elemzés eredményeit sokféle formában ábrázolhatjuk is. id sor elemzések. lényegében egy könnyen megtanulható és használható programnyelv is. 1 2 A program és az alapvet dokumentációk letölthet k a http://www. Fontos megjegyezni.de/en/ honlapról. illetve lehet ségünk van különböz táblázatokban történ megjelentetésükre is. Használata egyszer . JGR. amelyek lehet vé teszik a program elfogadható szint grafikus felületen történ használatát is (pl.4. ábra).org/ honlapról. de ma már léteznek olyan fejlesztések is. A nyelv alapváltozata párbeszédes üzemmódban script-ek megadásával használható (2. hogy lehet vé teszi különböz statisztikai feladatok megoldását. ha a rendelkezésre álló csomagok között nem találjuk a számunkra szükségeset. Mindezeken túl adatainkat. használata viszonylag könnyen adatbeviteli megtanulható és a táblázatos forma lehet vé teszi az adatok könny áttekintését és kezelését. hogy a statisztikai elemzések széles körének elvégzése (lineáris és nem-lineáris modellezés.: Rcmdr. A nyelv kiváló. Az R rendszer egy programnyelv és egy környezet statisztikai feladatok megoldására és ábrázolására. Statistical Lab2) (3. hogy könny hozzáférni. ábra). vagy a meglév k valamelyikét át szeretnénk alakítani. Az R amellett. A program letölthet a http://www. Programozásra csak akkor van szükség.

Az R nyelv alapértelmezésben minden megadott adatot vektornak tekint. Mivel a statisztikai elemzésben általában nem egyedi 13 .Az R környezet egy integrált szoftver eszköz adatmanipulációs. • magas szint . az adatelemzés grafikus megjelenítési lehet ségei képerny n. 2. amelyek magukban foglalják a következ ket: • • • • hatékony adatkezelési és tárolási lehet ség. tömbökön számításokat végz operátorok. integrált adatelemzési eszközök. ábra Az R nyelv script üzemmódú m ködési felülete Az R nyelv különböz adatstruktúrákon képes m veletet végezni. széleskör . A megadott változók is alapértelmezésben vektorok. és m veleteket is alapvet en vektorokkal végez. mégis egyszer és hatékony programozási nyelv. illetve web-es felületeken. koherens. nyomtatott formában. Az alap adatstruktúra a vektor. amely tartalmazza a hagyományos programozási elemeket is. számítási és grafikus megjelenítési lehet ségekkel.

3. hanem adatsorokkal dolgozunk. ezért ez a m ködési mód lehet vé teszi a gyors és egyszer munkavégzést.6. 14 . 2.8. 6. amely után lehet az utasításokat begépelni. ha az alábbi adatokkal a megadott összefüggést szeretnénk kiszámolni.4.1) >z= x*y+1 Eredményül a z vektort kapjuk. 4. A számítás során a két vektor megfelel elemei szorzódnak össze. 5. 3 A ’>’ szimbólum a prompt jel. 6) > y = c(2. 3.adatokkal. akkor azt a következ képpen tehetjük: 3. ábra A Statistical Lab induló felülete >3 x = c(1. Például. és minden elemhez hozzáadásra kerül 1 (4.5. ábra). 4. 5. 3.4.

15 . ahol a különböz oszlopok eltér típusokat is jelenthetnek. A data frame lényegében egy általánosított mátrix. Így lényegében táblázatokat tudunk létrehozni. a listák. A factor a vektor egy speciális formája. az esetek többségében feleslegessé teszi az ún. függvényeket használjuk. hanem logikai és karakter értékeket is tartalmazhatnak. 5 4.A nyelv lehet vé teszi. ami jól használható különböz kategóriák megjelenítéséhez. a data frameek. ami jelent s mértékben megkönnyíti a programozást. ábra M veletvégzés az R rendszerben Az R nyelv más adatstruktúrákat is tud létrehozni és azokon m veleteket végezni. 5 A ’c’ függvény az argumentumait egy vektorrá vagy listává konvertálja. ami leegyszer síti a különböz statisztikai számítások elvégzését. hogy a vektorokra a megszokott m veleti jeleket. A létrehozott struktúrákkal szintén képes m veleteket végezni az R nyelv. programozás esetén. illetve magunk is írhatunk függvényeket. ahol a vektorok különböz szintjei alakíthatók ki. A data frame oszlopainak és sorainak neveket is adhatunk. amelyek más m veletekben felhasználhatók. Ilyen adatstruktúrák lehetnek a mátrixok (tömbök). Az argumentumok tipusa tetsz leges lehet. Ezen adatstruktúrák létrehozása különböz függvények segítségével lehetséges. esetleg a kés bbi felhasználáshoz tárolhatók is. A mátrixok esetében lehet ség van a lineáris algebrában megszokott mátrix m veletek elvégzésére is. A data frame lényegében adatoszlopok listájának is tekinthet . de egy adott oszlopnak ugyanazt a típust kell tartalmaznia. és a számításokban ezekkel a nevekkel hivatkozhatunk is az adott oszlopra vagy sorra. 4 A vektorokra alapozott m veletvégzés.4 A vektorok nemcsak numerikus értékeket. a factor-ok. ciklusutasítások használatát. mind a modellezésben és mind az ábrázolásokban.

súly. ’F’) > személyek = c(”Személy_1”. + ”Személy_10”) > vizsgálat = data. 52. 76. ábra). ’F’. ’N’. 70. 2. 61. akkor több sorban is megadható. feladat Data frame példa: 10 embert l megkérdezték a súlyát és a magasságát és feljegyezték a nemüket (N – n . + row. ’N’. hanem a már kész statisztikai eljárások használatát is jelent s mértékben megkönnyítik. magasság. ’F’. az adatokból a következ lépésekben lehet data frame-et létrehozni (eredmény . 180.5. ”Személy_6”. 57. 178. és a ’+’ szimbólum a folytató sort jelenti. ’F’.frame(személyek. ’F’. ”Személy_8”. ”Személy_9”.names=”személyek”) > vizsgálat 7 Az el z ekben említett adatstruktúráknak nemcsak a programozásban van szerepük. nem. 180. 179) > nem = c(’N’. A változó nevének beírása és Enter után kiírásra kerül a változó tartalma. 85) > magasság = c(151. amint azt kés bb a konkrét statisztikai alkalmazásoknál látni is fogjuk. +6 ”Személy_5”. ”Személy_2”. 148. F – férfi). 162. 65. 80. ”Személy_7”. 166. A szórás képlete: ∑ (x SD ( x ) = i =1 n i − x2 ) n −1 6 7 Ha egy utasítás nem fér el egy sorban. 160. feladat: Hozzunk létre egy függvényt. ábra): > súly = c(55. ”Személy_4”.1. ’N’. 16 . Változónévként lehet ékezetes bet ket is használni. amely a szórást (standard eltérést) számítja ki (6. ’N’. 68. 164. ”Személy_3”.

mean(x))^2) / (length(x) . és az utána lév zárójelben kell megadni a függvény attribútumait9.1))8 5. A valóságban ez az eljárás egyszer bben is létrehozható (és az igazat megvallva a függvény ’sd’ néven létezik is az R-ben): std = function(x) sqrt(var(x)) 9 Lehet ség van az attributumoknak kezd érték megadására is.A függvény létrehozása a képlet alapján az R nyelvben: std = function(x) sqrt(sum((x . A függvény beépített függvényeket is meghív: • • • • sqrt sum mean length négyzetgyökvonás összegzés átlagszámítás a vektor hossza 8 A függvény létrehozását a képlet elemeihez ragaszkodva oldottam meg. 17 . Az egyenl ségjel jobb oldalán található függvényt a „function” utasítással kell kezdeni. akkor a megadott értékkel számol a program. ha az attributum hiányzik. ábra A „data frame” példa eredménye Az egyenl ségjel bal oldalán található „std” a függvény neve. Ilyenkor.

ábrának egy keretben történ elhelyezése. Web oldalról a következ képpen olvashatunk be adatokat (jelen esetben egy data frame-et): xx = read. illetve adatokat vehetünk át más rendszerekb l is (pl. Az R rendszerhez tartozó R(D)COM szerver lehet séget biztosít standard alkalmazásokkal történ összekapcsolódáshoz is. esetleg különböz típusú. Az R nyelv nagyon magas szint ábrázolási lehet ségeket biztosít.A R statisztikai programnyelv többféle adatbeolvasási lehet séggel is rendelkezik. hogy különböz adatbázis-kezel rendszerek által létrehozott adatbázisokból nyerjünk ki adatokat. akkor az oszlop elnevezésekre. Ha a beolvasott ’data frame’-et hozzárendeljük a rendszerhez (attach). Ami azt jelenti. az EGIS és a BCHEM részvények záróárfolyamát. A rendszer azt is biztosítja. Vihetünk be adatokat billenty zetr l. de lehet ség van a felhasználó általi új ábrázolási módok kialakítására is. illetve ilyen adatbázisokba vigyünk be adatokat.: Excel. a statisztikai ábrák széles körét képes létrehozni. Egy statisztikai programrendszer használatához elengedhetetlenül szükséges az ábrázolási lehet ségek biztosítása.table(http://www. Lehet ségünk van különböz formátumban megadott adatok beolvasására is. az OTP. mint változókra hivatkozhatunk is.txt") 6.). hogy az adott 18 .unideb. ábra Függvény létrehozása az R rendszerben Az utasítás a honlapról egy táblázatot olvas be. A rendszer nagyon lényeges szolgáltatása több. amely a BUX indexet. stb.hu/tarnoczi/buscalc/stocks. olvashatunk be file-okból vagy akár az internetr l is. SAS. kereskedési mennyiségét és értékét tartalmazza. SPSS.econ.

7. és az ott meglév csomagok segítségével alaposabb elemzéseket is végezhetünk.xla Excel b vítmény segítségével a Microsoft Excelb l is adhatók át adatok és hívhatók meg R utasítások a 7. elvégzett számítások eredményeit átadhatjuk az R rendszernek. és alkalmazhatók.rendszerb l adatokat és utasításokat küldhetünk az R rendszerbe. és lehet ség van a meglév eljárás csomagokhoz megfelel input és output felületet elkészíteni. de a Tcl/Tk nyelv grafikus utasításai viszonylag könnyen megtanulhatók. Az R rendszer további lehet ségei. Java). és az R rendszer az utasítások végrehajtásának eredményét visszaküldi a hívó rendszernek.: az RExcel.xla által biztosított menü az R rendszer használatához 19 . ábra Az Rexcel. Ez a megoldás kib víti mind az Excel. ábrán látható menürendszer felhasználásával. ez már komolyabb programozási feladatot jelent. mind az R rendszer lehet ségeit. hogy különböz grafikus programozási lehet ségek is beépítésre kerültek (Tcl/Tk. Jól ki lehet használni az R által biztosított szélesebb kör ábrázolási lehet ségeket. Igaz. Pl. és az Excelbe felvitt adatokat.

Milyen módjai vannak az adatgy jtésnek? 3. Mi a statisztikai adatfogalom? 2. Melyek a statisztikai adatok f fajtái. Melyek az Microsoft Excel f bb jellemz i? 7. Melyek a számítógépes-adatfeldolgozás szakaszai? 5. Hogyan foglalhatók össze az R rendszer f bb el nyei? 20 . Mi a függvényvarázsló szerepe az MS Excelben? 8. Az R statisztikai programnyelv (rendszer) jellemz i? 9. Mit jelent az adat információvá válása? 4.Ellen rz kérdések: 1. és mi jellemzi azokat? 6.

Például.ELOSZLÁS).2. hogy az Excelben csak az eloszlások valószín ségértékének és s r ségfüggvényének a kiszámítását biztosító függvények találhatók (pl. Azok a f bb eloszlástípusok. hogy bizonyos jelenségek rendszerint meghatározott eloszlást követnek. Az eloszlások típusaival. amelyekhez független véletlen események végtelen sorozata tartozik általában normális eloszlást követnek. A f bb eloszlástípusokkal történ számítások mind az Excelben. azok a változók. 21 . Azok a változók. amelyeket például a túlélési modellekhez javasolnak. El rejelzési célból is szükséges lehet annak megismerése. F bb eloszlástípusok és ábrázolási lehet ségek A valószín ségi eloszlások alapkoncepciónak tekinthet k és a statisztikai a vizsgálatokban. amelyeknek az értékei rendkívül ritka események eredményei általában Poisson-eloszlást követnek. szükségünk van az elméleti eloszlástípusok alapvet jellemz inek és tulajdonságainak a megismerésére. Fontos lehet az a kísérlet vagy adatgy jtés során létrejött adatsorok tesztelése el tt azok eloszlásának meghatározása is. következtetését erre alapozza. Melyik eloszlást használjuk? Tudnunk kell. tulajdonságaik felderítésével megismerésével valószín ségszámítás foglalkozik. illetve bizonyos vizsgálatok elvégzéséhez szükségünk lehet valamilyen ismert eloszlást követ véletlen számok el állítására. hogy az el z eket megtehessük. A matematikai statisztika minden megállapítását. A különbség abban jelentkezik. például: • dbinom – s r ségfüggvény: általában a s r ségfüggvény megrajzolásához használják. A fejezetben leírtak megértéséhez az alapvet valószín ségszámítási ismeretek meglétét feltételezzük. Ahhoz. az exponenciális és a Weibull-eloszlások. addig az R rendszerben minden eloszlástípushoz négy függvény található. Különböz kutatásokból nyert adatok kiértékeléséhez kapcsolódóan szükségessé válhat hipotézisek megfogalmazása a vizsgálatba bevont változók eloszlásának a meghatározásához. mind az R nyelvben megtalálhatóak.: BINOM. amelyek mind elméleti mind gyakorlati szinten használunk. hogy adattömegünk eloszlása milyen formát követ.

Ez a lehet legegyszer bb eset.• pbinom – eloszlásfüggvény: arra ad választ. ahol az ’a’ és a ’b’ értéke a probléma függvénye. Az el z ekb l is következ en. hogy melyik érték felel meg az adott valószín ségnek. egyenletes-eloszlás.b) eloszlású). A diszkrét egyenletes eloszlás gyakorlati el fordulása viszonylag ritka. és arra ad választ. 0. jelent sége csekély.33 = 33 %).1. mint x.5 (50 %) a relatív gyakoriság. hogy a véletlen változó kisebb.b) intervallumon (a<b) (jele: X U(a. ha a<x<b és f(x) = 0 egyébként. s ezért egyketted. rbinom – véletlen számok generálása (egyszerre több véletlen számot is generál és egy vektorba helyezi azokat) • • Ebben a fejezetben a nevezetesebb eloszlástípusok és azok f bb jellemz i kerülnek bemutatásra. X egyenletes eloszlású az (a. 22 .7 %). illetve "fej vagy írás" esetében két osztály van. a közlekedési lámpa fénye (vörös. valamennyi értékhez ugyanakkora gyakoriság tartozik. a központi határeloszlás tétele levezetését ennek segítségével szoktuk szemléltetni. sárga. A diszkrét egyenletes-eloszlás bemutatását els sorban az indokolja. b] tartományba esnek. hogy mennyi annak a valószín sége. hogy az egyik legfontosabb valószín ségszámítási tétel. zöld. A relatív gyakoriság a különböz kategóriák. a dobókockánál egyhatod (0. azaz 0. b−a Az egyenletes eloszlást a gyakorlatban igen ritkán alkalmazzuk. osztályok számának reciprokával egyenl : a "férfi-n ". 1. vagy a lottóhúzás. 2. ezért bonyolultabban számítható várható értékét és szórását nem adjuk meg. 2. ha f ( x) = 1 .167 = 16. qbinom – kvantilis függvény: a p… függvény inverze. 0. az egyenletes eloszlás értékei egy adott [a. Egyenletes eloszlás A diszkrét eloszlások közül az egyik legfontosabb az ún.

14 A ’rep’ a megadott számnak (4) megfelel en többszörözi a megadott adatsorozatot. hogy nincsen ismétlés. 8) [1] "makk ász" [6] "piros 7" "tök 8" "tök fels " "piros alsó" "tök fels " "zöld király" "piros alsó" 10 Az eredménysor elején lév szám ’[1]’ a vektor indexére utal. paramétert. Az R rendszer a (d. amely az ismételhet ségre vonatkozik. 3. 23 . ”zöld”. ”tök”. ”király”.Az Excel nem biztosít igazán jó lehet séget az egyenletes eloszlású értékek el állítására. amelyet használhatunk ismétléses. ”fels ”. Ha több soros eredményt kapunk. + rep(c(7:10. illetve ismétlés nélküli formában.”Í”). akkor soronként az el z sor elemszámának figyelembe vételével folytatódik a számozás. ”alsó”. használnunk kell a paste13 utasítást is) > kártya = paste(c(”piros”. 4))14 > sample(kártya.írás 12 A 3. 11 ”F” – fej. 10. replace=TRUE) [1] 6 1 4 2 5 4 1 6 1 1 10 • dobjunk 20-szor egy pénzérmével > sample(c(”F”. 5) 12 [1] 17 7 69 66 47 • a magyar kártya lapjaiból válasszunk ki 8-at (ez már egy kicsit összetettebb feladat. ”ász”). feladat • dobjunk 10-szer egy kockával > sample(1:6.b.q. 20. 13 Az argumentumaiból karakter sztringet hoz létre. mert az alapértelmezés. ”makk”).r)unif függvénnyel lehet vé teszi az eloszlással való számolást. ”Í” . hogy megadott intervallumba es véletlen számokat állítsunk el . és a rész sztrigeket összef zí. ugyan a RANDBETWEEN függvény lehet vé teszi. Még jobb lehet séget biztosít a sample függvény. TRUE) [1] "Í" "Í" "F" "F" "Í" "Í" "Í" "Í" "F" "F" "Í" "Í" "Í" "F" "F" "Í" "F" "F" "F" [20] "F" 11 • állítsunk el 5 számot az ötös lottóhoz > sample(1:90.

xlab – az y. 0.8). ylab=”s r ség”)15 > curve(dunif(x. 1). illetve az x tengelyek elnevezése 16 A megadott függvényhez vagy kifejezéshez kapcsolódó görbe megrajzolása.4. col=gray(0. + main=”[0. add=T)16 8. > x = runif(1000) > hist(x. feladat Állítsunk el 1000 darab 0 és 1 közötti egyenletes eloszlású véletlen számot és a kapott értékeket és ábrázoljuk hisztogrammal (8.1] egyenletes eloszlás”. ábra). ábra 1000 darab egyenletes eloszlású véletlen szám 15 probability = TRUE – a hisztogram gyakoriságokat ábrázol col – az oszlopokat kitölt szín main – a hisztogram címe ylab. 24 . probability=TRUE.

Az el z ek így a következ képpen is leírhatók: X ~ Binominális(N. A binomiális kísérletek esetében fontos feltételezés. A két kimenet (dichotóm) jelenséghez kapcsolódó kísérleteket N-szer elvégezve (N próbát téve). a siker és a sikertelenség megszámlálható. hogy a vizsgált populáció egyedeinek egyik hányada megadott tulajdonságú.legegyszer bb . azaz a teljes kifejezés azt jelenti. A statisztikusok gyakran vizsgálnak olyan típusú jelenségeket.2. és 25 . A kísérletben P(X) annak a valószín sége. megállapítható változók viselkedését írják le jól. ökológiai kísérletek. akkor az értékek eloszlása binomiális eloszlást határoz meg. Ilyenek lehetnek például orvosi kísérletek. A sikeresség valószín sége p-vel jelölhet . hogy az X egy (N. min ség ellen rzések. az egyik alternatíva bekövetkezéseinek a száma (X) binomiális eloszlást követ. a p minden próbálkozás esetén ugyanaz. hogyan alakul az eseményben résztvev férfiak személyek aránya. Például. sok ismétl dés figyelhet meg. ha a változó csak két értéket vehet föl hasonlóan a logikai értékekhez -. amelyekben – – – – egy megismételhet esemény sikeres vagy sikertelen kimenetel . hogy az N el re rögzített. A binomiális kísérletek nagyon elterjedtek.esetben. A két kimenet események a 0 és az 1 számjegyekkel kódolhatók. toxicitási tesztek. a sikerek száma segít ismereteket szerezni a sikeresség valószín ségér l. p) paraméter binomiális eloszlás. p) Ahol a „~” jel „eloszlású”-ként olvasható. egy adott eseményhez kapcsolódó személyekb l (populációból) mintát veszünk (N) és megvizsgáljuk. A vizsgálatban az 1-es számjegy jelenti a férfiakat. hogy az egyik alternatíva k-szor bekövetkezik. a 0 pedig a n ket. Egy ilyen populációból vett mintában a sikeres találatok száma X (az 1-es számmal kódoltak). Abban a . Binomiális eloszlás (Bernoulli eloszlás) A diszkrét eloszlások nagyon sok esetben.2. Az ilyen jelleg jelenségek jellemz je.

N Szórás Relatív szórás N *p* (1 − p) (1 − p) N* p 5. az X egy 0 és N közötti egész értéket vesz fel. azaz a P[X = k]-t a k valamennyi 0 és N közötti értékére. feladat Mekkora valószín séggel találunk egy 5 %-os selejtaránnyal jellemezhet tömeggyártásból kivett 20 elem véletlen mintában 1 db selejtes terméket? p = 0.. Ha N = 1. Amikor binomiális kísérletet hajtunk végre.bármely próba kimenete nem befolyásolja a többi próbák kimeneteit. Ez a valószín ség a következ egyenl séggel adható meg: P[ X = k ] = N! * p k * (1 − p ) N − k k !( N − k )! vagy egyszer en N P [ X = k ] =   * p k * (1 − ) N − k k   ahol Nkpa minta mérete (próbálkozások száma) a megfigyelések száma az 1-gyel kódolt megfigyelések arány Az eloszlás általános statisztikai jellemz Átlag N*p Terjedelem 0 . hogy az X Bernoulli(p) eloszlást követ. és így írjuk: X ~ Bernoulli(p) Az egyedi próbálkozásokat egy binomiális kísérletben Bernoulli-próbálkozásoknak nevezzük. és tudnunk kell a hozzákapcsolódó valószín séget.05 k=1 N = 20 26 . akkor azt mondjuk.

A megoldás a függvényvarázslóban található és értéke: 0.Excel megoldás: Az „Eloszlásfv” attribútum a függvény fajtáját megadó logikai érték: ha IGAZ. 0. de ostoba dolog lenne azt gondolni. feladat Tételezzük fel. hogy minden 4 páciensb l 3 mindig reagál a kezelésre.377353603 Megoldás az R rendszerben: > dbinom(1. A reagáló 27 . Átlagosan 4 páciensb l 3 reagál a kezelésre.05) [1] 0. egyébként a s r ségfüggvényét (amely a sikeresek valószín sége). A kezelést 4 páciens esetében alkalmazzák. hogy csak a sikeresek sikeresek).ELOSZLÁS az eloszlásfüggvény értékét számítja ki (amely annak a valószín sége. a BINOM. 20. hogy a gyógykezelés 75 %-ban eredményes.3773536 6.

genetikai kutatásokban. rendszerint egy terület vagy egy id blokk.páciensek száma próbálkozásról próbálkozásra változni fog. közlekedési 28 .frame(sikeresség. Poisson-eloszlás A diszkrét eloszlások közül legfontosabb a Poisson-eloszlás . események. amelyek látszólag véletlenszer en keletkeznek az adott tartományban.3. mégpedig binomiális eloszlásnak megfelel en.75) > data. hogy igen gyakran lép fel a természetben és jó közelítését adja a gyakorlatban el forduló véletlen változónak. row.names="sikeresség") Eredmény a különböz találhatók: sikerességi értékek esetén. > sikeresség = c(0. például ökológiai vizsgálatoknál. 4. Az ad neki ekkora jelent séget. 2. amelyek az els oszlopban 2. 1. számítógép Ilyenek esetek fordulhatnak el programozásnál.amely a binomiális eloszlás határesetként (bizonyos feltételek mellett) valósulhat meg. A Poisson-eloszlás a diszkrét binomiális eseményekhez kapcsolódó eseményeket írja le. amely megfigyelési típusok a következ helyzetekben fordulnak el : • • egy vizsgálat tárgyköre. 4) > valószín ség = dbinom(sikeresség. 3. valószín ség. amelyen az események el fordulnak. • létezik egy alaparány. 0. min ség ellen rzések esetében.

valamint az események felmerülésének aránya a vizsgálati területen nem változik. de nagyon nagy valószín séggel.: egy Poisson-eloszlás λ arányáról). bankban. A hallgató kimaradásának a valószín sége rendszerint elég kicsi. mert az. hogy az l1 helyen el forduló esemény nincsen hatással bármely más l2 helyen el forduló eseményre. A Poisson-eloszlást szokták a kis számok „törvényének” is nevezni. bekövetkez események el fordulási számának a valószín ségi eloszlása. a ritkán. Például. a vizsgálati területen el forduló események számát pedig X-szel. Amikor egy Poisson-kísérlet kerül megfigyelésre. Egy másik példa lehet a hallgatók lemorzsolódása (kimaradása). Annak a valószín sége. amelyen az események el fordulnak rendszerint λ-val jelölik. hogy a két esemény nem fordulhat el egyszerre pontosan ugyanazon a helyen és id ben. hogy a tanulmányozott jelenségr l ismereteket szerezzünk (pl. stb. amely lehet séget biztosít számunkra. Azt az arányt.: üzletben. Minden egyes hallgató lehet kimaradó vagy nem kimaradó „állapotban”. Annak a valószín sége. Annak az esélye. hogy X számú gyerek hiányzik az iskolából az iskola méretével (n) növekszik. és a hozzákapcsolódó valószín ség a következ egyenlettel adható meg: P [X = k ]= λk *e k! −λ A statisztika egyik alapvet témája az a mennyiségi (kvantitatív) vizsgálati mód. okmányirodában. és a jelenség a következ képpen is leírható: X ~Poisson(λ) Fontos követelmény a Poisson-típusú vizsgálatokkal.). hogy X hallgató fog kimaradni egy megadott id szakban Poisson-eloszlással írható le. az iskolában a tanulók vagy jelen vannak vagy nincsenek. az X egy nem-negatív egész számmá változik. hogy az összes tanuló hiányzik elég kicsi.vizsgálatokban és a vev k kiszolgálásánál (pl. 29 .

200 * 10 / 10000) [1] 0. 30 . Tehát az exponenciális eloszlás egy folyamatosan zajló folyamat állapotváltozási idejét írja le. Határozzuk meg annak a valószín ségét. Exponenciális eloszlás Az exponenciális eloszlást olyan Poisson-folyamatok modellezésére használhatjuk.200*10/10000. feladat Egy készülék meghibásodásainak átlagos száma 10000 m ködési óra alatt 10. egy bankjegykiadó automata a kérést l számítva mennyi id múlva adja ki a pénzt).4.HAMIS) 0. amelyeknél egy kezdetben az A állapotban lév objektum. λ id egységenként konstans valószín séggel.8187308 2. Az id egység.818730753 R rendszer: > dpois(0. amely alatt az állapot aktuálisan megváltozik.Az eloszlás általános statisztikai jellemz Átlag Λ Terjedelem 0 . hogy a készülék 200 m ködési óra alatt nem romlik el! Excel: =POISSON(0. a B állapotba tud elmozdulni. Az exponenciális eloszlás függvénnyel az események között eltelt id modellezhet (például. egy λ paraméter exponenciális véletlen változóval írható le. +∞ Szórás λ Relatív szórás 1 λ 7..

akkor már egy nagyjából konstans arányt találhatunk. +∞ Szórás λ Relatív szórás 1 8. hogy a hívások. a bejöv telefonhívások napszakonkénti jó becsl Az aránya különbözik. azaz X ~Exponenciális(λ) Az eloszlás általános statisztikai jellemz Átlag Λ Terjedelem 0 . esetekben is: az id . de ha kijelölünk egy id intervallumot. az id és a távolság többnyire rövid lesz és csak kevés esetben hosszú. Az eloszlás paramétere 1/átlag. az id táv az utcai gyilkosságok között egy adott utcán. a kockadobások száma. az id . amint az X növekszik. amíg a radioaktív részecske lebomlik. az id .A valós világban a konstans arányú (vagy egység id nkénti valószín ség) megközelítés ritkán kielégít . Például. feladat Egy villanyég átlagos élettartama 2500 óra. amíg egy nagy meteor becsapódás tömegpusztító eseményt okoz. stb. Így a s r ség X = 0 közelében lesz nagy és csökken. Ezekben az esetekben lehet hasznos az exponenciális s r ség p( x ) = 1 λ *e − x λ x >0 Az X egy paraméter exponenciális eloszlást követ. hogy tizenegyszer dobjunk 6-ost egymás után. a távolság egy DNA szálon bekövetkezett mutációk között. ami ahhoz szükséges.. Ezekben a példákban az várható. Az el z értékek 31 . és az exponenciális eloszlás az id modelljeként használható a következ telefonhívások exponenciális eloszlás használható a következ beérkezéséhez. amíg a következ autóbaleset bekövetkezik. az exponenciális eloszlás szerint alakuló élettartam átlaga 2500.

add=T) 9. col=gray(0.9). ábra). 1/2500). + main=”Exponenciális eloszlás”. > x = rexp(100. ábra Véletlenszer exponenciális adatok 32 . 1/2500) > hist(x. ylab=”s r ség”) > curve(dexp(x.figyelembe vételével készítsünk egy hisztogramot 100 véletlen szám generálásával (9. probability=TRUE.

10. sem számításba venni nem kell.2. hogy a hiba normális eloszlást követ. ábra A normális eloszlás s r ségfüggvénye és a paraméterek jelentése Azt is szokták mondani. Kétoldalt messze (elvileg végtelen messze) elnyúlik.5. azt feltételezzük. vagy lapultabb. mert • több hagyományos statisztikai teszt azon a feltételezésen alapszik. a központi határeloszlás tétele következtében. mint például a lineáris és a nem-lineáris regresszió esetében. • a normális eloszlást használjuk több hipotézis teszt és a konfidencia intervallum meghatározása esetében a szignifikancia szint megkereséséhez. de a maximumához viszonylag közel már annyira megközelíti az x tengelyt. hogy a normál eloszlás a klasszikus statisztikai elmélet gerince. a csúcsa lekerekített . ábra). szimmetrikus eloszlástípus. Jellegén belül formája nagyon változatos lehet: kiemelked bb. A normál eloszlás. mint a kvantitatív jelenségek modellezési módszere alapvet fontossággal bír a természet33 . hogy az adatok normális eloszlást követnek. vagy Gauss-görbének is szokták nevezni (10. sem hegyes nem lehet. hogy sem rajzolni nem lehet. • a statisztikai modellekben. A normális eloszlás folytonos. a függvény görbéje haranghoz hasonlít.Normális eloszlás Mind elméleti mind gyakorlati szempontból valószín leg a normális eloszlás a legfontosabb eloszlás típus a statisztikában. Mindezek miatt "harang-görbének". a függ leges y tengelyt is metszheti. A grafikon.sem lapos.

A normális eloszlás függvény P(Y) = 1 *e 2* π * σ 1 Y −µ − *  2  σ  2 A normális eloszlás speciális esete a standard normális eloszlás. Az Y µ átlagú és σ szórású normál eloszlást követ. A természettudományokban a jelenségek többsége jól közelíthet a normál eloszlással. …. amely a centrumtól mindkét irányba távolodva csökken. ha az x1. A normál eloszlásnak nagy a jelent sége a statisztika több területén is. Ez azt jelenti. akkor a z= X −µ σ változó N(0. akkor a minta z étékei. σ) 34 . standard normális eloszlásúak lesznek. amelynek a s r sége harang alakot követ. σ) normális eloszlású. Ebben az esetben az eloszlásfüggvény − 1 P(Y) = *e 2 2* π Y2 Ha az X valószín ségi változó N(µ. egyre kevesebb és kevesebb megfigyelést találhatunk. mint például a mintavételi eljárások. σ) eloszlású populációból származik. amikor a µ = 0 és a σ = 1.és a magatartástudományokban. amely körül a megfigyelések többsége csoportosul. azaz a standardizált mintaelemek. xn minta egy N(µ.1) standard normális eloszlású. Gyakran van szükség az Y folytonos véletlen változó modellezésére. azaz X ~Normál(µ. Minden ilyen esetben a véletlen változó várhatóan rendelkezik egy központi értékkel. a központi határeloszlás tételének következtében. Ezért. x2. és ahogy távolodunk a központi értékt l. hogy a valószín ségi s r ségfüggvény a legnagyobb értékkel a centrumban rendelkezik.

Az eloszlás általános statisztikai jellemz Átlag Μ Terjedelem -∞ . (Az Excel egyik hátránya. feladat Egy laboratóriumban a kísérleti patkányok testsúlyait normális eloszlásúnak találták µ =14 átlaggal és σ =2 szórással. hogy a táblázatból els rátekintésre nem látszik. Egy ilyen populációban mi annak a valószín sége.) 35 . hogy a patkányok testsúlya 10 és 15 közé esik? Excel: A valószín ségi értéket a ”C6 – C5” m velet elvégzése után kapjuk. hogyan számoltunk.. csak ha a megfelel cellá(k)ra lépünk és megnézzük az abban szerepl képletet. +∞ Szórás σ Relatív szórás σ µ 9.

4. lower.pnorm(10. és annak felhasználásával a táblázat C5 cellájában látható képlet segítségével meghatározzuk azt az értéket.tail = FALSE) [1] 34. 14. 14.05. Excel: A megoldás el állítása a táblázatból nem látszik pontosan. feladat A vámpír denevérek tép fogainak a hossza normális eloszlást követ µ = 28 mm átlaggal és σ = 4 mm szórással. 10. Azoknak az állatoknak a harapása halálos.87 %-ának a testsúlya fog 10 és 15 közé esni. akiknek a tép fogmérete a populáció fels 5 %-ába esik. amely már a megadott intervallumba esik. R rendszer: > qnorm(0. amelynek segítségével meghatározzuk a standard normális eloszlás értékét. 28. 2) .57941 36 . Számítsuk ki. A megoldás el állításához fel kell használni az ”Eszközök” menüpontban lév ”Célértékkeresés” almenüt.R rendszer: > (pnorm(15. hogy ez hány mm-es fogméretet jelent. 2)) * 100 [1] 66.87123 Tehát várhatóan a populáció 66.

hivatalos és tudományos közlésben az ábrák legfontosabb célja a mondanivaló szemléletessé tétele. A szerkesztés igazodjon a tartalomhoz. mint például • szükségesség Csak akkor alkalmazzunk illusztrációt.a táblázat adatai és a diagramok szerves egységet képeznek. kétségtelen. hogy adatainkat diagram formájában is megjeleníthessük. ha valóban szükséges. ha magas szint grafikus felület is támogatná.6. hogy sok helyen fejlesztettek/fejlesztenek ki speciális alkalmazásokat. Sok program esetében . • pontosság Legyen az ábra összhangban a szöveggel. jól áttekinthet vé tehet k.Az R rendszerben a feladat megoldása egyszer bb. mint az Excel.ilyen az Excel és az R is . így azok értelmezése egyszer bbé válik. A mérnöki. amelyek általánosan érvényesek minden típusra. • szerkesztés A jó ábra tetszet s. ha új információt ad. A diagramok (vagy más néven grafikonok) segítségével az adataink könnyen szemléletessé.17) 2. ami többek között azt jelenti. és esztétikailag is pozitív benyomást keltsen az olvasóban. Még nagyobb lenne a jelent sége az R rendszernek. Ábrázolási lehet ségek A régi kínai mondás szerint: egy kép tízezer szónál többet ér. amiket kés bb szabadon hozzáférhet vé tesznek. mert egyetlen függvénnyel eljuthatunk az eredményhez. 17 A szélesebb kör számítási lehet séget az is biztosítja. Szinte minden táblázatkezel lehet vé teszi. nem túlzsúfolt. (Az R általában sokkal szélesebb számítási lehet ségeket biztosít. hogy egy jó ábra sok szöveget pótol. hogy a táblázat adatainak megváltoztatásakor a diagram automatikusan módosul. mégsem semmitmondó. Az ábrák készítésének vannak olyan alapelvei. ugyanaz legyen a mondanivalója. 37 . Bár ez nem mindig igaz.

ábra). ábra és táblázat megfelel méret . Az ábra segítségével felkelthetjük a figyelmét.• láthatóság Minden kép. kontrasztos. A következ kben tárgyalt ábrázolási lehet ségek – kisebb-nagyobb eltérésekkel többnyire megtalálhatók mind az Excelben és mind az R statisztikai rendszerben. jól olvasható legyen. ábra Összetett ábrázolás az R rendszerben 38 . Ugyanakkor az R rendszer sokkal többféle ábrázolási lehet séget biztosít. • érthet ség Illusztrációink a szöveg gondos tanulmányozása nélkül is érthet ek legyenek. hogy utánanézzen a pontos értékeknek a táblázatban. 11. mint az Excel táblázatkezel és az R-ben könnyen létre tudunk hozni összetett ábrákat is (11. arra késztetve. ne kívánjanak az olvasótól nagy er feszítést.

Azt is mondhatjuk. és fontos eszközei lehetnek a kutató. Az egyes részsokaságok egyedszámát általában oszlopok formájában jeleníti meg. hanem azok kivitelezésében. ábra 12. és milyenségében.és elemz minta el re kit zött változó-tartományaiba es munkának. hogy a hisztogram egy olyan táblázat grafikus verziója. A hisztogram egy rendezett elemek számát vagy gyakoriságát ábrázolja. ábra Az R rendszer grafikus lehet ségei 2. amelyeket általában gyakorisági sorokból készítenek.A R rendszer nem csak az ábrák típusában biztosít többféleséget. amely azt mutatja meg.1. és az oszlopok nagysága az egyedek részsokaságonkénti arányát mutatja. és 39 . Hisztogramok A hisztogramok nagyon hasznos grafikus lehet ségek egy változó adatainak megjelenítésére. hogy a megfigyelések milyen aránya esik a megadott kategóriákba. (12. A hisztogram részekre bontja a sokaságot (osztályokat képez) és megadja az egyes részsokaságokhoz tartozó megfigyelésszámot.6.

A hisztogram a következ ket mutatja meg grafikusan: • • • • • az adathalmaz közzépontja. 411. Az el z ek alapján. 381. de egymás mellett lév intervallumok. 390) 40 . 422. ahol az a rész sokaság arányával az összsokaságon oszlopok magassága egyenl belül. kiugró adatok jelenléte. 405. 377. 396. Ezt a formát akkor célszer használni. 428. A hisztogramoknak több fajtája is lehetséges. Vigyáznunk kell azonban az intervallumok számának a megválasztásánál. és a következ adatokat kapták (perc): R rendszerben (13. 363. az adathalmaz terjedelme. 408. mert az oszlopok magassága az összsokaságon belüli százalékos arányt képviseli és az oszlopértékek összege 100 %. 400. 371. Ebben a részben csak a két alapformát mutatjuk be: • Az els forma az intervallumonkénti elemszámot mutatja be. 389. 415. 401. 393. 409. 391. 382. és az oszlopok abszolút számokat mutatnak. • A második forma a vertikális skálát tekintve különbözik az els formától. 387. túl sok esetén pedig a kapott ábra lesz áttekinthetetlen. 372. összefoglalva azt is mondhatjuk. 394.ahol a kategóriák (oszlopok) rendszerint egymást nem átfed . ha az arányokat akarjuk összehasonlítani. ábra): > élettartam = c(423. 399. 392. mert túl kevés intervallum kit zésekor az információ szegényes lesz. többszörös módusz jelenléte az adathalmazban. + 431. 369. feladat 30 db AA típusú elemet teszteltek az élettartamuk megállapítása érdekében. 11. az adathalmaz ferdesége. hogy a hisztogramok megmutatják az adathalmaz eloszlásának alakját. + 419. 386. 410.

main="Élettartam teszt eredménye". ábra).jellemz k19) > hist(élettartam. 19 Az R rendszerben. akkor a részeket ponttal lehet összekapcsolni.ylab="gyakoriság")18 13. + xlab="élettartam (perc)".hisztogram.> hist(élettartam. plot = F20) 18 A hist függvénynek további paraméterei is vannak. ábra Az R rendszerben készített hisztogram Lehet ség van a hisztogram jellemz inek a kiíratására és feldolgozására is (14. amelyekkel a hisztogram tovább fínomítható. ha egy név több részb l áll.: élettartam. 20 Az egyes elnevezések jelentései: breaks – intervallum határok counts – intervallumok egyedszámai intensities (densities) – a relatív gyakoriságok mids – intervallum közepek equidist – egyenl intervallum méret vagy nem 41 . ha az eredményt egy változóban eltároljuk (pl. A további parancsok a Help (?) utasítással megnézhet k.

Az Excelben egyszer a hisztogram létrehozása. density = NULL. A hisztogram eljárással az adathalmazban egy megadott érték el fordulásainak számát is ki lehet számítani (15. Jelen feladatban ugyan az látszik. border = NULL. include. hogy az Excel hisztogramja szebb kivitelezés . 42 . main = paste("Histogram of" . angle = 45. hogy még sok lehet séget lehetne használni: hist(x. right = TRUE. akkor azt látjuk. breaks = "Sturges". xname).lowest = TRUE.14. probability = !freq. ábra A 13. ábrán látható hisztogram jellemz i Excel: Az Excelben az Eszközök menü Adatelemzés almenüjéb l érhet el a hisztogram készítés. ábra). de csak egyszer bb hisztogramok hozhatók létre. col = NULL. de ha megnézzük az R alábbi hisztogram-függvény paraméterezési lehet ségeit. freq = NULL. Az eljárás segítségével egy cellatartomány adatai és az adatkategóriák alapján egyenkénti és halmozott gyakoriságok számíthatók ki.

xlim = range(breaks). 2. axes = TRUE. A help minden R függvény esetében jól használható és megfelel információt ad a függvény használatáról. Mivel a paraméterek többségének kezd értéke is. A helpben találhatók példák is a függvény használatához és néhány függvény esetében adatfile-okat is mellékelnek. megjelenítésére alkalmazzák. oszlop. ezeket meg tudjuk változtatni. ezeket nem szükséges megadni. Pont-. ylab. 43 . de ha akarjuk.és kördiagramok A pontdiagramokat általában két változó közötti lehetséges kapcsolat vizsgálatára. ami paraméterezéssel tovább finomítható és nagyon elegánsan kivitelezett ábrák is létrehozhatók.)21 15.. és akkor a program a kezd értékkel számol. Ezek a diagramok általában nem mutatják meg a két 21 A függvény paramétereinek pontos jelentése az R rendszer help utasításának segítségével megnézhet (?hist vagy help(hist)). nclass = NULL. ylim = NULL.. ábra Az Excelben el állított hisztogram Az R esetében az alap lehet ség mindig egy nagyon egyszer ábra létrehozása vagy számítás elvégzése.2. amint az a hist függvényb l is látható. . labels = FALSE.6. amelyek segítségével a függvények kipróbálhatók. vonal-. plot = TRUE. xlab = xname.

A vonaldiagram egy lehet ség annak összefoglalására. 44 . Az R rendszerben a ”plot” függvénnyel tudunk pont. hogy két szomszédos érték közötti részre vonatkozóan is rendelkezünk információval. hogy az információ két ”darabja” hogyan viszonyul egymáshoz és hogyan változnak egymás függvényében. negatív (csökken ) vagy nincsen kapcsolat. A pontdiagram használatának általában az a célja. milyen kapcsolat lehet két változó között. és az Y tengely pedig a másik változónak ahhoz kapcsolódó mértékét jeleníti meg. Matematikailag függvényábrázolás adott pontokban ismert értékek alapján. Interpolációra (köztes értékek becslésére) és extrapolációra alkalmas értékek becslésére. amely egyenl közönként elhelyezked adatok változását vagy trendjét mutatja. hogy azt vizsgáljuk meg. Az adatok adatpontok egy sorozatát összeköt vonalként jelennek meg. ahol általában az X tengely tartalmazza a mért értéket. Ez ugyanis azt sugallja.változó közötti oksági kapcsolatot. Az Excelben a grafikonvarázslóval tudunk létrehozni ilyen típusú grafikonokat a Pont vagy a Grafikon parancsok segítségével (16. A vonaldiagram numerikus mennyiség(ek) folytonos skála feletti változását szemléltet (széls grafikon.és vonaldiagramot mindkét programban egyszer en lehet létrehozni. Nem szabad vonaldiagramot alkalmazni olyan adatsor esetén.vagy vonaldiagramokat létrehozni. A vonaldiagram hasonlít a területdiagramra. A vonaldiagram lehet olyan grafikontípus is. Pont. el rejelzésre). de a vonaldiagram inkább a trendeket emeli ki. és a kapcsolatot a pontok tendenciájának a meredeksége jelzi. mért értéken alapuló) átmenet. de jelezhetik a kapcsolat fennállását (regresszió) és a kapcsolat er sségét (korreláció) is. pedig ez nem igaz. A két változó értékei az X és az Y tengelyen jelennek meg. amelyben az adatok között nincs (pl. ábra). A kapcsolat alapvet en háromféle lehet: pozitív (emelked ).

nem folytonos – kategóriákhoz tartozó számadatok szemléletes összevetésére szolgáló ábrázolási módszer. col = "red". és ábrázoljuk az egyes számokhoz tartozó gyakoriságokat egy pontdiagramban (17. type = "p". Az oszlopdiagram az értékek 45 .5)). A számadatokat az oszlopok magassága jelzi.xlab="véletlenszámok") Az oszlopdiagram a diszkrét – vagyis elkülönült elemekb l álló. 12. > plot(table(rpois(100. + main="Poisson véletlen számok(lambda=5)". véletlen számot.16. + ylab="gyakoriság". lwd=10. ábra A grafikonvarázsló az Excelben. példa Generáljunk 100 db Poisson-eloszlású. λ = 5 paraméter ábra).

A válaszok: 3411343313212123231111431 Készítsünk oszlopdiagramot a gyakoriságok és az arányok ábrázolásásra. az értékek vertikálisan (függ legesen) helyezkednek el. feladat Egy felmérés során 25 f t kérdeztek meg a sörivási szokásaikról. 46 . ahol az egyes oszlopok vízszintesen helyezkednek el. csapolt (3) és import (4). 17. belföldi üveg (2).id beni változását mutatja be. hogy melyik típust szeretik: belföldi doboz (1). vagy különböz tételeket hasonlít össze. A kategóriák horizontálisan (vízszintesen). ábra Pontdiagram az R rendszerben 13. A halmozott oszlopdiagramok az egyedinek az egészhez való viszonyát tükrözik. ezzel kiemelve az id beli változást. Az oszlopdiagrammal gyakorlatilag megegyezik a sávdiagram.

1. mégpedig úgy. 2. 3. ami 658 darab. 2. 4. A megoldást három oszlopdiagramban mutatjuk be. 3. számításokat. 1. 4. 1. 3. Excel: 18. 3. 4. > sörivás = c(3. 3. ábra Sörivási szokások felmérésének ábrázolása R rendszer Az R rendszer beépített utasításainak köszönhet en a probléma viszonylag egyszer en megoldható. ábra).Az Excelben a normál oszlopdiagram el állítása viszonylag egyszer (18. akkor el kell végezni bizonyos csoportosításokat. 1. 2. 1. 2. Jelen esetben 1 sort és 3 oszlopot hozunk létre. ábra). 1. 1. a második érték a sorok számát jelenti. 3. 1. Az els érték az oszlopok számát. 1) > par(mfcol=c(1. de ha gyakorisági sorként vagy arányként szeretnénk ábrázolni. 47 . 23 Beolvassuk az összes lehetséges színt. hogy az oszlopdiagramokat egy keretben helyezzük el (19.3))22 > cl =colors()23 22 Ezzel az utasítással lehet mátrix elrendezés grafikon sorozatot létrehozni. 1. 3.

col=cl[1:25]. hanem azok együttes értéke is leolvasható. main=”Sörivás teszt”. col=cl[1:25].és telefonszámlánk ábrázolására. az egyes havi gáz-. Így leolvasható az egyes számlák. col=cl[1:25]. ahol az egyes körcikkek aránya fejezi ki a részadatok nagyságát. villany.> barplot(sörivás. A kördiagram viszonylag kisszámú érték és csak egyetlen adatsor megjelenítésére alkalmas. a tételeket 48 . Ezt a diagramtípust használhatjuk pl. sub=”arány”) 19. így nemcsak az egyes oszlopok nagysága. main=”Sörivás teszt”. + sub=„gyakoriság”) > barplot(table(sörivás)/length(sörivás). sub=”alap”) > barplot(table(sörivás). valamint a teljes havi rezsi nagysága is. ábra Oszlop diagram az R rendszerben A halmozott oszlopdiagramban (osztott oszlopdiagram) az egyes adatsorokat szimbolizáló oszlopok egymás tetejére kerülnek. + main=”Sörivás teszt”.

• • • • A boxplot er sségei: • grafikusan mutatja be egy változó értékeinek az elhelyezkedését és terjedelmét. amikor az adatok kívül esnek az interkvartilis távolság másfélszeresén. ábra alapján a boxplot a következ képpen interpretálható: • a ’doboz’ az adatok középs 50 %-át tartalmazza. ábra) megjelenítik A 20. Mivel a részek az egészhez való arányviszonyának bemutatására szolgál. pontokkal jelölve).3. • 49 . Boxplot ábrázolás A boxplot-ok (vagy „szakállas ábrák”) egyfajta összefoglaló statisztikát (medián.5 * IQR” távolságon akár az els . A kördiagram csak egy adatsorozatot jelenít meg. ha az értékek kívül esnek az ”1. 2. míg az alsó sarka a 25 %-át (els kvartilis) jelzi. a ’doboz’ fels sarka az adatok 75 %-át (harmadik kvartilis). ha ismerjük az alaphalmazra vonatkozó adatokat. jelzéseket ad az adatok szimmetriájáról és ferdeségér l. ezért egy fontos jellemz kiemelésére a leghasznosabb. Az Excelben a Grafikonvarázslót tudjuk használni kördiagramok ábrázolására. míg az R-ben a ”pie” függvényt. a ’dobozban’ található vonal a mediánt jelzi. ha a ’dobozban’ található medián-vonal nem egyenl távolságra van az alsó vagy a fels saroktól. ezért csak akkor alkalmazható. fels és alsó kvartilis. akár a harmadik kvartilis esetében. a ’dobozból’ kiinduló vertikális vonalak végei a maximális és a minimális értéket jelzik. maximum és minimum érték) készítenek egydimenziós adatokról és ezt az összefoglaló statisztikát speciális formában (2.az egészhez viszonyított arányát mutatja be. az extrém pontok (apró körökkel. kivéve azt az esetet.6. akkor az adatok asszimetrikusak (ferdeség). amit interkvartilis távolságnak (IQR) neveznek.

CO (Continental Airlines). AS (Alaska Airlines). ahol megtalálható az adatokat leíró help-file is. Az adathalmaz 46 sort és 11 oszlopot tartalmaz. min. feladat A UsingR csomagban (package) lév EWR adathalmaz24 és boxplot ábrázolási mód felhasználásával ábrázoljuk a taxik beérkezési és kiindulási id pontjait a Newark repül térre az egyes repül gép társaságok vonatkozásában (1999-2001). Q1 Q3 Q3 + 1. T TW (Trans World Airlines). adathalmazok • extrém pontok max. és WN (Southwest Airlines).5 * IQR 20. hogy az adathalmaznak vannak-e extrém pontjai. A repül gépkódok: AA (American Airlines). HP (America West Airlines). UA (United Airlines). DL (Delta Airlines). jó és gyors összehasonlítási lehet séget biztosít különböz számára. egy ábrában (21.• más módszerekt l eltér en megmutatja. NW (Northwest Airlines). 24 Az EWR adatokat tartalmazó csomag megtalálható az R programrendszer könyvtárában a ”libraryUsingR” alkönyvtárban. amelyek különböz hónapokban tartalmazzák a taxik adatait. AQ (Aloha Airlines). US (US Airways). ábra Általános boxplot ábrázolás 14. 50 . ábra).

4)) > attach(ewr) > for(i in 3:10) boxplot(ewr[. oszlop az éveket. a második a hónapokat tartalmazza.factor(inorout). az 1.i] ~ as.aktuális = ewr[.aktuális) 21. ábra Taxi beérkezési és kiindulási id k a Newark Repül téren Majd ábrázoljuk egy ”lapon”. 27 A szükséges oszlopok kiválogatása. az ”ewr” adathalmaz betöltése. main=társaságok[i]) > detach(ewr) 25 26 A UsingR csomag betöltése. ábra) > par(mfrow=c(2. (22.> library(UsingR)25 > data(ewr)26 > társaságok = names(ewr) > ewr.3:10]27 > boxplot(ewr. A csomag több adathalmazt is tartalmaz. de különálló boxplotokban a különböz légitársaságokhoz tartozó beérkezési és kiindulási id ket. 51 . amelyekhez nincsen szükség az ábrázoláshoz.

amit át kell alakítanunk boxplot diagrammá. csak jóval bonyolultabban. és 52 . minimum. Ennek a menete a következ : 1. ahol a grafikon ábratípust választjuk ki. Az elkészült táblázatot. lépésben megadhatjuk a grafikon megnevezéseit és befejezzük a grafikonkészítést. fels kvartilis. Törölnünk kell a vonaldiagramokat. Az Excelben történ boxplot ábrázoláshoz el ször ki kell számítanunk a jellemz értékeket: alsó kvartilis. ábra).22. ábra A taxi beérkezési és kiindulási id pontok külön-külön ábrázolása repül járatonként az EWR repül téren A boxplot ábrázolás az Excelben is megvalósítható (23. Az elkészült grafikon egy vonal. Az egér jobb oldali gombjával a grafikon els vonalára kattintunk. A kiszámított jellemz ket táblázatba kell foglalni. mint az R rendszerben. és csak a pontdiagramot tartjuk meg. maximum. A grafikonkészítés 2. medián.és pontdiagram. lépésében Az adatsorok jellemz nél a Sorokban paramétert jelöljük be. majd a 3. majd meg kell hívni a grafikus varázslót. a megnevezésekkel együtt ki kell jelölni.

Újra kiválasztjuk Az adatsorok formázása… menüt. majd a Mintázat – Vonal almenüben bejelöljük a Nincs paramétert.hist.kiválasztjuk Az adatsorok formázása… menüt. Ezt tesszük az összes vonal esetében. 2.and. valamint a Köz paraméterhez beírunk 150-et (ez állítja be a box szélességét).boxplot” függvény felhasználásával. majd a Beállítások almenüben beállítjuk a Különbségvonalak és a Pozitív/negatív eltérés paramétereket. A két grafikon együttes használata az adatok jobb értékelhet ségét is biztosítja. aminek segítségével a két grafikon közötti viszonyt is láthatjuk. ábra Boxplot ábrázolás az Excelben Az R rendszer lehet vé teszi hisztogram és boxplot együttes megjelenítését is. a ”simple. 53 . 23.

15. feladat
A feladatban néhány eloszlástípust (binomiális, Poisson, exponenciális és normális) mutatunk be a kett s ábrázolással (24. ábra).

> binomiál=rbinom(100, 20, 0.05) > poiss=rpois(100,5) > expon=rexp(100) > normál=rnorm(100,20,5) > par(mfrow=c(2,2)) > simple.hist.and.boxplot(binomiál, main=”Binomiális-eloszlás”) > simple.hist.and.boxplot(poiss, main=”Poisson-eloszlás”) > simple.hist.and.boxplot(expon, main=”Exponenciális-eloszlás”) > simple.hist.and.boxplot(normál, main=”Normális-eloszlás”)

2.6.4. Páronkénti ábrázolás
A páronkénti ábrázolás egy nagyon jól használható magas szint ábrázolási funkció többváltozós összefüggések megjelenítésére és vizsgálatára. Különösen hasznos, ha az adatainkban lév tendenciákat szeretnénk megismerni. Legyen adott egy X1, X2, …, Xk változókat tartalmazó ábrázolandó mátrix, amely változóit egy lapon páronként akarjuk ábrázolni mátrix formában (k oszlop és k sor). A mátrix i-edik sora és j-edik oszlopa az Xi és az Xj változókat mutatja be. Az el z ekb l látható, hogy a páronkénti ábrázolás (pairwise vagy scatter plot) valójában egy nagyon egyszer lehetséges:

dolog, de a megjelenítésnek sok alternatívája

Például az ábrázolási mátrix diagonáljában, egyszer en egy 45 fokos vonalat kapunk az Xi – Xi változók ábrázolása esetén, de a diagonálist üresen is hagyhatjuk, vagy beleírhatjuk a változók elnevezéseit is. Vagy egy másik probléma, hogy az Xi – Xj és az Xj – Xi csak a tengelyek felcserélést jelenti, egyébként megegyeznek. Az utóbbi esetben elhagyhatjuk a diagonális alatti ábrákat.

54

24. ábra Eloszlások ábrázolása hisztogrammal és boxplottal
Gondot okozhat az ábrák nagy száma, mert nehéz lehet a tengelyekre vonatkozó elnevezések informatív és átlátható megjelenítése. Ez bizonyos mértékig megoldható, ha az elnevezéseket a két oldal (mind a sorok és mind az oszlopok esetében) között felváltva használjuk

A jobb áttekinthet ség érdekében szükséges lehet, hogy az egyes ábrák között üres helyeket hagyjunk.

A páronkéti ábra mátrix a következ kérdésekre adhat választ:
• •

Van-e páronkénti kapcsolat a változók között? Ha van kapcsolat, akkor milyen a kapcsolat természete?

55

• •

Vannak-e kiugró (extrém) adatok? Van-e klaszterképzési (csoportba rendezési) lehet ség az adatokban?

16. feladat
Napjaink egyik sokat tárgyalt kérdése a melegházhatás, amelynek befolyásolója a CO2 emisszió. Az emissions adathalmaz különböz európai országok és az USA 1999-es adatait tartalmazza az összes GDP, az egy f re jutó GDP és a CO2 emisszió vonatkozásában. Az R rendszerben pairs függvénnyel el sok paramétere van az ábra alakítására. tudunk állítani egy szórásdiagramot valamennyi párt figyelembe véve (25. ábra). A pairs függvénynek

> library(UsingR) > data(emissions) > pairs(emissions, labels=c("GDP", "GDP/f ", "CO2"), + main="Szórásdiagram")

2.6.5. Egyéb ábrázolási technikák
Az R rendszerben szinte mindenfajta ábra el állítható, a grafikus lehet ségek nagyon fontos és különösen sokoldalú komponensét képezik a programnak. A beépített grafikus függvényeknek nagy számával tudunk dolgozni, de magunk is hozhatunk létre új ábra típusokat. A grafikus lehet ségeket használhatjuk interaktív módban, ahol az alap ábra újabb attribútumok hozzáadásával vagy a már megadottak megváltoztatásával lépésenként továbbfejleszthet , valamint batch üzemmódban is. A terjedelmi korlátok miatt valamennyi lehet séget bemutatni nem lehet, de a rendszerhez kapcsolódó szakkönyvekb l könnyen meg lehet ismerkedni valamennyi lehet séggel. Az R rendszer csomagjai között sok speciális ábrázolási technikát megvalósító csomaggal is találkozhatunk (http://cran.r-project.org/src/contrib/ PACKAGES.html).

56

25. col="lightgray") > simple. ábra) > library(UsingR) > data(InsectSprays) > par(mfrow=c(1. ami a boxplot és a s r ségdiagram lényegének a kombinációja.densityplot(count ~ spray. data=InsectSprays. col="lightgray") > simple. (26.violinplot(count ~ spray. amely az átláthatóság érdekében tükörképpel van megadva. az InsectSprays-t. Tulajdonképpen az egy boxplot elkészítésével indul. data=InsectSprays) 57 . és azután a boxplot mindkét oldalához hozzáadódik egy s r ség diagram. a violinplot és a s r ségdiagram formát is.3)) > boxplot(count ~ spray. data=InsectSprays. A heged ábra létrehozásához egy a rendszerhez tartozó adathalmazt használunk fel. A jobb megértés érdekében egymás mellett megadjuk a boxplot. ábra A pairs függvény felhasználása páronkénti szórásdiagram el állítására A speciális ábrázolási lehet ségek közül a heged (violin) ábrát mutatjuk be.

mégpedig egy 3 dimenziós ábrát. ábra). Az ábra létrehozása több lépésben oldható meg. ábra A violindiagram ábrázolása a boxplot és a s r ségdiagram társaságában Az ábrázolási lehet ségek közül végezetül egy bonyolultabb formát is bemutatunk.) A kétváltozós normális eloszlás s r ségfüggvénye f ( x) = 1 2 *π * σ 11 *σ 12 * 1 − ρ 2 ( ) 2   ( x1 − µ1 )2 1 x1 − µ1 x2 − µ 2 ( x2 − µ 2 )     * exp− * − 2* ρ * * +  2 σ 22   σ 11 σ 22  2* 1− ρ  σ 11    ( ) A feladat megoldása: 58 . de szép ábrát kapunk. (A feladat megoldása kicsit bonyolult. amely egy kétváltozós normális eloszlás s r ségfüggvényét ábrázolja és felírjuk rá a képletet és a kezd értékeket is (27.26. 17. és minimális programozási ismereteket is igényel. feladat Hozzuk létre a kétváltozós normális eloszlás 3 dimenziós ábráját úgy. hogy az ábrára rákerüljön az eloszlás függvény is.

bgroup("[". el állítja a 3.s.2~pi~sqrt( sigma[11]~sigma[22]~(1-rho^2)))~phantom(0)^ + bold(. a függvény létrehozása az R-ben > f = function(x1.sqrt(sigma[22]))~+~ + frac((x[2]~-~mu[2])^2."}")) 5. A kétváltozós normális eloszlás s r ségfüggvényének kiszámítása > z = outer(x1. + frac((x[1]~-~mu[1])^2. 28 A megadott vektorok felhasználásával.mu2)) / (sqrt(s11) * sqrt(s22)) + term1 * exp(term2 * (term3 + term4 . z. 59 .mu2)^2 / s22 + term5 = -2 * rho * ((x1 .term5)) +} 2."]")). + sqrt(sigma[11]))~ frac(x[2]~-~mu[2].s = expression(italic(f)~(bold(x)) == + frac(1. kezd értékek megadása > mu1 = 0 > mu2 = 0 > s11 = 10 > s12 = 15 > s22 = 10 > rho = 0.mu1)^2 / s11 + term4 = (x2 . paraméterként megadott függvény értékeit. és elhelyezi a z-ben. A függvény megrajzolása és a képlet kiírása > persp(x1. main = "Kétváltozós normális eloszlás". sigma[22]). sub = p. x2.rho^2))) + term2 = -1 / (2 *(1 . sigma[11])~-~2~rho~frac(x[1]~-~mu[1]. list(-frac(1.2(1-rho^2)). 10. A s r ségfüggvény képletének az összeállítása a TEX szövegszerkeszt nek megfelel utasításkészlet segítségével: > p.)~exp~bgroup("{".rho^2)) + term3 = (x1 .5 > x1 = seq(-10. x2) +{ + term1 = 1 / (2 * pi * sqrt(s11 * s22 *(1 .1. length=41) > x2 = x1 # expected value of x1 # expected value of x2 # variance of x1 # covariance of x1 and x2 # variance of x2 # correlation coefficient of x1 and x2 # generating the vector series x1 # copying x1 to x2 3. f) 28 4.mu1) * (x2 . x2.

mu[2]==0.75.1. nticks = 5) 6. phi = 20. ábra A kétváltozós normális eloszlás 3 dimenziós ábrázolása Ellen rz kérdések: 1.5)).+ col = "lightgreen". side=3) f ( x) = 2   ( x − µ )2 1 x − µ x − µ ( x − µ )    *exp− *  1 1 − 2 * ρ * 1 1 * 2 2 + 2 2  2 2* 1− ρ 2  σ11 σ 22  σ11 σ 22 2*π * σ11 *σ12 * 1− ρ     13 1 ( ) ( ) 27. + sigma[22]==10. expand = 0. lphi = 180. shade = . sigma[11]==10. + ltheta = 90.5. 3. Mi az egyenletes-eloszlás f jellemz je? Milyen jelenségek vizsgálatában alkalmazzák általában a binomiáliseloszlást? Melyik eloszlást szokták a „kis számok törvényének” nevezni? Melyek az exponenciális-eloszlás f jellemz i? 60 . 2. r = 50. Az alapparaméterek kiírása az ábrára > mtext(expression(list(mu[1]==0. rho==0. theta = 30. 4. d = 0. sigma[12]==15. ticktype = "detailed".

10.5. a vonal-. Miért tartják a normális eloszlást gyakorlati szempontból a legfontosabb eloszlástípusnak? Mikor nevezünk egy valószín ségi változót standard normális eloszlásúnak? Melyek az ábrák készítésének alapelvei? Hogyan történik az adatok hisztogrammal való ábrázolása? Mi jellemzi a pont-. 11. 12. 7.és a kördiagramot? Milyen f bb statisztikai jellemz k jelennek meg a boxplot ábrázolásban? Mi a lényege a páronként ábrázolásnak. 6. 8. 9. és milyen kérdésekre adhat választ ez az ábrázolási mód? Milyen diagramokat foglal magában a violindiagram? 61 . az oszlop.

1. láthatjuk. amelyeket pedig az elhelyezkedésük alapján. azokat helyzeti középértékeknek nevezzük (pl. amely körül s r södnek az értékek. A középértékekkel szemben támaszthatunk bizonyos követelményeket. ha jóval kevesebb adat figyelembevételét is követeli meg a mintánál. Azokat a középértékeket. Alapstatisztikák Túlesve a legfontosabb eloszlásokkal kapcsolatos elemi ismereteken. Jó lenne az adatokat . Számtani átlag A minta középértékének a leírására több lehet ség is van. tehát legyen nála kisebb és nagyobb érték is. amely közel áll az el forduló értékek zöméhez. hogy a gyakorisági eloszlás.3. számított középértékeknek nevezzük (átlag). Helyzeti és számított középértékek Az egyik leggyakrabban használt statisztikai jellemz a középérték. vagyis érvényesüljön. amelyeknek a különböz középértékek különböz mértékben tesznek eleget. azaz olyan érték.lehet leg minél tömörebben jellemezni. 3. de közülük a leginkább elterjedt az átlag használata. amely azonos fajta számszer adatok tömegének közös jellemz je. és könnyen értelmezhet legyen. hogy Xmin < K <Xmax Megkövetelhet az is. hogy a középérték tipikus legyen. Nagyon fontos. hogy a középérték valóban közepes helyzetet foglaljon el.1. 3.: medián). amelyeket még ki lehet egészíteni más jellemz kkel is.1. meglehet sen nehezen jellemezhet . amelyeket számítással határozunk meg. A különböz átlagok közül a leggyakrabban használt a 62 . Ilyen követelmény. hogy a használt középérték egyértelm en legyen definiálva. Egy numerikus adathalmaz alapvet jellemz iként a középértéket és a terjedelmet szokták megadni.

A számtani átlagot általában akkor használjuk.és záróérték is szerepel. de félrevezet lehet ferde eloszlások esetében. a nevez ben szerepl egyedszámot pedig a gyakoriságok összege adja: ∑ f *X i k i X= i =1 ∑f i =1 k i Ezt az összefüggést súlyozott számtani átlagnak nevezzük. és ebb l következ en az összes középtendencia mér szám közül a legkevésbé kitett a minta ingadozásainak. amelyet olyan id sorok esetében használunk. Ilyenek 63 . Ha az adatainkat valamilyen szempont szerint csoportosítjuk. amellyel az egyes megfigyelési értékeket helyettesítve azok összege változatlan marad. amikor az értékek között nyitó. A kronologikus átlag a számtani átlag speciális formája. ami a ∑X X= i =1 n i n A fenti képlet alapján úgy is fogalmazhatnánk. ha a megfigyelési egységek összegének tárgyi értelme van. A számtani átlag közel szimmetrikus eloszlások esetén jó mér száma a középértéknek.számtani átlag. hogy a számtani átlag az a szám. akkor a számlálóban szerepl értékösszeget. amelynek egyszer következ képlettel adható meg: formája a megfigyelési egységekhez tartozó értékek (Xi) összegének és a megfigyelési egységek számának (n) a hányadosa. és gyakorisági sorokat hozunk létre. és a hozzájuk tartozó gyakoriságok (fi) szorzatösszegeként állítjuk el . Normál eloszlás esetén a számtani átlag a leghatékonyabb. mert er sen befolyásolhatják a „végeken” lév értékek. Az összefüggésben a ’k’ a csoportok számát jelenti. az egyes csoportokat jellemz értékek.

a harmonikus átlag az a szám. Harmonikus átlag Harmonikus átlagszámításra általában akkor kerül sor.lehetnek például a különböz kiszámításának képlete: készlet kimutatások. mint a megfigyelési egységek reciprokaiból számított számtani átlag reciprok értéke.1. Ebb l következ en a harmonikus átlag lényegében nem más. A számtani átlaghoz hasonlóan lehet ség van a harmonikus átlag súlyozott formában történ kiszámítására is: ∑f Xh = i =1 k i i =1 k i ∑ f *X 1 i 64 . illetve indexekb l történ átlagszámítás esetén van szükség. A kronologikus átlag X 1 + X n n −1 +∑ Xi 2 i =2 X= n −1 3. azok reciprokainak összege nem változik: Xh = n ∑X i =1 n 1 i A harmonikus átlag használatára általában a fordított intenzitási viszonyszámokból.2. amelyet az egyes átlagolandó értékek helyébe helyettesítve. Ebb l következ en. amikor az átlagolandó értékek reciprok értékei összegének van tárgyi értelme.

a számítás képlete: n Xg =n CX i =1 i 29 A mértani átlag súlyozott formája: X g = i =1 ∑ fi k k CX i =1 i fi 3. és az el jelnek nincsen jelent sége. a négyzetes átlaggal eltüntethet az el jelek különböz sége. A négyzetes átlag önmagában viszonylag ritkábban használt átlagforma.1. ha az átlagolandó értékek között pozitív és negatív számok is el fordulnak.4.3. 65 .3. ha az átlagolandó értékek szorzatának van tárgyi jelentése. amelyet az átlagolandó értékek helyébe téve azok szorzata változatlan marad. Ilyen esettel általában dinamikus viszonyszámokkal történ számítások során találkozhatunk. A mértani átlag az a szám. Mértani átlag Mértani (geometriai) átlagot akkor számolunk. Hasznos lehet az alkalmazása abban az esetben.1. Kiszámításának képlete: ∑x Xq = i =1 n 2 i n 29 A ∏ szimbólum a szorzatot jelenti. amellyel az átlagolandó értéket helyettesítve. azok négyzetösszege nem változik. Négyzetes átlag A négyzetes (kvadratikus) átlag az a szám. mert nagyon ritkán tudunk az átlagolandó értékek négyzetösszegének tárgyi jelentést adni.

A medián értéke 66 . A módusz helyzeti középérték.6. értékét egy gyakorisági sorból vagy egy hisztogramból rátekintéssel meg tudjuk állapítani. vagyis amelynél ugyanannyi kisebb. tipikus érték. Diszkrét értékek esetén a módusz a leggyakrabban el forduló ismérvérték. Medián A medián is helyzeti középérték.5.amelyre igaz. mint nagyobb érték fordul el . hogy esetenként több módusza is lehet egy sokaságnak. hogy ennek a legnagyobb a gyakorisága a mintában.1.1.Az átlagszámításnál a négyzetgyököt mindig pozitív el jellel értelmezzük. mert ezen érték körül s r södnek a legjobban a megfigyelési egységek. amely sorba rendezett értékek közül a középs . a legjellemz bb. Módusz Bármely gyakorisági eloszlás görbéjét tekintjük: mindig értelmezhetünk olyan értéket . Folytonos ismérvek esetében a módusz a gyakorisági görbe maximumához tartozó érték.vagy osztályközt . Ez alapján azt is mondhatnánk. A négyzetes átlag súlyozott formája ∑f Xq = i =1 n i =1 n i x i2 i ∑f 3. hogy a módusz a legáltalánosabb. Meghatározásához nincsen szükség számításra. Hátrány lehet. Bizonyos esetekben a széls érték iránti érzéketlenség miatt célszer használni a többi középértékkel szemben. a móduszt 3.

Azt is mondhatnánk. mint a medián pozitív irányban ferde eloszlások esetében. illetve fels (Q3) kvartilisnek nevezzük. mint a medián negatív irányú ferdeség esetén. Kvantilisek A minta elhelyezkedését jellemezhetjük a kvantilisek segítségével. illetve 75 %-os kvantilist alsó (Q1). 3. Szimmetrikus eloszlások esetén az átlag.A medián sorszáma: n +1 2 A képletb l következ en páros esetszám esetén a medián törtszám lesz. hogy az átlag általában magasabb. A t %-os empirikus kvantilis az a legkisebb mintaelem. amelynél a mintaelemek t %-a kisebb. Ez azt is jelenti. a sokaságot negyedekre osztják. és ebben az esetben mediánnak a két középs szám egyszer számtani átlagát tekintjük. A kvartilisek. A 25 %-os. A medián kevésbé érzékeny az extrém értékekre. A mediánnál kisebb értékek mediánja az alsó kvartilis (Q1). n +1 4 Q1 sorszáma (25%): Q1 sorszáma (75%): 3 * (n + 1) 4 67 . A kvartilisek nem tartoznak a középértékek közé. A mediánnál nagyobb értékeké pedig a fels kvartilis (Q3). vagy egyenl . A kvartilisek meghatározásánál a nagyság szerint rendezett sokaságból kell kiindulni.1. hogy a kvartilisek a mediánnál kisebb és a mediánnál nagyobb értékek mediánjai. mint az átlag és ezért er sen ferde eloszlások esetén jobb mér eszköz lehet. mint az elnevezésükb l is következik. és alacsonyabb. a módusz és a medián megegyezik.7.

vagy századrészekre osztani (decilis. amelyet különböz mutatókkal mérhetünk. mert csak két értéken alapszik. mint azt. Ez a tulajdonsága adja használatának értelmét.A kvartilisekhez hasonlóan lehet a sokaságot tized.IQ) a terjedelemhez nagyon hasonló mér szám. Azt a sokaságot jobban jellemzi a középérték. A szóródás és mér számai A középérték azáltal. amelynél kisebbek az átlagtól való eltérések. mintegy kiegyenlíti a sokaságban rejl különböz ségeket.2. A értékekre. mert egyedül kevésbé informatív. de egyúttal korlátját is. centilis). Ugyanakkor a terjedelmet szinte soha nem használják a szóródás egyetlen mér számaként. ezért a sokaság jellemzéséhez szükségünk lehet egy olyan jellemz re. A terjedelem a legegyszer bb és legkönnyebben megérthet szóródásnak. ami egyenl terjedelem nagyon érzékeny a széls mér eszköze a a legnagyobb és a legkisebb érték különbségével. Szóródáson valamely mennyiségi ismérv értékeinek a különböz ségét értjük. A kvartilis eltérés (interkvartilis terjedelem . hogy egyetlen értékbe s rítve jellemzi a sokaságot. ami arra ad választ. hogyan helyezkedhetnek el a megfigyelési egységek az átlag körül. mér eszközre is. Különböz sokaságokban az egyes értékek átlagtól való eltérései lehetnek kisebbek vagy nagyobbak. 3. amelyben nagyobbak. amely az alsó és a fels kvartilis különbségének a fele: Q3 − Q1 2 IQ = Az átlagos abszolút eltérés (δ) a megfigyelési értékek és a számtani átlag eltérései abszolút értékeinek a számtani átlaga: 68 .

A varianciát önállóan nem szoktuk használni. amelyek azt mutatják meg. de sok statisztikai számítás felhasználja. 69 .az átlagtól való eltérések átlagos nagyságát számítjuk ki. A ferdeség (skewness) és a csúcsosság (kurtosis) A ferdeség és a csúcsosság lényegében alak-mutatószámok. Számítása ∑ (X σ= i =1 n i −X ) 2 n A négyzetes eltéréssel – mint az a képletb l is látható . mert kvadratikus értelemben (kvadratikus minimum) a számtani átlag az a középérték. hogy egy adott sokaság milyen mértékben tér el az etalonnak tekintett normál eloszlás gyakorisági görbéjét l.3. amely az ismérvértékek és a számtani átlaguk eltéréseinek négyzetes átlaga. A képletben azért a négyzetes átlagot használjuk. 3. A szórás gyakorisági sorból történ kiszámítása súlyozott formában történik: ∑ f * (X i k i −X i ) 2 σ= i =1 ∑f i =1 k A variancia a szórásnégyzet (σ2).∑X δ= i =1 n i −X n A szóródás leggyakrabban használt mutatószáma a négyzetes eltérés vagy szórás. és ugyanúgy a változékonyság mérésében van szerepe. mint a szórásnak. amely a legközelebb áll az egyes átlagolandó értékekhez.

A csúcsosság (vagy lapultság) az eloszlás „elnyúltságán” alapszik. míg a balra hosszan elnyúló eloszlásokat jobboldali asszimetriájú eloszlásoknak (negatív ferdeség) nevezzük (28. akkor negatívan csúcsos az eloszlás. hogyha az átlag nagyobb. akkor pozitívan ferde az eloszlás. A csúcsosság általánosan használt mutatószáma n ∑ (X k= i =1 i −X ) 4 n *σ 4 A normál eloszlás csúcsossági értéke 0. mivel az szimmetrikus eloszlás. mint a medián. és ha az átlag kisebb. Általános szabály. 70 . ábra). A pozitív ferdeséggel rendelkez eloszlások a gyakoribbak. A ferdeség az asszimetria mér számának is tekinthet . mint a medián. ábra Az eloszlások ferdesége A ferdeség számítása: n ∑ (X k= i =1 i −X ) 3 n *σ 3 A normális eloszlás ferdeségi értéke 0. Pozitív ferdeség Negatív ferdeség Szimmetrikus eloszlás 28. Ebb l következ en a jobbra hosszan elnyúló eloszlásokat baloldali asszimetriájú eloszlásoknak (pozitív ferdeség).

a két programban elvégezhet számításokat összevontan mutatjuk be. mert egy-egy nem mindig jellemzi adathalmazhoz célszer többféle számítást is bemutatni.50 3 853.50 3 828.00 3 687.90 1.10 3 843. feladat A 1. ábra) 71 . Ahogyan azt már korábban is megállapítottuk. A középértékek és a szóródás kiszámításának lehet ségei az Excelben és az R rendszerben A számított és a helyzeti középértékekhez.10 3 749. táblázat Az aktív keres k száma Magyarországon Excel: Az Excelben a f bb jellemz k együttes kiszámítását az Eszközök – Adatelemzés – Leíró statisztika menüvel végezhetjük el. általában egy statisztikai jellemz megfelel en a sokaságot.4.90 3 669. táblázatban található adatok felhasználásával számítsuk ki a f bb statisztikai jellemz ket. valamint a szóródáshoz tartozó.20 3 657. 18.3. (29. Év 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 Aktív keres k száma (f ) 3 727.60 3 654.80 3 824.

de nem szabad elfelejteni. ábra Az aktív keres k statisztikai jellemz inek meghatározása Az R rendszerben is van lehet ség különböz összegz statisztikák számítására. maximum. fels kvartilis. (30. 30 31 Minimum. fels sarokpont. Az els ilyen lehet ség a summary30 vagy a fivenum31 függvények használata. hogy az R statisztikai programban sokkal könnyebb újabb függvényeket létrehozni. medián. 72 .29. A táblázatból látható. átlag. A két programrendszerben számítható statisztikai jellemz ket a 2. Általában ugyanannak a feladatnak a megoldása az Excelben több munkát igényel. maximum. medián. alsó kvartilis. Minimum. ábra) Ugyanúgy. mint az R rendszerben. és tárolni. táblázat tartalmazza. majd újrafelhasználni. alsó sarokpont. mint az Excelben lehet ség van az egyes jellemz k külön-külön kiszámítására is. hogy van különbség a két rendszer között és az Excelben számítható több mutató.

30. ábra A summary és a fivenum függvények használata az R-ben

Excel
ÁTL. ELTÉRÉS ÁTLAG CSÚCSOSSÁG FERDESÉG HARM. KÖZÉP KVARTILIS MAX MEDIÁN MÉRTANI.KÖZÉP MIN MÓDUSZ PERCENTILIS SZÓRÁS VAR

R
mean

quantile max median min

sd var IQR

2. táblázat Az Excel és az R nyelv alap statisztikát számító függvényei

73

19. feladat
Mennyi id alábbi: alatt takarítanak be a kombájnok 100 hektár kukoricát, ha 100 ha

kukorica betakarításának m szakóra szükséglete különböz kombájnok esetében az

Kombájn típus
Kombájn1 Kombájn2 Kombájn3 Kombájn4

M szakóra/100 ha
55 70 100 75

Az Excelben való megoldást a 31. ábra mutatja be. (Az adatok az ábrán egyenként kerültek megadásra, de lehetett volna cellahivatkozást is használni.)

31. ábra Az átlagos m szakóra kiszámítása Excelben
Az R rendszerben nincsen külön függvény a harmonikus átlag számítására, annak megoldására két lehet ség van (az adatok a müó.szüks változóban vannak): 74

1. Vagy beírjuk a képletet és kiszámítjuk

> length(müó.szüks)/(sum(1.0/müó.szüks))
2. Vagy készítünk egy függvényt, amit a kés bbiekben is fel tudunk használni és a megfelel értékeket behelyettesítjük

> harm.átlag = function(x, n) n / sum(1/x) > harm.átlag(müó.szüks, length(müó.szüks))

20. feladat
Az Alföld megyéiben a mez gazdasági vállalatok m trágya-felhasználása és a m trágyázott terület a 3. táblázatban szerepl volt. Számítsuk ki, hogy mennyi volt az egy hektár m trágyázott területre jutó m trágya felhasználás az Alföldön?

Felhasznált Megye megnevezése összes m trágya (t)
Bács-Kiskun Békés Csongrád Hajdú-Bihar Jász-Nagykun-Szolnok Pest, Budapest Szabolcs-Szatmár-Bereg 33622.6 18716.6 15773.4 19584.9 22905.8 22869.0 18943.6

1 hektár m trágyázott területre felhasznált m trágya kg/ha
139 84 121 117 101 165 117

3. táblázat M trágyázás az Alföldön
A feladatot mindkét esetben a képlet felhasználásával tudjuk megoldani. A különbség annyi, hogy az R rendszerben viszonylag egyszer en létrehozható egy képlet (függvény) és az le is tárolható további felhasználásra, addig az Excelben ez kicsit bonyolultabb (32. ábra), de képlet ott is tárolható.

75

össz. ábra Az átlagos m trágyázás az Alföldön R rendszer: Függvény létrehozása: > s.1743 21. feladat A 1. de el tte meg kell határozni azokat a láncviszonyszámokat.1ha) Eredmény: [1] 118. Az Excel ehhez a számításhoz biztosít egy függvényt.harm.32. m tr.átlag = function(f.átlag(felh. (33.m tr. táblázat adatainak felhasználásával számítsuk ki. hogy milyen ütemben változott 1995 és 2004 között Magyarországon a foglalkoztatottak száma. amelyb l mértani átlagszámítást el tudjuk végezni.harm. amelynek a segítségével az eredmény kiszámítható. x) sum(f) / sum(f/x) Függvény behelyettesítése: > s. ábra) 76 .

A létrehozandó függvényt úgy is el lehet készíteni.003700 77 . és azután számolja az átlagot. ábra Az aktív keres k számának átlagos növekedési üteme Az R rendszerben létre kell hozni egy függvényt.átlag = function(x) +{ + x1 = x[-length(x)] + x2 = x[-1] + lánc = x2 / x1 + xprod = cumprod(lánc)^(1/(length(x)-1)) + xprod[length(xprod)] +} Az átlag kiszámítása > mértani.33.keres ) Eredmény: [1] 1.átlag(aktív. Függvény létrehozása > mértani. hogy el ször számítsa ki a láncviszonyszámokat. 1.

alapvet paraméteres és nem-paraméteres statisztikai próbák Gyakran el fordul. egy növénytermesztési kísérletnél az egyik parcellán nem adunk m trágyát. az alapeloszlás paramétereire. hogyan befolyásolja a m trágya a valószín ségi változó eloszlását. vagy magára az egész alapeloszlásra vonatkozó feltevést értünk. vagy sem. Például. Azt az eljárást. ha feltevésünk az ismert típusú alapeloszlás egy vagy több ismeretlen paraméterére vonatkozik. várható értékét megváltoztatja-e.5. hipotézisvizsgálatnak nevezzük. akkor eloszlásra vonatkozó hipotézisr l beszélünk. hanem például arra: lehetséges-e. Abban az esetben.5.1. A statisztikai hipotézisek két nagy csoportra oszthatók. Statisztikai hipotézisen egy. amelyben az az állítás jut kifejezésre. hogy két adott minta ugyanabból az eloszlásból származott. hogy az ismeretlenek nagy száma. vagy származhatott-e a minták egy konkrét eloszlásból. Ha az egész alapeloszlás típusára vonatkozó feltevéssel élünk. nem tudunk közvetlen módszereket alkalmazni. 3. vagy a megfigyelési lehet ségek korlátozottsága folytán. illetve érdekl désünk nem az ismeretlen paraméter konkrét értékére irányul. A hipotézisvizsgálat menete A hipotézisvizsgálat els lépése a nullhipotézis képzése. 78 . stb. akkor paraméterre vonatkozó hipotézisr l beszélünk. vagy a tényleges és a feltételezett alapeloszlás között nincsen különbség.3. Hipotézistesztelés. másikon pedig adunk bizonyos adagot. Igazolandó feltevésünk az – a termésnövekedés a valószín ségi változó -. amelynek segítségével eldöntjük. hogy az adott hipotézis konkrét esetben elfogadható-e. hogy az eloszlás paramétere és annak feltételezett értéke.

2. Ha a próbafüggvénynek az értéke beleesik a megadott intervallumba (elfogadási tartományba). u-próba Az u-próba lehet egymintás és kétmintás próba. a vizsgált valószín ségi változó populáción belüli szórása ismert (tehát nem a minta alapján kell becsülnünk).5. akkor nincsen okunk kételkedni a nullhipotézis helyességében. hogy egy mintában egy valószín ségi változó átlaga szignifikánsan különbözik-e egy adott m értékt l. amelyek lehetnek egyszer ek (H1: a = 2) és összetettek (H1: 1 < a < 3). hogy az eltérés a mintából kiszámolt átlag és az m érték között olyan minimális. a valószín ségi szintet pedig szignifikancia-szintnek nevezzük. azaz nincsen szignifikáns eltérés a nullhipotézisünk feltételezése és a valóság között. [H0 : x = m] Alternatív hipotézis: a minta átlaga statisztikai szempontból nem egyezik meg az el re megadott m értékkel. Az egymintás u-próba azt vizsgálja. Nullhipotézis: a minta átlaga statisztikai szempontból megegyezik az el re megadott m értékkel. A próba alkalmazásának feltételei: • • • a vizsgált valószín ségi változó normális eloszlású. Az intervallum két végpontját kritikus értéknek. [H1 : x ≠ m] A "statisztikai szempontból" kifejezés itt arra utal. 3. a vizsgált valószín ségi változó intervallum vagy arányskálán mért. Egy nullhipotézishez több alternatív hipotézis is megfogalmazható.A hipotézisvizsgálatokban fontos szerepe van az alternatív hipotézisnek. ami a nullhipotézist l eltér hipotézis matematikai megfogalmazása. Ezután létre kell hoznunk a próbafüggvényt. és ki kell jelölni azt az intervallumot. amely tetsz leges valószín séggel foglalja magában a próbafüggvény értékét. hogy pusztán csak a véletlen ingadozásnak tulajdonítható (ekkor a minta átlaga statisztikai szempontból 79 .

vagy jelent sen nagyobb. A próba alkalmazásának feltételei: • • • • a vizsgált valószín ségi változók normális eloszlásúak. σ : a vizsgált valószín ségi változó ismert szórása. a vizsgált valószín ségi változók intervallum vagy arányskálán mértek. A kétmintás u-próba azt vizsgálja. Az egymintás u-próba próbastatisztikája u= x−m σ n ahol • • • • x a vizsgált valószín ségi változó átlaga a mintában. m : az el re adott érték. a vizsgált valószín ségi változók függetlenek. amihez az átlagot viszonyítjuk.azonosnak tekinthet az m-mel). [H0 : E(x) = E(y)] Alternatív hipotézis: a két mintában a két átlag statisztikai szempontból nem egyezik meg. [H1 : E(x) ≠ E(y)] A kétmintás u-próba próbastatisztikája 80 . és n : a minta elemszáma. mint ami a véletlennel magyarázható (ekkor a minta átlaga statisztikai szempontból nem egyezik meg mmel). Nullhipotézis: a két mintában a két átlag statisztikai szempontból megegyezik. a vizsgált valószín ségi változók populáción belüli szórásai ismertek. hogy két külön mintában egy-egy valószín ségi változó átlagai egymástól szignifikánsan különböznek-e.

3.5. y a másik valószín ségi változó átlaga a mintájában. a vizsgált valószín ségi változó intervallum vagy arányskálán mért. hogy egy mintában egy valószín ségi változó átlaga szignifikánsan különbözik-e egy adott m értékt l. [H0 : x = m] Alternatív hipotézis: a minta átlaga statisztikai szempontból nem egyezik meg az el re megadott m értékkel. [H1 : x ≠ m] Az egymintás t-próba próbastatisztikája u= x−m s n ahol • x a vizsgált valószín ségi változó átlaga a mintában. 3. t-próba A t-próba lehet egymintás és kétmintás próba. σy a másik valószín ségi változó korrigált szórása. Nullhipotézis: a minta átlaga statisztikai szempontból megegyezik az el re megadott m értékkel.u= x−y 2 σx n ahol • • • • • • + σ2 y m x az egyik valószín ségi változó átlaga a mintájában. A próba alkalmazásának feltételei: • • a vizsgált valószín ségi változó normális eloszlású. Az egymintás t-próba azt vizsgálja. σx az egyik valószín ségi változó korrigált szórása. n az egyik minta elemszáma és m a másik minta elemszáma. 81 .

• • • s a vizsgált valószín ségi változó becsült szórása. amihez az átlagot viszonyítjuk és n a minta elemszáma. elegend becsülnünk a minták alapján). sx az egyik valószín ségi változó korrigált szórása. a vizsgált valószín ségi változók intervallum vagy arányskálán mértek. A próba alkalmazásának feltételei: • • • a vizsgált valószín ségi változók normális eloszlásúak. hogy két külön mintában egy-egy valószín ségi változó átlagai egymástól szignifikánsan különböznek-e. a vizsgált valószín ségi változók szórásai megegyeznek (a kétmintás upróbától eltér en itt nem kell ismernünk az elméleti értéküket. m az el re megadott érték.1 A kétmintás t-próba azt vizsgálja. • Nullhipotézis: a két mintában a két átlag statisztikai szempontból megegyezik. Szabadságfok: n . [H0 : E(x) = E(y)] Alternatív hipotézis: a két mintában a két átlag statisztikai szempontból nem egyezik meg. a vizsgált valószín ségi változók függetlenek. y a másik valószín ségi változó átlaga a mintájában. 82 . sy a másik valószín ségi változó korrigált szórása. [H1 : E(x) ≠ E(y)] A kétmintás t-próba próbastatisztikája t= x−y 2 ( n − 1) * s x + ( m − 1) * s 2 y * n * m * ( n + m − 2) n+m ahol • • • • x az egyik valószín ségi változó átlaga a mintájában.

ábra Gyógyszer hatásának vizsgálata 83 . Azt vizsgálják. 9. aki a másik anyagot. ezért két csoportot vizsgálnak. hogy mennyi id alatt gyógyul meg az. 8. 7. 7. 10. 15. aki a gyógyszert kapja és mennyi id alatt (nap). 10.• • n az egyik minta elemszáma és m a másik minta elemszáma. az egyik csoport a gyógyszert kapja. 9. Szabadságfok: n1 + n2 -1 22. hogy a két átlag egymástól szignifikánsan nem különbözik. 8. 12 Az Excelben a feladat az Eszközök – Adatelemzés – Kétmintás párosított t-próba a várható értékre menüben oldható meg. 13. 8 placebo: 15. (34. 21. Az eredmény gyógyszer: 15. 14. 14. 16. 14. 12. feladat Egy új gyógyszer hatását mérik. 34. a másik placebót. ábra) Az eredményb l láthatjuk.

[H0 : σ1 = σ2] Alternatív hipotézis: a két mintában a két átlag statisztikai szempontból nem egyezik meg. hogy két külön mintában egy-egy valószín ségi változó szórásai egymástól szignifikánsan különböznek-e.5. 35. (35.4. [H1 : σ1 ≠ σ2] A kétmintás t-próba próbastatisztikája s12 F= 2 s2 ahol 84 . nincsen igazi (szignifikáns) különbség az átlagok között. ábra Gyógyszer hatásának tesztelése 3.Az R rendszerben a t. Nullhipotézis: a két mintában a két szórás statisztikai szempontból megegyezik. de a végkövetkeztetés ugyanaz.test függvényt használhatjuk fel. ábra) A számítás során kicsit eltér adatokat kaptunk. F-próba Az F-próba azt vizsgálja.

Az F-próbát a varianciaanalízis és a regresszióanalízis esetében alkalmazzuk.• • s1 az egyik valószín ségi változó szórása. illetve a statisztikai ellen rzések során gyakran el forduló feladat különböz sokaságok valamely ismérv szerinti megoszlásának összehasonlítása (illeszkedés-vizsgálat). χ2-próba Az el z ekben tárgyalt hipotézis ellen rzéseknél többször kellett a sokaság eloszlására vonatkozó feltételezéssel élnünk. hogy a különbségek nem szignifikánsak. f i* az i-edik ismérvváltozathoz tartozó várható gyakoriság. s2 a másik valószín ségi változó szórása. egy-egy ismérvváltozathoz tartozó várható gyakoriság legalább 5 legyen. A χ2-próba próbastatisztikája χ =∑ 2 i =1 k (f i − f i* f i* ) 2 ahol • • • fi az i-edik ismérvváltozathoz tartozó megfigyelt gyakoriság.5. számításba kell vennünk. illetve ha a két tapasztalati megoszlás nem esik teljesen egybe. k a megkülönböztetett ismérvváltozatok száma. A próba alkalmazásának feltétele: • • a sokaság legalább 50 tagú kegyen. 3. Ez a feltevés a próba nullhipotézise. A sokaság eloszlásában szerepet játszik a véletlen. Szabadságfok: k – 1 85 . ezért ha egy megfigyelés (mintavétel) alapján kapott tapasztalati eloszlás gyakoriságai nem teljesen azonosak az elméleti s r ségfüggvény szerint várható gyakoriságokkal.5.

Mindkét esetben ugyanazt kaptuk eredményül. hogy a kockadobás eredménye megfelel en illeszkedik a normális eloszlásra. vagy a kett t együtt. ami azzal is alátámaszthatunk. míg az R rendszerben végzettet a 37. ábra A kockadobás eloszlása illeszkedésének vizsgálata Excelben 86 . hogy nincsen okunk elvetni azt a hipotézist. ábra tartalmazza. feladat Egy kockával 150-szer dobtunk és a következ eredményt kaptuk: Pont Dobás 1 22 2 21 3 22 4 27 5 22 6 36 A kapott adatok eloszlása megfelel -e? Az Excelben végzett számítást a 36. 36.23. ábra. ha elkészítjük a dobások hisztogramját vagy boxplotját. és megállapítható.

Függetlenség-vizsgálat esetén a nullhipotézis az.frame függvényt.1) * (m . A próba szabadságfoka: (n . hogy a biztonsági övet bekötötték vagy sem. hogy a két ismérv (változó) független egymástól. (A megfelel táblázat létrehozásához használni kell a data. hogy a biztonsági öv használata okoz-e különbséget? A vizsgálat eredménye: Sérülés(kár) szint nincs Biztonsági öv Igen Nem 12813 65963 kicsi 647 4000 közepes 359 2642 Jelent s 42 303 Az eredmény a 38. Függetlenség-vizsgálat a sztochasztikus kapcsolatok vizsgálatának egyik módszere. ezért a függetlenségi feltételezésünket el kell vetni.37. 24. hogy a két változat nem független. ábra A kockadobás illeszkedésének vizsgálata R-ben A χ2-próbának az illeszkedés-vizsgálat mellett további nevezetes alkalmazásai a homogenitás-vizsgálat és a függetlenség-vizsgálat. 87 . feladat Egy vizsgálat az ütközések során elszenvedett károk komolyságát elemezte. A rendkívül alacsony p-érték alapján azt a következtetést kell levonnunk. ábrán található. a szerint. hogy nem. A kérdés az volt. az alternatív hipotézis pedig az.1). ahol az n és az m a két minta változatainak a száma.

replace=T) > eredm.szab = sample(1:6. A kérdés.1. de még a nullhipotézis elfogadható.100. p=c(1.szab.és a t-próbákkal szemben az összehasonlított változóknak nemcsak a várható értékére.nem.szab = table(kocka. ábra A biztonsági öv használatának és nem használatának összehasonlítása A homogenitás-vizsgálat esetében az u. 88 .0.nem.nem.nem. A szabadságfok: (sorok száma – 1) * (oszlopok száma – 1). 200.5. A kérdés. ábrán látható. hogy a két sorozat származhat-e ugyanabból az eloszlásból? Megoldás az R-ben: > kocka. feladat Van két dobókocka. Dobjunk a szabályos kockával 200-at és 100-at a manipulálttal. hogy a két minta azonos sokaságból származi-e? A nullhipotézisünk az.1. ami a 39.szab = sample(1:6. eredm.szab)) Az eredményt az R rendszerben számítottuk ki.1.test(rbind(eredm.nem.2)/6. hogy mindkét adatsor ugyanabból az eloszlásból származik. azaz származhat a két minta ugyanabból az eloszlásból.szab = table(kocka. eredm.1. A kapott eredmény elég alacsony. hanem az eloszlására nézve is feltételezzük az azonosságot a nullhipotézisben.szab) > eredm.1. 25.szab) > rbind(eredm.38. a másikat manipulálták.1)/6.5.szab. p=c(0.1. az egyik szabályos.1. replace=T) > kocka.szab) > chisq.

ábra Homogenitás vizsgálat az R rendszerben Ellen rz kérdések: 1. 10. 3. 8. 5. 12. 4. 9. 6. 2. Mi a különbség a helyzeti és a számított középértékek között? Mi a kronológikus átlag és mikor használjuk? Milyen számokból szoktunk harmónikus átlagot számítani? Milyen viszonyszámokból számítanak mértani átlagot? Mi a módusz és a medián? Mi a kvartilis? Melyek a szóródás f mér számai? Mi az interkvartilis terjedelem? Mit jelent a ferdeség és a csúcsosság? Mit értünk statisztikai hipotézisen? Mire használható az u-próba? Miben különbözi a t-próba az u-próbától? Milyen számításokban használjuk az F-próbát? Melyek a khi-négyzet próba alkalmazásai? 89 . 13.39. 11. 14. 7.

Mintavételi eljárások A reprezentatív statisztika a mintavételi eljárások különböz amelyek lehetnek: a. A minket érdekl sokasági változók jellemz it (a populáció bizonyos paramétereit) a mintából számolt statisztikákkal becsüljük. hogy a sokaság jellemz it a becsült értékkel közelítse meg. vagyis a következtetés azon formája. Egyszer véletlen Olyan kiválasztási eljárás. A reprezentatív megfigyelés logikai alapja az indukció. amelynek során az egységeket a nyilvántartásból véletlenszer en. Ezek a minták nem csak összetételükben. Mintavételezés. A reprezentatív megfigyelés célja. A mintajellemz k tehát maguk is valószín ségi változók. varianciaanalízis A gyakorlatban szinte soha sincs arra lehet ségünk. Egy adott populációból   különböz mintát N   vehetünk. Az így elkövetett véletlen hiba nagysága ellen rizhet korlátozható. ha a 90 . egyenl valószín séggel választjuk ki. hogy az adott sokaság minden tagját megvizsgáljuk.1.4. hanem a vizsgált jellemz szempontjából is különbözhetnek. és M 4. A mintavétel célja. ahol M a populáció elemszáma. N pedig a mintaelemszám. hogy olyan adatokat nyerjünk. amelynél egyes esetekb l általánosító következtetést vonunk le. melyek egy adott érték (a populációs paraméter) körül ingadoznak. Véletlenen alapuló kiválasztás • módjain alapszik. melyek segítségével a populációra vonatkozóan megalapozott állításokat tehetünk. • Egylépcs s Egylépcs s (csoportos) mintavételnek nevezzük az els dleges egységek kiválasztását egy nyilvántartásból abban az esetben.

A standard hiba megmutatja. Úgy is értelmezhet . hogy a mintából származó becslések milyen mértékben szóródnak a populációs paraméter körül. 32 33 Els dleges mintavételi egységnek tekintjük a nyilvántartásban felsorolt egységeket. becsléseknek közelít leg 95 százaléka esik a paramétert l ±2 standard hibányi távolságra. majd ezután a kiválasztott Rétegzett kiválasztás Lényege a minta bels összetételének mesterséges megjavítása. Nem véletlen kiválasztás • • • Kvótakiválasztás Koncentrált kiválasztás Önkényes kiválasztás nyilvántartásból egyenl távolságra álló c. hogy a populációs paraméter körüli bizonyos intervallumokba a mintabecslések mekkora hányada fog esni: a mintából származó becsléseknek közelít leg 68 százaléka esik a paraméter körüli 1 standard hiba szélesség sávba (±1 standard hibányi távolságra). amelyekre a megfigyelés irányul. A kiválasztás az egyes rétegekb l külön-külön és egymástól függetlenül történik.kiválasztott els dleges egységeken32 belül minden másodlagos egységet33 megfigyelünk. Szisztematikus kiválasztás A mintavétel alapját képez egyedeket választunk ki. Az els els dleges egységeken belül végzünk további mintavételeket. lépésben kiválasztjuk az els dleges egységeket. sokaság egységeit kiegészít • miközben arra törekszünk. A információ alapján csoportosítjuk. rétegen belül egyszer véletlen kiválasztást alkalmazva. b. 91 . A korábban már tárgyalt átlag és szórás fogalmakon túl. foglalkoznunk kell az ún. vagyis megmondhatjuk. amelyeket rétegeknek nevezünk. Egy becsl függvény szórását nevezzük az illet becslés standard hibájának. standard hibával is. hogy minél homogénebb csoportokat nyerjünk. • Többlépcs s A mintasokasághoz több lépcs ben jutunk el. Másodlagos mintavételi egységnek tekintjük azon sokaság egységeit. hogy a sokaságot n egyenl rétegre osztjuk és rétegenként egy elemb l álló mintát veszünk.

A varianciaanalízis a teljes adathalmaz teljes-szóródását (összvarianciáját) vizsgálja abból a szempontból. mert az átlagokat hasonlítja ugyan. Egytényez s varianciaanalízis A t-próbát két független minta tesztelésére használtuk. 92 . akkor az ún. pl. de ezt többféle módon definiált varianciák segítségével teszi. a csoportok átlagai közötti különbség is hozzájárul. Amennyiben a csoportok függetlenek. akkor egytényez s varianciaanalízisr l beszélünk. Azért hívják varianciaanalízisnek. A varianciaanalízis a tpróbák általánosítása több csoport esetére. azonos szórású. Ha a csoportok összetartozó minták csoportjai. amelyet ANOVA néven is emlegetnek az angol elnevezés bet inek rövidítéseként (Analysis of Variance). de többféle szempont szerint is vizsgálhatók (pl.vagy többtényez s varianciaanalízissel hasonlítjuk össze az átlagokat.és becsléseknek közelít leg 99.2.1. A varianciaanalízist hasonló célból használjuk. (pl. Többféle varianciaanalízis van a kísérleti elrendezést l függ en. többféle kezelést vagy többféle betegcsoportot hasonlítunk össze). Ha a csoportok függetlenek. de általában több mint két független minta (kísérlet) összehasonlítására. ismételt méréses varianciaanalízist kell alkalmazni. ugyanazokon az egyedeken több mérést végeznek több id pontban. hogy azt csupán a véletlen ingadozás okozza-e. normális eloszlású populáció átlagának az összehasonlítására szolgáló módszer. és csak egyetlen szempont szerint különböznek (pl.9 százaléka esik a paraméter körüli ±3 standard hiba szélesség sávba. 4. vagy ahhoz valamilyen más tényez . A varianciaanalízis A varianciaanalízis több. nemek szerint és kezelések szerint is). vagy különböz kísérleti körülmények között). akkor két.2. 4.

hogy a populációk átlagai nem mind egyformák. Az egyszempontos varianciaanalízis az összes varianciát két részre osztja. Minden mérés hibával jár. 3. feltétel teljesülésére. hogy a csoportok közt csak egyetlen szempont szerinti eltérést vesz figyelembe.Yk ismérvek normális F= SS K SS B 93 ... Szórásuk azonos. Szignifikáns eredmény esetén annyit további vizsgálattal. a kezeléssel (csoportosítás) megmagyározott variancia és a hiba (amit a kezeléssel nem tudunk megmagyarázni). A különbségek megtalálása kontrasztok vizsgálatával folytatható. a mintaadatok csoportonként pusztán a véletlen miatt is különböznek. Az egyes részsokaságokat jellemz eloszlású valószín ségi változók. pl. A varianciaanalízis alkalmazási feltételei: 1.. A varianciaanalízis eredményei robusztusak (nem érzékenyek) az els két feltételt l való mérsékelt eltérésre. 2. Y2. táblázat) Ha elvégeztük a szórásfelbontást. Az egyes részsokaságokból vett ni elem függetlenek. akkor a két rész szórásnégyzet felhasználásával elvégezzük az F-próbát minták (azaz a megfigyelések) Y1. mely az átlagok különbségeit jellemz jellemz ´csoportok közötti´ varianciát hasonlítja össze a véletlen ingadozást ´csoportokon belüli´ varianciával. általában párhuzamos elrendezés csoport valamely folytonos.. normális eloszlású jellemz jének átlagát hasonlítja össze úgy. vagy nem. A kérdés éppen ez: annak eldöntése. hogy az egyes minták ugyanabból a sokaságból származnak-e.. (4. de nagyon érzékenyek a 3. Az egyszempontos (egytényez s) varianciaanalízis több. Az összehasonlítás alapja az F-próba. többszörös összehasonlításokkal vagy mondhatunk.Több csoport összehasonlítása lényegében a csoportok eloszlásának összehasonlítását jelenti.

és a hozzátartozó szignifikanciaszint kell en kicsi. akkor a nullhipotézist el lehet vetni. feladat Tyúkok tojástermelését vizsgálták egy takarmányozási kísérletben. Minden kísérleti csoportban 5 tyúk volt. A kísérletben négyféle takarmányt etettek. A tyúkok az 5. azaz az adatok szórása nem magyarázható meg kell „súllyal” a kezeléssel. hogy az eltér takarmányozásnak van hatása és az eltérések nem a véletlennek tudhatók be. táblázatban található tojástermelésének alapján vizsgáljuk meg. amelyb l megállapítható. azaz a kezelés kell magyarázó er vel rendelkezik Négyzetösszeg Csoportosítás (kezelés) k Szabadságfok Szórásnégyzet SSK= ∑ n i (Y i − Y ) i =1 2 k-1 ∑ n i (Y i − Y ) 2 MSK= i =1 k ni k k −1 Hiba SSB= ∑ ∑ (Y ij − Y i ) 2 i = 1 j =1 k ni n-k MSB= ∑ ∑ (Yij − Y i ) 2 i = 1 j =1 N −k Teljes SS= ∑ ∑ (Y ij − Y ) 2 i = 1 j =1 k ni n-1 MS= ∑ ∑ (Yij − Y ) 2 i = 1 j =1 k ni N −1 4. táblázat A varianciaanalízis táblája 26. ábra mutatja be. A számítás eredményét a 40. hogy az eltér takarmányozásnak volt-e hatása a tojástermelésre? A varianciaanalízis megoldására az Excelben az Eszközök – Adatelemzés – Egytényez s varianciaanalízis utasítást használjuk. hogy a kezelés és a hiba szórásnégyzete szignifikánsan nem különbözik. Ha az F-próba értéke kell nagyságú.Az F-próba esetén az a feltételezésünk (nullhipotézisünk). 94 .

táblázat A takarmányozási kísérlet eredménye 40.Takarmány A B C D Tyúkok 1 94 114 97 81 2 86 99 84 77 3 69 97 94 90 4 78 108 87 85 5 73 111 93 75 5. ábra A takarmánykísérlet értékelése Excelben 95 .

A 42.k3.k4) > boxplot(s. ylab="Tojástermelés".Az R rendszerben történ megoldást a 41. hogy az F-próba szignifikancia szintje 0. + xlab="Takarmányok") 96 .k2. és a kezelés szignifikánsan különbözik a hibától. main="Takarmányozási kísérlet". azaz a nullhipotézist el kell vetni. > s = data.1 %. ábra tartalmazza. hogy az egyes kísérletek eredményei láthatóan eltérnek egymástól. hogy a takarmányozásnak van hatása a tyúkok tojástermelésére.frame(k1. Az ábrából láthatjuk. 41. ábra Az R rendszerben elvégzett varianciaanalízis A boxplot felhasználásával ábrázolhatjuk is a kísérletet. ábra is mutatja. Az el z megállapítás azt jelenti.

5. 3. 4. 5. ezért a bizottság úgy döntött. hogy összehasonlítja a három értékel eredményét (43. értékel : 4. 4 97 . 2. 4. feladat Az egyik iskolában 27 ösztöndíj pályázatot kell értékelni. Az értékelés eredménye 1. 5. Az értékelést 1-5 pontos rendszerben végezték. 3. 4. Ugyanakkor nem szeretnék. 5. 5 2. ábra). 2. értékel : 4. 4. ha az értékel k személye döntené el a pályázat sorsát. 4. 4 3. 4. A pályázatokat véletlenszer en osztották szét az értékel k között. ábra A takarmányozási kísérlet eredményének ábrázolása boxplot diagrammal 27. 5. 4. 4. értékel : 3. A munkát a gyorsabb eredmény érdekében 3 emberre bízták. 5.42.

2.2. kezelés és nemek szerint). Ebben az esetben a varianciaanalízissel a következ ket vizsgálhatjuk: • Vajon a növények magasságára vonatkozó mérések a különböz tápoldatok esetében ugyanabból a sokaságból származnak-e. Kéttényez s varianciaanalízis A kéttényez s varianciaanalízisben az összehasonlítandó csoportok két független szempontból is vizsgálhatók (pl. ahol a növények magasságát mérjük. a kezelések közötti különbségek függnek-e a nemt l). h mérséklet} párosítás esetén azonos számú megfigyelés áll rendelkezésünkre a növények magasságát illet en. mint különkülön (pl. A növényeket különféle típusú tápoldattal kezeljük (A. Ez az elemzés nem veszi figyelembe a h mérséklet hatását. továbbá különböz h mérsékleten tartjuk ket (alacsony és magas). ha az adatok két különböz dimenzióba sorolhatók. 98 . Adott például egy kísérlet. A többtényez s varianciaanalízisben többszörös kölcsönhatások is szerepelnek. Mind a hat lehetséges {tápoldat.43. ábra A pályázatértékel k összehasonlítása 4. A kéttényez s varianciaanalízis használható. a kezelések közötti különbségek) hatásán kívül vizsgálható a kett kölcsönhatása (interakció) is. vagyis az. hogy a két tényez együtt másképpen hat-e. Ekkor a két tényez (pl. B és C).

Az eredményt a 6.1//library//ascdata// + rats. hogy az oszlopneveket közvetlenül használjuk a függvényekben. 99 . III) és négyféle kezelést alkalmaztak (A. Ebben az esetben a tápoldatok hatását hagytuk figyelmen kívül. Megoldás az R rendszerben: > toxi = read.txt". és a h mérsékletkülönbség okozta eltéréseket (amelyeket az els és a második lépésben kimutattunk). a harmadik lépés elvégzéséhez viszont nem rendelkezünk elegend adattal. C. ezért onnan kerültek beolvasásra. II. Kéttényez s. • Figyelembe véve a különböz tápoldatok. Lehet vé teszi. D). a kéttényez s. ha az adatok két különböz dimenzióba sorolhatók. hogy minden párhoz (például minden {tápoldat. A vizsgálat során a patkányok túlélési idejét mérték tíz órákban. h mérséklet} párok esetében más hatások is felléphetnek. header=TRUE)34 > attach(toxi)35 > par(mfrow=c(1.3. Itt azonban feltételezzük. data=toxi) 34 35 Az adatok rendelkezésre álltak file-ban. a vizsgálatokat 4 ismétlésben végezték. ismétléses varianciaanalízishez hasonlóan. 28. A kéttényez s varianciaanalízis lehet ismétléses (cellánként több megfigyelés) vagy ismétlés nélküli (cellánként egy megfigyelés).• Vajon a növények magasságára vonatkozó mérések a különböz h mérsékletek esetében ugyanabból a sokaságból származnak-e. ismétlés nélküli varianciaanalízis akkor használható. feladat Egy patkányokon végzett toxicitás vizsgálatban 3 mérget használtak (I.2)) > plot(id ~ kezelés + méreg. Ebben az esetben elvégezhetjük a kéttényez s. h mérséklet} párhoz) csak egy megfigyelés tartozik. Az alternatív hipotézis szerint nem kizárólag a h mérséklet vagy a tápoldat változása okozhat eltérést. ismétléses varianciaanalízis els és második lépését. B. táblázat tartalmazza. vajon az összes {tápoldat. az egyes {tápoldat. h mérséklet} értékpárt jelöl hat minta ugyanabból a sokaságból származik-e.table("c://Program Files//R//R-2.

29 C 0.92 0.43 0.30 0.23 B 0.63 0.24 0.43 0.36 0. A varianciaanalízis eredményéb l azt láthatjuk. Ezt követ en elvégzésre került a kéttényez s varianciaanalízis. csak itt megadásra került a második tényez is. amelynek eredménye a 45.45 0.45 0.40 0. hogy az egyes tényez kön (hatásokon) belül szignifikáns különbség van.24 0.22 0.38 0. A függvény segítségével többtényez s varianciaanalízis is elvégezhet .31 0.37 0. ábrából azt is láthatjuk. azaz az egyes mérgek és kezelések egymástól szignifikánsan különböznek.71 0.23 0.72 0.88 0.10 0.71 0.44 0.18 0. ábrán látható.36 0.66 0.56 1.25 0.29 0. hogy a kéttényez s varianciaanalízis számításhoz ugyanazt a függvényt használtuk.30 0. amelyek bemutatják a tényez kön belüli szempontokhoz tartozó adatok elhelyezkedését.62 0. A 45.22 D 0.40 0.31 0.46 0.21 0. Ugyanakkor a tényez k kölcsönhatása nem szignifikáns.35 0. 100 .61 0. táblázat A toxicitási kísérlet eredménye Az számítások elvégzése során elkészítettük az egyes tényez k boxplot diagramjait (44.82 1. amit az egytényez s esetben. ábra).31 0.Méreg Kezelés A 0.23 0.38 0.45 0.02 0.49 1.33 I II III 6.76 0.

ábra A toxicitási vizsgálat boxplot diagramjai 45. ábra A toxicitás vizsgálat varianciaanalízisének eredménye 101 .44.

Milyen típusai lehetnek a kéttényez s varianciaanalízisnek? 102 .vagy többtényez s varianciaanalízisre? 7. Mi a mintavétel célja? 2. Minek a megállapításában játszik szerepet az F-próba az egytényez s varianciaanalízisben? 6. Milyen mintavételi eljárásokat ismerünk? 3. Mi a standard hiba? 4. Mikor van szükség két. Melyek az egytényez s varianciaanalízis jellemz i? 5.Ellen rz kérdések: 1.

Korreláció és regressziószámítás A kísérletek során a rendszer állapotát jellemz paraméterek kapcsolatát vizsgáljuk. az illetve összefüggés vizsgálatról beszélünk.Korrelációszámítás Amikor két változó mennyiség úgy függ össze egymással. Magát összefüggést korrelációnak is nevezik. Két mennyiség közötti kapcsolat szorosságát jellemz mér számok közül a legelterjedtebb a korrelációs együttható. vagy Pearson-féle korrelációs együttható. függvénykapcsolatról beszélünk. 103 . Ebben az esetben az x és y közötti összefüggést korrelációs kapcsolatnak nevezzük. hogy az y eloszlása az x változásával meghatározott módon szintén változik. Tehát a korrelációs kapcsolat közbens állapotot foglal el a pontos függvényszer összefüggések és a változók teljes függetlensége között (az ilyen jelleg kapcsolatot sztochasztikusnak is nevezik). A függvény alakját a változók közötti kapcsolat jellege szabja meg. az ennek hatására változó másikat függ változónak tekintjük. oly módon. Ilyenkor az összefüggést az egyik változó (x) és a másik változó (y) várható értéke között tudjuk megadni. vagy ha már vannak ismereteink. A nyert adatok alapján felállítjuk a rendszer matematikai modelljét. Gyakran el fordul azonban olyan. és a mérések közötti lineáris kapcsolat szorosságát méri. Az együtthatót r-rel jelöljük. Az általunk tervszer en változtatott paramétert független változónak. akkor az el re felállított modell (hipotézis) érvényességét ellen rizzük. Aszerint. hogy a független változó adott értékéhez a függ változó egy jól meghatározott értéke tartozik. hogy két paraméter (változó) vagy egyidej leg több tulajdonság többváltozós egymás közötti összefüggését vizsgáljuk.1.5. hogy a változó mennyiségek között nem teljesen határozott az összefüggés: a független változó (x) minden értékéhez a függ változó (y) bizonyos statisztikus sokasága tartozik. 5.és regresszióanalízis. kétváltozós. Az összefüggés-vizsgálattal foglalkozik a korreláció.

hogy r értéke elég messze van-e 0-tól ahhoz. Y) együttes változásának mértéke. Ha ez az együttható 0 lenne. azt mondhatnánk. akkor r közel van +1-hez vagy -1-hez. hogy elég nagy biztonsággal állíthassuk. hogy valóban fennáll. Ha a pontok nem fekszenek egy egyenes mentén. amely két változó (X.A korrelációszámítás képlete: A korrelációszámítás képletének számlálójában van a kovariancia. vagy gyenge korreláció van közöttük (r közel van 0-hoz. ha egy mintát vizsgálunk. akkor a mintából számított korrelációs együttható 0hoz közeli értéke arra enged következtetni. ha pedig egy csökken egyenesen vannak pontosan rajta. A kovariancia el jele határozza meg a korreláció irányát (pozitív vagy negatív. A korrelációs együttható értéke mindig -1 és 1 között van. hogy egy populáció vizsgálata során ki tudtuk számítani a populációbeli korrelációs együtthatót két változó közötti lineáris kapcsolat mérésére. A statisztikai szempontból el kell tudnunk dönteni. hogy nincs korreláció közöttük (r = 0). Tegyük fel. a két változó együtt változik vagy ellentétesen). Tehát. akkor r = 1. ekkor azt mondjuk.). hogy nincs korreláció a két változó között. Ha a pontok pontosan rajta vannak egy növekv egyenesen. Ha a pontok egy egyenes mentén fekszenek. ezért nevezik együttes szórásnak is. ρ = 0) H1: r ≠ 0 104 . 0-tól távol es (1-hez vagy -1-hez közeli) értékek pedig bizonyos korreláció meglétére engednek következtetni. hogy a két változó között szoros vagy magas korreláció van. akkor azt mondjuk. akkor r = -1. H0: korrelációs együttható a populációban = 0 (r = 0. hogy nincs korreláció a két változó között.

. hogy az egyenes a legjobban illeszkedjen az eredeti sokaság pontjaira.2. Kétváltozós lineáris regresszió A kétváltozós lineáris regresszió egyenletének általános alakja Y=a+b*X A regressziószámítás során úgy szeretnénk meghatározni az ’a’ és a ’b’ értékét.1. akkor kétváltozós regresszióról. i=1. többváltozós regresszióról beszélünk. vagy regresszióanalízis során két vagy több véletlen változó között fennálló kapcsolatot modellezzük.Ez a próba egy t eloszlású statisztikával hajtható végre. 2. Ha a függ változónkat egy magyarázó változó segítségével modellezzük. A közelítés akkor jó. . hogy ha igaz a nullhipotézis.. ha pedig több X változót is használunk. t-vel jelölt statisztika t-eloszlású n-2 szabadságfokkal: 5. Szeretnénk az yi-t (a függ vagy eredményváltozót) az egyenes xi (a független vagy magyarázó változó) helyen felvett értékeivel közelíteni.xi’-vel. A regressziós egyenletben a magyarázandó vagy függ változót (Y) a magyarázó változók vagy regresszorok (X) segítségével magyarázzuk. A regressziós modell tulajdonságai alapján megkülönböztethetünk lineáris és nemlineáris regressziót. keresztmetszeti. és panel regresszióanalízist. a következ . hogy ’n’ számú megfigyeléspárunk van: [xi. u. Tegyük fel. vagy gyakran ε). 5. ha az ’yi – 105 . az adataink alapján pedig id sor. Regressziószámítás A statisztikában a regressziószámítás.n]. yi. vagyis a modellünk által nem magyarázott rész. A regressziós egyenletek fontos eleme a maradék (reziduum) vagy hibaváltozó (e. azaz az ’a + b ..2. Bebizonyítható.

A képletb l látható.. vegyük ezek négyzetét és összegezzük a különbségek négyzetét.. Tehát negatív korreláció esetén a regressziós egyenes meredeksége negatív és fordítva.(a + b * xi)’ különbségek kicsik. mint a korreláció szignifikanciájának vizsgálatára. melyet minimalizálnunk kell: A fenti összefüggésb l következ en a regressziós együtthatókat a következ képletekkel tudjuk meghatározni: A korrelációs és regressziós együttható között fennáll a következ összefüggés: ahol az sx és az sy az x1. . mivel a standard eltérés mindig pozitív. hogy az ’r’ és a ’b’ el jele megegyezik. . Bizonyítható. x2. xn és az y1. hogy ugyanaz a t-próba alkalmazható a regressziós együttható nullától való eltérésének szignifikanciájára.. Így a következ összeget kapjuk. yn minták standard eltérései (szórásai).. y2. . Mivel ezek a különbségek pozitívak és negatívak is lehetnek. 106 . .

6 18.0 8.3 9.5 Kukorica termésátlaga t/ha 8.5 8.0 8.2 19.5 26.1 8. Ellen rizzük a korrelációs együttható megbízhatóságát. Gazdaság sorszáma 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Földmin ség aranykorona/ha 24.0 10.5 9.2 25.2 17.9 9.9 9.3 7.1 15.1 21.8 10.3 20.6 32.3 14. táblázatban látható módon alakult.2 7.7 19.1 8.1 40. Határozzuk meg a föld min sége és a kukorica termésátlaga közötti összefüggés szorosságát.3 8. táblázat A kukorica termésátlagának alakulása 107 .1 34.2 9.1 38.29.7 10.1 18.9 19. feladat Hajdú-Bihar megye néhány gazdaságában az adott földmin ség mellett a kukorica termésátlaga a 7.0 8.5 17.0 8.0 8.3 7.2 28.4 19.

A korreláció. míg az együtthatók megbízhatóságát (nullától való különböz ségüket) a tpróbával ellen rizhetjük. A kiszámított t-próbák alapján megállapítható. Az F-próba segítségével az egész regresszióval kapcsolatos megállapításokat tehetünk.és regressziószámítás az Excel táblázatkezel ben az Eszközök – Adatelemzés – Korreláció. hogy a vizsgált két tényez között szoros pozitív korreláció van. valamint az Eszközök – Adatelemzés – Regresszió utasításokkal végezhet el. Az ábrából látható. és az Fpróba értékei alapján az is megállapítható. hogy a regressziós függvénnyel az adott összefüggés jól leírható. hogy a független változó mintegy 88 %-ban határozza meg a függ változót. A számítás eredményét a 46. 46. hogy mindkét együttható szignifikánsan nagyobb a nullától. Az rnégyzet vagy determinációs együttható azt jelzi. ábra A földmin ség és a kukorica termésátlag közötti összefüggés kiszámítása 108 . azaz a földmin ség a kukorica termésátlagát. ábrán láthatjuk. illetve a termésátlagot befolyásolja a föld min sége.

akkor az ’lm’ eredményét 109 . Az elemzéshez a 7. Ha több információt szeretnénk kapni az összefüggésvizsgálatról. ábra fels részén az ’lm’ függvény használatával megkaptuk a regressziósfüggvény együtthatóit. A 47. 47. (48. táblázat adatait használtuk fel és el ször elkészítettük a két változó összefüggésének pontdiagramját (47.Az R rendszerben a regresszió számításnak többféle lehet sége is van. ami azt jelenti. ábra) A 48. ábra A földmin ség és a kukoricatermés közötti összefüggés pontdiagramja Ezután elvégezzük a regresszió kiszámítását. hogy az alapszámítás elvégzése után az egyes objektumok meghívásával a regresszió eredményének további részeit jeleníthetjük meg. hogy az összefüggés elég jól közelíthet egy egyenessel. Mi ezek közül az ’lm’ függvénnyel foglalkozunk. Az ’lm’ egy objektum orientált függvény. ábrából látható. ábra).

ábra Regressziószámítás az R rendszerben (kukoricatermés – földmin ség) Az R rendszerben a regressziószámítás során.values) együtthatók ($coefficients) reziduumok szabadságfoka ($df. például a következ jellemz k el állítására van lehet ségünk: • • • • reziduumok ($residual) számított értékek ($fitted. amelynek az eredménye a 48. 48. többek között. ábra): 110 . ábra második részében látható. Az egyik ilyen lehet ség a ’summary’ függvény használata.egy változóba kell elhelyezni és ennek a változónak a segítségével többféle eredményt is el állíthatunk.residual) Az eredmény objektum (regr) felhasználásával elkészíthetjük a regressziós függvényünk grafikonját is (49.

> plot(földmin.12 * földmin ség") > abline(regr) 49. + main="A kukoricatermés és a földmin ség közötti összefüggés".termés. ábra A regressziós függvény ábrázolása Ha a regressziós objektumot adjuk a plot grafikus függvény paraméterének. 111 . ábrán látható grafikonokat készíti el a regresszióhoz kapcsolódóan. akkor a rendszer az 50. + sub="kukoricatermés = 5.94 + 0. Az ’anova’ függvény felhasználásával kiszámíthatjuk a regresszió F-próba értékét is. kuk.

hogy a magas F-érték azt jelzi.1 %). ábra A plot(regr) eredménye 51. ábrán láthatjuk. hogy a földmin séggel jól magyarázható a termésátlag változása (szignifikanciaszint < 0. 50.Az 51. ábra A regresszió varianciaanalízise 112 .

A többváltozós regresszió esetén is el ször az Excelben történ megoldást mutatjuk be. de ha további információkra is szükségünk van. akkor a további paraméterek megadásával.. Ennek a struktúrája teljes mértékben megegyezik a kétváltozós regressziónál bemutatottal. ábra pedig a megoldás eredményét tartalmazza. A teljes kapcsolat szorosságát a totális (többszörös) korrelációs együtthatóval fejezzük ki. A többváltozós regressziószámítás számítógépes megvalósítási szempontból nem különbözik a kétváltozós esett l. Kapott regressziós együtthatókat parciális regressziós együtthatóknak nevezzük. 5. Az egyes változó kombinációk egymásra hatását pedig a parciális korrelációs együtthatók fejezik ki. csak ebben az esetben az egy eredményváltozó mellett több magyarázó változó szerepel. Az ismérvek között sokfajta és bonyolult oksági kapcsolat létezhet. általában elegend az alapértékek megadása (változók és az output helye). mert az alapadatok transzformálásával bármilyen olyan regressziós függvény el állítható. 113 . A 52. ahol az alapfüggvény linearizálható. ha a kapcsolat vizsgálat egyidej leg kett nél több ismérvre terjed ki. pl. Az R rendszerben a transzformációt a regressziót meghatározó függvény is el tudja végezni. + bn * Xn Az egyenletb l is látható. Többváltozós lineáris regresszió A kétváltozós lineáris regresszió egyenletének általános alakja Y = a + b1 * X1 + b2 * X2 + . vagy pedig az eredményt szeretnénk más számításban felhasználni. hogy többváltozós regressziószámításról akkor beszélhetünk. ábrán a regressziószámítás paramétereinek megadását mutatjuk be. A paramétereket értelemszer en kell megadni.. további eredményekhez is hozzájuthatunk. az 53.: lm(log(y) ~ x).2.A nem-lineáris regresszióval részletesen nem foglalkozunk.2.

táblázat A m trágyázás hatása a termésátlagra 114 .5 4.2 3.1 6.2 8.7 6.6 7.9 3.9 P 91 124 137 68 77 117 86 150 69 99 89 158 147 169 205 142 89 66 84 188 161 145 97 106 59 110 K 103 73 105 54 94 101 58 112 108 129 144 65 45 86 70 96 85 84 102 58 98 8.8 5.1 4.5 3.6 8.5 3.0 5.7 9.8 8.Sorszám 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Kijuttatott m trágya hatóanyag (kg/ha) N 131 179 214 134 147 171 135 255 129 139 123 242 227 293 274 188 152 163 136 270 220 228 206 238 112 180 Termésátlag t/ha 84 99 99 69 55 5.2 4.2 3.4 8.8 6.5 5.1 6.2 9.7 7.9 3.5 3.

mint a kétváltozós esetben. az állapítható meg. hogy egyikre sem mondhatjuk azt. Ezt okozhatja a magyarázó változók közötti kölcsönhatás (kollinearitás) is. amit a regressziót megoldó függvényben meg is lehet adni. Az Fpróba értéke alapján megállapítható. ábra A többváltozós regressziószámítás paraméterezési lehet ségei az Excelben Az 53. hogy a független változókkal (m trágya adagok) együttesen a függ változó jól megmagyarázható (ezt támasztja alá a többszörös korrelációs együttható magas értéke is). 115 . A magyarázó változókat ’+’ jellel összekötve tetsz leges változó megadható.52. (54. Ez azt jelent. hogy szignifikánsan különbözik nullától. hogy a regresszióval jól bemutatható az összefüggés. de a regressziós együtthatók külön-külön nem értelmezhet k. Többváltozós esetben is lehet ség van a változók konvertálására. ábra eredményeit értékelve a következ megállapításokat tehetjük. Ha viszont a parciális regressziós együtthatók t-próbáit vesszük vizsgálat alá. ábra) Ebben az esetben is ugyanazt a függvényt kell használni. A következ kben az R rendszerben mutatjuk be a többváltozós regressziószámítás megoldását.

ábra A többváltozós regresszió megoldása az R rendszerben 116 .53. ábra A többváltozós regresszió eredménye az Excelben 54.

hogy a trendet az eredeti sor dinamikus átlagaként állítjuk el .5. Az id sorok komponenseinek áttekintése után könnyen megfogalmazhatjuk az id sorok elemzésének ebb l adódó feladatait. ciklikus és véletlen ingadozásokat próbáljuk „eltüntetni”. A statisztikai elemzés szempontjából a következ komponenseket különböztetjük meg: 1. Az analitikus trendszámítás a regressziószámításra épül. A trendszámítás elvégezhet mozgóátlagolással vagy analitikus trendszámítással. Véletlen ingadozás. és utolsónak betesszük a sor következ tagját. ami az id sor „kisimítását” jelenti. amíg az adataink el nem fogynak. Az egyenlet paramétereinek meghatározása 117 . 2.3. A következ mérése lehet. A fejl dés törvényszer ségeinek tanulmányozásakor az id sorok statisztikai elemzésének egyik f problémája éppen az egyes komponensek elkülönítése. az alapirányzatnak a kimutatása. id beli alakulását különböz tényez k idézik el . Alapirányzat vagy trend. 3. amit úgy kell megválasztani. Ezt a trendszámítással tudjuk elvégezni. majd mindig elhagyjuk az els tagot. hogy egy-egy ciklushoz tartozó adatok számával legyen egyenl . El ször meg kell határozni a mozgóátlagolás tagszámát (k). A lineáris trendszámítás során az ˆ yt =b0 +b1 *t egyenes egyenletét kell meghatározni. de az id sorok jellemz ib l következ en lehet ségünk van bizonyos egyszer sítésekre. vagy ennek egészszámú többszöröse legyen. amivel a szezonindex-számítás foglalkozik. Periodikus ingadozás. Id sorok elemzése Valamely jelenség fejl dését. Mindenekel tt a fejl dés alapirányzatát célszer megismerni. Ezután elvégezzük az átlagolást az els ’k’ taggal. A mozgóátlagolás alapgondolata. azaz a feladat az idényszer hullámzás szezonális. A trendszámítás feladata az id sor f komponensének. Ezt a folyamatot addig végezzük.

az ’stl’ függvénnyel trend és szezonális komponensekbe transzformálhatjuk az id sort. A gyakorlatban el forduló. ábra 57. az ’arima0’ függvénnyel pedig autoregresszív modellekbe integrált mozgóátlagokkal végezhetünk számításokat. logisztikus trend. az ’ar’ függvénnyel autoregresszív modelleket hozhatunk létre. t. Például. ábra 56.window=21)) > summary(stllc) 55. s. stacionárius viselkedést mutató. ábra 58.∑y b0 = t =1 n t ∑t* y b1 = t =1 n t n ∑t t =1 n 2 Az id sor értékeinek transzformálásával nem lineáris trendfüggvényeket is meghatározhatunk. parabolikus trend. Az R rendszer ’stat’ csomagja több függvénnyel is rendelkezik az id sorokkal kapcsolatos számításokhoz. "per")) > plot(stl(nottem. illetve id sorok ábrázolásához. Az el z ekben említett számításokon túl az id sorok elemzésében az utóbbi évtizedekben jelent s mértékben megn tt az autoregresszív és mozgóátlagfolyamatok jelent sége (ARMA). ábra 118 . t.jump = 1)) > plot(stllc <.win = 50.stl(log(co2). vagyis az illesztést empirikus id sorok alapján végezzük. véletlen folyamatok jól közelíthet k az ARMA folyamatokkal.win = 4. Az ’nlme’ csomag ’gls’ függvényével pedig viszonylag komplex modelleket illeszthetünk. s. > plot(stl(nottem. A rendelkezésre álló modellek közül – terjedelmi korlátok miatt – csak az ’stl’ függvény néhány lehet ségét mutatom be. Az ARMA paraméterek meghatározását. amelyek közül a következ ket szokták használni: • • • exponenciális trend.

55. ábra Az adatok tendenciája simítás nélkül

56. ábra Az adatok tendenciája simítással
119

57. ábra Adatok logaritmusának a simítása

58. ábra Az id sor simítás eredménye

120

Ellen rz kérdések: 1. Mit vizsgálunk a korrelációszámítással? 2. Mire használható a regressziószámítás? 3. Milyen következtetésekre juthatunk a regresszión elvégzett F-próba által? 4. Milyen következtetésekre juthatunk a regressziós együtthatókon elvégzett t-próbák által? 5. Milyen típusai vannak az id sorok elemzésének? 6. Mi az id sorelemzés lényege?

121

azok számának a meghatározása és számszer kifejezése hozza a leglényegesebb el rehaladást. Faktor. csak a számítások elvégzése jelentett problémát a megfelel eszköz hiányában. A többváltozós módszerek alkalmazásának lehet ségét számítástechnikai fejl dése tette lehet vé. melynek els dleges célja az adatcsökkentés és –összegzés. A háttérváltozók feltárást nehezíti. háttérváltozók érdekelnek bennünket. hogy egy-egy háttérváltozó feltehet en csak több megfigyelési változóval tudunk jellemezni. amelyek egymással korrelálnak. másrészt több háttérváltozó befolyásolhatja ugyanazt a megfigyelési változót. Az elemzés során az egymással kölcsönösen összefügg változók közötti kapcsolatokat vizsgálunk. megfigyelési változó segítségével leírni. 122 . és azoknak is csak az alapjait.1. A bemutatott módszerek mindegyike nagyon sok olyan lehet séggel rendelkezik. Gyakran nagyszámú változóval dolgozunk. és sokszor a megfigyelt tulajdonságok mögött rejl közös okváltozók. A tudományos kutatásban a jelenségkomplexumok mögötti háttérváltozók felismerése. A komplex háttérváltozók felderítéséhez megfelel alapvet en az elmúlt évtized hatalmas mérték többváltozós statisztikai eszközökre van szükségünk. Ezek számát a kezelhet ség érdekében csökkenteni kell. A rendelkezésre álló többváltozós statisztikai módszerek közül csak a legfontosabbakat tárgyaljuk. mert a módszerek már régen rendelkezésre álltak. Többváltozós statisztikai módszerek Az elemezni kívánt jelenségek többségénél nem lehet az összefüggéseket egyetlen tulajdonság. és ezeket néhány magyarázó f komponens/faktor alapján jelenítjük meg. ami a terjedelmi korlátok miatt itt nem mutatható be.6. 6. A faktoranalízis egy matematikai elemzési koncepció valamely többváltozós összefüggésrendszer háttérváltozóinak a feltárására.és f komponensanalízis Olyan statisztikai eljárás.

Ezt az eljárást nevezik ferdeszög forgatásnak. önálló háttérváltozó idézi el a rajta megfigyelt jelenséget. rotációnak.. amelyik csak egy megfigyelési változót befolyásol) e – a hibafaktor súlya (hibafaktor. A háttérváltozók feltárása szempontjából a kiindulási alap mindig a megfigyelési változók korrelációs mátrixa. A faktorok nem korrelálnak egymással.az i-edik standardizált megfigyelési változó. A megfigyelési változók többé-kevésbé korrelálnak egymással. a korrelációs együtthatók becslési hibájából) 123 . Ha két vagy több megfigyelési változó között szoros korreláció van.. Valamely X megfigyelési változó modellje a faktoranalízisben X i = aiI * FiI + aiII * FiII + . amelyet matematikailag a korrelációs koefficiensekkel. 2. akkor feltételezhet . addig van közös részük.A megoldáshoz nagyon kevés támpontunk van: 1. Legfeljebb annyi háttérváltozót feltételezünk. amelyik több megfigyelési változót befolyásol) b – az egyedi faktorok súlya (egyedi faktor. hogy saját. korrelációs rendszert képeznek. tehát tovább faktorizálhatók. F . 3. hogy egymással korreláló faktorokat hozzunk létre. Arra is van azonban lehet ség. s t a korreláció mértékét meg is határozzuk. + aiq * Fiq + . A megfigyelési változókból kell visszakövetkeztetnünk a háttérváltozókra.. hogy a háttérváltozók száma kisebb. + bim * Fim + ei Fie ahol X i . amíg korrelálnak. amelyik származhat mérési pontatlanságból. akkor egy közös háttérváltozót feltételezhetünk. de általában az várható.a standardizált faktorváltozó (analóg a f komponensanalízis standardizált C f komponens változójával) a – a közös faktorok súlya (közös faktor. Ugyanis. illetve az azokat összefoglaló korrelációs mátrixszal fejezünk ki. ahány megfigyelési változónk van.. Ha valamelyik megfigyelési változó egyetlen más változóval sem korrelál.

A f komponens analízis a többváltozós statisztikai módszerek közül az egyik legfontosabbnak tekinthet . q – a közös faktorok száma.Az alapkérdés az. változócsoportokhoz háttérváltozók (közös okváltozók) rendelése által.a közös faktorok súlyainak négyzetösszege. kapcsolatuk szorossága alapján. • Az el z ekb l már látható. Ezen a módszeren keresztül lehet világosan megérteni és követni mindazokat a többváltozós módszereket. Változók csoportosítása és a csoportok grafikus ábrázolása. • A változók számának a csökkentése. az egyedi faktor és a hiba. A csökkentésnek igazán akkor van értelme. q ∑a j =1 2 ij . A befolyásolás mértékét a faktorsúlyok négyzetei fejezik ki q 2 s i = ∑ aij2 + bim + ei2 2 j =1 ahol i – az X megfigyelési változó általános indexe. lehet vé válik csoportok képzése. hogy jelent s mértékben csökkenteni tudjuk az eredeti változó számot. hogy a f komponens analízis lényege. A lényeg az. hogy az X megfigyelési változó varianciáját milyen mértékben befolyásolják a közös faktorok. a legfontosabbaknak talán a következ k tekinthet k: • vizsgált csoportosítása egymás közötti korrelációjuk. Felismerhet vé válnak az összetartozó változók. ha a kapott f komponenseknek valamilyen közös elnevezést tudunk adni. A A f komponens ismérvek analízis (változók) alkalmazási lehet ségei az közül. amelyek a sajátértékszámításra épülnek. hogy az eredeti változókat korrelációjuk alapján f komponensekbe vonjuk össze. amit kommunalitásnak neveznek (h2). Az el z ek figyelembe vételével jól alkalmazható a 124 . és ezáltal a sok megfigyelési változóból kevesebb f komponens keletkezik.

A standardizálás egyik célja a mértékegységek kiküszöbölése. 2. a. + unj * X n = ∑ uij * X i i =1 ahol Cj – a f komponensek. f komponensváltozók Xi – a standardizált ismérvértékek uij – a f komponens koefficiensek p – az ismérvek száma Az uij koefficienseket a standardizált X változók kovariancia mátrixából számoljuk ki. A standardizált változókból a f komponens változók (Cj) kiszámítása p mértékegység ismérvek is összehasonlíthatók C j = u1 j * X 1 + u2 j * X 2 + . hogy melyek a jelentéktelen változó. A standardizált értékek jellemz je.. + u ij * X i + .. azaz mely változóknak kicsi a magyarázó ereje a függ (eredmény) változó vonatkozásában. Minden szimmetrikus mátrix átalakítható olyan diagonális mátrixszá.. szórásuk pedig 1. hogy eltér legyenek. Ezt az átalakítást végezzük el a sajátérték számítással. 125 .f komponens analízis a többváltozós regresszióanalízis helyett vagy annak kiegészítéseként. amelyben a f átló összege egyenl az eredeti mátrix f átlójának az nagyságba rendez dnek. Egy adott mátrixra csak egyetlen ilyen megoldás létezik. Az új mátrix f átlójában balról jobbra csökken sorrendben az eredeti mátrix ún. hogy átlaguk 0. összegével. A f komponensek kiszámításának lépései: 1. A változók számának csökkentése során az is kiderül. a λi-hez tartozó uj sajátvektor elemei az uij együtthatók. továbbá a f átló elemei csökken függetlenül az eredeti mátrix sorainak sorrendjét l.. és ennek a j-edik sajátértékéhez. ha egyáltalán van megoldás. sajátértékei (karakterisztikus értékei) állnak. Az ismérvértékek standardizálása.

Egy adott p rangú. A második számítás során arra kapunk választ. Ezután meg kell határoznunk az uij együtthatókat.2:5]. Az els számítás során megkaptuk a f komponens együtthatók mátrixát. Az eltérés – ami nem lényegtelen – mindössze annyi. és minden sajátértékhez egyetlen uj sajátvektor tartozik. A vizsgálatot az R rendszerben végeztük el a ’prcomp’ f komponenselemz eljárással (stats package). > búza = read. Vizsgáljuk meg a tulajdonságok összefüggésrendszerét f komponensanalízissel.b. Két módszerben sok közös vonás is van. main ="Búzafajták értékelése" ) A f komponenselemzés eredménye az 59. A faktoranalízis általánosabban alkalmazott matematikai módszer. A sajátértékkel meghatároztuk az új mesterséges C változók varianciáit. szimmetrikus A mátrixhoz p számú λ sajátérték. és a búzák négy min ségi tulajdonságát mérték. scale = TRUE) > summary(fokomp) > fokomp$x > fokomp$scale > fokomp$center > plot(fokomp. header=TRUE) > prcomp(búza[. hogy az eredeti változókból (X) kiszámíthassuk a mesterséges változókat (f komponenseket) (C).table("g://a//buzafaktor. A vektorok meghatározása a sajátvektor számítással történik. mint a f komponens analízis. 30. feladat Egy élelmiszeripari laboratóriumban 14 búzafajtát vizsgáltak meg. hogy a f komponensanalízisben a korrelációs mátrix f átlójában 1 szerepel. hogy milyen mértékben részesednek az egyes f komponensek az 126 . ábrán látható.txt". míg a faktoranalízis esetén a kommunalitások. Az uij együtthatók egyenletenként más és más vektorokat képeznek (uI).

ábrán az egyes f komponenssúlyokat a 62.összvarianciából. amelyeknek az a jellemz jük. 127 . A harmadik és a negyedik utasítás az eredeti értékek átlagát és szórását írja ki (a f komponenselemzés a regressziószámításhoz hasonlóan objektum orientált eljárás). A faktoranalízis a f komponensanalízishez hasonlóan számítható és hasonló ábrák. értékek jeleníthet k meg. hogy mindig az els komponens részesedik a legnagyobb mértékben a varianciából és így tovább.: rfa. pl. Az a f komponenselemzés módszeréb l következik. ábrán a f komponensváltozók értékei szerepelnek. a szórásuk pedig egyenl a sajátértékeikkel. hogy az átlaguk nulla. ábra A f komponenselemzés eredménye A 60. ábrán pedig a f komponensek elhelyezkedését ábrázoltuk. 59. factorMineR. Az R rendszerben több függvény is van a faktoranalízis elvégzésére. A 61.

ábra A f komponenselemzés f komponensváltozói 61. ábra A f komponensek súlyainak ábrázolása 128 .60.

A módszer kiindulási alapja.62.: A és B) szétválasztására alkalmas módszer.2. A módszer segítségével a következ kérdésekre adhatunk választ: 129 . Diszkriminanciaanalízis A diszkriminanciaanalízis olyan adatelemzési módszer. és amelynél a kritériumváltozó kategorizált és a becsl változók intervallumskálák. több kvantitatív változó együttes figyelembevétele alapján. hogy minden megfigyelt egyedet megadott szempontok alapján el re egy meghatározott csoportba soroltunk. A diszkriminanciaanalízis két csoport (pl. ábra A f komponensek elhelyezkedése 6. amelyet kategóriába tartozás el rejelzésére lehet használni. hanem egy kvalitatív tulajdonság két változata. A diszkriminanciaanalízis a korábban már tárgyalt többváltozós regresszióanalízishez nagyon hasonló módszer. ahol azonban a függ változó nem kvantitatív.

a Z értéket. egy közös diszkriminanciaegyenlettel egyedi Z értéket. + w i X i + . mert ilyenkor a megfigyelt értékkel kell a számítást végeznünk. amelyek segítségével számszer síteni tudjuk a két csoport közötti különbséget. hogy az egyik vagy a másik csoportba tartozik-e. • A két csoportra középértékeket számíthatunk ki. + w p X 1 ahol wi Xi a diszkriminancia együtthatókat a standardizált megfigyelési változókat jelenti Néha el nyösebb lehet.. A Z érték ebben az esetben is ugyanaz marad. • Keresünk egy függvényt. hogy egy további megfigyelt egyed melyik csoportba sorolandó. • Minden egyes egyedet több tulajdonság együttes figyelembevételével számszer értékkel kívánunk jellemezni. hogy a két csoport különbsége mennyire függ az egyes tulajdonságoktól.. ha az eredeti értékekkel számítjuk ki a fenti összefüggést.. A diszkriminanciaanalízis az R rendszerben az ’lda’ függvénnyel végezhet el. függetlenül egy adott csoportba tartozásától. amely segítségével eldönthet . 130 . Az egyenlet Z = w1 X 1 + w 2 X 2 + . vagy reprodukáljuk. diszkriminanciaváltozót számítunk ki. • Megvizsgálhatjuk.• Egynél több kvantitatív tulajdonság együttes figyelembevételével kimutatható-e szignifikáns különbség a két csoport között. • Az megfigyelési egységeknek a két csoportba történt eredeti besorolásának helyességét kvantitatív változók alapján ellen rizzük. Erre alapvet en akkor van szükség.. ha utólag újabb megfigyelési egységr l akarjuk eldönteni. A diszkriminanciaanalízisben minden megfigyelési egységre.

hogy a megfigyelési egységeket relatíve homogén csoportokba rendezze a kiválasztott változók alapján. Mi a klaszterelemzés lényege? 131 . A módszer nagyon hasznos lehet például a marketing területén. hogy a vásárlók fejében mely termékek alkotnak egy klasztert.3. A klaszterelemzés és a diszkriminanciaanalízis is csoportosítással foglalkozik. Ellen rz kérdések: 1. A klaszteranalízis összefüggések halmazát vizsgálja. nem tesz különbséget függ és független változó között. Els dleges célja.és a f komponensanalízis lényege? 2. s ez alapján kialakít egy csoportosító szabályt. A diszkriminanciaanalízis megköveteli a klaszterekbe tartozás el zetes ismeretét. hogy a bevont változók szerint adott (k) számú homogén csoportot különíthessünk el. Miben különbözik a faktor. Az adott csoportba tartozó megfigyelési egységek viszonylag hasonlítanak egymásra. Klaszterelemzés A klaszterelemzés célja az. mint pl. Mi a faktor. akkor a szupermarketekben az áruk megfelel egymás mellé helyezésével jelent s extraprofitra lehet szert tenni.6. Mire használható a diszkriminanciaanalízis? 4.és a f komponens analízis? 3. de különböznek más csoportok tagjaitól. hiszen ha tudjuk. Ezzel szemben a klaszterelemzésnél nem rendelkezünk el zetes ismerettel. flexclust. a csoportok az adatok alapján alakulnak ki. hanem a változók halmazán belüli kölcsönös összefüggéseket vizsgálja. A klaszterelemzés elvégzésére az R rendszer több lehet séget is biztosít.: mclust.

Budapest.pdf] 8. Aula Kiadó.-Smith. J. 2.pdf] 7. Verzani.org/doc/manuals/R-intro.: SimpleR – Using R for Introductory Statistics. [cran. D.Irodalomjegyzék 1. Budapest. Computerbooks.-Vita L. 2005. M szaki Könyvkiadó.rproject. 6. W. 3. 1975. Köves P. 2001. H.: Excel közgazdászoknak: gazdasági feladatok megoldása.: Az Excel függvényei A-tól Z-ig. 2000. Budapest.M. Aula Kiadó. 1975. Zoonekynd. 2000.: Statisztika. Közgazdasági és Jogi Könyvkiadó.P. Kovalcsikné Pintér O.N. Mez gazdasági Kiadó. Vincze I. Hunyadi L. Venables.: Többváltozós módszerek a biometriában.rproject. 9. 1979. Budapest. 2004. 2005. Sváb J.-Mundruczó Gy.fr/UNIX/48_R/ all.: An Introduction to R. 5. [cran. Reidmacher.html] 132 .: Matematikai statisztika ipari alkalmazásokkal.-Párniczky G.: Általános statisztika.: Statistics with R.org/doc/contrib/Verzani-SimpleR. 4. [http://zoonek2. V.free. Budapest.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->