Statisztikai modellezés: módszerek, leírás, alkalmazás

Tartalomjegyzék:

Statisztikai modellezés: módszerek, leírás, alkalmazás
Statisztikai modellezés: módszerek, leírás, alkalmazás
Anonim

A statisztikai modellezésben szereplő feltevések valószínűségi eloszlások halmazát írják le, amelyek némelyike a feltételezések szerint megfelelően közelíti az eloszlást. A definícióból egy adott adatkészlet kerül kiválasztásra. A statisztikai modellezésben rejlő valószínűség-eloszlások különböztetik meg a statisztikai modelleket más, nem statisztikai matematikai modellektől.

Image
Image

Kapcsolódás a matematikával

Ez a tudományos módszer elsősorban a matematikában gyökerezik. A rendszerek statisztikai modellezését általában olyan matematikai egyenletek adják, amelyek egy vagy több valószínűségi változót és esetleg más nem véletlenszerű változókat kapcsolnak össze. Így a statisztikai modell "egy elmélet formális reprezentációja" (Hermann Ader, Kenneth Bollen idézőjel).

Minden statisztikai hipotézis teszt és minden statisztikai becslés statisztikai modellekből származik. Általánosabban, a statisztikai modellek a statisztikai következtetések alapját képezik.

Statisztikai módszerekmodellezés

Informálisan a statisztikai modell felfogható egy bizonyos tulajdonsággal rendelkező statisztikai feltételezésnek (vagy statisztikai feltételezések halmazának): ez a feltevés lehetővé teszi bármely esemény valószínűségének kiszámítását. Példaként vegyünk egy pár közönséges hatoldalú kockát. Két különböző statisztikai feltételezést fogunk tanulmányozni a csontról.

Az első statisztikai feltevés alkotja a statisztikai modellt, mert egyetlen feltevéssel ki tudjuk számítani bármely esemény valószínűségét. Az alternatív statisztikai feltételezés nem képez statisztikai modellt, mert egyetlen feltevéssel nem tudjuk kiszámítani az egyes események valószínűségét.

Tipikus statisztikai modell
Tipikus statisztikai modell

A fenti példában az első feltételezéssel könnyen kiszámítható egy esemény valószínűsége. Néhány más példában azonban a számítás bonyolult vagy akár nem is praktikus lehet (például több millió éves számítást igényelhet). A statisztikai modellt alkotó feltevés számára ez a nehézség elfogadható: a számítás elvégzésének nem kell gyakorlatilag kivitelezhetőnek, csak elméletileg lehetségesnek lennie.

Modellpéldák

Tegyük fel, hogy iskolás gyerekekből áll, és egyenletesen oszlanak el a gyerekek. A gyermek magassága sztochasztikusan összefügg az életkorral: például, ha tudjuk, hogy egy gyermek 7 éves, ez befolyásolja annak valószínűségét, hogy a gyermek 5 láb (kb. 152 cm) lesz. Ezt a kapcsolatot egy lineáris regressziós modellben formalizálhatjuk, például: növekedés=b0 + b1agei+ εi, ahol b0 a metszéspont, b1 az a paraméter, amellyel az életkort megszorozzuk a növekedési előrejelzés megszerzésekor, εi a hibatag. Ez azt jelenti, hogy a magasságot az életkor előrejelzi, némi hibával.

Az érvényes modellnek meg kell egyeznie az összes adatponttal. Tehát egy egyenes (heighti=b0 + b1agei) nem lehet egyenlet egy adatmodellhez - kivéve, ha minden adatpontra pontosan illeszkedik, azaz minden adatpont tökéletesen fekszik az egyenesen. Az εi hibatagnak szerepelnie kell az egyenletben, hogy a modell minden adatpontra illeszkedjen.

nemi statisztikák
nemi statisztikák

A statisztikai következtetés levonásához először fel kell tételeznünk néhány valószínűségi eloszlást εi-re. Például feltételezhetjük, hogy εi eloszlása Gauss-féle, nulla átlaggal. Ebben az esetben a modellnek 3 paramétere lesz: b0, b1 és a Gauss-eloszlás varianciája.

Általános leírás

A statisztikai modell a matematikai modellek speciális osztálya. A statisztikai modellt az különbözteti meg a többi matematikai modelltől, hogy nem determinisztikus. Statisztikai adatok modellezésére szolgál. Így a matematikai egyenletekkel definiált statisztikai modellben egyes változóknak nincs konkrét értéke, hanem valószínűségi eloszlásuk van; vagyis egyes változók sztochasztikusak. A fenti példában ε egy sztochasztikus változó; e változó nélkül a modell az voltdeterminisztikus lenne.

A statisztikai modelleket gyakran használják a statisztikai elemzésben és modellezésben, még akkor is, ha a modellezett fizikai folyamat determinisztikus. Például az érmék feldobása elvileg determinisztikus folyamat; mégis általában sztochasztikusnak modellezik (Bernoulli-eljárással).

felmelegedési statisztikák
felmelegedési statisztikák

Paraméteres modellek

A paraméteres modellek a leggyakrabban használt statisztikai modellek. A félparaméteres és nem-paraméteres modellekkel kapcsolatban Sir David Cox azt mondta: "Általában kevesebb feltételezést tartalmaznak az eloszlás szerkezetéről és alakjáról, de általában erős függetlenségi feltételezéseket tartalmaznak." Mint minden más említett modellt, ezeket is gyakran használják a matematikai modellezés statisztikai módszerében.

Többszintű modellek

A többszintű modellek (más néven hierarchikus lineáris modellek, beágyazott adatmodellek, vegyes modellek, véletlenszerű együtthatók, véletlenhatás-modellek, véletlenparaméter-modellek vagy particionált modellek) olyan statisztikai paramétermodellek, amelyek egynél több szinten változnak. Példa erre a tanulói teljesítménymodell, amely az egyes tanulókra vonatkozó mérőszámokat, valamint az osztálytermek mérőszámait tartalmazza, amelyekbe a tanulókat csoportosítják. Ezeket a modelleket a lineáris modellek (különösen a lineáris regresszió) általánosításainak tekinthetjük, bár kiterjeszthetők nemlineáris modellekre is. Ezek a modellek letteksokkal népszerűbbé vált, miután elegendő számítási teljesítmény és szoftver elérhetővé vált.

Szegmensstatisztika
Szegmensstatisztika

A többszintű modellek különösen alkalmasak olyan kutatási projektekhez, ahol a résztvevők adatai egynél több szinten vannak szervezve (azaz egymásba ágyazott adatok). Az elemzési egységek általában egyedek (alacsonyabb szinten), amelyek kontextusban/összesített egységekben (magasabb szinten) vannak beágyazva. Míg a többszintű modellekben a legalacsonyabb adatszint jellemzően egyedi, az egyének ismételt mérése is szóba jöhet. Így a többszintű modellek alternatív elemzési típust kínálnak az egyváltozós vagy többváltozós ismételt mérések elemzéséhez. Figyelembe vehetők a növekedési görbék egyéni eltérései. Ezenkívül a többszintű modellek használhatók az ANCOVA alternatívájaként, ahol a függő változó pontszámait a kovariánsokhoz (pl. egyéni különbségekhez) igazítják a kezelési különbségek tesztelése előtt. A többszintű modellek képesek elemezni ezeket a kísérleteket az ANCOVA által megkövetelt egyenletes regressziós meredekség feltételezése nélkül.

A többszintű modellek sok szintű adatokhoz használhatók, bár a kétszintű modellek a leggyakoribbak, és a cikk további része ezekre összpontosít. A függő változót az elemzés legalacsonyabb szintjén kell megvizsgálni.

Légköri nyomás grafikonja
Légköri nyomás grafikonja

Modell kiválasztása

Modellválasztásfeladata, hogy az adatok birtokában egy sor jelölt modellből válasszon statisztikai modellezés keretében. A legegyszerűbb esetekben egy már meglévő adathalmazt veszünk figyelembe. A feladat azonban magában foglalhat kísérletek tervezését is, hogy az összegyűjtött adatok jól illeszkedjenek a modellválasztási feladathoz. Ha a jelölt modellek hasonló prediktív vagy magyarázó erővel rendelkeznek, valószínűleg a legegyszerűbb modell lesz a legjobb választás (Occam borotva).

Konishi & Kitagawa azt mondja: "A legtöbb statisztikai következtetési probléma a statisztikai modellezéssel kapcsolatos problémának tekinthető." Hasonlóképpen Cox azt mondta: „Az elemzés legfontosabb része gyakran az, hogy a tárgyat hogyan fordítják le a statisztikai modellre.”

A modellválasztás arra a problémára is utalhat, hogy a számítási modellek nagy halmazából választanak ki néhány reprezentatív modellt döntési vagy optimalizálási célokra bizonytalanság mellett.

Grafikus minták

A grafikus modell vagy valószínűségi grafikus modell (PGM) vagy strukturált valószínűségi modell olyan valószínűségi modell, amelynél a gráf a valószínűségi változók közötti feltételes kapcsolat szerkezetét fejezi ki. Általában a valószínűségszámításban, a statisztikákban (különösen a Bayes-statisztika) és a gépi tanulásban használják őket.

Statisztikai modell grafikonnal
Statisztikai modell grafikonnal

Ökonometriai modellek

Az ökonometriai modellek olyan statisztikai modellek, amelyeket az alábbiakban használnakökonometria. Az ökonometriai modell azokat a statisztikai összefüggéseket határozza meg, amelyekről feltételezhető, hogy egy adott gazdasági jelenséghez kapcsolódó különféle gazdasági mennyiségek között léteznek. Az ökonometriai modell származtatható egy determinisztikus közgazdasági modellből, amely figyelembe veszi a bizonytalanságot, vagy egy olyan gazdasági modellből, amely maga is sztochasztikus. Használhatunk azonban olyan ökonometriai modelleket is, amelyek nem kötődnek egyetlen közgazdasági elmélethez sem.

Ajánlott: