A statisztikai modellezésben szereplő feltevések valószínűségi eloszlások halmazát írják le, amelyek némelyike a feltételezések szerint megfelelően közelíti az eloszlást. A definícióból egy adott adatkészlet kerül kiválasztásra. A statisztikai modellezésben rejlő valószínűség-eloszlások különböztetik meg a statisztikai modelleket más, nem statisztikai matematikai modellektől.
Kapcsolódás a matematikával
Ez a tudományos módszer elsősorban a matematikában gyökerezik. A rendszerek statisztikai modellezését általában olyan matematikai egyenletek adják, amelyek egy vagy több valószínűségi változót és esetleg más nem véletlenszerű változókat kapcsolnak össze. Így a statisztikai modell "egy elmélet formális reprezentációja" (Hermann Ader, Kenneth Bollen idézőjel).
Minden statisztikai hipotézis teszt és minden statisztikai becslés statisztikai modellekből származik. Általánosabban, a statisztikai modellek a statisztikai következtetések alapját képezik.
Statisztikai módszerekmodellezés
Informálisan a statisztikai modell felfogható egy bizonyos tulajdonsággal rendelkező statisztikai feltételezésnek (vagy statisztikai feltételezések halmazának): ez a feltevés lehetővé teszi bármely esemény valószínűségének kiszámítását. Példaként vegyünk egy pár közönséges hatoldalú kockát. Két különböző statisztikai feltételezést fogunk tanulmányozni a csontról.
Az első statisztikai feltevés alkotja a statisztikai modellt, mert egyetlen feltevéssel ki tudjuk számítani bármely esemény valószínűségét. Az alternatív statisztikai feltételezés nem képez statisztikai modellt, mert egyetlen feltevéssel nem tudjuk kiszámítani az egyes események valószínűségét.
A fenti példában az első feltételezéssel könnyen kiszámítható egy esemény valószínűsége. Néhány más példában azonban a számítás bonyolult vagy akár nem is praktikus lehet (például több millió éves számítást igényelhet). A statisztikai modellt alkotó feltevés számára ez a nehézség elfogadható: a számítás elvégzésének nem kell gyakorlatilag kivitelezhetőnek, csak elméletileg lehetségesnek lennie.
Modellpéldák
Tegyük fel, hogy iskolás gyerekekből áll, és egyenletesen oszlanak el a gyerekek. A gyermek magassága sztochasztikusan összefügg az életkorral: például, ha tudjuk, hogy egy gyermek 7 éves, ez befolyásolja annak valószínűségét, hogy a gyermek 5 láb (kb. 152 cm) lesz. Ezt a kapcsolatot egy lineáris regressziós modellben formalizálhatjuk, például: növekedés=b0 + b1agei+ εi, ahol b0 a metszéspont, b1 az a paraméter, amellyel az életkort megszorozzuk a növekedési előrejelzés megszerzésekor, εi a hibatag. Ez azt jelenti, hogy a magasságot az életkor előrejelzi, némi hibával.
Az érvényes modellnek meg kell egyeznie az összes adatponttal. Tehát egy egyenes (heighti=b0 + b1agei) nem lehet egyenlet egy adatmodellhez - kivéve, ha minden adatpontra pontosan illeszkedik, azaz minden adatpont tökéletesen fekszik az egyenesen. Az εi hibatagnak szerepelnie kell az egyenletben, hogy a modell minden adatpontra illeszkedjen.
A statisztikai következtetés levonásához először fel kell tételeznünk néhány valószínűségi eloszlást εi-re. Például feltételezhetjük, hogy εi eloszlása Gauss-féle, nulla átlaggal. Ebben az esetben a modellnek 3 paramétere lesz: b0, b1 és a Gauss-eloszlás varianciája.
Általános leírás
A statisztikai modell a matematikai modellek speciális osztálya. A statisztikai modellt az különbözteti meg a többi matematikai modelltől, hogy nem determinisztikus. Statisztikai adatok modellezésére szolgál. Így a matematikai egyenletekkel definiált statisztikai modellben egyes változóknak nincs konkrét értéke, hanem valószínűségi eloszlásuk van; vagyis egyes változók sztochasztikusak. A fenti példában ε egy sztochasztikus változó; e változó nélkül a modell az voltdeterminisztikus lenne.
A statisztikai modelleket gyakran használják a statisztikai elemzésben és modellezésben, még akkor is, ha a modellezett fizikai folyamat determinisztikus. Például az érmék feldobása elvileg determinisztikus folyamat; mégis általában sztochasztikusnak modellezik (Bernoulli-eljárással).
Paraméteres modellek
A paraméteres modellek a leggyakrabban használt statisztikai modellek. A félparaméteres és nem-paraméteres modellekkel kapcsolatban Sir David Cox azt mondta: "Általában kevesebb feltételezést tartalmaznak az eloszlás szerkezetéről és alakjáról, de általában erős függetlenségi feltételezéseket tartalmaznak." Mint minden más említett modellt, ezeket is gyakran használják a matematikai modellezés statisztikai módszerében.
Többszintű modellek
A többszintű modellek (más néven hierarchikus lineáris modellek, beágyazott adatmodellek, vegyes modellek, véletlenszerű együtthatók, véletlenhatás-modellek, véletlenparaméter-modellek vagy particionált modellek) olyan statisztikai paramétermodellek, amelyek egynél több szinten változnak. Példa erre a tanulói teljesítménymodell, amely az egyes tanulókra vonatkozó mérőszámokat, valamint az osztálytermek mérőszámait tartalmazza, amelyekbe a tanulókat csoportosítják. Ezeket a modelleket a lineáris modellek (különösen a lineáris regresszió) általánosításainak tekinthetjük, bár kiterjeszthetők nemlineáris modellekre is. Ezek a modellek letteksokkal népszerűbbé vált, miután elegendő számítási teljesítmény és szoftver elérhetővé vált.
A többszintű modellek különösen alkalmasak olyan kutatási projektekhez, ahol a résztvevők adatai egynél több szinten vannak szervezve (azaz egymásba ágyazott adatok). Az elemzési egységek általában egyedek (alacsonyabb szinten), amelyek kontextusban/összesített egységekben (magasabb szinten) vannak beágyazva. Míg a többszintű modellekben a legalacsonyabb adatszint jellemzően egyedi, az egyének ismételt mérése is szóba jöhet. Így a többszintű modellek alternatív elemzési típust kínálnak az egyváltozós vagy többváltozós ismételt mérések elemzéséhez. Figyelembe vehetők a növekedési görbék egyéni eltérései. Ezenkívül a többszintű modellek használhatók az ANCOVA alternatívájaként, ahol a függő változó pontszámait a kovariánsokhoz (pl. egyéni különbségekhez) igazítják a kezelési különbségek tesztelése előtt. A többszintű modellek képesek elemezni ezeket a kísérleteket az ANCOVA által megkövetelt egyenletes regressziós meredekség feltételezése nélkül.
A többszintű modellek sok szintű adatokhoz használhatók, bár a kétszintű modellek a leggyakoribbak, és a cikk további része ezekre összpontosít. A függő változót az elemzés legalacsonyabb szintjén kell megvizsgálni.
Modell kiválasztása
Modellválasztásfeladata, hogy az adatok birtokában egy sor jelölt modellből válasszon statisztikai modellezés keretében. A legegyszerűbb esetekben egy már meglévő adathalmazt veszünk figyelembe. A feladat azonban magában foglalhat kísérletek tervezését is, hogy az összegyűjtött adatok jól illeszkedjenek a modellválasztási feladathoz. Ha a jelölt modellek hasonló prediktív vagy magyarázó erővel rendelkeznek, valószínűleg a legegyszerűbb modell lesz a legjobb választás (Occam borotva).
Konishi & Kitagawa azt mondja: "A legtöbb statisztikai következtetési probléma a statisztikai modellezéssel kapcsolatos problémának tekinthető." Hasonlóképpen Cox azt mondta: „Az elemzés legfontosabb része gyakran az, hogy a tárgyat hogyan fordítják le a statisztikai modellre.”
A modellválasztás arra a problémára is utalhat, hogy a számítási modellek nagy halmazából választanak ki néhány reprezentatív modellt döntési vagy optimalizálási célokra bizonytalanság mellett.
Grafikus minták
A grafikus modell vagy valószínűségi grafikus modell (PGM) vagy strukturált valószínűségi modell olyan valószínűségi modell, amelynél a gráf a valószínűségi változók közötti feltételes kapcsolat szerkezetét fejezi ki. Általában a valószínűségszámításban, a statisztikákban (különösen a Bayes-statisztika) és a gépi tanulásban használják őket.
Ökonometriai modellek
Az ökonometriai modellek olyan statisztikai modellek, amelyeket az alábbiakban használnakökonometria. Az ökonometriai modell azokat a statisztikai összefüggéseket határozza meg, amelyekről feltételezhető, hogy egy adott gazdasági jelenséghez kapcsolódó különféle gazdasági mennyiségek között léteznek. Az ökonometriai modell származtatható egy determinisztikus közgazdasági modellből, amely figyelembe veszi a bizonytalanságot, vagy egy olyan gazdasági modellből, amely maga is sztochasztikus. Használhatunk azonban olyan ökonometriai modelleket is, amelyek nem kötődnek egyetlen közgazdasági elmélethez sem.