A statisztikai modell egy matematikai vetület, amely különböző feltételezéseket testesít meg bizonyos mintaadatok generálására vonatkozóan. A kifejezés gyakran idealizált formában jelenik meg.
A statisztikai modellben kifejezett feltevések valószínűségi eloszlást mutatnak. Ezek közül sok arra szolgál, hogy helyesen közelítsék meg azt az eloszlást, amelyből egy adott információkészlet származott. A statisztikai modellekben rejlő valószínűségi eloszlások különböztetik meg a vetületet a többi matematikai módosítástól.
Általános vetítés
A matematikai modell a rendszer leírása bizonyos fogalmak és nyelv használatával. Alkalmazhatók a természettudományokra (például fizika, biológia, földtudomány, kémia) és a mérnöki tudományokra (például számítástechnika, elektrotechnika), valamint a társadalomtudományokra (például közgazdaságtan, pszichológia, szociológia, politológia).
A modell segíthet elmagyarázni a rendszert éstanulmányozza a különböző összetevők hatását, és készítsen előrejelzéseket a viselkedésről.
A matematikai modellek többféle formát ölthetnek, beleértve a dinamikus rendszereket, a statisztikai vetületeket, a differenciálegyenleteket vagy a játékelméleti paramétereket. Ezek és más típusok átfedhetik egymást, és ez a modell sok absztrakt struktúrát tartalmaz. Általában a matematikai vetületek logikai komponenseket is tartalmazhatnak. Sok esetben egy tudományterület minősége attól függ, hogy az elméletileg kidolgozott matematikai modellek mennyire egyeznek meg az ismételt kísérletek eredményeivel. Az elméleti folyamatok és a kísérleti mérések közötti egyetértés hiánya gyakran fontos előrelépésekhez vezet, ahogy jobb elméletek születnek.
A fizikai tudományokban a hagyományos matematikai modell nagyszámú elemet tartalmaz a következő elemekből:
- Vezérlőegyenletek.
- További almodellek.
- Egyenletek meghatározása.
- Alkotó egyenletek.
- Feltételezések és korlátok.
- Kiinduló és peremfeltételek.
- Klasszikus kényszerek és kinematikai egyenletek.
Formula
A statisztikai modellt általában olyan matematikai egyenletek állítják fel, amelyek egy vagy több valószínűségi változót és esetleg más természetben előforduló változókat kombinálnak. Hasonlóképpen a projekciót "egy fogalom formális fogalmának" tekintik.
Minden statisztikai hipotézis tesztelés és statisztikai értékelés matematikai modellekből származik.
Bevezetés
Informálisan egy statisztikai modell egy adott tulajdonsággal rendelkező feltételezésnek (vagy feltételezések halmazának) tekinthető: lehetővé teszi bármely esemény valószínűségének kiszámítását. Példaként vegyünk egy pár közönséges hatoldalú kockát. Két különböző statisztikai feltételezést kell megvizsgálni a csonttal kapcsolatban.
Az első feltevés:
Mindegyik kocka esetén annak a valószínűsége, hogy megkapja az egyik számot (1, 2, 3, 4, 5 és 6), a következő: 1/6.
Ebből a feltevésből kiszámolhatjuk mindkét kocka valószínűségét: 1:1/6×1/6=1/36.
Általánosabban, bármilyen esemény valószínűségét kiszámíthatja. Azonban meg kell érteni, hogy lehetetlen kiszámítani bármely más nem triviális esemény valószínűségét.
Csak az első vélemény gyűjt statisztikai matematikai modellt: abból a tényből adódóan, hogy egyetlen feltevéssel meg lehet határozni az egyes cselekvések valószínűségét.
A fenti mintában kezdeti engedéllyel könnyű meghatározni egy esemény lehetőségét. Más példák esetén a számítás nehéz lehet, vagy akár irreális (például sok éves számítást igényelhet). A statisztikai elemzési modellt tervező személy számára az ilyen bonyolultság elfogadhatatlan: a számítások végrehajtása nem lehet gyakorlatilag lehetetlen és elméletileg lehetetlen.
Formális meghatározás
Matematikai értelemben egy rendszer statisztikai modelljét általában egy párnak tekintik (S, P), ahol Sa lehetséges megfigyelések halmaza, azaz a mintatér, és P az S-n lévő valószínűségi eloszlások halmaza.
A meghatározás intuíciója a következő. Feltételezzük, hogy van egy "igaz" valószínűségi eloszlás, amelyet az a folyamat okoz, amely bizonyos adatokat generál.
Set
Ő határozza meg a modell paramétereit. A paraméterezés általában különböző értékeket igényel, hogy eltérő eloszlást eredményezzen, azaz
tartania kell (más szóval injektívnek kell lennie). A követelménynek megfelelő paraméterezésről azt mondják, hogy azonosítható.
Példa
Tételezzük fel, hogy van néhány különböző korú diák. A gyermek magassága sztochasztikusan kapcsolódik a születési évhez: például ha egy kisiskolás 7 éves, ez befolyásolja a növekedés valószínűségét, csak úgy, hogy a személy magasabb lesz 3 centiméternél.
Formalizálhatja ezt a megközelítést egyenes vonalú regressziós modellben, például a következőképpen: magasság i=b 0 + b 1agei + εi, ahol b 0 a metszéspont, b 1 az a paraméter, amellyel életkor megszorozódik a magasságfigyelés beszerzésekor. Ez egy hibakifejezés. Vagyis feltételezi, hogy a magasságot az életkor előrejelzi bizonyos hibával.
Az érvényes űrlapnak meg kell egyeznie az összes információs ponttal. Így az egyenes irány (i=b 0 + b 1agei szint) nem lehet egyenlet egy adatmodell számára - ha nem válaszol egyértelműen minden pontra. Azazkivétel nélkül minden információ hibátlanul a vonalon fekszik. Az εi hibahatárt be kell írni az egyenletbe, hogy az űrlap abszolút minden információra illeszkedjen.
A statisztikai következtetés levonásához először fel kell tételeznünk néhány valószínűségi eloszlást ε i-re. Például feltételezhetjük, hogy ε i eloszlásai Gauss-alakúak, nulla átlaggal. Ebben az esetben a modellnek 3 paramétere lesz: b 0, b 1 és a Gauss-eloszlás varianciája.
Formálisan megadhatja a modellt (S, P).
Ebben a példában a modell S megadásával van definiálva, így bizonyos feltételezéseket lehet tenni P-re vonatkozóan. Két lehetőség van:
Ez a növekedés az életkor lineáris függvényével közelíthető;
Hogy a közelítés hibái úgy oszlanak el, mint a Gauss-ban.
Általános megjegyzések
A modellek statisztikai paraméterei a matematikai vetítés egy speciális osztályát képezik. Miben különbözik az egyik faj a másiktól? Tehát a statisztikai modell nem determinisztikus. Ebben tehát, a matematikai egyenletekkel ellentétben, bizonyos változók nem rendelkeznek bizonyos értékkel, hanem lehetőség-eloszlással rendelkeznek. Vagyis az egyes változókat sztochasztikusnak tekintjük. A fenti példában ε egy sztochasztikus változó. Enélkül a vetítés determinisztikus lenne.
A statisztikai modell felépítését gyakran használják, még akkor is, ha az anyagfolyamat determinisztikusnak tekinthető. Például az érmék feldobása elvileg előre meghatározott cselekvés. Ez azonban a legtöbb esetben még mindig sztochasztikusnak van modellezve (a Bernoulli-folyamat révén).
Konishi és Kitagawa szerint egy statisztikai modellnek három célja van:
- Jóslatok.
- Információbányászat.
- A sztochasztikus struktúrák leírása.
Vetítés mérete
Tegyük fel, hogy létezik egy statisztikai előrejelzési modell, A modellt parametrikusnak nevezzük, ha O véges dimenzióval rendelkezik. A megoldásba be kell írni, hogy
ahol k egy pozitív egész szám (R bármely valós számot jelöl). Itt k a modell dimenziója.
Példaként feltételezhetjük, hogy minden adat egyváltozós Gauss-eloszlásból származik:
Ebben a példában a k dimenziója 2.
Egy másik példaként feltehető, hogy az adatok (x, y) pontokból állnak, amelyekről feltételezzük, hogy a Gauss-maradékokkal (nulla átlaggal) egyenes vonalban oszlanak el. Ekkor a statisztikai közgazdasági modell dimenziója egyenlő 3-mal: az egyenes metszéspontja, meredeksége és a maradékok eloszlásának varianciája. Meg kell jegyezni, hogy a geometriában egy egyenes mérete 1.
Bár technikailag a fenti érték az egyetlen olyan paraméter, amelynek k dimenziója van, néha úgy tekintik, hogy k különböző értéket tartalmaz. Például egydimenziós Gauss-eloszlás esetén az O az egyetlen paraméter, amelynek mérete 2, de néha úgy tekintik, hogy kettőt tartalmaz.egyedi paraméter - átlagérték és szórás.
A statisztikai folyamatmodell nem paraméteres, ha az O értékek halmaza végtelen dimenziós. Szintén félparaméteres, ha véges és végtelen dimenziós paraméterekkel is rendelkezik. Formálisan, ha k az O dimenziója, és n a minták száma, akkor a félparaméteres és nem paraméteres modellek
akkor a modell félparaméteres. Ellenkező esetben a vetítés nem paraméteres.
A paraméteres modellek a leggyakrabban használt statisztikák. A félparaméteres és nem paraméteres vetületekkel kapcsolatban Sir David Cox a következőket mondta:
"Általában ezek tartalmazzák a legkevesebb hipotézist a textúráról és az eloszlás alakjáról, de tartalmaznak erős elméleteket az önellátásról."
Beágyazott modellek
Ne keverje össze őket a többszintű vetítésekkel.
Két statisztikai modell van egymásba ágyazva, ha az első konvertálható a másodikká az első paramétereinek megszorításával. Például az összes Gauss-eloszlás halmazának van egy beágyazott nulla-átlagú eloszláskészlete:
Azaz korlátozni kell az átlagot az összes Gauss-eloszlás halmazában, hogy nulla átlagú eloszlásokat kapjunk. Második példaként az y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) másodfokú modellnek van egy beágyazott lineáris modellje y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - azaz a b2 paraméter egyenlő 0-val.
Mindkét példában az első modell nagyobb dimenziójú, mint a második modell. Ez gyakran van így, de nem mindig. Egy másik példa a pozitív átlagú Gauss-eloszlások halmaza, amelynek dimenziója 2.
Modellek összehasonlítása
Feltételezzük, hogy a megfigyelt adatok mögött egy "igaz" valószínűségi eloszlás áll, amelyet az azt előállító folyamat indukált.
És a modellek összehasonlíthatók egymással, feltáró elemzés vagy megerősítés segítségével. A feltáró elemzés során különböző modelleket fogalmaznak meg, és felmérik, hogy mindegyik mennyire írja le jól az adatokat. A megerősítő elemzés során a korábban megfogalmazott hipotézist összevetjük az eredetivel. Ennek általános kritériumai közé tartozik a P 2, a Bayes-tényező és a relatív valószínűség.
Konishi és Kitagawa gondolata
„A statisztikai matematikai modellek legtöbb problémája prediktív kérdésként fogható fel. Általában több tényező összehasonlításaként fogalmazzák meg őket.”
Továbbá Sir David Cox azt mondta: "A téma fordításaként a statisztikai modell problémája gyakran az elemzés legfontosabb része."