Statisztikai információk: gyűjtés, feldolgozás, elemzés

2026 Szerző: Angel Austin | [email protected]. Utoljára módosítva: 2025-01-23 12:25:13

A statisztika története során különféle kísérletek történtek a mérési szintek taxonómiájának létrehozására. Stanley Smith Stevens pszichofizikus nominális, ordinális, intervallum- és arányos skálákat definiált.

A névleges méréseknek nincs jelentős sorrendje az értékek között, és lehetővé teszik az egy az egyhez konverziót.

A normál dimenziók pontatlan eltéréseket mutatnak az egymást követő értékek között, de ezeknek az értékeknek meghatározott sorrendje van, és lehetővé teszik a rendet megőrző átalakításokat.

Az intervallumméréseknél jelentős távolságok vannak a pontok között, de a nulla érték tetszőleges (mint a hosszúsági és hőmérsékleti Celsius- vagy Fahrenheit-mérések esetében), és bármilyen lineáris transzformációt tesz lehetővé.

Az aránydimenzióknak egyaránt van értelmes nulla értéke és távolságok a különböző dimenziók között, és lehetővé teszik a méretezési transzformációt.

Változók és információk osztályozása

Mert a változókcsak a névleges vagy ordinális méréseknek felelnek meg, ésszerűen nem mérhetők numerikusan, és néha kategorikus változókként vannak csoportosítva. Az arány- és intervallumméréseket kvantitatív változókként csoportosítjuk, amelyek numerikus jellegükből adódóan lehetnek diszkrétek vagy folyamatosak. Az ilyen megkülönböztetések a számítástechnikában gyakran lazán kapcsolódnak az adattípusokhoz, mivel a dichotóm kategorikus változók reprezentálhatók logikai értékekkel, politóm kategorikus változók tetszőleges egész számokkal egy integrál adattípusban, és folytonos változók valós komponensekkel, amelyek lebegőpontos számítást igényelnek. A statisztikai adatok adattípusainak megjelenítése azonban attól függ, hogy melyik osztályozást alkalmazzák.

Egyéb besorolások

A statisztikai adatok (információk) egyéb osztályozásai is elkészültek. Például Mosteller és Tukey különbséget tett a fokozatok, rangok, megszámolt részesedések, számok, összegek és egyenlegek között. Nelder egy időben leírta a folyamatos számlálásokat, a folyamatos arányokat, a számlálások korrelációját és az adatok kategorikus közlési módjait. Mindezeket az osztályozási módszereket a statisztikai információk gyűjtése során használják.

Problémák

Azt a kérdést, hogy célszerű-e különböző statisztikai módszereket alkalmazni a különböző mérési (gyűjtési) eljárásokkal nyert adatokra, bonyolítják a változók konvertálásával és a kérdések pontos értelmezésével kapcsolatos kérdések.kutatás. „Az adatok és az általuk leírtak közötti kapcsolat egyszerűen azt a tényt tükrözi, hogy bizonyos típusú statisztikai állításoknak lehetnek olyan igazságértékei, amelyek bizonyos transzformációk során nem invariánsak. Az, hogy érdemes-e megfontolni az átalakítást, a megválaszolni kívánt kérdéstől függ.

Mi az adattípus

Az adattípus a változó szemantikai tartalmának alapvető összetevője, és szabályozza, hogy milyen valószínűségi eloszlások használhatók logikusan a változó leírására, a rajta engedélyezett műveletek, az előrejelzésére használt regressziós elemzés típusa stb. Az adattípus fogalma hasonló a mérési szint fogalmához, de specifikusabb - például az adatszámláláshoz más eloszlás szükséges (Poisson vagy binomiális), mint a nem negatív valós értékekhez, de mindkettő ugyanabba esik mérési szint (együttható skála).

Mérleg

Különféle kísérletek történtek a mérési szintek taxonómiájának létrehozására a statisztikai információk feldolgozásához. Stanley Smith Stevens pszichofizikus nominális, ordinális, intervallum- és arányos skálákat definiált. A névleges méréseknek nincs jelentős sorrendje az értékek között, és lehetővé teszik az egy az egyhez konverziót. A közönséges mérések pontatlan eltéréseket mutatnak az egymást követő értékek között, de ezeknek az értékeknek a szignifikáns sorrendjében különböznek, és lehetővé teszikbármilyen rendfenntartó átalakulás. Az intervallumméréseknél jelentős távolságok vannak a mérések között, de a nulla érték tetszőleges (mint a hosszúsági és hőmérsékleti Celsius- vagy Fahrenheit-méréseknél), és lehetővé tesz bármilyen lineáris transzformációt. Az aránydimenzióknak egyaránt van értelmes nulla értéke és távolságok a különböző meghatározott dimenziók között, és lehetővé teszik a méretezési transzformációt.

Az egyetlen számmal nem leírható adatok gyakran szerepelnek a valós valószínűségi változók véletlen vektoraiban, bár egyre nagyobb a tendencia, hogy ezeket saját maga dolgozza fel. Ilyen példákat az alábbiakban tárgyalunk.

Véletlenszerű vektorok

Az egyes elemek összefügghetnek egymással, de lehet, hogy nem. A korrelált véletlen vektorok leírására használt eloszlások példái a többváltozós normális eloszlás és a többváltozós t-eloszlás. Általánosságban elmondható, hogy tetszőleges korrelációk létezhetnek bármely elem között, azonban ez gyakran egy bizonyos méret felett kezelhetetlenné válik, ami további megszorításokat tesz szükségessé a korrelált összetevőkre vonatkozóan.

Véletlenszerű mátrixok

A véletlenszerű mátrixok lineárisan elrendezhetők és véletlenszerű vektorokként kezelhetők, azonban ez nem biztos, hogy hatékony módja a különböző elemek közötti korrelációk ábrázolásának. Néhány valószínűségi eloszlást kifejezetten véletlen mátrixokhoz terveztek, mint például a normál mátrixterjesztés és Wishart terjesztés.

Véletlenszerű sorozatok

Néha azonosnak tekintik a véletlen vektorokkal, de más esetekben a kifejezést kifejezetten olyan esetekre alkalmazzák, amikor minden valószínűségi változó csak a közeli változókkal korrelál (mint a Markov-modellben). Ez a Bayes-hálózat speciális esete, és nagyon hosszú szekvenciákhoz, például génláncokhoz vagy hosszú szöveges dokumentumokhoz használják. Számos modell kifejezetten ilyen sorozatokhoz készült, például rejtett Markov-szekvenciákhoz.

Véletlenszerű folyamatok

Hasonlítanak a véletlenszerű sorozatokhoz, de csak akkor, ha a sorozat hossza határozatlan vagy végtelen, és a sorozat elemei egyenként kerülnek feldolgozásra. Ezt gyakran használják idősorként leírható adatokhoz. Ez igaz, ha például a másnapi részvényárfolyamról van szó.

Következtetés

A statisztikai információk elemzése teljes mértékben a gyűjtés minőségétől függ. Ez utóbbi pedig erősen összefügg a besorolásának lehetőségeivel. Természetesen a statisztikai információk osztályozásának számos fajtája létezik, amelyekről az olvasó maga is meggyőződhet a cikk elolvasásakor. Ennek ellenére a hatékony eszközök jelenléte és a jó matematikai ismerete, valamint a szociológia területén szerzett ismeretek elvégzik a dolgukat, lehetővé téve, hogy bármilyen felmérést vagy tanulmányt végezzenek jelentős hibajavítás nélkül. Statisztikai információforrások az űrlaponaz emberek, a szervezetek és a szociológia más tantárgyai szerencsére igen bőségesen képviseltetik magukat. És egyetlen nehézség sem állhat az igazi felfedező útjába.