Logisztikus regresszió: modell és módszerek

Tartalomjegyzék:

Logisztikus regresszió: modell és módszerek
Logisztikus regresszió: modell és módszerek
Anonim

A logisztikus regresszió és a diszkriminancia analízis módszereit akkor alkalmazzuk, ha a válaszadókat célkategóriák szerint kell egyértelműen megkülönböztetni. Ebben az esetben magukat a csoportokat egy egyváltozatos paraméter szintjei képviselik. Nézzük meg közelebbről a logisztikus regressziós modellt, és derítsük ki, miért van rá szükség.

logisztikus regresszió
logisztikus regresszió

Általános információ

A logisztikus regressziót alkalmazó probléma egyik példája a válaszadók olyan csoportokba sorolása, akik mustárt vesznek és nem vesznek. A differenciálás a szocio-demográfiai jellemzőknek megfelelően történik. Ide tartozik különösen az életkor, a nem, a hozzátartozók száma, a jövedelem stb. A műveleteknél vannak megkülönböztetési kritériumok és egy változó. Ez utóbbi kódolja azokat a célkategóriákat, amelyekbe tulajdonképpen a válaszadókat kell felosztani.

Nüanszok

El kell mondanunk, hogy a logisztikus regresszió alkalmazása sokkal szűkebb, mint a diszkriminanciaanalízis esetében. E tekintetben megfontolandó az utóbbi univerzális megkülönböztetési módszerként való alkalmazásapreferáltabb. Ezenkívül a szakértők azt javasolják, hogy az osztályozási vizsgálatokat diszkriminanciaanalízissel kezdjék. És csak az eredményekkel kapcsolatos bizonytalanság esetén használhat logisztikus regressziót. Ez az igény több tényezőre vezethető vissza. A logisztikus regressziót akkor alkalmazzuk, ha világosan értjük a független és függő változók típusát. Ennek megfelelően a 3 lehetséges eljárás egyike kerül kiválasztásra. A diszkriminanciaanalízis során a kutató mindig egy statikus művelettel foglalkozik. Egy függő és több független kategorikus változót foglal magában, bármilyen típusú skálával.

Megtekintések

A logisztikus regressziót használó statisztikai vizsgálat feladata annak meghatározása, hogy egy adott válaszadó milyen valószínűséggel kerül besorolásra egy adott csoportba. A differenciálás bizonyos paraméterek szerint történik. A gyakorlatban egy vagy több független tényező értéke alapján két csoportba lehet sorolni a válaszadókat. Ebben az esetben bináris logisztikus regresszió megy végbe. A megadott paraméterek akkor is használhatók, ha kettőnél több csoportra osztanak. Ilyen helyzetben multinomiális logisztikus regresszió megy végbe. Az eredményül kapott csoportokat egyetlen változó szintjében fejezzük ki.

logisztikus regresszió
logisztikus regresszió

Példa

Tegyük fel, hogy a válaszadók válaszolnak arra a kérdésre, hogy érdekli-e őket a moszkvai külvárosi telek vásárlási ajánlata. A lehetőségek a "nem"és igen. Ki kell deríteni, hogy mely tényezők befolyásolják túlnyomórészt a potenciális vásárlók döntését. Ehhez a válaszadóknak kérdéseket tesznek fel a terület infrastruktúrájával, a főváros távolságával, a telek területével, lakóépület jelenlétével/hiányával stb. a válaszadókat két csoportra osztják. Az elsőbe azok tartoznak, akik érdeklődnek a felvásárlás iránt - potenciális vásárlók, a második pedig azok, akiket nem érdekel az ilyen ajánlat. Ezenkívül minden válaszadó esetében kiszámításra kerül annak a valószínűsége, hogy valamelyik kategóriába sorolják őket.

Összehasonlító jellemzők

A fenti két lehetőséghez képest a különbség a csoportok eltérő számában, valamint a függő és független változók típusában rejlik. A bináris regresszióban például egy dichotóm faktor egy vagy több független feltételtől való függését vizsgálják. Sőt, az utóbbi bármilyen típusú lehet. A multinomiális regresszió ennek az osztályozási opciónak a változatának tekinthető. Ebben több mint 2 csoport tartozik a függő változóhoz. A független tényezőknek ordinális vagy névleges skálával kell rendelkezniük.

Logisztikus regresszió az spss-ben

A 11-12. statisztikai csomagban az analízis új változatát vezették be - sorszámú. Ezt a módszert akkor használjuk, ha a függő tényező azonos nevű (sorrendi) skálához tartozik. Ebben az esetben a független változók egy adott típusból kerülnek kiválasztásra. Ezeknek ordinálisnak vagy névlegesnek kell lenniük. A több kategóriába való besorolást tartják leginkább szem előttegyetemes. Ez a módszer minden logisztikus regressziót alkalmazó vizsgálatban alkalmazható. A modell minőségének javításának egyetlen módja azonban mindhárom technika alkalmazása.

megfelelőségi minőségellenőrzés és logisztikai regresszió
megfelelőségi minőségellenőrzés és logisztikai regresszió

Sorrendi besorolás

El kell mondanunk, hogy korábban a statisztikai csomagban nem volt jellemző arra, hogy a függő tényezők ordinális skálával történő speciális elemzését végezzük. Minden 2-nél több csoportot tartalmazó változó esetében a többnévi változatot használtuk. A viszonylag nemrégiben bevezetett ordinális elemzésnek számos jellemzője van. Figyelembe veszik a skála sajátosságait. Eközben a taneszközökben az ordinális logisztikus regressziót gyakran nem tekintik külön technikának. Ennek oka a következő: az ordinális analízisnek nincs jelentős előnye a multinomiálishoz képest. Ez utóbbit a kutató használhatja ordinális és nominális függő változó jelenlétében is. Ugyanakkor maguk az osztályozási folyamatok szinte nem különböznek egymástól. Ez azt jelenti, hogy az ordinális analízis végrehajtása nem okoz nehézséget.

Elemzési lehetőség

Vegyünk egy egyszerű esetet – a bináris regressziót. Tegyük fel, hogy a marketingkutatás során felmérik egy bizonyos nagyvárosi egyetemen végzettek iránti keresletet. A kérdőívben a válaszadóknak kérdéseket tettek fel, többek között:

  1. Alkalmazott? (ql).
  2. Írja be az érettségi évét (q 21).
  3. Mi az átlagérettségi pontszám (átlag).
  4. Nem (q22).

A logisztikus regresszió értékeli a független tényezőknek aver, q 21 és q 22 hatását a ql változóra. Egyszerűen fogalmazva, az elemzés célja a végzettek várható elhelyezkedésének meghatározása a szakterületre, a diploma megszerzésének évére és a GPA-ra vonatkozó információk alapján.

logisztikus szigmoid regressziós mutató
logisztikus szigmoid regressziós mutató

Logisztikai regresszió

A paraméterek bináris regresszióval történő beállításához használja az Elemzés►Regresszió►Bináris logisztika menüt. A Logisztikai regresszió ablakban válassza ki a függő tényezőt a bal oldali elérhető változók listájából. Ez ql. Ezt a változót a Függő mezőben kell elhelyezni. Ezt követően független tényezőket kell bevinni a Kovariáns diagramba - q 21, q 22, aver. Ezután ki kell választania, hogyan vegye fel őket az elemzésébe. Ha a független tényezők száma több mint 2, akkor az összes változó egyidejű bevezetésének alapértelmezés szerinti módszerét alkalmazzuk, de lépésről lépésre. A legnépszerűbb módszer a Backward:LR. A Kiválasztás gombbal nem az összes válaszadót, hanem csak egy konkrét célkategóriát vehet fel a vizsgálatba.

Kategorikus változók meghatározása

A Kategorikus gombot akkor kell használni, ha a független változók egyike névleges és több mint 2 kategóriát tartalmaz. Ebben a helyzetben a Kategorikus változók meghatározása ablakban éppen egy ilyen paraméter kerül a Kategorikus kovariánsok szakaszba. Ebben a példában nincs ilyen változó. Ezt követően a legördülő listában a Kontraszt következikválassza ki az Eltérés elemet, és nyomja meg a Módosítás gombot. Ennek eredményeként minden nominális tényezőből több függő változó fog kialakulni. Számuk megfelel a kezdeti feltétel kategóriáinak számának.

Új változók mentése

A tanulmány fő párbeszédpanelén a Mentés gomb segítségével beállítjuk az új paraméterek létrehozását. Tartalmazni fogják a regressziós folyamatban számított mutatókat. Létrehozhat olyan változókat, amelyek meghatározzák:

  1. Egy adott besorolási kategóriához tartozás (Csoporttagság).
  2. Annak valószínűsége, hogy minden vizsgálati csoporthoz egy válaszadót rendelnek (valószínűségek).

A Beállítások gomb használatakor a kutató nem kap jelentősebb opciókat. Ennek megfelelően figyelmen kívül hagyható. Az "OK" gombra kattintás után az elemzés eredménye megjelenik a főablakban.

logisztikus regressziós együttható
logisztikus regressziós együttható

Minőségellenőrzés a megfelelőség és logisztikai regresszió érdekében

Vegye fontolóra az Omnibus Testsof Model Coefficients táblázatot. Megjeleníti a modell közelítésének minőségi elemzésének eredményeit. Tekintettel arra, hogy lépésről-lépésre opciót állítottak be, meg kell néznie az utolsó szakasz (2. lépés) eredményeit. Pozitív eredménynek számítunk, ha a Khi-négyzet mutató növekedését tapasztaljuk, amikor a következő szakaszba lépünk nagy szignifikanciafokkal (< 0,05). A modell minőségét a Model sorban értékeljük. Ha negatív értéket kapunk, de ez nem tekinthető szignifikánsnak a modell összességében magas lényegessége mellett, az utolsógyakorlatilag megfelelőnek tekinthető.

Táblázatok

A Model Summary lehetővé teszi a teljes varianciaindex becslését, amelyet a felépített modell (R Square index) ír le. A Nagelker érték használata javasolt. A Nagelkerke R Square paraméter akkor tekinthető pozitív mutatónak, ha 0,50 felett van. Ezt követően kerül sor az osztályozás eredményeinek kiértékelésére, amelyben az egyik vagy másik vizsgált kategóriába való tartozás tényleges mutatóit vetik össze a regressziós modell alapján előrejelzettekkel. Ehhez az osztályozási táblázatot használják. Lehetővé teszi továbbá, hogy következtetéseket vonjunk le az egyes vizsgált csoportok megkülönböztetésének helyességéről.

logisztikus regressziós modell
logisztikus regressziós modell

Az alábbi táblázat lehetőséget ad az elemzésbe bevitt független tényezők statisztikai szignifikanciájának, valamint az egyes nem standardizált logisztikus regressziós együtthatók statisztikai szignifikanciájának megismerésére. Ezen mutatók alapján megjósolható a mintában szereplő egyes válaszadók egy adott csoporthoz való tartozása. A Mentés gombbal új változókat adhat meg. Információkat tartalmaznak egy adott besorolási kategóriához (Predictedcategory) és a csoportba való bekerülés valószínűségéről (Predicted probabilities tagság). Az "OK" gombra kattintva a számítási eredmények megjelennek a Multinomial Logistic Regression főablakában.

Az első táblázat, amely a kutató számára fontos mutatókat tartalmazza, a Model Fitting Information. A statisztikai szignifikancia magas szintje a magas színvonalú ésa modell alkalmazásának alkalmassága gyakorlati problémák megoldásában. Egy másik jelentős táblázat a Pseudo R-Square. Lehetővé teszi a teljes variancia arányának becslését a függő tényezőben, amelyet az elemzésre kiválasztott független változók határoznak meg. Ez utóbbi statisztikai szignifikanciájára a Likelihood Ratio Tests táblázat alapján vonhatunk le következtetéseket. A paraméterbecslések nem szabványosított együtthatókat tükröznek. Ezeket az egyenlet felépítésében használják. Ezen túlmenően minden változókombinációnál meghatároztuk a függő tényezőre gyakorolt hatásuk statisztikai szignifikanciáját. Eközben a marketingkutatásban gyakran válik szükségessé a válaszadók kategóriánkénti megkülönböztetése nem egyénileg, hanem a célcsoport részeként. Ehhez a Megfigyelt és Előrejelzett gyakoriságok táblázatot használjuk.

Gyakorlati alkalmazás

A figyelembe vett elemzési módszert széles körben alkalmazzák a kereskedők munkájában. 1991-ben kidolgozták a logisztikus szigmoid regressziós mutatót. Ez egy könnyen használható és hatékony eszköz a valószínű árak előrejelzésére, mielőtt azok "túlmelegednek". Az indikátor a diagramon két párhuzamos vonalból álló csatornaként látható. Egyenlő távolságra vannak a trendtől. A folyosó szélessége kizárólag az időkerettől függ. A mutatót akkor használják, ha szinte minden eszközzel dolgozunk – a devizapároktól a nemesfémekig.

logisztikus regresszió spss-ben
logisztikus regresszió spss-ben

A gyakorlatban 2 kulcsfontosságú stratégiát dolgoztak ki a műszer használatára: a kitörésre ésegy kanyarra. Ez utóbbi esetben a kereskedő a csatornán belüli árváltozások dinamikájára összpontosít. Ahogy az érték megközelíti a támasz- vagy ellenállásvonalat, tétet tesznek annak valószínűségére, hogy a mozgás az ellenkező irányba indul el. Ha az ár megközelíti a felső határt, akkor megszabadulhat az eszköztől. Ha az alsó határon van, akkor érdemes elgondolkodni a vásárláson. A kitörési stratégia megbízások felhasználását foglalja magában. A határokon kívül, viszonylag kis távolságra vannak felszerelve. Figyelembe véve, hogy az ár bizonyos esetekben rövid időre megsérti ezeket, érdemes védeni és stop lossokat beállítani. Ugyanakkor természetesen a választott stratégiától függetlenül a kereskedőnek a lehető legnyugodtabban kell érzékelnie és értékelnie a piacon kialakult helyzetet.

Következtetés

Így a logisztikus regresszió alkalmazása lehetővé teszi a válaszadók gyors és egyszerű kategóriákba sorolását a megadott paraméterek szerint. Az elemzés során bármilyen módszert használhat. Különösen a multinomiális regresszió univerzális. A szakértők azonban javasolják a fent leírt módszerek együttes használatát. Ez annak köszönhető, hogy ebben az esetben a modell minősége lényegesen magasabb lesz. Ez viszont kibővíti alkalmazási körét.

Ajánlott: