Az adatbányászat Fogalom, algoritmuselemzés, cél és alkalmazás

Tartalomjegyzék:

Az adatbányászat Fogalom, algoritmuselemzés, cél és alkalmazás
Az adatbányászat Fogalom, algoritmuselemzés, cél és alkalmazás
Anonim

Az információs technológia fejlődése gyakorlati eredményeket hoz. De az olyan feladatok, mint az információk keresése, elemzése és felhasználása, még nem kaptak hatékony, jó minőségű eszközt. Vannak analitikai és kvantitatív eszközök, ezek valóban működnek. De minőségi forradalom az információhasználatban még nem történt meg.

Jóval a számítástechnika megjelenése előtt az embernek nagy mennyiségű információt kellett feldolgoznia, és ezzel a legjobb tapasztalata és rendelkezésre álló technikai lehetőségei szerint megbirkózott.

A tudás és készségek fejlesztése mindig a valós igényeknek és az aktuális feladatoknak felelt meg. Az adatbányászat egy gyűjtőnév, amely a korábban ismeretlen, nem triviális, gyakorlatilag hasznos és hozzáférhető tudás feltárására szolgáló módszerekre utal, amelyek az emberi tevékenység különböző területein szükséges döntéshozatalhoz szükségesek.

Ember, intelligencia, programozás

Az ember mindig tudja, hogyan kell cselekedni bármilyen helyzetben. A tudatlanság vagy egy ismeretlen helyzet nem akadályozza meg a döntésben. Bármilyen emberi döntés objektivitása és ésszerűsége megkérdőjelezhető, de elfogadják.

Az intelligencia alapja: örökletes "mechanizmus", szerzett, aktív tudás. A tudást az ember előtt felmerülő problémák megoldására alkalmazzák.

  1. Az intelligencia a tudás és a készségek egyedülálló halmaza: lehetőségek és alapok az emberi élethez és munkához.
  2. Az intelligencia folyamatosan fejlődik, és az emberi cselekedetek hatással vannak más emberekre.

A programozás az első kísérlet az adatok megjelenítésének formalizálására és az algoritmusok létrehozásának folyamatára.

Ember, intelligencia, programozás
Ember, intelligencia, programozás

A mesterséges intelligencia (AI) idő- és erőforráspazarlás, de a múlt század AI területén végzett sikertelen próbálkozásai az emlékezetben megmaradtak, különféle szakértői (intelligens) rendszerekben felhasználták és átalakultak, különösen az algoritmusok (szabályok) és a matematikai (logikai) adatelemzés és adatbányászat terén.

Információ és a szokásos megoldáskeresés

Egy közönséges könyvtár a tudás tárháza, és a nyomtatott szó és grafika még nem adta át a pálmát a számítástechnikának. A fizikáról, kémiáról, elméleti mechanikáról, tervezésről, természetrajzról, filozófiáról, természettudományról, botanikáról szóló könyvek, tankönyvek, monográfiák, tudósok munkái, konferencia anyagok, fejlesztői munkáról szóló beszámolók stb. mindig relevánsak és megbízhatóak.

A könyvtár sok különböző forrásból áll, amelyek különböznek egymástólaz anyag bemutatásának formája, eredete, szerkezete, tartalma, előadásmódja stb.

Könyvtár: könyvek, folyóiratok és egyéb nyomtatványok
Könyvtár: könyvek, folyóiratok és egyéb nyomtatványok

Kívülről minden látható (olvasható, hozzáférhető) a megértéshez és a használathoz. Bármilyen feladatot megoldhat, helyesen tűzheti ki a feladatot, megindokolja a megoldást, írhat esszét vagy szakdolgozatot, válogathat az oklevélhez, elemezhet forrásokat szakdolgozat vagy tudományos és elemző jelentés témájában.

Bármilyen információs probléma megoldható. Kellő kitartással és hozzáértéssel pontos és megbízható eredmény érhető el. Ebben az összefüggésben az adatbányászat egy teljesen más megközelítés.

Az eredmény mellett az ember "aktív hivatkozásokat" kap mindarra, amit a cél elérése során megtekintettek. Azokra a forrásokra, amelyeket a probléma megoldása során felhasznált, hivatkozni lehet, és senki sem vitatja a forrás létezésének tényét. Ez nem garancia a hitelességre, de biztos tanúbizonyság, hogy kire van "leírva" a hitelesség felelőssége. Ebből a szempontból az adatbányászat nagy kétségeket jelent a megbízhatósággal kapcsolatban, és nincs "aktív" link.

Több probléma megoldásával az ember eredményeket ér el, és sok „aktív kapcsolatra” kiterjeszti intellektuális potenciálját. Ha egy új feladat „aktivál” egy már meglévő hivatkozást, az illető tudni fogja, hogyan kell megoldani: nem kell újra keresni semmit.

"Aktív link" egy rögzített asszociáció: hogyan és mit kell tenni egy adott esetben. Az emberi agy automatikusan emlékszik mindenre, ami számára érdekesnek, hasznosnak tűnik.vagy a jövőben valószínűleg szükség lesz rá. Ez sok szempontból tudatalatti szinten történik, de amint egy „aktív linkhez” köthető feladat felmerül, azonnal felpattan az elmében, és további információkeresés nélkül megszületik a megoldás. Az adatbányászat mindig a keresési algoritmus ismétlése, és ez az algoritmus nem változik.

Rendszeres keresés: "művészi" problémák

Matek könyvtár és az információkeresés benne viszonylag gyenge feladat. Egy integrál megoldásának, mátrix felépítésének vagy két imaginárius szám összeadásának műveletének végrehajtása fáradságos, de egyszerű megoldást találni. Át kell válogatnia számos könyvet, amelyek közül sok egy adott nyelven íródott, meg kell találnia a megfelelő szöveget, tanulmányoznia kell, és meg kell találnia a kívánt megoldást.

Idővel a felsorolás ismerőssé válik, a felhalmozott tapasztalat pedig lehetővé teszi, hogy eligazodjon a könyvtári információk és más matematikai problémák között. Ez a kérdések és válaszok korlátozott információs tere. Jellemző vonás: az ilyen információkeresés tudást halmoz fel hasonló problémák megoldásához. Egy személy információkeresés nyomokat ("aktív linkeket") hagy emlékezetében más problémák lehetséges megoldásairól.

A szépirodalomban keresse meg a választ a következő kérdésre: "Hogyan éltek az emberek 1248 januárjában?" nagyon nehéz. Arra a kérdésre, hogy mi került a boltok polcaira, hogyan szerveződött az élelmiszerkereskedelem, még nehezebb válaszolni. Még ha néhány író világosan és közvetlenül ír is erről a regényében, ha ennek az írónak a neve megtalálható, akkor kétségek merülnek fela kapott adatok megbízhatósága megmarad. A megbízhatóság bármely információmennyiség kritikus jellemzője. Fontos a forrás, a szerző és az eredmény hamisságát kizáró bizonyíték.

Egy adott helyzet objektív körülményei

Az ember lát, hall, érez. Egyes szakemberek folyékonyan beszélnek egy egyedi érzésben – az intuícióban. A probléma megfogalmazása tájékoztatást igényel, a probléma megoldásának folyamata legtöbbször a problémafelvetés pontosításával jár együtt. Ez a kisebbik probléma, ami azzal jár, ha az információ a számítógépes rendszer belsejébe kerül.

Információk a virtuális térben
Információk a virtuális térben

A könyvtár és a munkatársak közvetett résztvevői a döntési folyamatnak. A könyv (forrás) kialakítása, a szövegben található grafikák, az információk címszavakra bontásának jellemzői, lábjegyzetek kifejezésenként, tárgymutató, elsődleges források listája - minden olyan asszociációt ébreszt az emberben, amely közvetve befolyásolja a megoldás folyamatát. a probléma.

A probléma megoldásának ideje és helye elengedhetetlen. Az ember annyira berendezkedett, hogy a probléma megoldása során önkéntelenül is odafigyel mindenre, ami körülveszi. Lehet elvonni a figyelmet, de lehet ösztönző is. Az adatbányászat soha nem fogja "érteni".

Információ a virtuális térben

Az embert mindig is csak a megbízható információ érdekelte egy eseményről, jelenségről, tárgyról, problémamegoldó algoritmusról. Az ember mindig pontosan elképzelte, hogyan érheti el a kívánt célt.

A számítógépek és információs rendszerek megjelenésének meg kellett volna könnyítenie az ember életét, de minden csak bonyolultabb lett. Az információ bevándorolt a számítógépes rendszerek belsejébe, és eltűnt a szem elől. A szükséges adatok kiválasztásához létre kell hoznia egy megfelelő algoritmust, vagy le kell írnia egy lekérdezést az adatbázishoz.

Adatok az információs rendszeren belül
Adatok az információs rendszeren belül

A kérdésnek helyesnek kell lennie. Csak akkor kaphat választ. De a hitelességgel kapcsolatos kétségek továbbra is fennállnak. Ebben az értelemben az adatbányászat valójában „feltárás”, „információkinyerés”. Ezt a kifejezést így divat lefordítani. Az orosz verzió adatbányászati vagy adatbányászati technológia.

A tekintélyes szakemberek munkáiban az adatbányászat feladatai a következők szerint vannak feltüntetve:

  • osztályozás;
  • klaszterezés;
  • egyesület;
  • szekvencia;
  • előrejelzés.

Az információ kézi feldolgozásában az embert irányító gyakorlat szempontjából mindezek az álláspontok vitathatóak. Mindenesetre az ember automatikusan feldolgozza az információkat, és nem gondol az adatok osztályozására, tematikus objektumcsoportok összeállítására (klaszterezés), időbeli minták keresésére (szekvencia) vagy az eredmény előrejelzésére.

Az emberi elmében mindezeket a pozíciókat aktív tudás képviseli, amelyek több pozíciót fednek le, és dinamikusan alkalmazzák a kiindulási adatok feldolgozásának logikáját. Az ember tudatalattija fontos szerepet játszik, különösen, ha egy adott tudásterület specialistája.

Példa: Számítástechnikai berendezések nagykereskedelme

A feladat egyszerű. Több is vanszámítástechnikai berendezések és perifériák több tucat szállítója. Mindegyikhez tartozik egy xls formátumú árlista (Excel fájl), amely letölthető a szállító hivatalos weboldaláról. Létre kell hozni egy olyan webes erőforrást, amely beolvassa az Excel fájlokat, azokat adatbázis-táblázatokká konvertálja, és lehetővé teszi az ügyfelek számára, hogy a legalacsonyabb áron válasszák ki a kívánt termékeket.

A problémák azonnal jelentkeznek. Minden szállító saját verziót kínál az xls fájl szerkezetéről és tartalmáról. A fájlt úgy érheti el, hogy letölti a szállító webhelyéről, megrendeli e-mailben, vagy letölti a linket személyes fiókján keresztül, azaz hivatalosan regisztrál a szállítónál.

Virtuális Számítógépbolt
Virtuális Számítógépbolt

A probléma megoldása (a legelején) technológiailag egyszerű. Fájlok (kiindulási adatok) betöltésekor minden szállítóhoz fájlfelismerő algoritmust írnak, és az adatokat egy nagy kezdőadattáblázatba helyezik. Az összes adat beérkezése után, a friss adatok folyamatos (napi, heti vagy változáskor) cseréjének mechanizmusának kialakítása után:

  • választék módosítása;
  • árváltozások;
  • a készleten lévő mennyiség pontosítása;
  • jótállási feltételek, specifikációk stb. módosítása

Itt kezdődnek az igazi problémák. A helyzet az, hogy a szállító ezt írhatja:

  • notebook Acer;
  • notebook Asus;
  • Dell laptop.

Ugyanarról a termékről beszélünk, de különböző gyártóktól. Hogyan illessze össze a notebook=laptopot, vagy hogyan távolítsa el az Acert, az Asust és a Dellt a termékcsaládból?

Azértaz ember nem probléma, de hogyan fogja az algoritmus "megérteni", hogy az Acer, Asus, Dell, Samsung, LG, HP, Sony védjegyek vagy beszállítók? Hogyan lehet párosítani a "nyomtatót" és a nyomtatót, a "szkennert" és az "MFP-t", a "másolót" és az "MFP-t", a "fejhallgatót" a "headsetet", a "tartozékokat" a "tartozékokkal"?

A kategóriafa felépítése a forrásadatok (forrásfájlok) alapján már akkor is probléma, ha mindent automatikusra kell állítani.

Adatmintavétel: a "frissen öntött" ásatások

Megoldódott a számítástechnikai berendezés beszállítói adatbázis létrehozásának a feladata. Felépült a kategóriák fája, működik egy közös táblázat az összes beszállító ajánlataival.

Tipikus adatbányászati feladatok a példa kontextusában:

  • keressen terméket a legalacsonyabb áron;
  • válassza ki a legalacsonyabb szállítási költséggel és árral rendelkező terméket;
  • termékelemzés: jellemzők és árak kritériumok szerint.

A több tucat beszállítótól származó adatokat használó menedzser valós munkája során ezeknek a feladatoknak számos változata lesz, és még több valós helyzet.

Például van egy "A" beszállító, aki ASUS VivoBook S15-öt árul: előre fizetés, kézbesítés a pénz tényleges kézhezvételét követő 5 napon belül. Van egy "B" beszállítója ugyanazon terméknek, azonos modellel: fizetés átvételkor, szállítás a szerződés megkötése után egy napon belül, az ár másfélszerese.

Indul az adatbányászat – „ásatások”. Átvitt kifejezések: „ásatások” vagy „adatbányászat” szinonimák. Ez arról szól, hogyan lehet okot találni a döntés meghozatalára.

Az „A” és „B” beszállítók már korábban is szállítottak. Fokozatelőleg az első esetben átvételi fizetés ellenében a második esetben figyelembe véve, hogy a kézbesítés meghiúsulása a második esetben 65%-kal magasabb. Magasabb/alacsonyabb az ügyféltől származó büntetések kockázata. Hogyan és mit kell meghatározni, és milyen döntést kell hozni?

Másrészt: az adatbázist egy programozó és egy menedzser készítette. Ha megváltozott a programozó és a menedzser, hogyan lehet meghatározni az adatbázis aktuális állapotát és megtanulni helyesen használni? Adatbányászatot is kell végeznie. Az adatbányászat különféle matematikai és logikai módszereket kínál, amelyek nem mindegy, hogy milyen adatokat kutatnak. Ez bizonyos esetekben megadja a helyes megoldást, de nem minden esetben.

Változás a virtualitásba és értelmet találni

Az adatbányászati módszerek értelmessé válnak, amint az információ beírásra került az adatbázisba, és eltűnt a „látómezőből”. A számítástechnikai eszközök kereskedelme érdekes feladat, de ez csak üzlet. Az, hogy mennyire jól szervezett a cégben, annak sikerétől függ.

A bolygó éghajlatváltozásai és egy adott város időjárása mindenkit érdekel, nem csak a klímaszakértőket. Szenzorok ezrei mérik a szelet, a páratartalmat, a nyomást és a mesterséges földi műholdak adatait, és évekre és évszázadokra nyúlnak vissza az adatok.

Az időjárási adatok nem csak arról szólnak, hogy eldöntsük, viszünk-e esernyőt a munkába. Az adatbányászati technológiák a repülőgépek biztonságos repülését, az autópálya stabil működését és a tengeri olajtermékek megbízható ellátását jelentik.

A „nyers” adatok elküldésre kerülnek az információhozrendszer. Az adatbányászat feladata, hogy ezeket rendszerezett táblarendszerré alakítsa, linkeket hozzon létre, homogén adatok csoportjait emelje ki, és mintákat észleljen.

Klíma, időjárás és nyers adatok
Klíma, időjárás és nyers adatok

Matematikai és logikai módszerek a kvantitatív analitika napjai óta Az OLAP (On-line Analytical Processing) megmutatta gyakorlatiasságát. Itt a technológia lehetővé teszi, hogy megtalálja a jelentést, és ne veszítse el, mint például a számítógépes berendezések értékesítése.

Sőt, globális feladatokban:

  • transznacionális üzlet;
  • légi szállítás menedzsment;
  • a föld belsejének vagy a társadalmi problémák tanulmányozása (állami szinten);
  • a gyógyszerek élő szervezetre gyakorolt hatásának vizsgálata;
  • egy ipari vállalkozás építésének következményeinek előrejelzése stb.

A Data Mine technológia és az „értelmetlen” adatok valós adatokká alakítása, amelyek lehetővé teszik objektív döntések meghozatalát, az egyetlen lehetőség.

Az emberi lehetőségek ott érnek véget, ahol nagy mennyiségű nyers információ áll rendelkezésre. Az adatbányászati rendszerek veszítenek hasznosságukból, ha szükséges látni, megérteni és érezni az információkat.

A funkciók ésszerű elosztása és az objektivitás

Az embernek és a számítógépnek ki kell egészítenie egymást – ez egy axióma. A szakdolgozat megírása kiemelt feladat az ember számára, az információs rendszer pedig segítség. Itt az adatbányászati technológia heurisztikát, szabályokat, algoritmusokat tartalmaz.

A heti időjárás-előrejelzés elkészítése az információs rendszer prioritása. Az ember kezeli az adatokat, de döntéseit a rendszer számításainak eredményeire alapozza. Egyesíti az adatbányászati módszereket, a speciális adatosztályozást, az algoritmusok alkalmazásának kézi vezérlését, a múltbeli adatok automatikus összehasonlítását, a matematikai előrejelzést és az információs rendszer alkalmazásában részt vevő valós emberek sok-sok tudását és készségeit.

Ember és számítógép
Ember és számítógép

A valószínűségszámítás és a matematikai statisztika nem a „legkedvencebb” és legérthetőbb ismeretterület. Sok szakember nagyon távol áll tőlük, de az ezeken a területeken kidolgozott módszerek közel 100%-ban korrekt eredményt adnak. Az adatbányászat ötletein, módszerein és algoritmusain alapuló rendszerek alkalmazásával objektíven és megbízhatóan lehet megoldásokat kapni. Ellenkező esetben egyszerűen lehetetlen megoldást találni.

Fáraók és az elmúlt évszázadok rejtélyei

Az előzményeket rendszeresen újraírták:

  • államok - stratégiai érdekeik érdekében;
  • mérvadó tudósok – szubjektív meggyőződésük kedvéért.

Nehéz megmondani, mi igaz és mi hamis. Az adatbányászat használata lehetővé teszi a probléma megoldását. Például a piramisok építésének technológiáját krónikások írták le, és tudósok tanulmányozták különböző évszázadokban. Nem minden anyag került fel az internetre, nem minden egyedi itt, és sok adatban nem feltétlenül szerepel:

  • leírt időpont;
  • a leírás megírásának ideje;
  • dátumok, amelyeken a leírás alapul;
  • szerző(k), vélemények (linkek) figyelembe vették;
  • objektivitás megerősítése.

Bkönyvtárak, templomok és "váratlan helyek" különböző évszázadok kéziratait és a múlt tárgyi bizonyítékait találhatják meg.

Érdekes cél: mindent összerakni és feltárni az "igazságot". A probléma jellemzője: információkat szerezhetünk a krónikás első leírásától, a fáraók élete során egészen a jelenlegi századig, amelyben ezt a problémát sok tudós modern módszerekkel oldja meg.

Az adatbányászat használatának indoklása: kézi munka nem lehetséges. Túl sok mennyiség:

  • információs források;
  • ábrázolási nyelvek;
  • a kutatók ugyanazt a dolgot különbözőképpen írják le;
  • dátumok, események és feltételek;
  • táv korrelációs problémák;
  • a statisztikák adatcsoportonkénti elemzése időnként eltérő lehet stb.

A múlt század végén, amikor a mesterséges intelligencia gondolatának újabb kudarca nemcsak a laikusok, hanem egy kifinomult szakember számára is nyilvánvalóvá vált, megjelent az ötlet: „újrateremteni a személyiséget”.

Például Puskin, Gogol, Csehov művei szerint kialakul egy bizonyos szabályrendszer, viselkedési logika, és létrejön egy információs rendszer, amely úgy tud válaszolni bizonyos kérdésekre, ahogy az ember tenné: Puskin, Gogol ill. Csehov. Elméletileg egy ilyen feladat érdekes, de a gyakorlatban rendkívül nehéz megvalósítani.

Azonban egy ilyen feladat ötlete egy nagyon praktikus ötletet sugall: "hogyan hozzunk létre egy intelligens információkeresést." Az Internet rengeteg fejlesztő erőforrás, hatalmas adatbázis, és ez egy nagyszerű lehetőség az adatbányászat és az ember kombinációjának alkalmazásáralogika a közös fejlesztés formátumában.

Gép és ember együtt
Gép és ember együtt

A gép és az ember párosítása kiváló feladat és kétségtelen siker az "információs régészet" területén, a kiváló minőségű adatok és eredmények ásatása, amely megkérdőjelez valamit, de kétségtelenül lehetővé teszi. hogy új ismereteket szerezzenek, és keresettek lesznek a társadalomban.

Ajánlott: