Data Mining K-Meansin klusteroinnin avulla

k- tarkoittaa klusterointialgoritmia, joka on tiedonhankinta ja koneen oppimistyökalu, jota käytetään klusteroimaan havaintoja ryhmiin liittyvistä havainnoista ilman minkäänlaista tietämystä näistä suhteista. Näytteenoton avulla algoritmi yrittää osoittaa, mihin luokkaan tai klusteriin kuuluvat tiedot kuuluvat, ja klusterien määrä määritellään arvolla k.

k- tarkoittaa algoritmia, joka on yksi yksinkertaisimmista klusterointitekniikoista ja sitä käytetään yleisesti lääketieteellisessä kuvantamisessa, biometriassa ja siihen liittyvissä kentissä. Etuna k- klusterointi tarkoittaa sitä, että se kertoo tietojasi (käyttämättömällä lomakkeella) sen sijaan, että sinun tarvitsee ohjeistaa algoritmia datasta alussa (käyttämällä algoritmin valvottua muotoa).

Sitä kutsutaan joskus Lloyd'sin algoritmiksi, erityisesti tietotekniikan piireissä, koska Stuart Lloyd ehdotti ensin standardin algoritmia vuonna 1957. James McQueen kehitti vuonna 1967 termi "k-mean".

Miten K-Means-algoritmitoiminnot

k- tarkoittaa algoritmia, joka on evoluutioalgoritmi, joka saa nimensä sen toimintatavasta. Algoritmi ryhmittelee havainnot K ryhmät, missä K on syötetty parametriksi. Sitten se antaa jokaisen havainnon klustereiksi, jotka perustuvat havainnon läheisyyteen klusterin keskiarvoon. Klusterin keskiarvo lasketaan uudelleen ja prosessi alkaa uudelleen. Näin algoritmi toimii:

Algoritmi valitsee mielivaltaisesti K osoittaa alkuklusterikeskuksiksi (keinot).
Jokainen datasarjan kohta on osoitettu suljettuun klusteriin, joka perustuu pisteiden ja klusterikeskusten Euklidien väliseen etäisyyteen.
Jokainen klusterikeskus lasketaan uudelleen klusterin pisteiden keskiarvoksi.
Toimia 2 ja 3 toistetaan, kunnes klusterit lähestyvät. Lähentyminen voidaan määritellä toisistaan riippuen toteutuksesta riippuen, mutta se tarkoittaa yleensä sitä, että joko huomautukset eivät muuta klustereita, kun vaiheet 2 ja 3 toistetaan tai että muutokset eivät ole merkittäviä eroja klustereiden määritelmässä.

Klusterien lukumäärän valinta

Yksi tärkeimmistä haitoista k- klusterointi tarkoittaa sitä, että klusterien määrä on määriteltävä algoritmina. Kuten suunniteltu, algoritmi ei pysty määrittämään sopivaa klusterimäärää ja riippuu siitä, että käyttäjä tunnistaa tämän etukäteen.

Jos esimerkiksi sinulla olisi joukko ihmisiä, jotka on ryhmitelty binäärisen sukupuolen identiteetin perusteella mies- tai naispuoliseksi, kutsutaan k- tarkoittaa algoritmia, joka käyttää tuloa k = 3 pakottaisi ihmiset kolmeksi klusteriksi, kun vain kaksi, tai k = 2, antaisi luonnollisemman sovituksen.

Samoin, jos joukko yksilöitä oli helposti ryhmitelty perustuen kotivaltiolle ja soitit k- tarkoittaa algoritmia tulon kanssa k = 20, tulokset saattavat olla liian yleisiä, jotta ne olisivat tehokkaita.

Tästä syystä on usein hyvä kokeilla erilaisia arvoja K tunnistaa tietojasi parhaiten sopiva arvo. Voit myös haluta tutkia muiden tiedonlouhintalgoritmien käyttöä konekielisesti oppimasi tiedon etsinnässä.