Luokittelun käyttö tiedonhankinnassa

Luokittelu on tiedonlouhintatekniikka, joka jakaa luokkia tietojoukkoon tarkempien ennusteiden ja analyysien antamiseksi. Kutsutaan myös toisinaan nimellä a Päätöspuu , luokittelu on yksi useista menetelmistä, joiden tarkoituksena on tehdä erittäin suurien tietokokoelmien tehokas analysointi.

Miksi luokitus?

Erittäin suuret tietokannat ovat tulossa normiksi tämän päivän maailmassa Suuri data . Kuvittele tietokanta, jossa on useita teratavuja tietoja - teratavu on yksi biljoona tavua.

Facebook yksin kerää 600 teratavua uutta dataa jokaisena päivänä (vuodesta 2014, viimeksi kun se ilmoitti nämä tiedot). Suurten tietojen ensisijainen haaste on sen ymmärtäminen.

Ja yksiselitteinen äänenvoimakkuus ei ole ainoa ongelma: suuret tiedot pyrkivät myös olemaan monimuotoisia, rakenteettomia ja nopeasti muuttuvia. Harkitse audio- ja videotiedostoja, sosiaalisen median viestiä, 3D-tietoja tai paikkatietoaineistoja. Tällaisia tietoja ei ole helppo luokitella tai organisoida.

Haasteeseen vastaamiseksi on kehitetty joukko automaattisia menetelmiä hyödyllisten tietojen poistamiseksi luokitus .

Miten luokittelu toimii

Jos vaarana on liikkua liian pitkälle tech-puhuu, keskustellaan siitä, miten luokittelu toimii. Tavoitteena on luoda joukko luokittelusääntöjä, jotka vastaavat kysymykseen, tekevät päätöksensä tai ennakoivat käyttäytymistä. Aloittamiseksi kehitetään harjoitustietojoukko, joka sisältää tiettyjä ominaisuuksia ja todennäköisiä tuloksia.

Luokittelualgoritmin tehtävänä on selvittää, miten tämä attribuuttijoukko saavuttaa päätelmänsä.

skenaario: Ehkä luottokorttiyhtiö yrittää määrittää, mitkä mahdollisuudet saavat luottokorttitiedot.

Tämä saattaa olla sen joukko koulutustietoja:

**Koulutustiedot**

Nimi	Ikä	sukupuoli	Vuositulot	Luottokorttimaksu
John Doe	25	M	$39,500	Ei
Jane Doe	56	F	$125,000	Joo

"Ennustaja" -sarakkeet Ikä , sukupuoli , ja Vuositulot määritä "prediktoriattribuutin" arvo Luottokorttimaksu . Koulutusjoukossa ennustemääritelmä tunnetaan. Luokittelualgoritmi yrittää sitten määrittää, kuinka ennustajan ominaisuuden arvo saavutettiin: mitä suhteita ennustajien ja päätöksen välillä on? Se kehittää joukon ennustussääntöjä, yleensä IF / THEN-lausetta, esimerkiksi:

IF (Ikä> 18 tai Ikä <75) JA vuotuiset tulot> 40 000 THEN luottokorttimaksu = kyllä

On selvää, että tämä on yksinkertainen esimerkki, ja algoritmille tarvitaan paljon suurempi näytteenotto kuin näissä kahdessa tallessa. Lisäksi ennustussäännöt ovat todennäköisesti paljon monimutkaisempia, mukaan lukien alisäännöt attribuuttien yksityiskohtien saamiseksi.

Seuraavaksi algoritmille annetaan "ennustejoukko" analysoitaville tiedoille, mutta tällä asetuksella ei ole ennustemääritettä (tai päätöstä):

**Ennustajan tiedot**

Nimi	Ikä	sukupuoli	Vuositulot	Luottokorttimaksu
Jack Frost	42	M	$88,000
Mary Murray	16	F	$0

Tämä ennustetieto auttaa arvioimaan ennustussääntöjen oikeellisuuden ja sääntöjä sitten nipistetään, kunnes kehittäjä pitää ennusteita tehokkaana ja hyödyllisenä.

Päivittäiset esimerkit luokittelusta

Luokittelu ja muut datanlouhintatekniikat, ovat kuluttajien jokapäiväisen kokemuksen takana.

Sääennusteet saattavat käyttää luokitusta ilmoittamaan, onko päivä sateinen, aurinkoinen tai pilvinen. Lääkäri voi analysoida terveydentilaa ennustaakseen lääketieteellisiä tuloksia. Luokittelumenetelmä, Naive Bayesian, käyttää ehdollista todennäköisyyttä luokitella roskapostiviestejä. Petosten havaitsemisesta tuote-tarjouksiin luokittelu on kulissien takana joka päivä analysoimalla tietoja ja tuottamaan ennusteita.