Kada su podaci jednodimenzionalni, recimo niz tacaka X na pravoj, koristeci histogram tehniku moze se lako izracunati gustina (density).
Histogram se izdijeli na odredjen broj kucica (bins) koji recimo imaju fiksnu sirinu (moze i varijabilna) i racunamo koliko tacka iz niza X upada u svaki bin. Ovo se zove frekvencija. Ako podijelimo frekvenciju sa ukupnim brojem tacaka iz niza X, dobit cemo relativnu frekvenciju koju mozemo nazvati i vjerovatnoca za bin. Dalje, ako podijelimo relativnu frekvenciju sa sirinom bina dobit cemo gustinu (koju cemo kod klasifikacije zvati conditional probability).
Histogram se moze koristiti i kao klasifikator. Recimo da imamo dvije normalne distribucije (nazovimo ih klasa w1 i klasa w2). U slucaju da radimo sa jednodimenzionalnim podacima napravimo histograme za w1 i w2 kao sto je prethodno opisano. Ali sta uraditi kada imamo dvo dimenzionalne podatke?
Recimo da su podaci koje smo dobili dvodimenzionalni, koordinate tacaka (x,y). Kao i kod jednodimenzionalnog slucaja treba napraviti zasebne histograme za svaku klasu. Ali posto su podaci multidimenzionalni i za svaku dimenziju (ovdje dvije) se trebaju napraviti zasebni histogrami. (ne zelim koristiti parzen window ili k-nn, vec samo prosti histogram).
Probao sam praviti histogram za x i y dimenzije odvojeno i kada se pogleda histogram x ili histogram y i vizuelno usporedi sa raspodjelom podataka izgleda da histogrami odgovaraju raspodjeli. Da li mozda treba density po x i densitiy po y sabrati (unutar klase) a onda to uvrstiti kao class conditional u Bayes formulu?
Za klasifikaciju moramo uzeti u obzir histograme od obje klase.
Uglavnom pitanje bi bilo kako uraditi klasifikaciju koristeci histogram kada imamo 2-d podatke?
za 1d slucaj je opisano ovdje http://en.wikipedia.org/wiki/Histogram.