Aprendizaje no supervisado:K-mean

K-means es un algoritmo propuesto por MacQueen en 1967 que plantea el agrupamiento de $N$ elementos de datos en torno a $K$ centroids aleatorios en forma de subgrupos $S_{j}$ conteniendo $N_{j}$ puntos de datos, a medida de minimizar el criterio de suma de cuadrados como vemos en la ecuación ([*])


\begin{displaymath}
J=\sum_{j=1}^{K}\sum_{n\epsilon S_{j}}\left\vert x_{n}-\mu_{j}\right\vert^{2}
\end{displaymath} (2)

donde $n_{n}$es un vector representando el $n$-esimo punto de dato y, $\mu_{j}$es el centroid geométrico de los puntos de datos $S_{j}$.9 (Véase el algoritmo [*]10)
\begin{algorithm}
% latex2html id marker 199\caption{K-mean Clustering
}
\par
...
...étrica de minimización puede ser calculada.}
\end{enumerate}\par
\end{algorithm}

El algoritmo puede ser afectado significativamente por el inicio aleatorio de los centros, por lo tanto puede ser llevado acabo varias veces para minimizar el efecto. El problema se encuentra en que el algoritmo no logra el objetivo del mínimo global de $J$ sobre las asignaciones.

julio 2010-03-26