Fundación BBVA

Multivariate Statistics

Principal Component Analysis Biplots

Summary

1. Principal component analysis of a cases-by-variables matrix reduces to a singular-value decomposition of the centred (and optionally variable-standardized) data matrix.

2. Two types of biplot are possible, depending on the assignment of the singular values to the left or right singular values of the decomposition. In both the projections of one set of points on the other approximate the centred (and optionally standardized) data.

3. The form biplot, where singular values are assigned to the left vectors corresponding to the cases, displays approximate Euclidean distances between the cases.

4. The covariance biplot, where singular values are assigned to the right vectors corresponding to the variables, displays the standard deviations and correlations of the variables. If the variables had been pre-standardized to have standard deviation equal to 1, a unit circle is often drawn on the covariance biplot because the variable points all have lengths less than or equal to 1-the closer a variable point is to the unit circle, the better it is being displayed.

5. The contribution biplot is a variant of the form or covariance biplots where the points in standard coordinates are rescaled by the square roots of the weights of the respective points. These rescaled coordinates are exactly the square roots of the part contributions of the respective points to the principal axes, so this biplot gives an immediate idea of which variables are most responsible for the given display.

Biplots de análisis de componentes principales

Resumen Capítulo 6

1. El análisis de componentes principales de las matrices de casos por variables no es más que una descomposición en valores singulares de los datos de la matriz centrados (y opcionalmente también con las variables estandarizadas).

2. Dependiendo de la asignación de los valores singulares a las matrices izquierda o derecha de la descomposición, son posibles dos tipos de biplot. En ambos efectuamos las proyecciones de un conjunto de puntos sobre el otro, con los datos centrados (y opcionalmente estandarizados).

3. En los form biplot se asignan los valores singulares a los vectores de la izquierda correspondientes a los casos. Muestran distancias euclídeas aproximadas entre casos.

4. En los biplot de covarianzas se asignan los valores singulares a los vectores de la derecha, correspondientes a las variables. Muestran las desviaciones estándar y las correlaciones entre variables. Si preestandarizamos las variables de manera que su desviación estándar sea 1, es frecuente representar un círculo de radio 1 en el biplot de covarianzas. Como todos los puntos tienen longitudes menores o iguales a 1, cuanto más cerca queden los puntos del circulo de radio unidad mejor es su representación.

5. Los biplots de contribuciones son una variante del biplot de covarianzas en donde reescalamos los puntos en coordenadas estándar mediante las raíces cuadradas de sus pesos respectivos. Estas coordenadas reescaladas son exactamente las raíces cuadradas de las contribuciones parciales a los ejes principales. Por tanto, tales biplots visualizan de forma inmediata las variables que más contribuyen a la representación gráfica.

[back]