Fundación BBVA

Multivariate Statistics

Biplots-the basic idea

Summary

1. Scatterplots typically plot observations on two variables with respect to rectangular coordinate axes. Three-dimensional scatterplots showing observations on three variables are possible using special software and a two-dimensional view of these three variables can be optimized to show a maximum amount of the variance (i.e., dispersion) of the plotted points. The biplot generalizes this idea to many variables being observed and viewed simultaneously in an optimal fashion.

2. Biplots are defined as the decomposition of a target matrix into the product of two matrices, called left and right matrices: S = XY T . Elements in the target matrix S are equal to scalar products between corresponding pairs of vectors in the rows of X and Y respectively.

3. The geometry of scalar products provides the following rule for interpreting the biplot graphically. The vectors in the left and right matrices provide two sets of points, one of which can be considered as a set of biplot vectors defining biplot axes, and the other as a set of biplot points. Points can be projected perpendicularly onto biplot axes to recover the values in the target matrix, since the lengths of these projections multi-plied by the lengths of the corresponding biplot vectors are equal to the scalar products, and thus in turn equal to the target values.

4. Calibration of the biplot axes is possible, which means that values of the target matrix can be read off directly from the projections, just as in scatterplots where points are projected onto the axes to read their values.

5. The "bi" in biplot refers to the fact that two sets of points (i.e., the rows and columns of the target matrix) are visualized by scalar products, not the fact that the display is usually two-dimensional. The biplot and its geometry hold for spaces of any dimensionality, but we shall need dimension-reducing techniques in practice when data matrices have high inherent dimensionality and a representation is required with respect to a low number of dimensions, usually two or three.

Biplots: ideas básicas

Resumen Capítulo 1

1. Los diagramas de dispersión representan gráficamente observaciones con respecto a dos variables a lo largo de unos ejes de coordenadas rectangulares. Dado un diagrama de dispersion tridimesional, con tres variables, utilizando un software apropiado podemos visualizar la representación bidimensional que recoja la máxima varianza (p.e., dispersión) de los puntos representados. Cuando tenemos muchas variables, los biplots generalizan esta idea, es decir permiten optimizar la visualización simultánea de muchas variables.

2. Definimos los biplots como la descomposición de una matriz objetivo en el producto de dos matrices, las matriz izquierda y la matriz derecha: S = XY T . Los elementos de la matriz objetivo S son productos escalares de los correspondientes pares de vectores en las filas de X e Y, respectivamente.

3. Podemos interpretar gráficamente los biplot a partir de la geometría de los productos escalares. Los vectores de las matrices izquierda y derecha proporcionan dos conjuntos de puntos. Podemos considerar un conjunto como los vectores del biplot, que definen sus ejes, y el otro conjunto como los puntos del biplot. Para recuperar los valores de la matriz objetivo proyectamos los puntos perpendicularmente sobre los ejes. La longitud de estas proyecciones multiplicadas por las longitudes de los correspondientes vectores del biplot son los productos escalares, y en consecuencia igual a los valores objetivo.

4. Podemos calibrar los ejes del biplot de manera que las proyecciones de los puntos sobre los ejes nos den directamente los valores de la matriz objetivo, como se procede en los diagramas de dispersión, en los que las proyecciones de los puntos sobre los ejes son sus valores.

5. En los biplots, «bi» indica que visualizamos dos conjuntos de puntos (p.e., las filas y las columnas de la matriz objetivo) como productos escalares. No indica que la representación sea bidimensional como ocurre habitualmente, ya que podemos utilizar los biplots y su geometría en espacios de cualquier dimensión. Sin embargo, en la práctica, cuando queramos representar datos de elevada dimensionalidad inherente en pocas dimensiones, usualmente dos o tres, necesitaremos de técnicas de reducción de la dimensión.

[back]