2  La necesidad de aproximaciones multivariadas

La estadística multivariada es una rama de la estadística que se encarga del análisis de datos que involucran variables multidimensionales. En ecología y ciencias ambientales, típicamente interesa estudiar sistemas cuya descripción pasa por la descripción de variables que difícilmente pueden ser abordadas por métodos univariados. Por ejemplo, si interesa detectar las diferencias en la diversidad de especies en un gradiente ambiental, siendo la diversidad de especies la variable de interés, resultará insuficiente desde la perspectiva ecológica y evolutiva usar el número de especies o algún índice de diversidad (como el índice de diversidad de Shannon, o el índice de diversidad de Simpson) como el indicador que represente efectivamente a la variable diversidad de especies. Similarmente, en un contexto de evaluación de la variación en la contaminación por metales pesados en un mosaico espacial alrededor y lejos de zonas mineras, resultaría inapropiado o insuficiente utilizar la sumatoria de contaminantes, algún índice que los aglomere o análisis individuales de cada contaminante, ya que el interés es medir la variación de los contaminantes en su conjunto. Los métodos multivariados permiten detectar relaciones no evidentes entre las variables, algo conocido como estructura de covariación. Por lo tanto, la aplicación de métodos multivariados en las ciencias naturales suele ser de gran utilidad para resolver problemas complejos, entender mejor la naturaleza de los fenómenos estudiados y tomar decisiones informadas basadas en el análisis integral de los datos.

Un buen ejemplo de la potencia y versatilidad de los métodos multivariados lo podemos ver con el siguiente caso de estudio: Detection of initial effects of pollution on marine benthos: an example from the Ekofisk and Eldfisk oilfields, North Sea publicado en la revista Marine Ecology Progress Series (Gray et al. 1990). Este estudio consiste en la descripción del macrobentos y varios contaminantes del sedimento en 39 sitios dispuestos en un diseño radial (figura 2.1 (a)) alrededor de una plataforma de perforación petrolera (figura 2.1 (b)) en el mar del Norte (figura 2.1 (c)), donde se espera que los contaminantes asociados a la actividad petrolera afecten la estructura del ecosistema. La disposición de los sitios es circular, alejándose cada ciertos kilómetros del centro de perforación.

(a) Diseño de muestreo radial
(b) Plataforma Ekofisk
(c) Ubicación espacial de las plataformas petroleras
Fig. 2.1: Plataforma de exploración petrolera Ekofisk, Mar del Norte
Código
# Importar datos en figuras1.2
datos <- read_excel("figuras/figuras1.2/macrofauna.xlsx")

# Comandos del paquete {vegan}, {dplyr} y {ggplot2} para graficar promedios y desviación estándar.

macrofauna <- datos[,3:175]

# Contar especies por sitio con funciones del paquete {vegan}
S <- specnumber(x = macrofauna)
N <- apply(macrofauna, MARGIN = 1, sum)
simp <- diversity(macrofauna, index = "simpson")
H <- diversity(macrofauna, index = "shannon")

uni <- data.frame(
  "Densidad de especies" = S,
  "Abundancia de organismos" = N,
  "Diversidad de Simpson" = simp,
  "Diversidad de Shannon" = H,
  "Distancia" = factor(datos$distancia, levels = c("<250m","0.25-1km","1-3km",">3km"))
  )

#gráfico exploratorio de densidad de especies
uni|>
  group_by(Distancia)|>
  summarise(promedio = mean(Densidad.de.especies),
            desv = sd(Densidad.de.especies))|>
  ggplot(aes(x = Distancia, y = promedio))+
  geom_errorbar(aes(ymin = promedio-desv, ymax = promedio+desv),
                width = 0.25)+
  geom_point(aes(colour = Distancia),size = 3)+
  ylab("Promedio de especies por muestra")+
  theme_bw()

#gráfico exploratorio de abundancia de organismos
uni|>
  group_by(Distancia)|>
  summarise(promedio = mean(Abundancia.de.organismos),
            desv = sd(Abundancia.de.organismos))|>
  ggplot(aes(x = Distancia, y = promedio))+
  geom_errorbar(aes(ymin = promedio-desv, ymax = promedio+desv),
                width = 0.25)+
  geom_point(aes(colour = Distancia),size = 3)+
  ylab("Promedio de individuos por muestra")+
  theme_bw()

#gráfico exploratorio del índice de diversidad de Simpson
uni|>
  group_by(Distancia)|>
  summarise(promedio = mean(Diversidad.de.Simpson),
            desv = sd(Diversidad.de.Simpson))|>
  ggplot(aes(x = Distancia, y = promedio))+
  geom_errorbar(aes(ymin = promedio-desv, ymax = promedio+desv),
                width = 0.25)+
  geom_point(aes(colour = Distancia),size = 3)+
  ylab("Promedio índice de diversidad de Simpson")+
  theme_bw()

#gráfico exploratorio del índice de diversidad de Simpson
uni|>
  group_by(Distancia)|>
  summarise(promedio = mean(Diversidad.de.Simpson),
            desv = sd(Diversidad.de.Simpson))|>
  ggplot(aes(x = Distancia, y = promedio))+
  geom_errorbar(aes(ymin = promedio-desv, ymax = promedio+desv),
                width = 0.25)+
  geom_point(aes(colour = Distancia),size = 3)+
  ylab("Promedio índice de diversidad de shannon")+
  theme_bw()

El juego de datos de Ekofisk consiste en una matriz de 39 filas (una por cada sitio de muestreo) y 175 columnas, dos de ellas representan información del diseño de muestreo y 173 corresponden a especies. Iniciemos este análisis con cuatro indicadores univariados que permitan evaluar la hipótesis sobre respuesta de la macrofauna al gradiente de contaminación que genera la plataforma petrolera. Para ello usaremos: (1) la densidad de especies (número de especies observadas en cada muestra), (2) la abundancia de organismos (número de individuos contados en cada muestra independientemente de la identidad taxonómica), (3) el índice de diversidad de Simpson y (4) el índice de diversidad de Shannon. En la figura 2.2 se aprecian varios patrones. El primero, a, es sobre el promedio de la densidad de especies por muestra, en la figura se aprecia un aumento de la riqueza desde las inmediaciones de la plataforma hasta 1-3km de distancia, y disminuye nuevamente a más de 3 km. Este patrón no permite asumir que la riqueza aumenta a medida que se aleja del centro de contaminación; por el contrario, refleja muy bien la tendencia que predice la Hipótesis de Disturbio Intermedio. En el segundo, b, la abundancia de organismos es inversamente proporcional a la distancia: básicamente disminuye a medida que los sitios de alejan de la plataforma, y esta señal es confusa y difícil de explicar a gestores ambientales sin un contexto biológico. Por otra parte, los índices de diversidad, gráficos c y d, muestran patrones distintos a los anteriores; en ambos la diversidad más baja se registra solo a 250m de la plataforma, pero a partir de esta distancia, los valores de diversidad son tan altos como los sitios poco a nada perturbados. Esta señal es en extremo inconveniente, pues se estaría indicando que el impacto ambiental sobre la macrofauna es localizado, de unos pocos metros de distancia a la plataforma. Como se puede ver, los indicadores empleados para evaluar la hipótesis son confusos, contraintuitivos y, en el mejor de los casos, conservadores respecto a identificar la magnitud del impacto en el bentos. Contrariamente, analizar este mismo juego de datos con aproximaciones multivariadas permitirá apreciar mucho mejor el gradiente de cambio del bentos a medida que aumenta la distancia a la plataforma. Esto lo demostraremos en los próximos capítulos.

(a) Densidad de especies
(b) Abundancia de organismos
(c) Diversidad de Simpson
(d) Diversidad de Shannon
Fig. 2.2: Estimaciones univariadas a la macrofauna béntica alrededor de la plataforma Ekofisk
Tip¿qué son los índices de diversidad?

Los índices de diversidad son medidas que se han utilizado históricamente para comparar la estructura de las comunidades ecológicas, así como para evaluar el impacto de las actividades humanas sobre la biodiversidad. Matemáticamente, estos índices se basan en dos componentes: la riqueza de especies, que es el número total de especies presentes, y la equidad o equitatividad, que es la distribución de la abundancia relativa de las especies.

Existen diferentes tipos de índices de diversidad, que varían en la forma en que ponderan la importancia de cada especie según su abundancia. Algunos ejemplos son el índice de Shannon, el índice de Simpson y el índice de Margalef. No obstante, estos índices son fuertemente dependientes del esfuerzo de muestreo, por ello sus valores no son comparables entre estudios. En la mayoría de las ocasiones, las conclusiones obtenidas a partir de su uso son espurias y de difícil interpretación. Una completa revisión del origien, ventajas y desventajas del uso de los índices de diversidad puede ser leído en el capítulo 6.5 del libro Numerical Ecology (Legendre y Legendre 2012)

Noten que, en este ejercicio de análisis, toda la complejidad de una comunidad ecológica (distribución espacial y abundancia de 173 especies) quedó reducida a unos pocos descriptores o indicadores de diversidad. Como aproximación alternativa, en los siguientes capítulos emplearemos métodos multivariados adecuados para datos ecológicos y ambientales que permitirán evaluar con mayor certidumbre lo que ocurre en la naturaleza, sin sacrificar o colapsar información.