viernes, 5 de marzo de 2010

Diferentes tipos de gráficos.

Gráfico de barras simples. Se usa fundamentalmente para representar distribuciones de frecuencias de una variable cualitativa o cuantitativa discreta y, ocasionalmente, en la representación de series cronológicas o históricas. Uno de los ejes sirve para inscribir las frecuencias, ya sean absolutas o relativas (%), y el otro para la escala de clasificación utilizada. Un ejemplo de este tipo de gráfico es el que se presenta a continuación:

Gráfico#1. Defunciones por raza. Cuba, 2002.

Cada clase se representa con una barra o rectángulo cuya altura (si el eje de frecuencias es el vertical) resulta proporcional a la frecuencia que representa. Todas las barras deben tener el mismo grosor y el espacio entre barras debe ser el mismo, teniendo un ancho de 0,5 a 1 vez el de las barras.

El orden de las barras en el gráfico debe ser el mismo que en la tabla que le sirve de fuente. Por ello, si no existe un criterio 'a priori' de orden entre las clases establecidas, pueden ordenarse las mismas (y, como es lógico, las barras en el gráfico) en orden ascendente o descendente de las frecuencias, para facilitar la interpretación de esos resultados.



b) Gráfico circular, de sectores o pastel.

El gráfico siguiente es un ejemplo típico de gráfico circular (confeccionado con los mismos valores del gráfico anterior):

Gráfico #2. Defunciones por raza. Cuba, 2002.

Se usa, fundamentalmente, para representar distribuciones de frecuencias relativas (%) de una variable cualitativa o cuantitativa discreta. En este gráfico se hace corresponder la medida del ángulo de cada sector con la frecuencia correspondiente a la clase en cuestión. Si los 360º del círculo representan el 100 % de los datos clasificados, a cada 1% le corresponderán 3,6º. Luego, para obtener el tamaño del ángulo para un sector dado bastaría con multiplicar el por ciento correspondiente por 3,6º (por simple regla de tres).

Mediante un sector circular se representan las medidas angulares correspondientes a las diferentes categorías, respetando el orden establecido en la tabla, partiendo de un punto dado de la circunferencia. Ese punto dado generalmente es el punto más alto de la circunferencia (12 en el reloj). Si lo que se representa en cada sector no puede colocarse dentro del mismo, se elabora una leyenda o se coloca fuera, adyacente al mismo. Se acostumbra a diferenciar los sectores con tramas o colores diferentes, lo que hace que resulte un gráfico más vistoso que el de barras simples.



c) Gráfico de barras múltiples.

Se usa para representar las frecuencias observadas en clasificaciones dobles, es decir, cuando son dos los criterios de clasificación, para variables cualitativas o cuantitativas discretas. Su forma de construcción es similar a la del gráfico de barras simples, sólo que en este caso se representan dos variables. El hecho de ser doble, triple, cuádruple, etc., parte del número de clases que tenga la variable, que no es el criterio principal de clasificación. Las barras que integran una barra múltiple se colocan juntas o ligeramente solapadas.

Veamos un ejemplo de este tipo de gráfico:

Gráfico#3. Población según zonas. Cuba, 2002.

Este es un gráfico de barras triples. En la leyenda aparece el criterio de clasificación que complementa al que aparece en el eje de categorías. Note la separación entre los “tríos” de barras.



d) Gráfico de barras compuestas.

Su objetivo es la representación de las frecuencias relativas (%) observadas en clasificaciones dobles, es decir, cuando son dos los criterios de clasificación, para variables cualitativas o cuantitativas discretas.

Su forma de construcción es la siguiente: cada barra representa el 100 % de los individuos en cada clase del criterio principal de clasificación y se divide, proporcionalmente, en los por cientos correspondientes a las clases del otro criterio de clasificación. Como es lógico, las diferentes partes en que se dividen las barras compuestas se diferencian con tramas o colores diferentes.

Gráfico#4. Población según zonas. Cuba, 2002.



e) Histograma.

Este gráfico se usa para representar una distribución de frecuencias de una variable cuantitativa continua.

Habitualmente se representa la frecuencia observada en el eje Y, y en el eje X la variable. La escala del eje correspondiente a la variable se rotula con los límites inferiores de notación de las clases consideradas y se agrega al final el que le correspondería a una clase subsiguiente inexistente. En este caso, las frecuencias deben resultar proporcionales no a la altura de las barras, sino al área de las mismas, lo que significa que la obtención de las alturas de las barras resulta un poco más compleja que en los gráficos anteriores. Además, las barras van contiguas y no separadas, por la naturaleza continua de la variable de clasificación.

Para lograr la proporcionalidad entre la frecuencia y el área de la barra que esta representa el procedimiento es el siguiente: sabemos que el área de un rectángulo es el producto de la base por la altura y que la base de una barra en el gráfico es, precisamente, la amplitud del intervalo de clase, luego la formulación de esa 'proporcionalidad' sería:

frecuencia observada = amplitud del intervalo* altura de la barra

Conocemos la frecuencia observada y la amplitud de cada uno de los intervalos, por tanto, para calcular las alturas de las barras sólo se tendría que despejar en la fórmula correspondiente, lo que quedaría:

altura de la barra = frecuencia observada / amplitud del intervalo

Debido a la forma de obtención de esas alturas, el eje de las frecuencias debe rotularse como número de individuos por unidad de medida de la variable en cuestión, por ejemplo: 'defunciones por año de edad'; 'número de individuos por kg de peso; etc.

El procedimiento que hemos explicado es el general, pero sucede, en el caso particular de que las amplitudes de todos los intervalos de clase sean iguales, que no es estrictamente necesario realizar estos cálculos: sería dividir todas las frecuencias por una constante y eso no alteraría el gráfico, pues se mantendría la misma relación de proporcionalidad entre las frecuencias.

Veámoslo a través de un ejemplo, cuando las amplitudes de los intervalos son iguales:

Gráfico#5. Distribución según grupos de edad. Cuba, 2002.

En este caso se usó la frecuencia absoluta como altura de la barra. Todas las barras tienen el mismo ancho y van unidas, una a continuación de la otra, porque están representando una variable continua (edad).

Es sencillo darse cuenta de que es imposible presentar otra distribución en ese gráfico, pues unas barras podrían ocultar a otras. Es decir, este tipo de gráfico sólo es útil para presentar una distribución.



f) Polígono de frecuencias.

Se utiliza, al igual que el histograma, para representar distribuciones de frecuencias de variables cuantitativas continuas, pero como no se utilizan barras en su confección sino segmentos de recta, de ahí el nombre de polígono. Habitualmente se usa cuando se quiere mostrar en el mismo gráfico más de una distribución o una clasificación cruzada de una variable cuantitativa continua con una cualitativa o cuantitativa discreta, ya que por la forma de construcción del histograma sólo se puede representar una distribución.

Para su confección, una vez construidas y rotuladas las escalas, de manera similar a como se realiza para un histograma, los valores de alturas obtenidos se plotean sobre el punto medio o marca de clase de los intervalos correspondientes y luego se procede a unir esos puntos con segmentos de recta.

Veamos un ejemplo de polígono de frecuencias:

Gráfico#6. Distribución según edad. Cuba, 2002.




g) Gráfico de frecuencias acumuladas u ojiva.

Su objetivo, al igual que el histograma y el polígono de frecuencias es representar distribuciones de frecuencias de variables cuantitativas continuas, pero sólo para frecuencias acumuladas.

No se utilizan barras en su confección, sino segmentos de recta, por ello no sólo es útil para representar una distribución de frecuencias sino también cuando se quiere mostrar más de una distribución o una clasificación cruzada de una variable cuantitativa continua con una cualitativa o cuantitativa discreta. Este es un ejemplo de una ojiva:

Gráfico #7. Distribución según edad. Frecuencias acumuladas. Cuba, 2002.

La diferencia con el polígono de frecuencia es que la frecuencia acumulada no se plotea sobre el punto medio de la clase, sino al final de la misma, ya que representa el número de individuos acumulados hasta esa clase. Como el valor de la frecuencia acumulada es mayor a medida que avanzamos en la distribución, la poligonal que se obtiene siempre va a ser creciente y esa forma particular de la misma es la que ha hecho que se le dé también el nombre de ojiva.



h) Gráfico aritmético simple.

Este es uno de los más sencillos de confeccionar. Su uso estadístico fundamental es en la representación de series cronológicas, y en casos particulares, como el del Crecimiento y Desarrollo Humanos, para representar los valores promedio o posicionales (medias, medianas y percentiles, que se estudiarán más adelante) de muchas dimensiones: peso para la edad, peso para la talla y talla para la edad, entre otras.

Uno de los ejes (habitualmente el horizontal) se usa para la unidad de tiempo estudiada: años, días, etc.. En el otro eje se representa la frecuencia o el indicador calculado a partir de esos datos. En este tipo de gráfico es particularmente importante la relación de proporcionalidad entre los ejes para evitar malas interpretaciones del fenómeno que se presenta.

El gráfico que sigue es un ejemplo de gráfico de este tipo:

Gráfico#8. Tasas de hepatitis B y C. Cuba, 1996-1999.

En el mismo gráfico se puede presentar más de una serie de datos si la escala usada se adecua para todas, cuando los valores de las mismas no son extremadamente diferentes.

principios comunes en la construcción de gráficos:

En su gran mayoría los gráficos se inscriben en un sistema de ejes coordenados, siendo el circular o de sectores una excepción.

· En uno de los ejes se representan las frecuencias observadas o los valores calculados a partir de los datos, mientras que en el otro se representa el criterio principal de clasificación (que aparece en el talón de la tabla correspondiente).
· La escala relativa al eje donde se representan frecuencias debe comenzar en cero. De ser necesario, se puede interrumpir 'adecuadamente' la escala. Decimos adecuadamente porque la forma de realizar esa ruptura depende del tipo de gráfico.
· La longitud de un eje debe ser, aproximadamente, entre una vez y una vez y media la del otro. Esta proporcionalidad es importante, pues garantiza la comparabilidad entre gráficos.
· Cada eje debe ser rotulado, es decir, indicar que representa, y en caso de que corresponda, la unidad de medida usada.
· Un gráfico no debe sobrecargarse de líneas o cifras, el solo da la idea general del fenómeno, pues los detalles están representados en la tabla correspondiente.
Componentes de un gráfico.


Un gráfico, al igual que una tabla, está compuesto de las partes siguientes:

a.- Identificación del gráfico.
b.- Título del gráfico.
c.- Cuerpo del gráfico o gráfico propiamente dicho (incluye la clave o leyenda de ser necesaria esta).
d.- Pie del gráfico.

Las características de estos componentes, salvo el gráfico propiamente dicho, son las mismas de dichos componentes en la tabla o cuadro estadístico, así que no insistiremos en ellas y pasaremos directamente a discutir la construcción de los diferentes tipos de gráficos.

Debemos hacer una aclaración antes de continuar. En la actualidad es muy infrecuente encontrar un gráfico hecho a mano. Generalmente se emplean sistemas graficadores de microcomputadoras. Esto no invalida la necesidad de conocer las reglas y convenciones establecidas con respecto a la confección de los mismos. Dada la enorme libertad que brindan algunos de esos sistemas, en más de una oportunidad hemos visto gráficos confeccionados por estos medios que presentan errores, entre otras cosas, por seleccionar un tipo de gráfico no adecuado para la información que se desea representar.

Concepto de correlación y covarianza

El concepto de relación en estadística coincide con lo que se entiende por relación en el lenguaje habitual: dos variables están relacionadas si varían conjuntamente. Si los sujetos tienen valores, altos o bajos, simultáneamente en dos variables, tenemos una relación positiva. Por ejemplo peso y altura en una muestra de niños de 5 a 12 años: los mayores en edad son también los más altos y pesan más, y los más jóvenes son los que pesan menos y son más bajos de estatura; decimos que peso y altura son dos variables que están relacionadas porque los más altos pesan más y los más bajos pesan menos.

Si los valores altos en una variable coinciden con valores bajos en otra variable, tenemos una relación negativa; por ejemplo edad y fuerza física en una muestra de adultos de 30 a 80 años de edad: los mayores en edad son los menores en fuerza física; hay una relación, que puede ser muy grande, pero negativa: según los sujetos aumentan en una variable (edad) disminuyen en la otra (fuerza física).

La correlación se define por lo tanto por la co-variación (co = con, juntamente: variar a la vez). Correlación y covarianza son términos conceptualmente equivalentes, expresan lo mismo. La covarianza es también una medida de relación, lo mismo que el coeficiente de correlación. Habitualmente se utiliza el coeficiente de correlación (r de Pearson), pero es útil entender simultáneamente qué es la covarianza, y entenderlo precisamente en este contexto, el de las medidas de relación.


Mediana

Mediana

La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.[7] Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:

      \underbrace{1,\ 1,\ 1,\ 1,\ 1,\ 1, }_{Mitad \; inferior} \;       \underbrace{\color{Red} 2, }_{Mediana \;} \;        \underbrace{2,\ 2,\ 2,\ 3,\ 3,\ 4}_{Mitad \; superior}

En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los anteriores:

      \underbrace{1,\ 1,\ 1,\ 1,\ 1, }_{Valores \; inferiores} \;       \underbrace{\color{Red} 1,\ 2, }_{Valores \; intermedios} \;       \underbrace{2,\ 2,\ 3,\ 3,\ 4}_{Valores \; superiores}

Se toma como mediana  1,5 = \frac{{\color{Red}1}+{\color{Red}2}}{2}

Existen métodos de cálculo más rápidos para datos más númerosos. Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.

Cálculo de la mediana para datos agrupados

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho).

Así, aplicando la formula asociada a la mediana para n impar, obtenemos X(39+1)/2 = X20 y basándonos en la fórmula que hace referencia a las frecuencias absolutas:

Ni-1< ni =" N19">

Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En nuestro ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar las unidades; en este caso como estamos hablando de calificaciones, serán puntos)

La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más.

Ejemplo (N par)

Las calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase viene dada por la siguiente tabla (debajo):

Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 6 9 4 4 2
xi fi Fi
1 2 2
2 2 4
3 4 8
4 5 13
5 6 19 = 19
6 9 28
7 4 32
8 4 36
9 2 38

Calculemos la Mediana:

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho).

Si volvemos a utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y basándonos en la fórmula que hace referencia a las frecuencias absolutas --> Ni-1< ni =" N18">

Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar.

En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el vigésimo hasta el vigésimo octavo)

con lo que Me = (5+6)/2 = 5,5 puntos.

La mitad de la clase ha obtenido un 5,5 o menos y la otra mitad un 5,5 o más


Propiedades e inconvenientes

Las principales propiedades de la mediana son:

  • Es menos sensible que la media a oscilaciones de los valores de la variable. Un error de transcripción en la serie del ejemplo anterior en, pongamos por caso, el último número, deja a la mediana inalterada.
  • Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no está acotado.
  • No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética cuando la población es bastante heterogénea. Suele darse esta circunstancia cuando se resume la información sobre los salarios de un país o una empresa. Hay unos pocos salarios muy altos que elevan la media aritmética haciendo que pierda representatividad respecto al grueso de la población. Sin embargo, alguien con el salario "mediano" sabría que hay tanta gente que gana más dinero que él, como que gana menos.

Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor varía en función de la amplitud de estos. Por otra parte, no se presta a cálculos algebraicos tan bien como la media aritmética.

Moda

La moda es el dato más repetido, el valor de la variable con mayor frecuencia absoluta. En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.

Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.

Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.

Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.

Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.

La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

Imagenmarcos2.JPG

Siendo ni la frecuencia absoluta del intervalo modal y ni − 1 y ni + 1 las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al

Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla (debajo):

Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 8 9 3 4 2

Propiedades

Sus principales propiedades son:

  • Cálculo sencillo.
  • Interpretación muy clara.
  • Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".

Inconvenientes

  • Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del número de intervalos y de su amplitud.
  • Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor.
  • No siempre se sitúa hacia el centro de la distribución.
  • Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la misma frecuencia (distribuciones bimodales o multimodales).

Las principales propiedades de la media aritmética son:

Propiedades

  • Su cálculo es muy sencillo y en él intervienen todos los datos.
  • Su valor es único para una serie de datos dada.
  • Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de una medida de dispersión.
  • Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:
 \frac{\sum_{i=1}^n (x_i-\overline{x})}{n} = \frac{\sum_{i=1}^n x_i}{n} - \frac{\sum_{i=1}^n \overline{x}}{n} = \overline{x} - \overline{x} = 0
  • Minimiza las desviaciones cuadráticas de los datos respecto de cualquier valor prefijado, esto es, el valor de  \frac{\sum_{i=1}^n (x_i-k)^2}{n} es mínimo cuando k = \overline{x}. Este resultado se conoce como Teorema de König. Esta propiedad permite interpretar uno de los parámetros de dispersión más importantes: la varianza.
xi' = axi + b entonces \overline{x'} = a \overline{x} + b, donde \overline{x'} es la media aritmética de los xi', para i = 1, ..., n y a y b números reales.

Inconvenientes de su uso

Este parámetro, aún teniendo múltiples propiedades que aconsejan su uso en situaciones muy diversas, tiene también algunos inconvenientes, como son:

  • Para datos agrupados en intervalos (variables continuas) su valor oscila en función de la cantidad y amplitud de los intervalos que se consideren.
La estatura media como resumen de una población homogénea (abajo) o heterogénea (arriba).
  • Es una medida a cuyo significado afecta sobremanera la dispersión, de modo que cuanto menos homogéneos sean los datos, menos información proporciona. Dicho de otro modo, poblaciones muy distintas en su composición pueden tener la misma media. Por ejemplo, un equipo de baloncesto con cinco jugadores de igual estatura, 1,95 m, evidentemente, tendría una estatura media de 1,95 m, valor que representa fielmente a esta población homogénea. Sin embargo, un equipo de jugadores de estaturas más heterogéneas, 2,20 m, 2,15 m, 1,95 m, 1,75 m y 1,70 m, por ejemplo, tendría también, como puede comprobarse, una estatura media de 1,95 m, valor que no representa a casi ninguno de sus componentes.
  • En el cálculo de la media no todos los valores contribuyen de la misma manera. Los valores altos tienen más peso que los valores cercanos a cero. Por ejemplo, en el cálculo del salario medio de un empresa, el salario de un alto directivo que gane 1.000.000 de tiene tanto peso como el de diez empleados "normales" que ganen 1.000 €. En otras palabras, se ve muy afectada por valores extremos.
  • No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.

Media aritmética ponderada

A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. En esos casos se puede utilizar una media ponderada.

Si x1,x2,...,xn son nuestros datos y w1,w2,...,wn son sus "pesos" respectivos, la media ponderada se define de la siguiente forma:

\frac{x_{1}w_{1}+x_{2}w_{2}+ ...+x_{n}w_{n}}{w_{1}+w_{2}+ ...+w_{n}}

Media muestral

Esencialmente, la media muestral es el mismo parámetro que el anterior, aunque el adjetivo "muestral" se aplica a aquellas situaciones en las que la media aritmética se calcula para un subconjunto de la población objeto de estudio.

La media muestral es un parámetro de extrema importancia en la inferencia estadística, siendo de gran utilidad para la estimación de la media poblacional, entre otros usos.

miércoles, 3 de marzo de 2010

ESTADISTICA DESCRIPTIVAS

Lo primero que se debe hacer con la información obtenida de una muestra, es reducirla a unas cuantas cifras que condensen o concentren la información más importante. Estas cifras se conocen como las estadísticas de la muestra. Obsérvese la diferencia entre Estadística, área del conocimiento que permite hacer inferencia sobre poblaciones, y la estadística de una muestra.

Ahora bien, los datos que se obtienen no pueden ser utilizados sin un previo análisis y sin reserva. Por lo general, cuando se toma una muestra se incurre en algún tipo de error estadístico, el cual tiene que ver con el tamaño de la muestra; intuitivamente es obvio que si se tiene un universo muy grande, a mayor información que se obtenga -mayor tamaño de la muestra- más cerca de la realidad van a estar las estadísticas de lamuestra, comparadas con las estadísticas del universo. Los técnicos reconocen entonces un margen de error, y se dice que un dato tiene un margen de error.

Tendencia central de la distribución

Con esta estadística se trata de examinar hacia qué valor se concentran los valores de la distribución. Las estadísticas más conocidas que miden la tendencia central son: La moda, la mediana y la media o valor esperado.

La moda: La moda se define como el valor más frecuente. Esto es, aquel valor que tiene mayor frecuencia. Debido a que los datos pueden agruparse de manera arbitraria —en el caso de la distribución continua— la moda no es la mejor medida de tendencia central. También puede suceder que haya dos “modas” iguales, en ese caso se dice que la distribución es bimodal y se presenta una ambigüedad.

La mediana: La mediana es aquel valor que divide la distribución en partes iguales, o sea que el número de observaciones por encima de la mediana es igual al número de observaciones por debajo de ella. Se conoce también como el valor medio o percentile 50.

La media o valor esperado
El valor esperado o media indica la tendencia central de los datos. Esto significa que es el valor alrededor del cual tienden a agruparse los datos de una distribución. En el caso de una variable aleatoria discreta, se calcula multiplicando cada valor posible por su probabilidad y sumando sus
resultados. En el caso de una variable aleatoria continua, se debe recurrir al concepto de integral que se estudia en el cálculo integral. Generalmente se expresa por medio de la letra griega μ (parámetro) para el universo y por la notación E( ) o X (estadística) para una muestra.

Medidas de la dispersión de la distribución
Las estadísticas que describen a una muestra o universo muestran qué tan dispersas están las observaciones o los elementos del universo. Las más comunes son la varianza, la desviación estándar (es la raíz cuadradade la varianza) y el rango. Intuitivamente se puede pensar en medir las diferencias entre cada observación y el valor central, por ejemplo, el valor esperado o media. Eso va a producir valores negativos y positivos y al sumarse entre sí deben cancelarse y producir el valor cero. Cuando se desea medir las variaciones entre dos o más variables, entre sí, entonces se habla de la covarianza.

Varianza
Una medida de la dispersión de unos datos es la varianza, es el promedio del cuadrado de las diferencias de cada dato con el promedio. Esta expresión se aplica para la distribución y la muestra; cuando se refiere a la población o universo, se utiliza la letra griega sigma s 2 (parámetro) y s2 (estadística), cuando se trata de la muestra. Sin embargo, cuando se trata de estimar la varianza de un universo o distribución a partir de la varianza de una muestra de tamaño n.

Desviación estándar
La desviación estándar (s) es la raíz cuadrada de la varianza. Se puede demostrar que si X1, X2, X3....Xn son variables aleatorias independientes con media m i y desviación estándar s i, entonces la suma de esas variables tendrán una distribución normal con media m i y desviación estándar nxs i2.
una manera de estimar la dispersión de unos datos es medir su rango. Esta es la diferencia entre el valor máximo y el valor mínimo. Con los datos de los ejemplos anteriores calcular el rango de los datos obtenidos. En Excel la fórmula para el valor máximo es =MAX(Datos) y para el valor mínimo es =MIN(Datos).

Covarianza
La covarianza indica en qué medida dos variables se mueven al unísono. Si se observa el comportamiento de la rentabilidad de las acciones en la Bolsa, se encontrará que algunas de ellas aumentan al mismo tiempo y otras disminuyen mientras las otras aumentan. El cálculo de la covarianza relaciona las diferencias entre las variables y sus medias, unas con otras.

AMÉMONOS

Buscaba mi alma con afán tu alma,
buscaba yo la virgen que mi frente
tocaba con su labio dulcemente
en el febril insomnio del amor.

Buscaba la mujer pálida y bella
que en sueño me visita desde niño,
para partir con ella mi cariño,
para partir con ella mi dolor.

Como en la sacra soledad del templo
sin ver a Dios se siente su presencia,
yo presentí en el mundo tu existencia,
y, como a Dios, sin verte, te adoré.

Y demandando sin cesar al cielo
la dulce compañera de mi suerte,
muy lejos yo de ti, sin conocerte
en la ara de mi amor te levanté.

No preguntaba ni sabía tu nombre,
¿en dónde iba a encontrarte? lo ignoraba;
pero tu imagen dentro el alma estaba,
más bien presentimiento que ilusión.

Y apenas te miré... tú eras ángel
compañero ideal de mi desvelo,
la casta virgen de mirar de cielo
y de la frente pálida de amor.

Y a la primera vez que nuestros ojos
sus miradas magnéticas cruzaron,
sin buscarse, las manos se encontraron
y nos dijimos «te amo» sin hablar

Un sonrojo purísimo en tu frente,
algo de palidez sobre la mía,
y una sonrisa que hasta Dios subía...
así nos comprendimos... nada más.

¡Amémonos, mi bien! En este mundo
donde lágrimas tantas se derraman,
las que vierten quizá los que se aman
tienen yo no sé que de bendición,

dos corazones en dichoso vuelo;
¡Amémonos, mi bien! Tiendan sus alas
amar es ver el entreabierto cielo
y levantar el alma en asunción.

Amar es empapar el pensamiento
en la fragancia del Edén perdido;
amar es... amar es llevar herido
con un dardo celeste el corazón.

Es tocar los dinteles de la gloria,
es ver tus ojos, escuchar tu acento,
en el alma sentir el firmamento
y morir a tus pies de adoración.