viernes, 27 de diciembre de 2013

El problema de Monty Hall

El Problema de Monty Hall es un problema de probabilidad que está inspirado por el concurso televisivo estadounidense Let's Make a Deal (Hagamos un trato), famoso entre 1963 y 1986. Su nombre proviene del presentador, Monty Hall.

En este concurso, el concursante escoge una puerta entre tres, y su premio consiste en lo que se encuentra detrás. Una de ellas oculta un coche, y tras las otras dos hay una cabra. Sin embargo, antes de abrirla, el presentador, que sabe donde esta el premio, abre una de las otras dos puertas y muestra que detrás de ella hay una cabra. Ahora tiene el concursante una última oportunidad de cambiar la puerta escogida ¿Debe el concursante mantener su elección original o escoger la otra puerta? ¿Hay alguna diferencia?

¿Cúal sería la opción correcta?
  1. Quedarse con la puerta inicial
  2. Cambiar a la otra puerta
  3. Es irrelevante cambiar o no cambiar
A primera vista parece obvio que da igual (opción 3). La intuición nos dice que ahora, quitando una puerta sin premio, la puerta que nosotros escogimos tiene un 50 % de tener una cabra y por tanto da igual cambiar que no hacerlo. Pero no sería una paradoja o problema si fuera tan trivial, ¿verdad?.

Este problema suele generar bastante polémica (El problema original fue planteado en la columna de Marilyn vos Savant de la revista américana Parade en 1990 y su respuesta generó una avalancha de críticas).

Prueba con la simulación del problema de Monty hall alojado en esta página.

Una vez hallas probado la simulación, vuelve a reflexionar sobre el problema. ¿Ha cambiado tu opinión sobre cuál es la solución correcta?

EXPLICACIÓN GRÁFICA


Esto nos enseña que aunque tener una buena intuición es algo muy útil e importante, no siempre debemos fiarnos de ella.

Fuente: www.estadísticaparatodos.com

Representación gráfica de datos agrupados en clases: el histograma.

Las tablas de frecuencias proporcionan de forma ordenada los datos que se obtienen de la información del hecho que se esté estudiando. Sin embargo, muchas veces se desea obtener una visión global rápida y visual. Para ello se utilizan las representaciones gráficas.

Al hacer la representación gráfica de hechos o fenómenos cuando los datos son clasificados como simples, uno de los tipos de gráfico que se utilizan con más frecuencia son los gráficos de barras, los que son muy útiles para comparar el comportamiento del los datos en la información. En estas gráficas, las barras se colocan separadas. Sin embargo, cuando los datos son continuos y están agrupados en clases, este gráfico de barra no es el adecuado, pues entre dos valoras enteros hay infinitos valores reales.

Para representar estos datos de modo que aparezca reflejada la división hecha en clases, suelen emplearse los histogramas.
Histogramas: se construyen a partir de un conjunto de columnas o rectángulos unidos, donde se emplea una columna para representar la frecuencia de acuerdo a cada intervalo de clase.

En el eje x (horizontal) se marcan las bases de estos rectángulos, que son dados por los intervalos (pueden ser los límites reales o los límites de anotaciones).
En el eje y (vertical) se marca la altura de los rectángulos, la que está determinada por la frecuencia absoluta o relativa de las clases correspondientes.

En ellos se representan distribuciones de variables continuas y discretas que, por su elevado número de datos, se suelen agrupar en clases y hay que indicar el concepto representado en cada uno de los ejes.

En el caso en que las clases no tuviesen la misma amplitud, las alturas de los rectángulos ya no podrían corresponder a las frecuencias absolutas, y habría que calcular las áreas de los rectángulos proporcionales a las frecuencias de cada intervalo.

Si dibujamos el histograma correspondiente al ejemplo que desarrollamos en anteriores entradas, quedaría así:


El histograma sirve para mostrar cómo se distribuyen los datos internamente.

Autores: Aurelio Quintana Valdés y Jesús Cantón Arenas

Representación de datos agrupados mediante tablas (III)

Veamos cómo proceder para construir la tabla de frecuencia, en el ejemplo propuesto, agrupando los datos en clases:

1) Hallar el recorrido o rango de la variable (datos):

Para ello se identifica de los datos dados el mayor y el menor y se calcula la diferencia entre ellos
Dato menor: 58.00 
Dato mayor: 70.00 
Diferencia: 70 – 58 = 12
Por tanto 12 es el recorrido o rango.

2) Determinar el número de clases.

Se piensa en el número de clases a obtener en correspondencia con el rango de los datos de manera que propicien una distribución adecuada de estos donde no se propicie la concentración ni la dispersión.
En este caso, como el recorrido es igual a 12, se pueden elegir 6 clases.

3) Hallar la amplitud de cada clase:

Para ello, dividimos el valor del recorrido entre el número de clases determinado.
12 : 6 = 2 Luego, cada clase tendrá una amplitud igual a 2.

4) Determinar las clases.

La primera clase tendrá por límite inferior el valor del dato más pequeño, y por límite superior la suma del número que corresponde del dato más pequeño con el número que corresponde a la amplitud de la clase.
En este caso es: 58 <= x < 60 (esta notación significa que esta clase abarca los
datos desde 58 hasta 60, incluye el 58, no así el 60).
Las siguientes clases tienen por límite inferior, el límite superior de la anterior y para obtener el límite superior, se suma al límite inferior el recorrido.
60 <= x < 62 
62 <= x < 64 
64 <= x < 66 
66 <= x < 68 
68 <= x <= 70
(El límite superior de la última clase puede o no estar incluido, depende si existe ese dato entre los que se analizan)

5) Construir la tabla de frecuencias en datos agrupados.

Longitud del lanzamiento                                                   Frecuencias absolutas
(en metros)

58 <= x < 60                                                                                        9
60 <= x < 62                                                                                        2
62 <= x < 64                                                                                        3
64 <= x < 66                                                                                        3
66 <= x < 68                                                                                        6
68 <= x <= 70                                                                                      7

Como se puede observar, esta tabla es mucho más representativa del comportamiento de los datos que si agrupamos individualmente cada dato, lo que facilita hacer el análisis de la situación objeto de estudio y análisis.

Autores: Aurelio Quintana Valdés y Jesús Cantón Arenas

Representación de datos agrupados mediante tablas (II)

Veamos el siguiente ejemplo en que se utiliza como variable cuantitativa continua los resultados de los lanzamientos realizados por la jabalinista cubana Osleydis Menéndez, campeona mundial y olímpica.
Durante la preparación para futuras competencias, su entrenador anota cada uno de los resultados (longitud del lanzamiento en metros) obtenidos en 30 de sus lanzamientos, los que se muestran a continuación.

58,95 59,26 62,50 68,30 61,50 66,85 58,00 59,04 60,00 67,25
58,60 58, 5 66,00 62,20 70,00 67,25 69,70 69,40 59,30 59,35
63,20 65,65 67,00 69,05 65,40 59,35 64,55 69,00 67,20 68,75

Si los técnicos quisieran analizar cómo van comportándose los resultados de la preparación, tendrían que realizar un estudio estadístico de los resultados que va logrando Osleydis durante todos los entrenamientos. Con la finalidad de facilitar el análisis, primeramente deben organizar los datos como se muestra a continuación.

58,00 58,60 58,95 58,95 59,04 59,26 59,30 59,35 59,35 60,00
61,50 62,20 62,50 63,20 64,55 65,40 65,65 66,00 66,85 67,00
67,20 67,25 67,25 68,30 68,75 69,00 69,05 69,40 69,70 70,00

Esto facilita realizar el conteo de los datos para ubicarlos en una tabla de frecuencias. Si se construye una tabla de frecuencias absolutas como las que los estudiantes están acostumbrados a construir en cursos anteriores, ésta quedaría muy extensa, ya que hay 27 datos diferentes, lo que no daría una idea clara del comportamiento del fenómeno que se analiza.

Y es en casos como este, cuando se tienen grandes cantidades de datos, cuando salen a relucir los conceptos que aprendimos en la anterior entrada. En la próxima entrada, continuaremos con el ejemplo.

Autores: Aurelio Quintana Valdés y Jesús Cantón Arenas

Representación de datos agrupados mediante tablas (I)

Entre los objetivos de realizar estudios estadísticos está el de facilitar la realización de comparaciones que se consideren pertinentes entre determinados procesos, fenómenos o situaciones. Para ello, es imprescindible,
organizar los datos de manera resumida y operativa de forma tal que se facilite la descripción de la situación objeto de estudio. Y para poder hacerlo, necesitamos ciertos conceptos previos:

Clase: es el conjunto de todos los individuos u observaciones de la variable, que se encuentran entre determinados límites.

Rango o recorrido de la variable: es la diferencia entre el mayor y el menor de los valores dados en los datos.

Clase de frecuencias: es el conjunto de todos los individuos u observaciones de la variable, que se encuentran entre determinados límites.

Límites de clases: son los valores extremos, que delimitan cada clase. El menor es el límite inferior Li y el mayor es el límite superior Ls.

Amplitud de clases: es la amplitud del intervalo de clase. Se obtiene calculando la diferencia: Ls – Li

Para agrupar los datos en clases de frecuencias es importante también tener en cuenta las siguientes consideraciones:

  • Las clases deben ser exhaustivas, abarcar todas las mediciones y ser mutuamente excluyentes.
  • El número de clases no puede ser muy pequeño ni excesivamente grande. Cuando el número de clases es pequeño se puede producir concentración de los datos, cuando es muy grande se puede producir dispersión. En ambos casos puede haber pérdida de la información.
  • Deben evitarse las clases de frecuencia nula.
  • La amplitud de las clases se debe elegir de modo que en el núcleo o centro de la tabla estén ocupadas todas las clases.
  • Deben tener las clases la misma amplitud (siempre que sea posible).
Autores: Aurelio Quintana Valdés y Jesús Cantón Arenas

jueves, 26 de diciembre de 2013

Asimilando conceptos (II)

En primer lugar, recordemos las definiciones de media, moda y mediana.
La media es la suma de los valores de los elementos dividida por la cantidad de éstos. 
La mediana es el valor del elemento intermedio cuando todos los elementos se ordenan.
La moda es el valor que se presenta el mayor número de veces.

Ejemplo
Calcule media, mediana y moda de los siguientes números: 10 , 11 , 12 , 12 , 13 

Media:

1. Sumamos las cantidades: 10 + 11 + 12 + 12 + 13 = 58
2. Dividimos la suma por la cantidad de elementos: 58/5 
3. El resultado es la media: 11.6

Por lo tanto, la media de los 5 números es 11.6. Note que la media es un número que está entre el rango de elementos; en este caso, 11.6 está entre 10,11,12 y 13. Si esto no ocurriese, habría algún error.


Mediana:


1. Hay que ordenarlos de forma ascendente o descendente. En este caso, los ordenamos de forma ascendente: 10 , 11 , 12 , 12 , 13
2. Buscamos el elemento intermedio. En este caso, 12.
3. Por tanto, la mediana es 12.

Si el número de elementos fuera par, haríamos la media entre los dos elementos intermedios y ésa sería la mediana.

Moda:

Simplemente hay que observar el número que se repite más  veces. En nuestro caso, además, al tener tan pocos elementos, es muy fácil: solo se repite un elemento, el 12. Por tanto, el 12 es la moda.

Fuente: ponce.inter.edu

Asimilando conceptos (I)

Ejemplo: Estudio sobre la evolución de la talla en la juventud española.
Consideraremos juventud la franja de 18 a 30 años.


Los españoles igualan la estatura a la mayoría de los europeos, pero evolucionan hacia la obesidad norteamericana. 
Un estudio antropométrico conjunto entre varios hospitales españoles, revela que la estatura de los españoles se ha igualado en los últimos treinta años respecto a la mayoría de los países europeos. 
El mismo estudio también alerta sobre la preocupante tendencia hacia la obesidad en niveles similares a la población norteamericana. 
El trabajo, llevado a cabo mediante la medición de casi 35.000 sujetos entre los años 2000 y 2004, también demostró que las diferencias entre las distintas comunidades autónomas dentro de España son casi inexistentes.

Población: la constituyen todas las personas españolas que tienen entre 18 y 30 años.
Muestra: la forman los 35.000 sujetos estudiados en el trabajo.
Individuo: cada una de las personas que forman la población adulta española.
Carácter: la estatura.

Fuente: recursostic.educacion.es

miércoles, 25 de diciembre de 2013

Primeros conceptos

Población: conjunto de todos los elementos que verifican una característica que será objeto de estudio.

Individuo: cada uno de los elementos de la población.

Muestra: cualquier subconjunto de la población. Es muy importante que este conjunto sea representativo de la población.

Carácter: cada una de las propiedades que poseen los individuos de la población y que pueden ser objeto de estudio. El carácter puede ser:
  • Cualitativo. Se caracteriza porque sus diferentes modalidades no pueden expresarse con números.
  • Cuantitativo. Se distinguen dos tipos:
    • Discreto. Si toma valores aislados, de manera que entre dos consecutivos no existe otro intermedio.
    • Continuo. Cuando las modalidades de carácter cuantitativo pueden tomar valores de un conjunto de números reales o un intervalo (al menos teóricamente).
Y cambiando de tercio, vamos a definir tres medidas de centralización muy utilizadas en Estadística:

Media aritmética: la suma de todos los datos dividida entre el número total de éstos.

Mediana: es aquel valor de la variable estadística que deja el 50% de las observaciones inferiores a él.

Moda: es el valor de la variable estadística que tiene la frecuencia absoluta más alta (se repite más veces). Si existen varios valores con esta característica se dice que la distribución es plurimodal.

Fuente: recursostic.educacion.es

miércoles, 11 de diciembre de 2013

Un poco de historia

El procesamiento de datos en su forma más simple, tuvo sus orígenes en las civilizaciones antiguas. Se tiene conocimiento de hallazgos que expresan la cantidad de personas, animales y cosas, mediante representaciones en rocas, pieles, maderas, paredes de cuevas y otros medios.

Los babilonios alrededor del año 3000 (a.n.e), usaban pequeñas tablillas de arcilla donde recopilaban datos relacionados con la producción agrícola, las ventas y los cambios o trueques propios de la época. Los egipcios del siglo XXXI (a.n.e), anterior a la construcción de las pirámides representaron datos sobre la población y sobre los índices de renta del país.

Los chinos, antes del año 2000 (a.n.e), realizaron estudios sobre la población y las posibilidades materiales de sus habitantes. Los griegos, con el propósito de contar los impuestos, llevaron a cabo un censo de población cuyos resultados fueron utilizados hasta alrededor del año 594 (a.n.e).

Confucio relata que en el siglo V a.n.e., el rey Yao llevó a cabo un censo muy importante en China. El historiador Tácito refiere que el emperador Augusto ordenó que se contaran todos los navíos, armas y soldados del imperio romano. Este emperador publicó también un edicto para que se hiciera un censo de todos los habitantes romanos.

Los hebreos, los egipcios, los sirios, los persas y los griegos contabilizaban los nacimientos, las reparticiones de tierras y la cantidad de pobladores, entre otras actividades. El gran imperio romano fue el primero que con un interés gubernamental, recopiló numerosos datos sobre la población, las superficies y las rentas en todos los territorios bajo su control.

En la Europa de la Edad Media se realizaron, bajo la orientación de diferentes reinados, censos exhaustivos de población, estudios relacionados con la actividad de la iglesia e innumerables recopilaciones de datos con fines económicos, sociales y militares. Alrededor del año 1086, después de la conquista de Inglaterra por los normandos, fue que en este país se realizó un censo cuyos resultados fueron publicados.
Los hechos anteriores demuestran que desde los tiempos más remotos, los pueblos necesitaron contar sus hombres y sus recursos para organizar su vida.

Con el transcurso de los siglos, la organización de los pueblos y sus modos de contar se fueron perfeccionando. Los pueblos se convirtieron en Estados y nació una parte importante de las Matemáticas, la Estadística, que se ocupó, principalmente, de enumerar y describir las situaciones de interés para el Estado.

El nombre “Estadística “se derivó del latín “status” en sus dos sentidos:
- el estado en cuanto a la situación geográfica,
- y el estado en cuanto a entidad política.

En el siglo XVIII la Estadística Matemática se consideró una ciencia. En la actualidad está muy difundida, su uso es inevitable y se manifiesta en la recopilación, procesamiento y análisis de la información relacionada con datos económicos, políticos, sociales, biológicos, geográficos, psicológicos, físicos, químicos, etc. El desarrollo de la Informática y las posibilidades crecientes de comunicación, benefició sustancialmente la aplicación de la Estadística en todas las esferas de la vida.

Hoy en día, es relativamente fácil acceder a múltiples datos de alcance local, nacional o mundial, relacionados con temas de la cotidianidad o de cualquier gestión investigativa que se esté abordando, a la vez que se dispone de eficaces sistemas, tabuladores electrónicos y asistentes matemáticos para el procesamiento estadístico. Esto significa que la preparación del hombre en el uso de la Estadística y de las nuevas tecnologías es el principal reto de hoy, al cual no se puede renunciar.

Autores: Aurelio Quintana Valdés y Jesús Cantón Arenas