<meta http-equiv="refresh" content="1; url=/nojavascript/"> Diagramas de Caja y Bigotes | CK-12 Foundation
Dismiss
Skip Navigation
You are reading an older version of this FlexBook® textbook: Álgebra I - Edición Española Go to the latest version.

Objetivos de Aprendizaje

En esta lección aprenderás a:

  • Construir e interpretar diagramas de caja y bigotes.
  • Analizar los efectos de los outliers, es decir de los valores atípicos, extremadamente alejados del resto de la distribución de datos.
  • Obtener diagramas de caja y bigotes mediante una calculadora graficadora.

Construcción e Interpretación de Diagramas de Caja y Bigotes

Considera la siguiente lista de números

1, 2, 3, 4, 5, 6, 7, 8, 9, 10

La mediana es el  \left (\frac{n + 1} {2} \right) - ésimo valor. Existen 10 valores, de modo que la mediana se ubica a mitad de camino entre el 5^\circ y el 6^\circ valor. La mediana es, por lo tanto igual a 5.5. Este valor divide, limpiamente, la distribución en dos mitades.

La lista que constituye la mitad inferior consta de los números.

1, 2, 3, 4, 5

Mientras que la lista que constituye la mitad superior consta de los números siguientes.

6, 7, 8, 9, 10

La mediana de la mitad inferior es 3. La mediana de la mitad superior es igual a 8. Estas medianas correspondientes a las dos mitades citadas, junto con la mediana la lista de todos los datos, dividen a esta última en cuatro cuartos. A la división que existen entre los dos cuartiles inferiores la llamaremos el primer cuartil. De manera correspondiente, a la división que existe entre los dos cuartiles superiores, la llamamos el tercer cuartil. El segundo cuartil es, por supuesto, la mediana de toda la lista (conjunto) de datos.

Un diagrama de caja y bigotes se construye de la siguiente manera: se colocan líneas verticales en cinco posiciones, las que corresponden, respectivamente, al valor más pequeño de la lista de datos, al primer cuartil, a la mediana, al tercer cuartil y al valor más grande de la lista de datos. Estos cinco números se conocen frecuentemente como el resumen de cinco números (five number summary en Inglés). Una caja es dibujada entre las posiciones correspondientes al primer y tercer cuartil. A la vez, dos segmentos de recta horizontales (los bigotes) conectan la caja (por supuesto, partiendo del primer y tercer cuartiles) con los dos valores extremos arriba indicados. Específicamente, el bigote izquierdo conecta el valor más pequeño de la lista con el primer cuartil; mientras que el bigote derecho conecta el tercer cuartil con el valor más grande de la lista.

El diagrama de caja y bigotes correspondiente a los entereos que van desde el 1 hasta el 10 se muestra abajo.

Con un diagrama de caja y bigotes, podemos definir una medida simple de dispersión mediante la distancia entre el primer y tercer cuartiles. Esta distancia se conoce como el rango intercuartil y es una medida de la dispersión de la mitad intermedia de los datos. Esta última expresión debe resultar obvia, dado que el 25% de los datos se ubica entre el valor más pequeño de la lista y el primer cuartil; otro 25% de datos se ubica entre el primer y segundo cuartiles (recordar que el segundo cuartil es la mediana de todos los datos); el tercer 25% de datos, por supuesto, se ubica entre el segundo y tercer cuartiles, mientras que el último 25% de los datos se ubica entre el tercer cuartil y el valor más grande de los mismos. De aquí resulta que entre el primer y tercer cuartiles se ubica el 50% (mitad intermedia)de los datos.

Ejemplo 1

Cuarenta estudiantes tomaron el examen de admisión de álgebra universitaria y los resultados del mismo se resumen en el diagrama de caja y bigotes de abajo. Cuántos estudiantes serán admitidos para inscribirse en dicha clase si la marca de aprobación se ubicó en

(i) 65%

(ii) 60%

Del diagrama, podemos visualizar la siguiente información.

\text{Puntaje m\'{a}s bajo} & = 52 \% \\\text{Primer cuartil} & = 60 \% \\\text{Puntaje de la Mediana} & = 65 \% \\\text{Tercer cuartil} & = 77 \% \\\text{Puntaje m\'{a}s alto} & = 97 \% \\

Dado que las marcas de aprobación corresponden a los puntajes de la mediana y del primer cuartil, realmente se nos está preguntando ¿Cuántos estudianes hay en: (i) la mitad superior de los datos y (ii) los 3 cuartos superiores de la población?

Solución

(i) Si la marca de aprobación fue del 65%, entonces 20 estudiantes pasaron.

(ii) Si la marca de aprobación fue del 60%, entonces 30 estudiantes pasaron.

Observa de nuevo a la información que obtenemos de un diagrama de caja y bigotes. Un diagrama de caja y bigotes siempre representará cinco cantidades en el resumen de cinco números: el valor más pequeño, el primer cuartil, la mediana, el tercer cuartil y el valor más grande.

Ejemplo 2

Harika tira 3 dados y suma los puntajes respectivos. Ella registra dicha suma de puntajes para 50 tiradas. Los puntajes obtenidos en cada tirada se muestran abajo (recordar que cada número corresponde a la suma de los puntajes de los tres dados, por tirada). Representar los datos en un diagrama de caja y bigotes. Encontrar tanto el rango de todos los datos como el rango intercuartil. .

& 9, 10, 12, 13, 10, 14, 8, 10, 12, 6, 8, 11, 12, 12, 9, 11, 10, 15, 10, 8, 8, 12, 10, 14, 10,\\& 9, 7, 5, 11, 15, 8, 9, 17, 12, 12, 13, 7, 14, 6, 17, 11, 15, 10, 13, 9, 7, 12, 13, 10, 12

Solución

Primero convertiremos los datos originales en una lista ordenada. Dado que hay 50 datos,  \left (\frac{n + 1} {2} \right) = 25.5. Por tanto, la mediana será la media de los valores 25^\circ y del 26^\circ. La mediana dividirá los datos en dos listas de 25 valores. Por tanto, es razonable presentar los primeros 25 valores y los últimos 25 valores como dos listas distintas.

& 5, 6, 6, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 11,\\& 11, 12, 12, 12, 12, 12, 12, 12, 12, 12, 13, 13, 13, 13, 14, 14, 14, 15, 15, 15, 17, 17

Puesto que cada sub-lista tiene 25 valores, el primer y tercer cuartiles del conjunto total de datos pueden encontrarse por simple inspección ya que serán iguales, respectivamente, a la mediana de cada sub-lista. Dichas medianas, por supuesto son números enteros y fáciles de calcular. Así, para 25 valores,  \left (\frac{n + 1} {2} \right) = 13; por lo que los cuartiles mencionados vendrán dados por el 13^\circ valor de cada sub-lista de 25 valores.

De la lista ordenada, obtenemos el resumen de cinco números

  • El menor valor es 5.
  • El primer cuartil es 9.
  • La mediana es 10.5.
  • El tercer cuartil es 12.
  • The highest value is 17.

Por tanto, el diagrama de caja y bigotes luce como el mostrado a continuación.

El rango está dado por la diferencia entre el mayor valor y el menor valor

\text{Rango} = 17 - 5 = 12

El rango intercuartil está dado por la diferencia entre el tercer y el primer cuartil.

\text{Rango Intercuartil} = \underline{13 - 9 = 4}

Ejemplo 3

Los diagramas de caja y bigotes mostrados abajo representan los tiempos hechos por cada alumno de una clase durante una carrera de 150 yardas con obstáculos. Los tiempos se han separado según género, es decir, tanto para el grupo de muchachos como para el de muchachas. Cada uno de dichos grupos cree que posee los mejores tiempos. Determinar el resumen de cinco números para cada grupo. Proporcionar un argumento convincente para cada grupo.

Solución

La comparación de los dos conjuntos de datos mediante diagramas de caja y bigotes es relativamente sencillo. Por ejemplo, puedes observar, tanto a través del rango como del rango intercuartil, que los datos para los muchachos están más esparcidos.

El resumen de los cinco números para cada grupo es mostrado en la tabla que sigue.

Muchachos Muchachas
Menor Valor 1:30 1:40
Primer Cuartil 2:00 2:30
Mediana 2:30 2:55
Tercer Cuartil 3:30 3:20
Mayor Valor 5:10 4:10

Aunque conviene aclarar que cada juego deportivo necesita tener un conjunto de reglas para evitar confusiones sobre quién gana, cada grupo podría usar los siguientes argumentos a su favor.

Muchachos

  • Los muchachos poseen la marca de tiempo más corto (1 minutos 30 segundos), de donde se concluye que el individuo más rápido fue un muchacho.
  • Los muchachos también tienen la mediana más pequeña (2 min 30 segundos); lo que significa que la mitad de los muchachos habían terminado la carrera cuando solamente un cuarto de las muchachas lo había hecho (sabemos que únicamente un cuarto de las muchachas había terminado porque su primer cuartil fue también de 2:30).

Muchachas

  • Los muchachos tuvieron el tiempo más largo (5 minutos 10 segundos), de modo que para cuando todas las muchachas ya habían terminado, aun quedaba, al menos, un muchacho sin completar la carrera.
  • Las muchachas tuvieron el tercer cuartil más pequeño. (3 min 20 segundos); lo que significa que aun sin tomar en cuenta el cuarto de tiempos más largos, las muchachas fueron las más rápidas.

Representación de Outliers en un diagrama de Caja y Bigotes

Un outlier es un dato que no encaja bien dentro de la distribución de los otros datos en una lista. Para el caso de los diagramas de caja y bigotes, podemos definir cuáles puntos son outliers de acuerdo a la distancia que los separa de la caja del diagrama. En general, el determinar cuáles datos son outliers responde, de algún modo, a criterios arbitrarios. Sin embargo,muchos libros siguen la norma que sigue, en la que nuestra medida básica de distancia será el rango intercuartil(IQR, según sus siglas en Inglés).

  • Un outlier ligero es un punto que se ubica a una distancia que va desde 1.5 veces a 3 veces el IQR, medida a partir de la caja.
  • Un outlier extremo es un punto que se ubica a una distancia de más de 3 veces el IQR, medida a partir de la caja.

Ejemplo 4

Dibujar un diagrama de caja y bigotes para la siguiente lista ordenada de datos.

1, 2, 5,9, 10, 10,11, 12, 13, 13,14, 19, 25, 30

Solución

De la lista ordenada podemos observar que

  • El menor valor es 1
  • El primer cuartil (Q1) is 9.
  • La mediana es 11.5.
  • El tercer cuartil (Q3) es 14.
  • El mayor valor es 30.

Antes de proceder a dibujar nuestro diagrama de caja y bigotes, podemos determinar el IQR:

IQR = Q_3 - Q_1 = 14 - 9 = 5

Los Outliers son los puntos que caen a más de 1.5 veces el IQR, a partir de la caja. Podemos, en este caso, determinar este rango algebraicamente.

\text{L\'{i}mite inferior para puntos incluidos (datos que NO son outliers)} & = Q_1 – (1.5 \times IQR) = 9 – 7.5 = 1.5\\ \text{L\'{i}mite superior para puntos incluidos (datos que NO son outliers)} & = Q_3 + (1.5 \times IQR) = 14 + 7.5 = 21.5

Observando de nuevo los datos, podemos notar que

  • El valor de 1 se ubica a más de 1.5 veces el IQR, por debajo del primer cuartil. Por tanto, se trata de un outlier ligero.
  • El valor 2 es el valor más pequeño que cae dentro del rango de puntos, o datos, incluidos.
  • El valor 30 se ubica a más de 3 veces el IQR por sobre el tercer cuartil. Por lo tanto es un outlier extremo.
  • El valor 25 se ubica a más de 1.5 veces el IQR por sobre el tercer cuartil. Por tanto, se trata de un outlier ligero.
  • El valor 19 es el valor más alto que se ubica dentro del rango de puntos, o datos, incluidos.

El diagrama de caja y bigotes se muestra abajo. Observa que los outliers se han representado en el diagrama, pero, de hecho no son incluidos en los bigotes.

Obtención de Diagramas de Caja y Bigotes mediante una Calculadora Graficadora

Las calculadoras graficadoras facilitan el análisis de listas de datos numerosos. Ellas tienen algoritmos incorporados para poder encontrar la mediana, los cuartiles y también pueden utilizarse para desplegar diagramas de cajas y bigotes.

Ejemplo 5

Las edades de todos los pasajeros que viajan dentro de un vagón de tren se muestran a continuación.

& 35, 42, 38, 57, 2, 24, 27, 36, 45, 60, 38, 40, 40, 44, 1, 44, 48, 84, 38, 20, 4, 2,\\& 48, 58, 3, 20, 6, 40, 22, 26, 17, 18, 40, 51, 62, 31, 27, 48, 35, 27, 37, 58, 21

Utilizr una calculadora graficadora para

(i) Obtener el resumen de 5 números para dichos datos.

(ii) Crear un diagrama de caja y bigote.

(iii) Determinar si algunos de los puntos son outliers .

Solución

Paso 1 Introduce los datos en tu calculadora.

Presiona [START], luego selecciona [EDIT].

Introduce todos los 43 datos en la lista L_1.

Paso 2: Determinación del resumen de 5 números

Presiona [START] de nuevo. Utiliza la flecha derecha para escoger [CALU].

Selecciona la opción 1-Var Stats. Presiona [EDIT].

El resumen de single variable statistics summary aparece entonces.

Observa que la media  (\bar{x}) es el primer ítem que aparece.

Utiliza la flecha hacia abajo para seguir obteniendo los datos del resumen de cinco números.

n representa el número de datos. Los últimos cinco números que aparecen en la pantalla son los números que necesitamos.

Símbolo Valor
Menor Valor minX 1
Primer Cuartil Q_2 21
Mediana Med 37
Tercer Cuartil Q_3 45
Mayor Valor maxX 84

Paso 3 Desplegando un diagrama de caja y bigotes.

Haz que aparezca la opción [STARTPLOT] presionando [2nd]. [Y=].

Selecciona 1:Plot1 y presiona [ENTER].

Existen dos tipos disponibles de diagramas de caja y bigotes. El primero identifica automáticamente los outliers. Selecciónalo y presiona [ENTER].

Presiona [WINDOW] y asegúrate que Xmin y Xmax permitan mostrar todos los datos. En este ejemplo, \text{Xmin} = 0 y \text{Xmax} = 100.

Presiona [GRAPH]. El diagrama de caja y bigotes debería aparecer.

La calculadora identificará automáticamente los outliers y los representará gráficamente como tales. Tú puedes usar la función [TRACE], junto con las flechas de desplazamiento, para identificar los valores de los outliers. En este caso, existe un outlier cuyo valor es (84).

Ejercicios de Repaso

  1. Dibuja un diagrama de caja y bigotes para los siguientes datos desordenados. 49, 57, 53, 54, 49, 67, 51, 57, 56, 59, 57, 50, 49, 52, 53, 50, 58
  2. Una simulación de un gran número de corridas para la tirada de tres dados y la suma de sus valores resulta en el siguiente resumen de 5 números: 3, 8, 10.5, 13, 18. Construye un diagrama de caja y bigotes para dichos datos. Haz comentarios sobre las diferencias que existen entre dicho diagrama y el diagrama del ejemplo 2.
  3. Los diagramas de caja y bigotes mostrados abajo representan el porcentaje de personas que viven por debajo de la línea de pobreza, clasificados según los condados, tanto en Texas como en California. Determinar el resumen de 5 números para cada estado. Haz comentarios sobre cómo se esparcen los datos de cada distribución.
  4. El resumen de 5 números para la temperatura diaria promedio en Atlantic City, NJ (expresada en ^\circ F) es 31, 39, 52, 68, 76. Dibuja el diagrama de caja y bigotes para estos datos y utilízalo para daterminar cuáles de los siguientes datos sería considerado como un outlier si fuese incluido dentro de los datos.
    1. La temperatura alta récord de enero: 78^\circ
    2. La temperatura baja récord de enero: -8^\circ
    3. La temperatura alta récord de abril: 94^\circ
    4. La temperatura alta récord de todos los tiempos: 106^\circ
  5. En 1887 Albert Michelson y Edward Morley condujeron un experimento para determinar la velocidad de la luz. Los datos para las primeras 10 pruebas 10 (5 resultados en cada prueba) se muestran abajo. Cada valor representa cuántos kilómetros por segundo por sobre 299,000 km/s fueron medidos. Crear un diagrama de caja y bigotes para dichos datos. Asegurarse de identificar los outliers y representarlos gráficamente como tales. & 850, 740, 900, 1070, 930, 850, 950, 980, 980, 880, 960, 940, 960, 940, 880, 800, 850,\\& 880, 900, 840, 880, 880, 800, 860, 720, 720, 620, 860, 970, 950, 890, 810, 810, 820,\\& 800, 770, 760, 740, 750, 760, 890, 840, 780, 810, 760, 810, 790, 810, 820, 850

Respuestas a los Ejercicios de Repaso

  1. (El valor superior está dentro del rango de datos incluidos – no hay outliers)
  2. El diagrama de caja y bigotes para muchas corridas es mostrado abajo. Incluye los valores que tienen la menor probabilidad de ocurrencia (3 y 18), de modo que el rango es mayor que para el caso de un menor número de corridas. Sin embargo, la mediana es la misma y el IQR es similar, lo cual indica que el caso de menor número de corridas logra un buen estimado de estas cantidades.
  3. California 6, 9.5, 12, 15.5, 22; Texas 5, 13, 16, 19.5, 35 Las respuestas pueden variar, pero los estudiantes deberían ver que aunque el condado que tiene la menor tasa de pobreza se encuentra en Texas. En general los condados de Texas tienen un mayor porcentaje de personas viviendo bajo la línea de pobreza. El cuartil Q_1, la mediana y el cuartil Q_3 son más altos para Texas que para California. El condado con la mayor tasa de pobreza se encuentra en Texas, y es valioso notar que puede considerarse como un outlier, dado que se ubica a una distancia mayor que 1.5 times el IQR, por sobre el cuartil Q_3.
  4. El diagrama de caja y bigotes se muestra a continuación. El IQR indica que el único outlier sería el punto b.
  5. Ver el diagrama de caja y bigotes abajo. El valor actualmente aceptado de (299, 792 km/s) cae justo dentro del cuartil Q_2.

Image Attributions

You can only attach files to None which belong to you
If you would like to associate files with this None, please make a copy first.

Reviews

Please wait...
Please wait...
Image Detail
Sizes: Medium | Original
 
CK.MAT.SPA.SE.1.Algebra-I.11.8

Original text