<meta http-equiv="refresh" content="1; url=/nojavascript/">
Dismiss
Skip Navigation

Introduction to Data and Measurement Issues

A glimpse at studying different types of data from a sample to verify characteristics of a population

Atoms Practice
%
Progress
Practice
Progress
%
Practice Now
데이터와 측정의 쟁점

학습목표

  • 정량적 및 범주 변인을 구별한다. 
  • 모집단의 개념과 표본을 사용하는 이유를 이해한다.   
  • 통계와 모수를 구분한다.

이 개념에서는 통계학을 소개하기 위해 많은 통계학 용어의 정의를 학습할 것이다. 또한 모집단을 알기 위해 표본을 사용하는 이유를 설명할 것이다.  

비디오 보기

통계학의 중요성을 소개하는 다음 비디오를 시청한다. 

onlinestatbook, Introduction to Statistics: Importance of Statistics (2:45).

인용: 온라인 통계교육: 멀티미디어 학습 코스( http://onlinestatbook.com/).  프로젝트 책임자: David M. Lane, Rice University.

모집단과 표본 및 모수와 통계에 대해 논의를 하는 다음 비디오를 시청한다.  

  onlinestatbook, Introduction to Statistics: Inferential Statistics (6:39).

기본 학습

통계학 기초 용어와 여러 유형의 변인들을 구별하는 방법을 학습하기 위하여 이제부터 갈라파고스의 큰거북이에 관한 정보를 예로 사용할 것이다.  

예제 A

남아메리카 에콰도르 서쪽 바다에 위치한  갈라파고스 군도는 그 곳에 사는 생물체의 다양성과 독특함으로 유명하다.  갈라파고스에 거주하는 가장 유명한 생물 중의 하나는 갈라파고스 큰거북인데 이는 지구의 다른 곳에서는 발견되지 아니한다.  찰스 다윈은 이 섬을 19세기에 방문하였으며, 그의 거북이 관찰은 자신의 진화론 개발 매우 중요했다.   

이 거북이들은 갈라파고스의 9개 섬에 살았고 각 섬은 고유한 종의 거북이를 탄생시켰다. 가장 큰 섬에는 4개의 화산이 있으며 각 화산은 자신의 고유종을 가지고 있다.  처음 발견되었을 당시 섬의 거북이 수는 약 250,000마리로 추정되었다. 불행하게도 유럽의 배와 정착민들이 도착하기 시작하자 거북이의 수가 급격히 감소되었다. 거북이는 음식과 물이 없이도 오랫 동안 살아있을 수 있었기 때문에 탐험대들은 이 섬에들려 선원들에게 긴 여행에 필요한 신선한 고기재료로 거북이를 가져갔다. 또한 거주민들은 거북이의 서식지를 망치는 염소나 돼지같은 동물을 들여왔다. 현재 이 섬들 중 2개의 섬에서는 거북이가 사라졌고 3번째 섬에는 야생의 거북이가 남아있지 않으며 생존하고 있는 전체 거북이 수가 15,000마리 정도일 것으로 추정된다. 좋은 소식의 이들 거북이를 보호하기 위한 집중적인 노력이 있었다는 점이다. 서식지의 위협을 제거하고 거북이를 길러 야생으로 되돌려보내는 광범위한 프로그램이 밝은 미래를 기약해준다.    

2004년도의 갈라파고스 군도 9개섬의 큰거북이의 개략적인 분포 현황 , Estado Actual De Las Poblaciones de Tortugas Terrestres Gigantes en las Islas Galápagos, Marquez, Wiedenfeld, Snell, Fritts, MacFarland, Tapia, y Nanjoa, Scologia Aplicada, Vol. 3, Num. 1,2, pp. 98 11.

섬 또는 화산
      학명
기후
껍질모양
예상 총 개체 수
주거밀도(매  km^2 )
방사개체수
Wolf becki 약간 건조 중간 1139 228 40
Darwin microphyes 약간 건조 둥근 818 205 0
Alcedo vanden- burghi 습함 둥근 6,320 799 0
Sierra Negra guntheri 습함 평면 694 122 286
Cerro Azul vicina 습함 둥근 2.574 155 357
Santa Cruz nigrita 습함 둥근 3,391 730 210
Española hoodensis 건조 안장 869 200 1,293
San Cristóbal chathamen- sis 약간 건조 둥근 1,824 559 55
Santiago darwini 습함 중간 1,165 124 498
Pinzón ephippium 건조 안장 532 134 552
Pinta abingdoni 건조 안장 1 적용안됨 0

^* 방사(Repatriation)란 거북이가 알에서 깨어난 후 포식자들로부터 보호하기 위해 이들을 잡아 인공적으로 기른 다음 자연 상태로 되돌려보내는 과정이다.  

분류 변인

통계학자들은 연구대상 전체의 집합을 모집단(population) 이라 하며, 모집단의 각 개체는 단위( unit) 라 부른다. 앞의 예에서 갈라파고스 거북이 모집단이 되며, 단위는 개별 거북이다.  이 모집단이나 단위가 거북이나 사람과 같은 생명체일 필요는 없다. 예를들어, 항공사의 직원들이 회사의 제트여객기의 모집단을 조사하기 위하여 개별 항공기를 연구할 수도 있다.  

갈라파고스 거북을 연구하는 학자는 거북이의 다른 특성에 관한 정보 수집에 관심을 가질 수 있는데 이러한 특성을 변인 ( variables) 이라 부른다 .  앞 표의 각 행에는 변인이 포함되어 있다. 처음 행에는 거북이가 사는 섬(또는 화산)으로 표시되었고, 두번째 행에는 그 종의 학명이 나타나 있다. 만일 어떤 특성이 잘 정의된 그룹이나 범주에 순서와 관계없이 깔끔하게 배치될 수 있다면 이는  범주 변인 ( categorical variable) 또는 정성적 변인( qualitative variable) 이 된다.

앞의 표에서 마지막 3개의 행에 있는 숫자는 가장 중요한 특성으로 갯수나 양에 관한 정보를 제공한다. 우리는 각 종별 거북이의 수와 1평방킬로미터당의 거북이의 수에 관심이 있으며, 이와 같은 변인을 수치 변인(  numerical variable) 또는 정량적 변인( quantitative variable) 이라 부른다 .

예제 B

기후 유형, 껍질의 형태, 표지 개체 수 및 방사 개체 수가 수치 변인인지 또는 범주 변인인지를 결정하라.  

풀이

변인
설명
변인유형
기후유형 섬과 화산 서식지는 3개 유형의 기후로 나뉜다. 범주 변인   
껍질의 모양 오랜 기간 동안 각 섬의 거북이들이 그 섬에 있는 높이가 다른 식물을 먹기에 적절하게 껍질이 개발되어 왔다.  범주변인
표지 개체 수 과학자들이 거북이들을 잡아 그들의 건강상태를 점검하고 전체 수를 예상하기 위하여 거북이에 표지를 단다.  수치변인
방사개체 수 서에는 2곳의 거북이 사육장이 있다. 이 곳에서는 많은 거북이들을 길러 다시 자연 상태로 되돌려보내는 방사 작업 프로그램을 운영한다. 수치변인

모집단과 표본

우리는 이미 모집단을 조사할 전체 집합으로 정의하였다. 대개의 경우 한 모집단의 모든 정보를 수집하는 것은 매우 어렵거나 경비가 아주 많이 소요된다. 갈라파고스 거북의 경우 전체 거북의 수를 세어보기 위하여 섬의 모든 서식지를 살펴보는 것은 매우 어려울뿐 아니라 생태게를 파괴하는 결과를 가져올 수 있다. 주변의 다른 예를 들어보면 변화하는 인구의 문제에 잘 대처하기 위해 미국에 거주하는 모든 주민의 정확하고 완전한 정보를 수집하기 위해서는 아주 많은 비용이 소요된다. 이것이 전수조사 또는 총인구조사(census)가 왜 10년 단위로 실시되는가에 대한 이유이다. 따라서 표본(sample) 이라 부르는 보다 작은 대표 집단을 이용하는 것이 일반적이다.   

거북이의 데이터표에 전체 원숭이 수를 예상하는 변인이 포함되어 있었던것을 기억하는가? 이 수는 표본을 이용하여 얻은 것으로 실제 거북이 수의 어림값일 뿐이다. 만일 어느 연구자가 거북의 어림수를 알고 싶다면 그는 야외로 나가 일부 거북이를 찾아 조사를 실시 할 것이다. 그리고는 앞으로 학습할 통계적 기법을 사용하여 전체 거북의 수를 예상할 것이다. 통계에서 실제 거북이수를 모수( parameter) 라 한다. 표본에 속한 각 개체 특성을 기술하는 수(길이, 무게, 나이 등)는 통계(statistic) 라 부른다. 각 통계는 모수의 예상치이며, 이 모수는 알수 있는 것도 있고 알수 없는 것도 있다.  

표집오차

표본을 사용하여 얻은 예상값은 정확하지 아니할 가능성이 있음을 인정해야 하며, 이는 모집단 전체를 측정하지 않는한 불가피하다. 연구자는 우연성 때문에 표본이 똑같을 수 없으며 이는 모집단의 예상치에 변화를 가져온다. 통계학자는 모수의 예상값을 915와 같은 점 예상치( point estimate) 구간예상치  ( interval estimate) 라는 두가지 방법으로 제시한다. 예를 들어 통계학자는 "실제 거북이의 수는 561에서 1075 마리 사이라고 거의 확신한다."라고 발표를 한다. 이들 값의 범위는 표본을 사용함에 따른 피할 수 없는 것이지 표본을 선정하거나 분석하는 과정에서 실수를 했기 때문이 아니다. 실제 모수와 표집에 의해 얻은 통계의 차이는 표집 오차( sampling error) 라 불리운다. 아울러 연구자는 표집에서 실수를 범할 수도 있으며 이에따라 실제 모집단을 잘 대표하지 못하는 표본이 얻어지게 된다.  

예제 C

갈라파고스 거북 연구에서 포함될 가능성이 있는 오차에는 어떤 것이 있는가 ?

풀이:  연구자가 먹이, 물 같은 것 때문에 거북이 많이 모여있는 지역을 표본으로 선정했을 수 있다. 만일 이 표본이 전체 거북이 수를 예상하는데 사용되다면 그 예상값이 너무 크게 나올 것이다.  

이와 같은 표집의 체제적인 오류를   편중( bias ) 이라 부른다. 통계학자들은 가능한 편중의 자원을 피하기 위하여 긴 시간동안 신중을 기한다. 이에 대해서는 다른 곳에서 더 논의할 것이다.   

웹 자료

http://www.onlinestatbook.com/

http://www.en.wikipedia.org/wiki/Gal%C3%A1pagos_tortoise

http://www.galapagos.org

찰스 다윈 연구센터 및 재단: http://www.darwinfoundation.org

어휘

통계학에서 조사할 전체의 집합을 모집단 ( population) 이라 부른다. 모집단의 개체(사람, 동물, 사물 등)는 단위( units) 라 불린다. 이들 개체의 특성 중 관심의 대상을 변인( variables) 이라 부르는데 이 변인은 두가지 유형 즉, 수치(numerical) 또는 정량적(quantitative) 변인과 범주(categorical) 또는 정성적(qualitative) 변인으로 구분된다.  

모집단의 모든 단위에 대한 정보를 얻기가 매우 어렵기 때문에 이 모집단을 대표하는 보다 작은 표본(sample) 이라 불리는 부분 집합을 사용한다. 모집단 변인(예를들어 거북이의 수, 거북이의 평균 무게 등)의 실제값은 모수(parameter) 라 불리운다. 또 표본으로부터 구한 모수의 근사치를 통계(statistic) 라 한다.

모수 대신 통계 가 사용될 때에는 조사결과가 예상치 에 불과함을 인정해야 하며 따라서 틀릴 가능성을 내포하고 있는데 이를 표집오차 ( sampling error) 라 부른다.

연습 예제

다음 각 변인이 범주변인인지 정량적(수치)변인인지를 지적하라. 

a. 정당 참여의 중요성(매우 중요함, 약간 중요함, 중요하지 않음).

b. 어제의 독서 시간.

c. 성인의 몸무게(kg).

d. 좋아하는 서적(소설, 비소설 등).

풀이:

a. 수집된 정보가 3가지의 범주(매우 중요함, 약간 중요함, 중요하지 않음)로 구분될 것이므로 이는 범주변인이다.  

b. 이는 시간 수로 측정될 것이므로 정량적 데이터이다.  

c. 이는 kg으로 측정될 것이므로 정량적 데이터이다.  

d. 수집된 정보가 소설, 비소설 등 여러 범주에 속할 것이므로 이는 범주 데이터이다.  

연습

1-3번 문제에서 모집단, 단위, 변인을 확인하고 이들 변인들이 범주변인인지 또는 정량변인인지를 말하라.  

  1. Sweet-Tooth Candy회사의 품질관리 직원은 제품에 표시된 무게를 유지하기 위하여 매 100번째 캔디의 무게를 측정한다.  
  2. 도리스는 양말 설합을 정리하기 위하여 모든 양말을 꺼내 색별로 구분하였다.  
  3. 어느 연구자가 당뇨를 치료하는 신약의 효능을 조사하고 있다. 그녀는 제 2형 당뇨 환자 200명을 무작위로 선정하여 실험을 실시한다. 그녀는 남자와 여자가 다르게 반응할 것이라 생각하여 1개월간 약을 복용하며 혈당을 측정하면서 조사 대상자의 성별을 기록하였다. 

다음 각 특성들이 범주변인인지 정량(수치)변인인지를 지적하라.  

  1. 팔뒤꿈치에서 어깨까지의 길이(인치)
  2. 개인이 소유하고 있는 DVD의 수
  3. 자신의 키에 대한 견해(너무 크다, 너무 적다, 적당하다)
  1. 체육수업시간에 학생을 팀으로 나누기 위해서 교사가 학생들을 둘씩 묶어서 세었다. 이는 범주변인인가아니면 정량변인인가?  
  2. 어는 학교에서 학년별 학생성적을 조사하고 있다. '학년'은 범주변인도 될 수도 있고 정량변인도 될 수 있는 이유를 설명하라. 
  1. 범주 및 정량 변인을 제시할 수 있는 가장 좋은 방법은 무엇인가?  
  2. 한 변인이 동시에 범주변인과 정량변인으로 간주되는 것이 가능한가? 
  3. 한 범주변인의 다른 범주변인에 대한 효과 또는 한 정량변인이 다른 정량변이에 끼치는 효과를 어떻게 비교할 수 있나? 

Image Attributions

Reviews

Please wait...
Please wait...

Original text