블로그 이미지
주로 인재개발원 등의 사이버학습을 정리, 요약하는 상시학습 블로그입니다. 깨비형
« 2017/04 »
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30            

Archive»

체험 블로그 마케팅 서비스 OLPOST

Category»

Notice»

Statistics Graph
티스토리 모바일 블로그

 

'교양기타/재미있는 기초통계'에 해당되는 글 8

  1. 2012.12.05 8. 6시그마 통계활용 사례보기
  2. 2012.12.04 7. 통계적 추론
  3. 2012.12.03 6. 우연에 대한 생각
  4. 2012.11.29 5. 관계 표현하기
  5. 2012.11.28 4. 숫자로 설명하기
  6. 2012.11.27 3. 그래프로 나타내기
  7. 2012.11.21 2. 통계에서의 실험계획
  8. 2012.11.20 1. 자료와 표본조사
 

1. 시그마의 정의

 

1) 6시그마의 의미

① 사전적 의미 :  백만 번 가운데 3,4회의 불량이 발생하는 수준을 의미

② 통계학적 의미 : 표준편차(산포, 변동)을 의미 -> 즉 SPEC 대비 ±6σ의 상태

③ 생물철학으로의 의미 : 일의 실수를 줄이는 것, 열심히 하기 보다는 현명하게 하자는 것

④ 철학적 의미 : 일하는 방법, 생각하는 방법이며 Quality를 중시하는 조직문화



2) 시그마의 정의

▶ 6시그마란 : 확률적인 정규분포상에서 평균을 중심에 두고 관리상/하한 안쪽으로 시그마가 여섯 개로 표현되어지는 상태



2. 사례

1) 사례1. 우체국 택배 매출 관련

① 현황

• 최근 전자상거래의 활성화와 함께 우체국 택배에서도 민간 택배시장의 틈새시장을 공략하여, 매년 20%대의 폭발적인 신장세를 보이고 있음

• 이에 따라 우체국택배가 우정사업 매출에서 차지하는 점유비율도 매년 1%의 성장세를 나타내 소포에 대한 관심도가 점차 높아지고 있는 실정임



▶ 다양한 그래프를 이용하여 자료의 특성을 잘 나타내는 예



2) 사례2. 오류 주소 현황

① 분석

• 오류 주소 또는 반송 주소로 지속적으로 발송되고 있음




3) 사례3. 소통요원 의식

① 분석 

• 자동 구분기 운용에 대해서 특수통상 취급 직원은 어떤 생각을 갖고 있는가?

• 가설 : 특수통상우편물을 취급하는 소통요원들의 의식이 기계처리율에 영향을 미치는가?

• 분석내용

    1. 특수계 직원들의 특수통상 자동구분기에 대한 인식을 파악하기 위해 설문조사 분석

    2. 직종별(정규직, 비정규직), 성별로 소통요원의 의식을 파악하고 미치는 영향 분석

• 분석Data : 2006. 4. 24~2006. 4. 25(ㅇㅇ 우편집중국 특수계 직원대상  설문조사)-응답자 70명




4) 사례4. 자동 구분기 인식도

① 분석 

• 소통요원의 직종별, 성별로 자동구분기에 대한 인식도의 차이가 있는가?

• 결론 : 자동구분기 운용과 관련하여 소통요원들의 인식수준이 전반적으로 미흡하여 기계처리율 향상에 저해요인이 되고 있음. 따라서 비정규직 여직원들의 특수통상우편물 기계처리에 대한 지속적인 홍보와 교육이 필요하고, 자동구분기의 효율적인 운용방안이 강구되어야 함




5) 사례5. 인력관리와 기계처리

① 분석 

• 작업단계별 배치인력이 기계처리율에 영향을 미치는가?

• 결론 : 특수통상우편물 기계처리의 단계별 배치인력을 분석한 결과 선행작업인 우편물 개낭 및 분류 작업의 비중이 기계처리율 향상에 미치는 영향이 크게 나타났으며 작업단계별 인력배치 최적화를 통해 기계처리율 향상 필요





    



저작자 표시 동일 조건 변경 허락
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'교양기타 > 재미있는 기초통계' 카테고리의 다른 글

8. 6시그마 통계활용 사례보기  (0) 2012.12.05
7. 통계적 추론  (0) 2012.12.04
6. 우연에 대한 생각  (0) 2012.12.03
5. 관계 표현하기  (0) 2012.11.29
4. 숫자로 설명하기  (0) 2012.11.28
3. 그래프로 나타내기  (0) 2012.11.27

7. 통계적 추론

교양기타/재미있는 기초통계 | 2012.12.04 22:28 | Posted by 깨비형

1. 유전자 검사로 본 통계적 추론


1) 돌연사 스미스 상속녀딸 친부는 사진기자

돌연사 스미스 상속녀딸 친부는 사진기자 

바하마 법원 최종판결...'세기의 재판' 취재진 북새통

  지난 2월초 돌연사한 플레이보이 모델 출신 애나 니콜 스미스의 백만장자 상속 딸의 친아버지가 2개월 만에 최종 판가름이 났다. 바하마 법원은 10일 스미스의 사망으로 최소한 수백만달러를 상속받게 된 어린 딸 다니엘린의 친부(親父)라고 주장해온 3명의 남성을 상대로 DNA 검사까지 벌여, 연예지 기자겸 사진기자였던 래리 버크해드가 친부라고 최종 판결했다.

  DNA 조사를 벌였던 전문의는 이날 비공개 심리에서 "버크해드가 다니엘린의 친부일 확률은 99.9%에 이른다"면서 "그가 친아버지임에 틀림없다"고 확인했다.

  앞서 스미스의 약물 과다에 따른 급사로 6개월 된 딸 다니엘린이 스미스의 수백만달러 재산을 고스란히 물려받게 되자 그녀와 한때 뜨거운 사이였던 3명의 남성이 친부라고 서로 우기는 바람에 법정 다툼을 벌이게 됐다. 한편 스미스가 생전에 다니엘린의 친부라고 말해온 마지막 남자친구인 변호사 호워드 스턴은 엉뚱한 판결결과가 나오자 실망한 표정을 감추지 못하면서도 버크해드를 껴안으며 "양육권 다툼을 벌이지 않겠다" 며 승복 의사를 밝혔다.

  스미스는 스물 여섯살이던 지난 1994년 89세의 텍사스 석유재벌 하워드 마샬과 결혼, 신접을 차린 뒤 이듬해 마샬이 사망하자 5억달러의 유산을 놓고 유가족과 분쟁을 벌이기도 했다.


2) 개념설명

① 유전자 검사

- 누가 진짜 아빠인가 : 위의 이야기에서 친부라고 주장하는 세 남자에 대해 유전자 검사라는 의학적 방법이 있어 별다른 오류 없이 친부를 찾아 낼 수 있었다.


                               사실

    검사결과

가짜 아빠

진짜 아빠 

DNA 검사 불일치 

올바른 판정

①오류 

DNA 검사 일치

①오류

올바른 판정 


② DNA 검사

- 유전자 검사과정

1. 아이와 후보 아빠의 혈액을 채취한다.

2. 아이와 아빠의 유전자가 어느 정도 일치하는지를 검사하면 그 결과는 ‘DNA 검사 불일치’ 또는 ‘DNA 검사 일치’로 나온다.

3. ‘DNA 검사 불일치’라면 판단이 명확하고 오류가 없다. 즉 진짜 아빠는 ‘불일치’로 나오지 않기 때문에, ‘불일치’결과가 나왔다면 가짜 아빠라고 오류 없이 결정할 수 있다. 그러므로 ①오류가 발생할 확률은 0%이다.

4. ‘DNA 검사 일치’라면 상황은 2가지이다. 즉 진짜 아빠, 가짜 아빠 모두 ‘일치’인 검사결과가 가능하다. 이때 우리는 조건과 검사결과와의 확률이 얼마인가를 계산한다.

5. 가짜 아빠일 때 검사결과가 이렇게 나올 가능성의 확률은 10의 -6승 즉, 백만분의 1정도의 확률 값을 가진다. 즉 ②오류가 발생할 확률은  이다.

  보통의 친자 확인 검사는 99.9999% 정확도로 표시되는데, 이는 혈연관계가 없는 상태에서 이렇게 우연히 관계가 있는 것처럼 나올 가능성이 얼마나 되는가를 계산해 보니,  정도로 확률값이 작다.

  위의 표를 확률값으로 나타내면 다음과 같다.



※ 확률값 0은 전혀 발생하지 않음, 1은 반드시 발생함을 의미하므로 여기에서는 DNA 검사 불일치 결과는 진짜 아빠일 경우는 전혀 없으며, DNA검사 일치는 반드시 진짜 아빠임을 의미


③ 통계적 가설 검정

- 귀무가설 : “관계가 없다, 차이가 없다, 다르지 않다”라는 가정을 귀무가설이라 한다. 귀무란 “없었던 것으로 하자”는 뜻이다.

- 대립가설 : “관계가 있다, 차이가 있다, 다르다”라는 가정을 대립가설이라고 한다.


  위 이야기를 통계적 가설 검정으로 기술해보면


  귀무가설 : 두 사람사이에는 혈연관계가 없다.

  대립가설 : 두 사람사이에는 혈연관계가 있다.


  래리 버크해드의 DNA 검사 결과 “일치”가 나왔는데 귀무가설을 택하기에는 확률이 너무 낮으므로 대립가설을 택해서 두 사람사이에 혈연관계가 있다고 판정


 사례보기

- 통계는 살인범도 구할 수 있다.


 1964년 미국 LA에 사는 젊은 여성 콜린즈는 살인사건의 용의자로 체포돼 1심과 2심에서 유죄 판결을 받은 뒤 캘리포니아주 대법원의 마지막 판결을 기다리고 있었다. 그녀는 사건 목격자가 진술한 범인의 인상착의와 특성이 자신과 비슷하다는 이유로 유죄 판결을 받았다. 목격자에 따르면 범인은 금발에 말총 머리를 한 백인 여성이었는데 콧수염과 턱수염을 기른 흑인과 같이 있었으며 노란색 승용차를 타고 있었다. 콜린즈는 이 모든 상황과 일치한 여성이기 때문에 용의자로 구속되었고 유죄 판결을 받았다. 검찰측의 주장은 어떤 백인 여성이 목격자의 인상착의와 같을 확률은 1200만분의 1로 극히 작기 때문에 콜린즈가 범인이라는 일관된 주장을 폈는데 그 확률계산의 내용은 아래와 같다. 금발 백인 여성일 확률 1/3, 말총 머리를 한 여성 1/10, 흑백 혼합 커플 1/1000, 콧수염과 턱수염을 기른 흑인 남자 1/40, 노란색 승용차 1/10. 이 같은 특성과 일치할 확률은 이 숫자들을 모두 곱한 1/1200만이라는 것이 검찰측 주장이었다. 1,2심 배심원들은 검찰측의 확률적 근거에 바탕을 둔 주장(한 여성이 범인의 특성과 일치할 확률이 극히 낮은데도 불구하고 콜린즈는 범인의 특성과 매우 일치하므로 범인임에 틀림없다)을 받아들여 콜린즈가 범인이라는 판결을 내렸다. 그러나 캘리포니아 대법원은 판결문에서 검찰측의 확률계산에 문제가 있음을 지적했다. 검찰측의 계산은 각각의 특성이 독립적이라는 가정 하에서는 가능하지만 실제로는 각 특성이 독립적이지 않으므로 일치할 확률은 훨씬 높아진다는 것이다. 이런 점을 무시하고 검찰측의 주장인 범인과 특성이 일치할 확률이 1200만분의 1 이라는 수치를 받아들인다 하더라도 1,2심의 판결에는 중대한 오류가 있다고 대법원은 지적했다. 대법원은 이 사건에 있어서 중요한 확률은 범인의 특성과 일치할 확률이 얼마나 낮은가가 아니라, 콜린즈 외에도 다른 커플이 범인의 특성과 일치할 확률이 얼마냐는 것이라고 지적했다. 이미 콜린즈와 그녀의 애인이 범인의 특성과 일치한다는 사실을 알고 있는 조건 하에서 범인의 특성과 일치하는 다른 커플이 있을 확률을 수학적으로 계산해봤다. LA 지역에 200만 커플이 있을 경우 콜린즈 외에도 범인과 특성이 일치하는 다른 커플이 있을 확률은 약 8%, 500만 커플이 있다면 그 확률은 무려 19%나 된다는 것이었다. 캘리포니아 대법원은 사건과 직접 관계된 올바른 확률계산을 근거로 해서 콜린즈 외에도 범인의 특성과 일치하는 다른 커플이 있을 확률이 상당히 높다고 판단, 이 사건의 1,2심 판결을 뒤집고 콜린즈에게 무죄를 선고했다.



2. 여론조사 이해하기


1) 국민 '76.6%' 독도 단호히 대응해야

 이번 여론조사 결과 응답자의 76.3%가 일본의 독도 영유권 교과서 명기에 대해 단호한 대응을 주문했다. 경제 상황을 묻는 질문에서는 응답자의 절반 정도가 현 정부의 경제팀을 전면 교체해야 한다고 답했다.
 일본의 독도영유권 주장에 대한 정부의 대응을 물었더니 그 결과, 국민 10명가운데 8명 정도는 한일관계 악화를 감수하고라도 단호히 대응해야 한다고 밝혔다. 현재 체감경기에 대해서는 "심각하다"고 답한 응답자가 96.1%에 달했고,"심각하지 않다"는 반응은 3.4%에 불과했다. 경기침체의 가장 큰 원인으로는 국민 10명가운데 6명 정도가 국제유가 급등을 꼽았고, 다음으로 경제 리더십, 정치불안정, 소득격차 심화순으로 나타났다. 경제팀 교체여부를 묻는 항목에 대해서는 전면교체해야 한다가 그대로 둬야 한다는 응답보다 11.5%p 높아 지금의 경제팀에 대한 불신이 다소 높은 것으로 조사되었고, 하반기 경기 전망에 대해서는 국민 10명 가운데 7명 이상이 나빠질 것으로 내다보았다. 그런 만큼 앞으로의 정책 기조를 성장 위주보다는 안정 위주로 운용해야 한다는 목소리가 압도적으로 높았다. 


 이번 여론조사는 YTN이 에이스리서치에 의뢰해 실시했고 전국 만 19살 이상 성인 남녀 1002명을 대상으로 전화조사를 통해 이뤄졌으며 평균 응답률은 18.4%로, 신뢰수준은 95%에 오차한계 ±3.1%p 이다. 


2) 개념설명

① 여론조사

- 여론조사란 : 특정 사회적 이슈에 대한 사람들의 의견이나 태도를 알아보기 위해 수행하는 조사      현재라는 조사시점이 중요하며, 시간이 흐름에 따라 변화가 가능한 것이므로 특정시점에서 조사된 것을 마치 변하지 않는 것처럼 생각하는 것은 옳지 못하다.

② 여론조사의 결과 이해

- 여론조사 지지율의 함정

여론조사 지지율의 함정


  연일 끊이지 않는 공방에 유권자의 마음은 어지럽다.

  열흘도 채 남지 않은 막바지 대선정국을 바라보는 유권자의 눈 또한 바쁘다.

BBK 수사결과 발표 이후, 잇따라 발표된 지지율 보도를 바라보며 왠지 모를 씁쓸함이 앞선다. 절반에 가까운 지지율 상승도 그렇지만 부동층이 줄어 들었다는 말도 의문이 가는 대목이다. 문제는 여론조사 응답율에 있다. 공교롭게도 대부분의 여론조사 관련 보도에는 응답율이 없다. 응답한 대상자를 100%로 놓고 본 지지율만 발표되는 속성의 한계가 있다.

  여론조사 선진국인 미국의 경우 응답율이 30%이하인 조사는 조사결과를 공개하지 못하도록 명시돼 있다. 하지만 요즘 우리나라에서 대선과 관련하여 발표되는 여론조사의 응답율은 전부 30%이하라는 소리가 들려온다. 또한 조사기관에서 눌러대는 번호가 대부분 낮 시간대, 그것도 가정번호가 주류를 이룬다.

  응답자 중 가정주부의 비율이 32,1%에 이른다는 분석도 있다. 젊은층은 응답거부율이 높고 끝까지 듣고 답하는 이들 대부분이 보수 또는 노인층이라는 통계치도 있다. 유선전화 없는 세대의 급증하는 현실과 응답거부 세대의 표심은 얼마나 반영되었을지 의문이다. 특히 지난해 5월 지방선거 때 여론조사 거절율은 무려 47.1%에 이른다고 한다. 기왕에 할 여론조사라면 보다 객관성 있고 전체 유권자를 대변할 수 있는 시스템이 마련돼야 한다. 신뢰성을 잃은 여론조사는 자칫 여론호도로 이어질 수 있음을 간과치 말아야 한다.


- 신뢰수준과 표본오차 이해

 “이번 조사는 지난 19일부터 20일까지 이틀 동안 전국 19세 이상 남녀 700명을    대상으로 전화로 조사했고, 표본오차는 95% 신뢰수준에서 ±3.7%p 이다.”에서 표본오차는 95% 신뢰수준에서 ±3.7%P 라는 의미는?


- 신뢰수준 : 여론조사 결과가 어느 정도의 신빙성을 가지고 있는가를 수치로 나타낸 것으로 신뢰수준이 95%라는 것은 같은 조사를 100번 실행했을 때 95번의 정도는 같은 결과가 나올 것이라는 의미

- 표본오차 : ±3.7% 포인트'라고 말할 때 같은 조건(똑같은 표본추출 과정, 동일한 면접원, 동일한 질문지, 동일한 시간 등)에서 조사할 경우 같은 결과를 얻을 수 있는 허용한계

- 표본오차의 예 : 어떤 설문조사에서 응답율 24%에 ±2.0% 포인트의 표본오차가 나왔다면, 똑같은 조사를 100번 하더라도 그 중 95번의 조사에서는 응답률이 22-26%내에 나타난다는 것을 말한다.


  어떤 지역에서 국회의원 후보들의 지지율에 대해 여론 조사를 실시한 결과가 A 후보의 지지율이 40%, B 후보의 지지율이 35%이고 95% 신뢰수준에서 표본오차가 ±3%라고 하자.


  이 결과를 해석해 보면, A후보의 지지율 40%는 ±3%p라는 표본오차를 감안할 때 37%(40%-3%)에서 43%(40%+3%) 사이에 있을 확률이 95%라는 것이다. 즉 모든 유권자들을 대상으로 표본을 뽑아 조사했을 경우, 100번 조사하면 95번은 A 후보 지지율이 37%와 43% 사이에 있을 것이라는 뜻이고 마찬가지로 B후보의 지지도 35%는 35%±3%(32%~38%)에 있을 확률이 95%이다. 즉 표본오차를 고려한 여론조사 결과를 해석해보면 A 후보가 37 - 43 %, B 후보 32 - 38 %가 된다. 단순히 조사 결과만을 가지고 보면, A후보가 1위, B후보가 2위이며 그 지지율의 격차도 5%나 된다고 하겠지만, 표본오차를 고려하여 해석하면 A후보가 B후보를 앞서고 있다고 단정하는 것은 무리가 있다.

  이럴 경우 사실상 대등한 지지율을 보이고 있다고 하는 것이 옳다. 경우에 따라서는 A후보 37%, B후보 38%가 되어, 조사 결과의 순위와 뒤바뀔 수도 있기 때문이다.


③ 잘못된 사례


  ▲ 오마이뉴스 11월8일자 보도로 '이회창 37.4%, 이명박 32.6%…오차범위내로 앞질러"라고 달고 있다. 오차범위라고 밝혔지만, '앞질렀다'는 데 의미를 두고 제목을 뽑았다.


  김창룡 교수는 "그러나 이 조사의 응답율은 8.23%, 신뢰수준 95%에 표본오차 ± 4.0%포인트"라면서 "대구시민 604명, 응답율 8.23%가 과연 대구지역의 여론을 얼마나 정확히 나타내고 있는 지 의문이며, 맞을 수도 있고 틀릴 수도 있는 걸 기사화하는 것은 믿거나 말거나 식의 보도와 다를 게 없다"고 비판했다.


 보통 여론조사 1000명 정도로 하는 것 같던데 여론조사 응답율 17%는 1000명에 물어 170명 대답했다는 것이고 응답율 22% 정도는 1000명한테 물었을 때 220명 대답했다는 뜻이고, 응답율 15%는 1000명한테 물었을 때 150명만 대답했다는 뜻인데 대개 1000명을 대상으로 여론조사하는데 응답률 20%는 200명이 답변했고 800명이 누구 지지하는지 대답 안했다는 뜻. 그 응답층(200)에서 지지도가 40%라고 했을때 조사대상 전체에서 그 후보를 지지한다고 밝힌 실제 인원은 80명에 불과합니다. 그런데 여론조사 발표를 들여다보면 마치 1000명중에 40%인 400명이 지지하는 것처럼 왜곡되죠. 방송에서 발표하는 여론조사도 대부분 응답율 발표하는 것 거의 못 보았는데 신문에서 발표하는 여론조사도 응답율은 신문에 거의 실지 않는 것 같고 이것 공론화 해서 한번 알아 보았으면 합니다. 왜냐하면 여론조사 보고 사람들이 한쪽으로 더 몰리는 경향이 있기에.



3. 내용정리


  • (귀무가설)은 “관계가 없다, 차이가 없다, 다르지 않다”라고 가정한다. 
  • (대립가설)은 귀무가설과 반대되는 주장 즉 “관계가 있다, 차이가 있다, 다르다”라고 가정한다.
  • 여론조사의 결과를 이해하는데 (응답율), 신뢰구간, 표본오차 등이 중요한 요소이다.
  • '표본오차는 ±3.7% 포인트'라고 말할 때의 (표본오차)는 같은 조건에서 조사할 경우 같은 결과를 얻을 수 있는 허용한계를 말하는 것이다.





저작자 표시 동일 조건 변경 허락
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'교양기타 > 재미있는 기초통계' 카테고리의 다른 글

8. 6시그마 통계활용 사례보기  (0) 2012.12.05
7. 통계적 추론  (0) 2012.12.04
6. 우연에 대한 생각  (0) 2012.12.03
5. 관계 표현하기  (0) 2012.11.29
4. 숫자로 설명하기  (0) 2012.11.28
3. 그래프로 나타내기  (0) 2012.11.27

6. 우연에 대한 생각

교양기타/재미있는 기초통계 | 2012.12.03 15:35 | Posted by 깨비형

1. 우연에 대한 생각 


1) 머피의 법칙과 샐리의 법칙

○ 머피의 법칙(Murphy's Law)

  1949년 에드워드 공군기지에서 있었던 충격완화장치 실험이 실패로 끝났는데 한 기술자의 사소한 배선실수였다. 이 때 현장에 있던 머피(미국의 항공기 엔지니어)가 발견한 인생법칙이다. 뭔가 잘 못될 수 있는 일이라면 틀림없이 누군가 그 잘못을 저지르게 마련이다 "머피의 법칙은 '잘못될 가능성이 있는 것은 어김없이 잘못되어 간다'는 의미로, 인생살이에 있어서 나쁜 일은 겹쳐서 일어난다는 설상가상의 법칙으로 인용된다. 그룹 DJ.DOC가 불러 히트한 (머피의 법칙)에서 유행된 말로 '공부를 안하면 몰라서 틀리고, 어느 정도하면 헷갈려서 틀린다.' 등이 그 예이다. '찾는 물건은 항상 마지막으로 찾아보는 장소에서 발견된다'거나... '그냥 지나칠 때는 자주 오던 버스도 타려고만 하면 죽어도 안 온다'거나... '가려움은 손이 닿기 어려운 부위일수록 그 정도가 심해진다'거나... 학년 초에 '저 애만 안 걸렸으면' 하는 애가 꼭 짝이 된다거나... 

  그렇다면 “머피의 법칙”의 반대는 무엇일까? 

  "잘 될 가능성이 있는 일은 항상 잘 된다"는 의미의 샐리의 법칙 (Shally's Law)이다. '시험 당일 아침에 우연히 펼쳐 봤던 책에서 문제가 나온다'든지, '지각이라 잔뜩 기가 죽어 교실 문을 여는데 선생님이 아직 안들어오셨다'거나, '공부하다 졸리운 참에 갑자기 정전된다'거나..... '샐리'는 영화 '해리가 샐리를 만났을 때'에서 맥 라이언이 맡은 역으로 엎어지고 넘어져도 결국은 해피엔딩을 이끌어내는 샐리의 모습에서 힌트를 얻었다고 한다.


2) 개념설명

① 머피의 법칙

- 머피의 법칙이란 : 세상일은 대부분 안 좋은 쪽으로 일어나는 경향이 있는데 이를 '머피의 법칙'이라고 한다. 버터를 바른 면이 항상 바닥을 향해 떨어진다거나 하필 내가 선 줄이 가장 늦게 줄어든다거나 하는 것이다. 머피의 법칙은 세상을 비관적으로 바라본다는 부정적인 측면도 가지고 있으나, 한편으로는 법칙이라는 말을 통해 사람들은 자신에게만 일어나는 현상이 아니라 누구에게나 일어나고 있는 보편적인 현상이라는 사실을 깨달음으로써 위안을 얻는다. 

② 머피의 법칙에 대한 논리적 근거

- 머피의 법칙에 대한 논리적 근거 : 머피의 심리적이거나 통계적으로 또는 과학적으로 설명될 수 있는 것들이 많으며 세 가지 경우로 분류하여 논리적 근거를 제시할 수 있다. 

- 머피의 법칙에 대한 근거 제시 1

첫째, 서두르고 긴장하다 보니 자신이 실수를 해서 실제로 일이 잘못될 확률이 높아지는 경우이다. 긴급한 이메일을 보내려 할 때 멀쩡하던 네트워크가 다운된다거나, 중요한 데이트를 앞두고 잘 차려 입은 옷에 음료를 쏟는다거나 하는 것이다.

- 머피의 법칙에 대한 근거 제시 2

둘째, 실제 확률은 50%지만 심리적 기대치가 높아서 잘못될 확률이 높은 경우이다. 일이 잘된 경우에 받은 좋은 기억은 금방 잊혀 지지만, 일이 잘못된 경우에 받은 안 좋은 기억은 머릿속에 오래 남는다. 다른 한편으로는 기대 섞인 비교대상의 선정에 기인한다. 예를 들어 정체된 도로에서 자신이 속한 차선이 정체가 심하다고 느끼는 것은 앞서가는 옆 차선 차량과의 비교에 의한 것이다. 내 차와 옆 차선의 차가 그림 1과 같이 20초를 주기로 섰다 갔다를 반복하는 경우를 생각해 보자. 




  두 차의 속도는 위상차를 갖고 주기적으로 변하며 평균속도는 10m/s로 동일하다. 이 때 주행거리는 속도그래프를 적분한 아래 면적에 해당된다. 아래 그래프에서 보는 바와 같이 두 차량은 동일 지점에서 시작해서 섰다 갔다를 반복하는 동안 동일한 거리를 주행하게 된다. 그러나 주행 과정을 비교해 보면, 옆차에 비하여 내차가 항상 뒤처져 있는 것을 알 수 있다. 내차가 앞서가는 시간은 1주기 20초 중 5초에 불과하다. 나머지 15초는 옆차가 내차 보다 앞서서 달린다. 그러니 그 차와 비교하면 내가 선택한 차선에 불만을 가지게 되는 것이다. 

  그러나 내가 비교 대상으로 삼던 옆 차 대신 그 차와 같은 차선에서 약 50m 뒤를 따라오고 있는 차를 비교 대상으로 삼는다면 상황은 거꾸로 된다. 그래프에서 가는 선으로 나타난 바와 같이 그 차는 항상 나보다 뒤에서 달리고 있다. 그 차 운전자 입장에서는 내차를 보면서 머피의 법칙을 생각하고 있을지도 모를 일이다. 

- 머피의 법칙에 대한 근거 제시 3

셋째, 실제 확률은 50%가 아닌데, 사람들이 50:50일 것으로 잘못 착각하는 경우이다. 이 경우도 과학적으로나 통계학적으로 설명이 가능하다. 태양이 동서남북 어디서든지 뜰 수 있는데 왜 하필 동쪽에서만 뜨는가 하고 불평하는 사람은 아무도 없다. 이러한 문제를 결정론적 문제라고 한다. 반면, 바람이 어느 방향에서 불어올 것인가 하는 것은 다소 무작위적이다. 뉴턴은 천체의 운동이나 물체의 움직임에 관한 자연현상을 모두 결정론적으로 설명하려고 하였다. 반면 예측이 불가능하고 무작위적인 것을 일명 '카오스'라고 한다. 실제의 자연현상은 결정론적인 것과 무작위적인 것이 복합되어 나타난다. 일상용어로 표현하면 우연과 필연이 공존하고 있는 것이다.


예) 버터 바른 빵이 식탁에서 떨어지는 예를 생각해 보자. 동전을 던지는 것과 달리 이 경우에는 앞뒷면이 결정되는 확률이 50%가 아니다. 우리가 제대로 인지하지 않고 있는 가정과 조건이 여럿 숨어 있기 때문이다. 식탁의 높이가 약 75cm이고, 빵의 크기가 약 15cm라는 가정, 지구 중력장의 크기가 9.8m/s2라는 조건, 그리고 빵과 식탁 사이의 마찰계수가 일정 범위 내에 있다거나, 주위에 공기유동이 거의 없다거나 하는 등의 가정들이 주어져 있고 버터 바른 면이 식탁위에 있을 때 항상 위를 향하고 있다는 조건하에 빵이 식탁에서 떨어지도록 가해진 외력이나 떨어지는 순간 빵과 식탁사이의 마찰력에 의하여 회전력 즉 토크가 발생된다. 이 토크에 의해 빵은 자유낙하하면서 일정 회전각속도를 갖고 돌게 된다. 

  결국 바닥에 닿을 때까지 몇 바퀴를 회전할 것인가 하는 것이 문제의 핵심이다. 물론 엎어져서 떨어진다는 것이 꼭 정확하게 180도를 회전한다는 것은 아니다. 회전각도가 90-270도 사이로 떨어지면 버터 바른 면이 바닥을 향한다.

  그림 2는 빵이 떨어지는 과정을 시뮬레이션 한 결과이다. 떨어지는 과정에서 외부   교란 변수에 따라서 회전각이 바뀔 수는 있다 (손으로 세게 쳐서 떨어지거나, 바람이 갑자기 분다거나) 하지만 270도를 넘거나 90도에 못 미치는 경우는 극히 드물다. 우리에게 주어진 조건하에서는 버터 바른 면이 바닥을 향하는 것은 우연이 아니라 그렇게 되게끔 결정되어 있는 필연인 셈이다. 

- 머피의 법칙에 대한 논리적 근거의 해답 : 뉴턴의 법칙이나 케플러의 법칙과 같이 완전한 과학법칙의 범주에 들지는 않아도 심리적, 통계적 현상이 복합되어 나타나는 일종의 과학 법칙이다. 또 나에게만 일어나는 재수 없는 법칙이 아니라 누구에게나 일어나는 보편적 법칙이다. 


③ 사례보기

- 우연에 대한 사례


 


여기 우연에 대한 특이한 사례가 있다.


 동생의 TEPS 접수를 대신하려고 동생한테서 TEPS홈페이지의 ID와 패스워드를 알아 놓은 것이 약 5일전.  온라인 접수가 간편하다고 하길래 별 걱정없이 홈페이지에 접속해 로그인을 했는데  5일 동안 줄곧 접수를 하려고 접수 수속을 밟을 때마다 중간에 갑자기 


 '주민등록번호가 잘못 되었습니다'  라고 나와 

 TEPS 시험본부에 전화를 해서 확인해 본 결과, 상황은 다음과 같았다.


 - TEPS 계정에는 동생의 것이 아닌 주민등록번호가 들어가 있음.


 - 가입시 가입자(동생 아님 本人)가 주민등록번호를 몇 자 틀리게 입력했는데, 그것이 실제로 존재하는 다른 주민등록번호와 일치한 것으로 보임.


 - 따라서 이름은 동생, 주민등록번호는 1~2자리 다른 다른 사람의 것으로 계정에 입력되어 있는 것임.


 - 가입시에는 주민등록번호의 유효성만 판단, 실제 이름과 주민번호의 일치확인은 시험접수시에만 하므로 이런 상황이 발생한 것임.


   

2. 확률


     1) 노벨 경제학상 루카스 교수

 1995년도 노벨 경제학상의 수상자로 '합리적 기대' 이론을 주창한 미국 시카고 대학의 루카스교수가 선정됐다. 그런데 이 소식을 듣고 루카스 교수의 전(前)부인인 리타가 더 좋아했다고 한다. 왜냐하면 노벨상 상금 100만달러 중에서 그 절반인 50만달러(약5억원)를 그녀가 차지하게 되었기 때문이다. 두 사람은 지난 88년에 합의 이혼했다. 리타는 "부인은 루카스 교수가 노벨상을 타는 경우 그 상금의 50%를 차지할 권리를 가진다"는 조항을 이혼합의서에 삽입했다. 수상 가능성이 낮다고 판단해서인지 아니면 빨리 이혼하고 싶어서인지는 몰라도 루카스 교수도 이 조항에 반대하지 않았다. 별 따기보다 어렵다는 노벨상의 수상가능성에 대해 당대의 석학과 그 부인이 주관적 확률로 대결을 한판 벌인 것이다. 그 후 7년이 지난 95년에 드디어 루카스 교수가 노벨 경제학상 수상자로 선정되었다. 리타의 '합리적 기대'에 바탕을 둔 주관적 확률이 루카스 교수의 것보다 더 정확했다는 것이 입증된 셈이다. 남편은 '합리적 기대' 이론으로 노벨상을 받게 되었고, 부인은 '합리적 기대' 이론을 주관적 확률계산에 적용하여 상금의 반을 차지하게 되었으니 역시 그 남편에 그 마누라였다. 루카스 교수는 신사답게 약속대로 상금을 전 부인과 나누었다. 루카스 교수가 지기는 했으나 법에 따른 전 부인의 합리적 기대를 어겼다면 그의 합리적 기대이론에 어울리지 않았을 것이다.


2) 개념설명

① 확률의 정의

- 확률이란 : “만약 이 일을 여러 번 실행하면 어떠한 일이 일어날 것인가”라는 의문에서 출발한다.  

- 확률의 예(동전 던지기) : 동전을 던지는 횟수가 늘어날수록 궁극적으로는 앞면이 나타날 확률은 0.5에 매우 가깝게 된다. 아래 자료는 실제로 동전을 던졌던 사람들의 실험 결과이다.

  위 결과와 같이 어떤 일이 오랫동안 되풀이해서 발생한다면 그 결과는 정규적인 분포를 갖게 되며 이것을 확률로 표시한다. 동전던지기에서 “앞면이 나올 확률은 0.5 ”라고 한다. 그것은 동전을 10번 던지면 반드시 5번 앞면이 나온다는 의미가 아니라 무한히 반복할 때 절반(0.5)이 앞면이 나온다는 의미이다.

- 확률의 예(죽음) : 우리는 어떤 사람이 내년에 죽을 것인가에 대해서 예측할 수는 없다. 그러나 만약 수백만 명의 사람들을 관측한다면 죽음에 대한 예측이 가능하다. 통계센터에서 20살에서 24살 사이의 남자가 어떤 해에 죽을 가능성이 0.0015이고(만 명 중 15명 사망) 동년배의 여자가 죽을 확률은 0.0005라고 하였다. 만약 어떤 보험회사에서 20살에서 24살 사이의 사람들에게 여러 가지 보험을 판매한다면, 남자에게 판매된 보험금의 약 0.15%(=0.0015)와 여자에게 판매된 보험금의 약 0.05%(=0.0005)는 내년에 사망할 누군가의 가족에게 지급될 것이다. 그러므로 남자에게는 여자보다 더 높은 금액의 보험료를 받아야 되는 것이다.

- 확률 0, 1에 관계 : 확률은 0과 1사이의 값을 갖는다. 확률이 0 이라는 것은 전혀 발생하지 않는 다는 것이고 확률이 1 이라는 것은 반드시 발생하는 것을 의한다. 1에 가까울수록 발생할 확률이 높고, 0 에 가까울수록 발생할 확률이 낮다고 한다. 동전을 던졌을 때 앞면이 나올 확률이 1 이라고 한다면 그 동전은 양쪽 다 앞면인 동전일 것이다.

- 개인적 확률 : 확률 중 앞에서 본 루카스 교수 부인과 같이 주관적인 판단으로 갖는 확률값을 개인적 확률이라고 한다. 우리들은 일상생활에서 개인적 확률을 많이 사용한다. 그래서 스포츠 경기에서 어느 팀이 이길 확률에 대한 사람들의 주장이 다 다른 것이다.

② 사례보기

  

  몬티 홀은 1960년대 말부터 대단한 인기를 끌었던 미국의 TV 쇼 프로그램의 사회자이다.


  이 프로그램의 진행방식은 다음과 같다. 무대에 커튼으로 가려진 3개의 문이 있는데 이 중 한 개의 문 뒤에는 비싼 상품(자동차나 밍크 코트 등)이 숨어있고, 나머지 두 개의 문 뒤에는 이상한 물건(애완견 먹이나 삐쩍 마른 염소)이 숨어 있다. 예를 들어, 출연자가 1번 문을 선택했을 때 사회자는 염소가 있는 2번 문을 열어 보이며 출연자에게 한 번의 기회를 준다. 하지만 출연자를 갈등하게 만드는 것이다. 사회자는 자동차가 어느 문 뒤에 있는지를 이미 알고 있다. " 여기 2번 문에 염소가 있습니다. 그렇다면 1번이나 3번 문 뒤에 당신이 갖고 싶어하는 자동차가 있겠군요. 아까 선택한 1번 문을 고집하시겠어요? 아니면 마음을 바꾸어 3번 문을 선택하시겠어요?" 출연자가 상품을 갖기 위해서는 사회자의 유혹대로 새로운 문으로 옮기는 게 유리할까? 아니면 최초에 선택했던 그 문을 고집하는 게 유리할까? 이것을 몬티 홀 딜레마 또는 몬티 홀 문제라고 부른다.

  매주 일요일마다 발행되는 잡지 [퍼레이드에는 [매릴린에게 물어보세요] 라는 고정 칼럼란이 있다. 매릴린은 현재 세상에서 가장 아이큐가 높은 것으로(IQ 228) 기네스북에 올라 있는 사람인데 1991년 9월에 한 독자가 매릴린에게 몬티 홀 딜레마에 관한 질문을 던졌다. 매릴린은 "새로운 문으로 옮기는 게 유리해요."라고 대답했다. 이후 엄청난 수의 독자들이 매릴린의 대답에 반응을 보였고, 그들 중 대부분은 매릴린의 판단이 틀렸다는 비판이었다. 비판자들 중에는 유명한 수학자들과 과학자들도 있었다. 1996년에 작고한 정수론의 대가 폴 에어디쉬도 이 문제를 한번 쓰윽 보고는 "그건 생각할 필요도 없는 거야. 다른 문으로 옮기든 원래 문을 고집하든 확률은 똑같을 테니까." 라고 대답했다고 한다. 폴 에어디쉬는 [우리 수학자 모두는 약간 미친 겁니다], [화성에서 온 수학자]라는 책을 통해 우리에게 잘 알려진 수학자이다. 


 경우를 따져보아서 과연 그런지 알아볼까요? 편의상 자동차가 1번 문 뒤에 있다고 할 때 출연자가 어느 문을 선택하는가에 따라 다음과 같은 경우가 있다.


  1) 출연자가 1번 문을 선택했을 경우 사회자는 2번(또는 3번) 문을 열어서 염소를 보여 줄 것이다. 이때 출연자가 1번 문을 고수한다면 당첨될(자동차를 타게 될) 것이고, 3번문으로 옮긴다면 낙첨될(염소를 보게 될) 것이다.


  2) 출연자가 2번문을 선택했을 경우 사회자는 3번문을 열어서 염소를 보여 줄 것이다. 1번 문을 열어줄 수는 없을 테니깐. 이때 출연자가 2번 문을 고수한다면 낙첨될 것이고, 1번 문으로 옮긴다면 당첨 될 것이다.


  3) 출연자가 3번문을 선택한 경우는 2)와 마찬가지이다.


  표로 정리하면 다음과 같다. 자동차가 1번 문 뒤에 있는 경우를 전제한 것이다.


  따라서 원래 문을 고수할 경우 자동차를 탈 확률은 1/3이고, 다른 문으로 옮길 경우 자동차를 탈 확률은 2/3이다. 매릴린의 판단이 옳았던 것이다.


  이 사실이 널리 알려져서 그 코너는 그 후 폐지되었다고 한다.



3. 내용정리


  • (확률)은 수없이 많은 반복 시행을 통해 얻는 결과에 대한 비율이다. 
  • 확률 ( 0 )은 전혀 일어나지 않음을 의미하고 확률 (1)은 항상 일어남을 의미한다. 
  • 확률은 (0)과 (1) 사이의 실수값을 가진다.





저작자 표시 동일 조건 변경 허락
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'교양기타 > 재미있는 기초통계' 카테고리의 다른 글

8. 6시그마 통계활용 사례보기  (0) 2012.12.05
7. 통계적 추론  (0) 2012.12.04
6. 우연에 대한 생각  (0) 2012.12.03
5. 관계 표현하기  (0) 2012.11.29
4. 숫자로 설명하기  (0) 2012.11.28
3. 그래프로 나타내기  (0) 2012.11.27

5. 관계 표현하기

교양기타/재미있는 기초통계 | 2012.11.29 00:30 | Posted by 깨비형

1. 산점도로 나타내기


1) 개념설명


① 관계

- 관계란? : 두 개의 변수 사이에 존재하는 관련성 정도와 영향력 크기를 추정하기 위해서는 변수 사이에 존재하는 관계식을 적절한 함수 형태로 도출해야 한다. 그러나 변수   사이에 확률적으로 존재하는 관계식을 함수 형태로 나타내는 것은 쉽지 않다.


② 관련성

- 관계, 관련성에 대한 예 : 날씨가 더우면 아이스크림 판매량은 당연히 증가한다. 그런데 기온이 섭씨 1도 올라감에 따라 아이스크림 판매량에 미치는 영향은 얼마나 될까? 이러한 물음에 올바른 해답을 간단히 구하기 어렵다. 왜냐하면 온도라는 변수뿐만 아니라 다른 변수에 의해서 아이스크림 판매량은 영향을 받기 때문이다. 온도를 독립변수 X 로, 아이스크림 판매량을 종속변수 Y 로 표기하고 두 변수 X 와 Y 에 대하여 조사한 결과 <표 1> 과 같다.



  두 변수 X 와 Y 의 자료 값을 평면좌표 상에 점을 찍어 그려보면 아래 그림처럼 나오는데 이것을 산포도(scatter plot) 또는 산점도라고 한다.



  이러한 산포도를 자세히 살피면 두 변수 사이에 3 가지 중요한 정보를 알 수 있다.


  첫째, 두 변수의 관계가 정의 관계 인지 역의 관계인지 알 수 있다. X가 증가할 때 Y 도 증가하면 정의 관계,X 가 증가할 때 Y 는 감소하면 역의 관계이다.


  둘째, 두 변수 관계가 선형인지 비선형인지 알 수 있다. 점들이 직선에 가까운 형태면 선형 관계, 선 모양으로 나타난다면 비선형 관계라고 볼 수 있다.


  셋째, 두 변수의 관련성 정도를 알 수 있다. 오밀조밀 뭉쳐 있으면 두 변수는 서로 관련성 정도가 높고 흩어져 있으면 관련성이 낮다.


   산포도에서는 두 변수 사이에 존재하는 관계를 시각적으로 보여 줄 수는 있으나 두 변수 사이에 함수관계는 알 수 없다.


③ 살펴보기

- 산점도를 그리는 방법

[1] 비교할 두 변수를 선정한다. 

[2] 자료를 수집한다. 

[3] 산점도를 작성한다. 

① 두 종류의 데이터를 하나는 X 축으로 다른 하나는 Y축으로 그린다.

② 수집한 데이터를 평면좌표 상에 위치를 표시(타점)한다

[4] 산점도의 형태를 보고 상관관계를 파악한다.


       아래는 키와 몸무게의 관계를 조사한 자료이다



  이 자료에 대한 산점도를 그려보면 아래와 같다.



※ 쉬어가기

<2008년 블루슈머 7>

  • 블루슈머 1 : 외동이 황금시대(Gold Kids) - 외동이들을 위한 차별화, 고급화 서비스 및 상품

        예) 어린이 전용 펀드 상품, 헬스 전문기구점, 미용실, 감성 놀이 학교


  • 블루슈머 2 : ‘부자처럼’ 2030(Almost Rich) - 2030 명품 소비층을 위한 매스티지 상품 및 서비스

        예) 실속형 수입차, 매스티지 상품


  • 블루슈머 3 : 여행과 레저를 즐기는 장년층(Passionate Senior) - 장년층에게 젊은 감성과 문화를 제공하는 상품과 서비스

        예) 미용성형, 두뇌게임, 실버여행, 오페라 


  • 블루슈머 4 : 新 부부시대(Married Romance) - 부부만의 추억과 실용을 강조한 상품과 서비스

        예) 리마인드 웨딩상품, 부부전용 금융상품


  • 블루슈머 5 : 요리하는 남편, 아이 보는 아빠(At Home Dad) - 남성 전업주부의 편의를 위한 상품

        예) 홈메이드 이유식기, 아이 울음 분석기, 남성 전용 기저귀 가방, 다기능 고무장갑, 반조리식품


  • 블루슈머 6 : 제3의 가족(Family-like Care) - 가족처럼 따뜻한 돌봄 서비스 및 상품

        예) 노인 말벗/산책 도우미, 방과 후 학습 지도 도우미, 노인을 위한 홈케어폰, 애완산업


  • 블루슈머 7 : 공포에 떠는 아이들(Scared Children) - 어린 자녀의 안전을 위한 상품 및 서비스

        예) 휴대폰 안심서비스, 경보기, 어린이 안전 관련 보험 및 경호서비스


  ※ 블루슈머 : 경쟁자가 없는 시장을 의미하는 블루오션(Blue Ocean)과 소비자(Consumer)의 합성어로 블루오션의 새로운 소비자


           

2. 상관관계 


1) 개념설명  

① 통계학적 상관관계   

- 상관관계란 : 이것과 저것이 '관계가 있다', 혹은 '관계가 없다'라는 표현을 자주 사용한다. 어떤 것들끼리의 관계는 통계적으로는 상관관계로 나타낸다. 

상관관계는 어떤 변수가 증가할 때 다른 변수가 함께 증가하는가 혹은 감소하는가를 관찰하여 파악한다. 

- 상관관계의 예 : 체중과 신장 사이에는 양의 상관관계가 있다고 할 수 있다. 키가 크면 대체적으로 체중이 증가한다. 또 어떤 상품의 가격과 수요 사이에는 음의 상관관계가 있다고 할 수 있다. 가격이 오르면 대개 그 상품에 대한 수요는 줄어들기 때문이다.



② 상관계수

- 상관계수란 : 상관계수는 -1에서 1 사이의 값을 갖는다. 상관계수가 음수면 음의 상관을, 양수면 양의 상관을 갖고, 상관계수가 0이라는 것은 서로 관계가 전혀 없음을 의미 하며  상관계수는 선형(linear)상관만을 측정하므로 상관계수가 0이라는 말은 선형관계가 존재하지 않는다는 것을 의미한다. 


③ 상관관계에 따른 관련성

- 상관관계에 따른 관련성 : 두 변수 사이에 정의 상관관계가 존재하면 상관계수는 양(+)의 값으로 타나고, 역의 상관관계가 존재하면 상관계수는 음(-)의 값을 갖는다. 그리고 상관계수 값이 ±1 에 가까울수록 매우 강한 관련성이 있다. 한편 상관계수가 0 에 접근하면 두 변수 사이에는 관련성이 거의 없다.

- 상관관계에 따른 관련성의 예 : 오래 전부터 사람들은 상관관계의 개념을 이해하고 생활에 적용해 왔다.

  소크라테스는 그의 악처가 발작하기전 재채기를 한다는 것을 알아서 아내가 재채기를 하면 집을 빠져나갔다고 한다. 개인으로부터 시작된 유사한 경험이 다른 사람에게도 반복되면 모든 사람에게 해당되는 징조로 발전하는데 거울이 깨지면 나쁜 일이 일어난다든가, 상여가 지나가는 것을 보면 좋은 일이 일어난다든가 하는 것이다. 또 다른 예를 들면 일반적으로 발이 큰 사람은 손도 크고, 손이 작은 사람은 발도 작지만 사람의 발 크기는 머리카락 개수와는 관련성이 거의 없다. 한편 어떤 기업의 광고비와 매출액 사이에는 관련성이 있으나 광고비와 신기술 개발과도 관련성이 깊다고 이야기 할 수 없다. 이러한 상관관계에 대한 추측은 더 많은 데이터를 근거로 판단되어지고 세련된 체계를 갖추게 된다.

- 상관계수와 상관관계



- 상관관계를 나타내는 그래프


         

                                       ①                                               ② 

① 두 변수간의 상관관계가 높다고 평가할 수 있다.(연관성 높음) 이런 형태로 기울기가 반대라면 그것은 음의 상관관계가 높다.


② 두 변수의 상관관계가 낮은 경우에는 그 분포가 원에 가까워 진다. 이 그래프에서는 상관관계가 낮다고 볼 수 있는데 그래도 원형이 아니라 어느 정도 분포가 나타나므로 이러한 경향이 있다는 것 자체가 사회과학에서는 중요한 의미를 가질 수 있다. 


    

                   ③                                         ④                                           ⑤ 

③ 두 변수가 직선의 관계이면 상관계수는 ±1이 되고 완벽한 상관관계라고 하는데 두 변수간의 관계가 상당한 연관성이 있다. 하지만 이런 경우는 거의 드물다. 방향에 따라 한 쪽이 증가할 때 다른 한 쪽도 증가하면 양의 상관관계, 한쪽이 증가할 때 다른 한 쪽이 감소하면 음의 상관관계라고 한다. 


④ ∪자와 ∩자, ―자,|자 등도 상관관계가 없다. 그러나 ∪자와 ∩자의 형태가 나타나는 경우에는 상관비(η, 이타)등을 구해야 한다. 우선 두 변수가 선형관계를 얼마나 갖는지, 선형관계를 갖는다면 어느 방향인지, 그 관계는 얼마나 큰지를 분석한다. 


⑤ 이 그래프의 경우 두 변수 간에 상관관계가 없다.



3. 상관관계 vs 인과관계


1) 개념설명 


① 상관관계 vs 인과관계

- 상관관계와 인과관계 분석의 오류 : 상관관계를 분석하는 것들은 어떤 것들의 사이가 밀접하다는 것만을 나타내며 어느 것이 원인이고 어느 것이 결과인지는 아무런 증거도 제공하지 않는다. 문제는 상관관계를 제대로 이해하지 못하는 사람들이 종종 상관관계가 인과관계를 나타낸다고 가정하는 데 있다. 즉 상관이 있으면 그 중의 하나가 원인이 되고 다른 것은 그 원인으로 인해서 생기는 결과라고 해석하는 잘못을 범하는 것이다.

- 상관관계와 인과관계 분석 오류를 범한 예 : 한 스포츠 평론가가 칼럼에서 승률이 나쁜 대학 미식축구팀은 감독을 너무 쉽게 해고한다고 주장했다. 그는 감독을 자주 바꾼 대학이 한 사람이 오래 감독한 대학보다 승률이 낮다는 통계 자료를 제시했다. 그러나 감독을 바꾸는 것이 팀이 지는 것의 원인이 될 수는 없다. 즉 원인과 결과는 반대인 것이다. 팀이 계속 지게 되면 그 다음에 감독을 갈아치우게 되므로 감독의 해고는 연패의 결과인 것이다.


2) 사례보기

① 아이스크림 판매수량과 소비전력

 

6월~9월까지 매일 아이스크림 판매수량과 소비전력을 조사 


- 상관관계는? → 있다.(양의 상관관계)

- 인과관계는? → 없다


○ 아이스크림 판매수량 → 소비전력(X)

○ 소비전력 → 아이스크림 판매수량(X)

○ 기온 → 아이스크림 판매수량(O)

○ 기온 → 소비전력(O) 



4. 내용정리


  • (산점도)는 같은 척도로 측정된 두 양적변수에 대한 관계를 나타낸다.
  • 산점도의 기울기가 왼쪽에서 오른쪽 방향으로 위를 향하면 (양의 연관성)을 갖고, 왼쪽에서 오른쪽 방향으로 아래를 향하면 (음의 연관성)을 갖는다.
  • (상관계수)는 두 양적 변수의 직선적인 관계에 대한 방향과 강도를 나타낸다.  
  • 상관계수는 알파벳 r 로 표시하며 상관계수의 값은 (-1)에서 (1) 사이의 값을 갖는다. 즉 상관계수는 -1보다 작거나 1보다 큰 값을 가질 수 없다.
  • 상관계수는 단지 두 변수의 직선적인 연관성만을 나타낼 뿐 (인과관계)를 나타내는 것은 아니다.






저작자 표시 동일 조건 변경 허락
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'교양기타 > 재미있는 기초통계' 카테고리의 다른 글

7. 통계적 추론  (0) 2012.12.04
6. 우연에 대한 생각  (0) 2012.12.03
5. 관계 표현하기  (0) 2012.11.29
4. 숫자로 설명하기  (0) 2012.11.28
3. 그래프로 나타내기  (0) 2012.11.27
2. 통계에서의 실험계획  (0) 2012.11.21

4. 숫자로 설명하기

교양기타/재미있는 기초통계 | 2012.11.28 12:00 | Posted by 깨비형

1. 퍼센트 이야기 


1) 개념설명

① 퍼센트의 개념 

  누구나 알고 있는 퍼센트(%) 이야기 : 초등학교에서 "기준량을 100으로 보았을 때, 비교하는 양을 나타낸 수를 백분율 또는 퍼센트라고 하고 기호 %로 나타낸다"하고 배웠다.

  50에 대한 20의 퍼센트는 다음과 같다.



  '무엇에 대한' 퍼센트라고 표현할 때, 그 '무엇'이 언제나 기준이 되며 이 기준은 퍼센트를 계산할 때 분모가 된다.


- 퍼센트의 유용성 : 퍼센트는 2개 혹은 그 이상의 숫자의 상대적 크기를 명확하게 하기 위해 주로 사용된다.


- 퍼센트의 예 : A회사가 한 해 지출하는 비용이 3억2134만5000원인데 그 중에서 광고비가 3512만 3000원이라고 말하는 것보다 (전체 비용을 100으로 할 때) 광고비가 11%라고 표현하는 것이 전체 비용에 대한 광고비의 상대적인 크기를 더 쉽게 이해할 수 있도록 하는 방법이다. 




② 퍼센트의 기준

- 퍼센트를 혼동하는 이유 : 퍼센트에 많이 헷갈리는 이유는 퍼센트 기호(%)가 주는 수학적, 과학적, 논리적인 인상으로 퍼센트를 그대로 받아들이기 때문이다.



▲ 우리는 인형의 50%라는 말을 듣고 무의식적으로 인형갯수의 반이라고 생각한다. 계산된 퍼센트의 수치를 은연중에 받아들이고 그대로 가늠해 버리는 것이다.


- 퍼센트 혼동의 예 1

  어떤 상품의 가격이 100원에서 150원으로 올랐다고 할 때 인상률은 얼마일까? 인상률을 계산할 때는 원래 가격을 기준으로 퍼센트를 계산해야 한다. 왜냐하면 원래 가격보다 몇 퍼센트 올랐는가가 관심의 대상이기 때문이다.

  따라서 아래와 같이 계산하면 인상률은 50%가 된다.



  그러나 50%의 인상률은 소비자들에게 가격이 너무 많이 올랐다는 인상을 준다. 그렇다면 인상률을 낮추는 방법은 무엇일까? 그것은 바로 퍼센트를 계산하는 기준(분모)을 살짝 바꾸면 된다. 그러면 인상률은 33%로 낮아지게 된다. 

                   


- 퍼센트 혼동의 예 2

  만약 어느 회사의 사장이 다음과 같은 말을 했다면 그 말이 맞는 것일까?

  "종업원의 임금을 50% 인하하였더니 불평이 많아서 다시 50% 올려 원래대로 하였다." 이 말은 듣는 사람들에게는 임금이 원래의 임금으로 돌아간 것 같은 인상을 주  지만 실제로는 그렇지 않다. 100원의 월급에서 50%를 깎으면 50원이 되고 다시 50원의 월급에서 50%를 올려 주면 75원밖에 되지 않는다. 

  따라서 사장의 말은 틀린 것이며 50%의 인하를 상쇄하기 위해서는 100%를 인상  해야 원래의 임금으로 돌아가는 것이다. 



- 퍼센트를 따질 때 유의할 점 : 무엇에 대한 퍼센트인지, 기준이 제대로 적용되어 있는지를 항상 따져 보아야 한다.


③ 퍼센트가 계산된 실제 숫자의 중요성

- 사례 : 치안 예산을 올리고 싶은 어느 시골마을의 경찰 관리는 살인사건이 지난 한 해 동안 67% 증가했다고 근거를 댑니다. 살인사건이 67%나 증가했다면 그 마을에 강력범죄가 극성을 부리는 것 같지만 실제로는 살인사건이 3건에서 5건으로 증가한 것 뿐 일수도 있다. 퍼센트를 대할 때는 퍼센트가 계산된 실제숫자를 알려고 해야 한다. 

            


④ 잘못된 사례

- 미국의 실제 사례 : 미국에는 3000여개의 대학이 있는 데 거의 모든 대학이 남녀공학이다. 20~30년 전부터 남자 혹은 여자대학이 성차별을 금지하는 추세에 따라 남녀공학으로 바꾸어 왔다. 전통이 오래된 남자대학에서는 동창회를 중심으로 여성의 입학을 강하게 반대했다. 볼티모어에 있는 존스 홉킨스(Johns Hopkins)대학에서도 논란 끝에 여성 입학을 허용했는 데 반대하는 쪽에서는 여학생의 33.3%가 교수와 결혼을 했다고 그 단점을 강조했다. 여학생의 33.3%가 교수와 결혼을 했다면 대단한 뉴스 같지만 실제로는 처음으로 입학한 세 명의 여학생 중 한 명이 교수와 결혼한 것이었다.


2) 세상에서 가장 신비로운 수


 세상에서 가장 신비한 수는 142857 이다.  평범해 보이는 이 수가 왜 그렇게 신비한 걸까?? 


 1.142857에 1부터 6까지 차례로 곱해보자. 숫자가 나오는 순서가 같다.

 2. 그러면 142857 에 7을 곱하면 얼마일까? 답은 놀랍게도 999999 이다. 

 3. 마지막으로 142857 을 제곱하면? 142857 을 제곱하면 20408122449 라는 수가 나오는데

    다섯 자리씩 나누어 더하면 20408 + 122449 = 142857 이 된다.

 ※ 1/7을 소수로 변환하면 0.142857이 무한 반복된다. 여기서 142857의 수가 나왔다.

              

※ 쉬어가기   

 "세상에는 세가지 거짓말이 있다.
 거짓말, 새빨간 거짓말, 그리고 통계 이다
"

 통계의 속성을 비꼬는 말로 자주 거론되는 명언이다.

 사람들은 정확한 자료인 것처럼 그럴듯한 통계수치를 제시하면 확인해보지도 않고 믿어버리는 경향이 있다. 때문에 우리는 통계에 대한 기본적인 지식이 필요하다.



2. 자료의 특성 


1) 통계학이란?

① 통계학의 분류



- 기술통계학과 추측통계학으로 나뉜다.

- 기술통계학은 주어진 자료의 여러 특성을 수치로 나타내는 방법으로 평균, 분산 등이 여기에 속하며 주로 사회통계, 경제통계에 응용된다.(KTX 연간이용인원, 연평균 증가율)

- 추측통계학은 주어진 자료로부터 미래의 불확실한 상황을 예측, 추론하는 것으로 모집단, 표본 등이 있으며 사회조사, 시장조사, 여론조사 등에 응용된다.(2011년 수도권 인구비중이 50.1%라는 자료)

- 일반적으로 기술통계학은 추측통계학의 전 단계 분석이다. 


2) 개념설명


① 평균

- 평균이란 : 산술평균으로 측정된 값들의 합을 측정 개수로 나눈 값으로 우리가 일상생활에서 가장 많이 사용 평균은 쉽게 계산/이해되는 장점이 있는 반면 극단적인 값에 영향을 받는다.

- 평균의 예 1

  A우체국 월 평균 민원접수건수 8, 6, 4, 7, 6, 5을 모두 더하면 36, 6으로 나누면 월평균 6건이고 B우체국은 6, 4, 1, 5, 18, 2를 모두 더하고 6으로 나누면 월평균 6건으로 두 우체국의 월평균 민원접수 건수는 똑같다.

  만약 두 우체국에 월평균 민원접수 건수를 5건 이하로 줄이라는 목표가 떨어졌다면 A우체국과 B우체국이 같은 방법으로 문제를 해결할까?

  아마도 B우체국이라면 5월에 왜 18건의 민원이 접수되었는지 분석해보고 문제점을 파악하려 할 것이다. 이렇게 특이하게 다른 자료를 보통 이상치라고 한다.



- 평균의 예 2

  A국가와 B국가 모두 평균 국민소득은 똑같이 2만불인데 A국가는 평균 2만불 소득의 중산층이 많고 극빈층과 고소득층이 적어서 안정된 종모양을 이루고 있으나 B국가는 빈부의 격차가 심해 중산층이 적고 평균소득이하의 저소득층과 극빈층이 많아 종모양이 아니다. 두 나라의 평균은 같지만 실제 자료의 분포는 이렇게 판이하게 다를 수 있다. 이렇듯 평균은 자료에 이상치가 있는지 자료가 종모양의 분포인지 꼭 확인해야 한다.


            

                             ▲ A나라 국민소득                        ▲ B나라 국민소득


② 중앙값

- 중앙값이란 : 측정된 값들을 크기 순서대로 정렬했을 때 중앙에 위치하는 값으로 측정된 개수가 짝수개이면 중앙 두 개 값의 평균으로 구한다.

- 중앙값의 장.단점 : 극단적인 값에 대해 왜곡되지 않는 장점이 있지만 수학적 특성이 결여되는 단점이 있다.


③ 최빈값

- 최빈값이란 : 측정된 값들에서 가장 많이 나타나는 즉 빈도가 가장 많은 값을 말한다.

- 최빈값의 예 

  A우체국의 최빈값은 6이고 B우체국은 모두 1번씩만 나타나므로 최빈값이 없다.



- 평균, 중앙값, 최빈값의 일치하는 경우 : 학급에서의 영어성적, 몸무게, 키 등과 같이 대부분 좌우대칭의 종모양으로 이루어 질 때 평균, 중앙값, 최빈값은 일치한다.

- 평균, 중앙값, 최빈값의 일치하지 않는 경우 : 야구선수들의 연봉과 같이 고액연봉을 받는 몇몇의 스타급 선수와 준 스타급 선수, 그리고 대부분의 일반 선수들로 구성된 분포는 종모양의 분포를 이루지 않기 때문에 평균, 중앙값, 최빈값이 일치하지 않는다.


④ 잘못된 사례

- 신문기사

   어느 신문에서 음주운전에 대한 다음과 같은 보도를 하였다.
  "주말의 음주 증가 때문에 치명적인 사고 중 42%가 금요일, 토요일, 일요일에 발생하였다.”이 기사에 대해서 어떤 생각을 하는가? 이 3일 동안에 치명적인 사고의 42%가 발생했다는 것이 놀라운 사실인가? 하지만 금요일 토요일 일요일이 일주일(월, 화, 수, 목, 금, 토, 일)의 몇 %를 차지하는지 계산해 보면 42.8%를 차지하고 있다. 이 기사는 기사거리  라고 볼 수 없는 것이다.



3. 내용정리


 
  • 통계학에는 (기술통계학)과 (추측통계학)이 있다. 
  • (평균)은 산술평균으로 측정된 값들의 합을 측정 개수로 나눈 값이다
  • (중앙값)은 측정된 값들을 크기 순서대로 정렬했을 때 중앙에 위치하는 값이다.
  • (최빈값)은 측정된 값들에서 가장 많이 나타나는 즉 빈도가 가장 많은 값을 말한다.





저작자 표시 동일 조건 변경 허락
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'교양기타 > 재미있는 기초통계' 카테고리의 다른 글

6. 우연에 대한 생각  (0) 2012.12.03
5. 관계 표현하기  (0) 2012.11.29
4. 숫자로 설명하기  (0) 2012.11.28
3. 그래프로 나타내기  (0) 2012.11.27
2. 통계에서의 실험계획  (0) 2012.11.21
1. 자료와 표본조사  (0) 2012.11.20

3. 그래프로 나타내기

교양기타/재미있는 기초통계 | 2012.11.27 00:00 | Posted by 깨비형

1. 그래프의 종류 


1) 그래프의 종류

① 막대그래프 :  통계자료의 크기만큼 막대 모양으로 그린 그림, 통계 자료의 크기 비교

② 꺽은선 그래프 : 통계자료의 크기를 선으로 이어 그린 그림, 시간의 흐름변화 표현

③ 원 그래프 : 원을 통계 자료의 크기에 비례하여  중심각을 나누어 피자의 조각같은 형태의 그림, 전체에서 차지하는 비율

④ 띠 그래프 : 각 부분의 비율을 띠의 길이로 나타낸 것, 전체에 대한 부분의 비율을 잘 나타낸 것

⑤ 사각형 그래프 : 부분과 전체, 부분의 비율을 파악하기 쉬움, 그래프로부터 백분율을 직접 구할 수 있음

⑥ 히스토그램 : 계속되는 자료에 이용함. 여러 개의 계급구간으로 나누므로 자료의 종류가 많을 때 사용

⑦ 그림그래프 : 구체적인 실물을 본 딴 그림을 나타내므로 한 눈으로 보기 쉽고 의미를 알 수 있음


2) 그래프의 종류 설명

① 막대그래프 : 한 축에 눈금을 표시하여 통계자료의 크기만큼 막대모양으로 그린 그림으로, 자료의 크기를 서로 비용하는데 아주 유용함

 

 ▶ 이 그래프는 각 단위가 동일한데도
     각 비율이 
서로 틀림

 ▶ 비율이 맞지 않아 임의로 그래프 길이를 

     그렸다고 판단

   ▶ 이 그래프는 크기 순으로 배열하여 

       그래프를 한눈에 알아 볼 수 있게 표현

 

 ▶ 이 그래프는 정확한 수치를 나타내야
     하는
데 아래 막대 그래프의 경우 

     퍼센트가 100%가 되지 않음 

 ▶ 크기 순으로 배열이 되었으면 좋음

   ▶ 조사대상의 복수응답을 포함하고
       있으므로 
정확한 그래프 자료라고
       할 수 없음

 

 

 ▶ 상징적인 그림이 나옴으로 인해서 보기 

     좋고, 이해하기 쉬움

   ▶ 모니터 안에 그래프가 들어감으로써

       전체적으로 독특한 형태의 그래프로 

       표현됨

 



② 원 그래프 : 통계 자료의 크기에 비례하여 중심각을 나누어 피자의 조각을 나눈 것과 같은 형태를 갖도혹 하는 그림으로 전체에서 차지하는 비율

▶ 첫 번째 그래프 : 복잡한 내용의 원 그래프로 30.94%를 100으로 봐야하기 때문에 보기도 어렵고 이해하기도 쉽지 않다.

▶ 두 번째 그래프 : 수치값을 모두 더하면 96.1%로 100%가 되지 않아 수치의 정확성이 떨어지는 그래프

▶ 세 번째 그래프 : 원 그래프를 입체적으로 나타낸 점은 좋으나 크기순 배열이  되지 않아 한눈에 그래프가 들어오지는 않음

▶ 네 번째 그래프 : 입체적으로 그려진 것까지는 좋았으나 비스듬하게 그려짐으로써 각각의 크기가 왜곡되어 보일 수 있음


③ 기타 그래프

▶ 띠 그래프

 

 가운데 값 (매도세<매수세)과 끝 값

(매도세=매수세)을 정확히 알기어려움


▶ 꺽은선 그래프 

 

 각 값에 맞지 않는 높이를 가지고

 있어 왜곡되어 있다고 볼 수 있음

 

 X축에 해당하는 값들이 너무 일정하지

 않음

 

 그래프 내용에 맞게 차도와 자동차로
 표현되어 있어 보기에 좋음


▶ 혼합 그래프 

 

 꺽은선 그래프와 막대 그래프가 같은
 X축에 해당하는 값을 가지고 있으나
 각 지점이 명확하지 않아 보기에 불편함

 

 꺽은선 그래프의 경우 명확한 지점의

 표시가 있어야 보기에 더 좋음


3) 사례 보기


 똑같은 자료이지만 오른쪽 그래프로는 공무원봉급이 급상승 중이라고 주장할 수 있음


  똑같은 공무원의 봉급 그래프가 이렇게 보이는 까닭은?

  • 세로축의 눈금을 바꿈으로써 보여짐
  • 똑같은 자료를 가지고 왼쪽의 그래프로는 공무원 봉급이 상승 중이라고 주장할 수 없지만 오른쪽 그래프로는 공무원봉급이 급상승 중이라고 주장할 수 있음



2. 히스토그램

   

1) 히스토그램 

▶ 히스토그램 : Data가 어떠한 값을 중심으로 어떻게 산포하고 있는가 조사하는데 사용

중심위치 뿐 아니라, 산포 등 변동의 패턴을 파악하기가 쉬움

▶ 작성절차

Data수집 -> 계급수 결정 -> 계급구간 결정 -> Histogram작성


2) 레이터차트

▶ 레이터차트 : 평가항목이 여러 개일 경우 사용

 항목 수에 따라 원을 같은 간격으로 나누고, 그 선 위에 점을 찍고 그 점을 이어 항목별 균형을 한눈에 볼 수 있도록 해주는 그림



※ 참고사항

(1) 그래프를 볼 때 주의할 것

① 시각적 효과를 높이기 위해 그림그래프를 사용하여 실제 변화보다 더 과장 또는 축소하여 변화를 나타내고 있지 않은지... 

② 수직축의 눈금 때문에 결과가 과장 또는 축소되어 보여지는 것은 아닌지... 

(2) 올바른 그래프 그리는 방법

① 변수, 변수의 단위, 자료의 출처를 나타내는 분류표시와 범례를 확실히 표현 

② 자료를 명확히 나타냄 - 자료, 배경 등을 명확히 함 

③ 시각적 효과에 주의 - 그림그래프를 피하고 신중하게 눈금을 선택하여 간단한 변화의 의미도 명확히 함 

(3) 우리나라 언론매체통계 그래프의 잘못된 사용형태

● 자료의 크기가 그래프의 크기가 비례하지 않는다

● 시계열 그래프에서 시간축의 눈금 간격이 일정하지 않다.

● 같은 시간대의 비교를 하지 않는다.

● 그래프에서 자료가 빠져 있다.

● 그래프에서 수직축의 눈금이 중간에서 변경되거나 그래프의 줄임표시가 있다.



3. 내용정리


 
  • (막대그래프)는 통계 자료의 크기를 서로 비교하는데 좋다. 
  • (꺽은선 그래프)는 시간이 흐름에 따라 변해 가는 모습을 나타내는데 좋다. 
  • (원 그래프)는 전체에서 차지하는 비율을 살펴보는데 좋다. 
  • (히스토그램)은 자료를 여러 개의 계급구간으로 나누어 자료의 분포를 보고자 할 때 사용한다. 
  • 히스토그램을 그리기 위해서는 먼저 (도수분포표)를 작성합니다.





저작자 표시 동일 조건 변경 허락
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'교양기타 > 재미있는 기초통계' 카테고리의 다른 글

6. 우연에 대한 생각  (0) 2012.12.03
5. 관계 표현하기  (0) 2012.11.29
4. 숫자로 설명하기  (0) 2012.11.28
3. 그래프로 나타내기  (0) 2012.11.27
2. 통계에서의 실험계획  (0) 2012.11.21
1. 자료와 표본조사  (0) 2012.11.20

1. 실험계획  


1) 실험사례

  1975년 펩시콜라 임원이던 래리 스미스(Larry Smith)는 코카콜라를 이기기 위해서 이미지나 감정에 호소하는 것 보다는 코카콜라와 제품 대 제품으로 비교하는 직접적인 방법이 필요하다고 주장했다. 이렇게 하여 텍사스 댈러스에서 시작된 펩시챌린지는 일종의 블라인드테스트(blind test)로 소비자에게 브랜드를 보여주지 않고 펩시콜라와 코카콜라 중 맛이 좋은 콜라를 선택하도록 하고 이를 몰래 카메라로 촬영하여 광고에 활용한 것이다.

  결과는 펩시의 승리였다. 블라인드 테스트에 응한 소비자의 52%가 펩시에, 48%가 코카콜라에 손을 들어준 것이다.

  이 광고 후 이 지역에서의 펩시 시장점유율은 6%에서 14%로 수직 상승했으며 펩시콜라는 펩시챌린지 캠페인을 점차 다른 지역으로 확대 실시하였고 1980년대에는 미국뿐만 아니라 전 세계에서 펩시챌린지 광고를 볼 수 있게 된다.


2) 개념설명

① 실험계획의 개요 

▷ 실험이란 : 과거의 경험에만 의존하면 과거에 경험 못한 새로운 사태에 직면할 때 큰 실수를 범할 수도 있고 발전이 지체한다. 때문에 적극적으로 새로운 경험을 추구하여 현상을 보다 발전적으로 전진시키려 하는데 그것이 바로 실험이다.

② 실험계획법이란? 

▷ 실험계획법의 정의 : 실험에 대한 계획방법. 해결하고자 하는 문제에 대해 실험을 어떻게 행하고, 데이터를 어떻게 취하며, 어떠한 통계적 방법으로 데이터를 분석하면 최소의 실험 횟수에서 최대의 정보를 얻을 수 있는가를 계획하는 것이다.

▷ 실험계획법의 중요한 점 : 실험을 통해 수집한 데이터를 어떻게 분석 하는가도 실험계획법의 중요한 한 축을 이룬다. 하지만 잘못된 실험을 통해 얻은 데이터를 아무리 분석해도 가치 있는 정보를 얻을 수 없다. 따라서 실험 데이터의 해석방법 이전에 어떻게 실험하여 가치 있는 데이터를 얻을 것인가를 중요시해야 한다.

▷ 실험계획법의 활용 : 1920년대에 영국의 R. A. Fisher(1890~1962)에 의해서 기초가 마련되고 농업시험에서 주로 활용. 의약품이나 독극물의 동물실험, 임상실험, 음식물 맛보기 실험(관능검사), 시장조사에도 활용하는 등 그 활용범위가 계속 확대되고 있다.

③ 실험계획법의 목적과 진행 순서 

▷ 실험계획법의 목적 : 실험에 영향을 미친다고 생각할 수 있는 많은 과학적인 원인에 대하여 어느 정도의 유의한 영향이 있는지, 어떤 조건에서 가장 바람직한지 등을 알아내고자 하는데 그 목적이 있음

▷ 실험계획법의 순서 : 실험을 계획 → 데이터를 분석 → 실제적용 시키는 일련의 과정은 일반적으로 다음과 같은 순서에 따른다. 이를 아래와 같이 일곱 단계로 나누어 볼 수 있다.


이러한 실험계획순서는 실제로 연구 분야나 생산 분야에서 더 많이 사용되고 있으며, 실험  계획을 위해 지켜야할 기본 원리 등 훨씬 복잡한 이론들이 있다. 

④ 잘못된 사례

- 온라인 수업과 강의실 수업(사례) : 미국의 한 대학에서 온라인 강의에 관한  연구를 실시하였다. 학생들 스스로 강의실 수업과 온라인 수업을 선택하여 듣게 한 후 학습결과를 측정 하였다. 그 결과 학부 수업을 온라인으로 듣는 것과 강의실에서 듣는 것에 차이가 없다고 주장했다. 


* 연구결과 혹은 성과를 측정하는 변수 : 반응변수

* 실험에 있어 연구되는 개체 : 실험대상

* 반응변수의 변화를 일으키는 혹은 설명하는 변수 : 설명변수


○ 위의 연구는 실험이라고 할 수 없다. 그 이유는 무엇인가?

▷ 대학생들 스스로 수업방식을 선택하게 하였으므로 어떤 처리도 이루어지지 않아 실험이라고 할 수 없다.(현상에 대한 관측만 있었을 뿐이다.)

▷ 강의 시작 전 테스트에서 온라인 수업방식을 선택한 대학생들의 평균성적이 강의실 수업을 선택한 대학생들보다 더 높았다.

○ 위의 연구가 실험이 되려면 어떻게 해야 하는가?

▷ 연구자가 대학생들 일부는 강의실 수업을 듣게 하고 나머지 학생들은 웹에서     수업을  받도록 하는 것이다.


<쉬어가기>

  영국수상을 지낸 디즈레일리(Disraeli)는 항상 통계수치를 인용하는 것으로 유명했다.

  국회에서 의원들의 날카로운 질문에 대해 각종 통계수치를 조목조목 인용해 대답함으로써 의원들의 예봉을 잘 피해 나갔다고 한다.그리고 대답을 할 때마다 그는 항상 메모지를 보면서 각종 통계수치들을 인용했다고 한다. 디즈레일리 수상이 국회에서 답변을 하던 어느 날에 일어난 일이었다. 수상은 그 날도 그의 특기를 살려서 숫자가 포함된 조리있는 대답으로 의원들의 말문을 막았다. 그런데 수상이 자기 자리로 돌아올 때 실수를 해 그의 메모지를 바닥에 떨어뜨렸다. 그러자 수상의 통계수치 인용에 대해 평소에 감탄(?)해온 한 호기심 많은 국회의원이 그것을 주웠다. 그 의원은 도대체 메모지에 무엇이 써 있을까 하는 것이 매우 궁금했던 것이다. 메모지를 본 의원은 깜짝 놀랐다. 수상이 열심히 들여다보며 참고를 했던 메모지는 숫자 하나 적혀있지 않은 백지였던 것이다.



2. 실험


1) 실험사례

  앞에서 본 펩시챌린지에서 참가자들은 두 눈을 가리고 두 종류의 콜라를 시음한 후 선택을 하도록 하였다. 이 실험에서 펩시측에서는 코카콜라 소비자들이 어떤 콜라인지 상표를 보지 않고 시음을 한다면 펩시콜라를 더 선호한다는 것을 보이길 원했습니다. 처음에는 코카콜라를 즐겨 마신다고 말한 모든 사람들에게 상표를 알 수 없도록 미리 컵에 담아 놓은 두 종류의 콜라를 시음하게 한 후 어떤 것을 더 좋아하는지 알아보았는데 펩시를 선택한 사람들이 더 많은 결과가 나타났다. 이 실험에서 펩시콜라가 담긴 컵은 M, 코카콜라가 담긴 컵은 Q와 같이 서로 다른 문자로 미리 표시되어 있었다. 이 실험 결과를 놓고 코카콜라측에서는 잘못된 실험이라고 주장하였고,  펩시측에서는 참가자의 눈을 가리고 실험을 해서 같은 결과를 가져왔고 이를 광고로  활용하였습니다.


○ 코카콜라측에서 잘못된 실험이라고 주장한 이유는 무엇일까요?

▷ 콜라의 종류를 구분하기 위해 컵에 표시해 놓은 알파벳 문자 때문이다. 실험참가자들은 Q라는 알파벳보다 M을 더 선호한다는 것이다. 물론 그 주장이 약간 억지처럼 보일 수 있으나 전혀 배제할 수 없는 주장이므로 이 실험은 블라인드 테스트(눈을 가린 채 콜라의 맛을 보고 선택하는 것)로 변경된 것이다. 


2) 개념설명

① 잠재변수에 대한 교락

- 교락이란 : 두 가지 이상의 요인효과가 서로 섞여서 각 효과들을 분리할 수 없는 경우 즉, 실험자가 독립변수와 종속변수간의 관계를 설명하는 여러 대안들을 논리적으로 선별할 수 없는 경우이다.  

- 교락에 대한 잘못된 예 : 의약회사가 200명의 자원 피실험자(남자100명, 여자100명)를 대상으로 새로운 감기약을 시험했다고 하자. 남자에게는 약을 주고 여자에게는 약을 주지 않았다. 시험이 끝날 때, 남자 중에 감기 걸린 사람이 더 적었다고 하자. 이 실험에서는 전혀 제어를 하지 않아 많은 변수의 효과가 교락 되었고, 약의 효과가 있는지 여부를 말할 수 없다. 예를 들어 약의 복용과 성별의 효과가 교락되었다. 실험기간 동안 남성은 잘 안걸리는 특정 감기 바이러스가 유행했을 수도 있고, 신약 효과가 전혀 없을 수도 있다. 또는 남성은 위약효과를 나타낸 것일 수도 있다.

-위 실험에 대한 제어 : 먼저, 남성과 여성을 처리 조건에 임의로 배정한다. 대조군으로 위약을 주고 눈가림을 하고, 다른 처리조건은 약을 준다. 그 후에 약을 받은 그룹이 대조군에 비해 감기 걸린 사람이 충분히 적다면 약이 감기를 예방하는데 더 효과적이라고 결론내리는 것이 타당할 것이다. 

-표본조사에서 직면하는 문제 : 무응답(만나기는 했지만 응답을 거부하는 경우도)이다. 시대가 발전함에 따라 사람들은 점덤 더 질문에 대답하기를 원하지 않는 경향이 있는데 특히 전화 질문에 대해서 그렇다. 무응답으로 인해 애써 추출한 표본이 한 쪽으로 치우칠 수가 있다.



3. 내용정리


  • (반응변수)는 실험에서 연구 결과 혹은 성과를 측정하는 변수이다. 
  • (설명변수)는 실험에서 반응변수의 변화를 일으키는 혹은 설명하는 변수이다. 
  • (잠재변수)는 변수들 관계에 중요한 영향을 주지만 설명변수나 연구에 포함되지 않은 변수를 말한다. 
  • (교락)은 반응변수에 영향을 주는 두 변수의 효과를 구별해 낼 수 없는 경우를 말하는데 교락된 변수는 설명변수일 수도 있고 잠재변수일 수도 있다.
  • 임상실험에서는 (위약효과)가 매우 강하므로 모든 실험대상에 대해 동등한 처리를 한다.
  • (실험계획법)은 데이터를 수집하는 방법을 설계하는 유력한 기법이다.





저작자 표시 동일 조건 변경 허락
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'교양기타 > 재미있는 기초통계' 카테고리의 다른 글

6. 우연에 대한 생각  (0) 2012.12.03
5. 관계 표현하기  (0) 2012.11.29
4. 숫자로 설명하기  (0) 2012.11.28
3. 그래프로 나타내기  (0) 2012.11.27
2. 통계에서의 실험계획  (0) 2012.11.21
1. 자료와 표본조사  (0) 2012.11.20

1. 자료와 표본조사

교양기타/재미있는 기초통계 | 2012.11.20 12:00 | Posted by 깨비형

 1. 자료조사


1) 자료의 측정

① 모집단 : 알고자 하는 측정 대상, 연구 대상이 되는 집단

② 표본 : 모집단의 대표성을 가진 일부 대상, 전체 정보를 얻기 위해 측정되는 집단

③ 전수조사 : 모집단 전체에 대한 자료를 조사하는 것.

④ 표본조사 : 모집단의 일부를 표본으로 추출하여 조사하는것.


<모집단과 표본의 예>

○ 사상구에 거주하는 구민 중 전화로 구정 만족도를 측정하려고 할 경우 모집단과 표본은?

▷ 모집단 : 전화를 가지고 있는 사상구 모든 구민

▷ 표   본 : 임의로 선택되어 조사에 응답한 구민


2) 자료조사의 방법

관측연구 : 어떤 집단 혹은 상황을 알기위해 전수조사나 표본조사를 하는 경우

실험 : 개체들의 반응을 관측

※ 실험은 의도적인 어떤 처리에 대해 개체들의 반응에 어떤 변화가 있는가를 연구하는 것으로 예를 들자면 컵에 있는 콜라를 상표를 모르고 마셨을 때 코카콜라와 펩시콜라 중 어느 것을 더 선호하는 지를 알기 위해서는 직접 실험을 통해서만 얻을 수 있다.



2. 표본조사


1) 전수조사

 각종 조사의 목적은 특정 모집단의 특성(모여 있는 정도나 흩어진 정도, 다시 말하면 평균이나 표준편차)에 관한 정보를 얻기 위한 것

○ 이 정보를 얻기 위해 모집단을 일일이 전부 조사하는 방법을 전수조사라고 함

※ 대표적인 전수조사의 예는 5년에 한 번씩 하는 인구주택총조사


2) 표본조사의 정확성

○ 모집단의 일부를 뽑아 이 표본에 대해서만 특성을 조사한 뒤 이를 근거로 모집단의 특성을 추정하는 방법

 표본조사는 적절하게 수행할 경우 전수조사보다 더 정확할 수 있음


 

3. 내용 정리

 
  • 관측연구는 연구자들이 관측하는 현장을 방해받지 않은 채 정보를 얻으려고 노력한다.


    관측연구 가운데 중요한 방법인 표본조사는 특정한 모집단으로부터 표본을 선택하고 전체 모집단에 대한 정보를 얻기위해 표본을 이용하는 방법이다.

  • 전수조사는 모집단에 있는 모든 개체들을 측정하는 것이다.

  • 실험은 개체들이 어떻게 반응하는지 알기 위해 개체에게 무엇인가를 실제로 가하게 된다.

  • 모집단이란 연구 대상이 되는 집단을 말한다

  • 모집단의 일부분으로서 전체에 대한 정보를 얻기위해 수집되는 집단을 표본이라고 한다.





저작자 표시 동일 조건 변경 허락
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'교양기타 > 재미있는 기초통계' 카테고리의 다른 글

6. 우연에 대한 생각  (0) 2012.12.03
5. 관계 표현하기  (0) 2012.11.29
4. 숫자로 설명하기  (0) 2012.11.28
3. 그래프로 나타내기  (0) 2012.11.27
2. 통계에서의 실험계획  (0) 2012.11.21
1. 자료와 표본조사  (0) 2012.11.20
 

티스토리 툴바