학습(공부)하는 블로그 :: '표본오차' 태그의 글 목록
 

 

Notice»

Recent Post»

Recent Comment»

Recent Trackback»

03-19 10:55

 

'표본오차'에 해당되는 글 2

  1. 2014.06.06 4. 표본 규모의 설정 2
  2. 2012.12.04 7. 통계적 추론
 

4. 표본 규모의 설정

카테고리 없음 | 2014. 6. 6. 12:30 | Posted by 깨비형
반응형


1. 표본의 규모


○ 표본의 크기는 어느 정도가 적절한가?

▷ 모든 조사방법이나 통계절차에 보편적으로 적용되는 단일한 표본크기를 산출하는 공식이나 방법은 존재하지 않음


○ 표본 크기의 요인





2. 표본의 규모를 결정하기 위한 원칙


  원칙1) 어떤 방법을 조사에 적용시킬 것인가?




  원칙2) 통상적으로 각 인구학적 집단마다 100명 이상의 표본을 사용함





※ 소집단을 구성하는 표본의 최소 단위가 100사례는 되어야 한다고 지적하는 근거는 통계학에서 말하는 중심극한정리(central limit theorem)에 기초함




  원칙3) 표본의 크기는 거의 대부분 조사비용과 시간의 제약 하에서 이루어짐





  원칙4) 작은 크기의 표본만으로 조사를 진행했다면 사용된 표본의 규모에 맞춰

           결과를 해석함


※ 대통령 선거에서 MBC와 한국갤럽조사연구소는 김대중씨가 이회창씨를 39.9% 대 38.8%라는 1%포인트 차이로 누르고 당선될 것이라는 예측방송을 함


○ 표본오차 : 표집된 소집단의 측정치를 모집단의 추정치로 논리적 추론을 하는 과정에서 발생



표본오차는 표본의 크기가 증대함에 따라 감소

② 표본집단의 크기가 전체 모집단과 일치(연구가 전수조사의 형태를 띔) ⇒ 표본오차가 0이 됨 


  원칙5) 연구자는 보다 복잡한 주제를 다룰수록 더 큰 규모의 표본 집단을

           취급해야만 함


○ 다변량 연구

▷ 일원변량 연구에 비해 항상 더 많은 표본이 필요 → 복수 응답자료의 분석과 관련되기 때문

▷ 일부 연구자들은 기본적으로 100명의 연구사례에 각각의 변인이 추가될 때마다 변인별로 추가 표본을 구성하는 방법을 사용할 것을 제안하는 경우도 있음


  원칙6) 연구자들은 선행 연구를 통하여 자신이 다뤄야할 표본의 규모를 짐작할 

           수 있음




○ 일반적으로 표본의 크기가 증가할수록 조사 결과의 정확성은 높아짐

▷ 리터러리 다이제스트지가 무려 200만 이상의 거대표본을 조사하고도 정확하지 않은 조사결과를 나타낸 것은 단순한 표본의 크기보다 표본의 질이 더욱 중요함을 보여줌



3. 과다표집(oversampling), 유효응답율 및 부가표집(booster sampling)


  가. 과다표집

○ 실제 조사에 필요한 것보다 더 큰 표본을 선택해야 함(탈락에 대비)



○ 패널조사(panel survey)

▷ 같은 조사대상을 시간적 차이를 두고 주지적으로 측정

- 이 때의 응답자 탈락은 더 큰 문제가 되는데 우리나라의 경우 패널의 탈락률은 연간 17%~20% 수준임


  나. 유효응답률 및 부가표집

○ 유효응답률 : 표본집단 중 조사에 응답한 비율





 

○ 낮은 유효응답으로 인한 문제를 해결하기 위한 두 가지 방안

▷ 낮은 유효응답률 자체도 하나의 주요 발견점으로 의미를 부여하되 표본의 크기를 늘리는 방법

최소한의 분석단위인 100사례 이상의 유효응답을 확보하기 위해 무작정 표본의 크기를 늘리는 것이 반드시 바람직한 것은 아님

▷ 마케팅조사 등에서 적극적으로 활용되고 있는 부가표집(booster sampling)을 활용

- 부가표집

· 어떤 현상 혹은 소집단이 일반적인 확률표집에서 출현빈도가 극히 낮을 것으로 예상되거나 출현을 기대할 수 없어서, 낮은 출현률로 적정한 분석단위가 구성될 수 없을 때 사용

· 일정 수의 소집단 표본이 강제적으로 표집틀에 부과해 표본의 크기를 조정하는 것

- 할당표집과 다른점

· 부가표집은 일반적으로는 확률표집에 병행하여 실시하는 부차적 표집틀

· 부가표집의 경우는 자연적으로 확률표집에서 출현하는 소집단의 사례 수와 강제적으로 부가된 소집단 사례수의 합이 조사된 소집단 사례수가 됨


반응형
:

7. 통계적 추론

카테고리 없음 | 2012. 12. 4. 22:28 | Posted by 깨비형
반응형

1. 유전자 검사로 본 통계적 추론


1) 돌연사 스미스 상속녀딸 친부는 사진기자

돌연사 스미스 상속녀딸 친부는 사진기자 

바하마 법원 최종판결...'세기의 재판' 취재진 북새통

  지난 2월초 돌연사한 플레이보이 모델 출신 애나 니콜 스미스의 백만장자 상속 딸의 친아버지가 2개월 만에 최종 판가름이 났다. 바하마 법원은 10일 스미스의 사망으로 최소한 수백만달러를 상속받게 된 어린 딸 다니엘린의 친부(親父)라고 주장해온 3명의 남성을 상대로 DNA 검사까지 벌여, 연예지 기자겸 사진기자였던 래리 버크해드가 친부라고 최종 판결했다.

  DNA 조사를 벌였던 전문의는 이날 비공개 심리에서 "버크해드가 다니엘린의 친부일 확률은 99.9%에 이른다"면서 "그가 친아버지임에 틀림없다"고 확인했다.

  앞서 스미스의 약물 과다에 따른 급사로 6개월 된 딸 다니엘린이 스미스의 수백만달러 재산을 고스란히 물려받게 되자 그녀와 한때 뜨거운 사이였던 3명의 남성이 친부라고 서로 우기는 바람에 법정 다툼을 벌이게 됐다. 한편 스미스가 생전에 다니엘린의 친부라고 말해온 마지막 남자친구인 변호사 호워드 스턴은 엉뚱한 판결결과가 나오자 실망한 표정을 감추지 못하면서도 버크해드를 껴안으며 "양육권 다툼을 벌이지 않겠다" 며 승복 의사를 밝혔다.

  스미스는 스물 여섯살이던 지난 1994년 89세의 텍사스 석유재벌 하워드 마샬과 결혼, 신접을 차린 뒤 이듬해 마샬이 사망하자 5억달러의 유산을 놓고 유가족과 분쟁을 벌이기도 했다.


2) 개념설명

① 유전자 검사

- 누가 진짜 아빠인가 : 위의 이야기에서 친부라고 주장하는 세 남자에 대해 유전자 검사라는 의학적 방법이 있어 별다른 오류 없이 친부를 찾아 낼 수 있었다.


                               사실

    검사결과

가짜 아빠

진짜 아빠 

DNA 검사 불일치 

올바른 판정

①오류 

DNA 검사 일치

①오류

올바른 판정 


② DNA 검사

- 유전자 검사과정

1. 아이와 후보 아빠의 혈액을 채취한다.

2. 아이와 아빠의 유전자가 어느 정도 일치하는지를 검사하면 그 결과는 ‘DNA 검사 불일치’ 또는 ‘DNA 검사 일치’로 나온다.

3. ‘DNA 검사 불일치’라면 판단이 명확하고 오류가 없다. 즉 진짜 아빠는 ‘불일치’로 나오지 않기 때문에, ‘불일치’결과가 나왔다면 가짜 아빠라고 오류 없이 결정할 수 있다. 그러므로 ①오류가 발생할 확률은 0%이다.

4. ‘DNA 검사 일치’라면 상황은 2가지이다. 즉 진짜 아빠, 가짜 아빠 모두 ‘일치’인 검사결과가 가능하다. 이때 우리는 조건과 검사결과와의 확률이 얼마인가를 계산한다.

5. 가짜 아빠일 때 검사결과가 이렇게 나올 가능성의 확률은 10의 -6승 즉, 백만분의 1정도의 확률 값을 가진다. 즉 ②오류가 발생할 확률은  이다.

  보통의 친자 확인 검사는 99.9999% 정확도로 표시되는데, 이는 혈연관계가 없는 상태에서 이렇게 우연히 관계가 있는 것처럼 나올 가능성이 얼마나 되는가를 계산해 보니,  정도로 확률값이 작다.

  위의 표를 확률값으로 나타내면 다음과 같다.



※ 확률값 0은 전혀 발생하지 않음, 1은 반드시 발생함을 의미하므로 여기에서는 DNA 검사 불일치 결과는 진짜 아빠일 경우는 전혀 없으며, DNA검사 일치는 반드시 진짜 아빠임을 의미


③ 통계적 가설 검정

- 귀무가설 : “관계가 없다, 차이가 없다, 다르지 않다”라는 가정을 귀무가설이라 한다. 귀무란 “없었던 것으로 하자”는 뜻이다.

- 대립가설 : “관계가 있다, 차이가 있다, 다르다”라는 가정을 대립가설이라고 한다.


  위 이야기를 통계적 가설 검정으로 기술해보면


  귀무가설 : 두 사람사이에는 혈연관계가 없다.

  대립가설 : 두 사람사이에는 혈연관계가 있다.


  래리 버크해드의 DNA 검사 결과 “일치”가 나왔는데 귀무가설을 택하기에는 확률이 너무 낮으므로 대립가설을 택해서 두 사람사이에 혈연관계가 있다고 판정


 사례보기

- 통계는 살인범도 구할 수 있다.


 1964년 미국 LA에 사는 젊은 여성 콜린즈는 살인사건의 용의자로 체포돼 1심과 2심에서 유죄 판결을 받은 뒤 캘리포니아주 대법원의 마지막 판결을 기다리고 있었다. 그녀는 사건 목격자가 진술한 범인의 인상착의와 특성이 자신과 비슷하다는 이유로 유죄 판결을 받았다. 목격자에 따르면 범인은 금발에 말총 머리를 한 백인 여성이었는데 콧수염과 턱수염을 기른 흑인과 같이 있었으며 노란색 승용차를 타고 있었다. 콜린즈는 이 모든 상황과 일치한 여성이기 때문에 용의자로 구속되었고 유죄 판결을 받았다. 검찰측의 주장은 어떤 백인 여성이 목격자의 인상착의와 같을 확률은 1200만분의 1로 극히 작기 때문에 콜린즈가 범인이라는 일관된 주장을 폈는데 그 확률계산의 내용은 아래와 같다. 금발 백인 여성일 확률 1/3, 말총 머리를 한 여성 1/10, 흑백 혼합 커플 1/1000, 콧수염과 턱수염을 기른 흑인 남자 1/40, 노란색 승용차 1/10. 이 같은 특성과 일치할 확률은 이 숫자들을 모두 곱한 1/1200만이라는 것이 검찰측 주장이었다. 1,2심 배심원들은 검찰측의 확률적 근거에 바탕을 둔 주장(한 여성이 범인의 특성과 일치할 확률이 극히 낮은데도 불구하고 콜린즈는 범인의 특성과 매우 일치하므로 범인임에 틀림없다)을 받아들여 콜린즈가 범인이라는 판결을 내렸다. 그러나 캘리포니아 대법원은 판결문에서 검찰측의 확률계산에 문제가 있음을 지적했다. 검찰측의 계산은 각각의 특성이 독립적이라는 가정 하에서는 가능하지만 실제로는 각 특성이 독립적이지 않으므로 일치할 확률은 훨씬 높아진다는 것이다. 이런 점을 무시하고 검찰측의 주장인 범인과 특성이 일치할 확률이 1200만분의 1 이라는 수치를 받아들인다 하더라도 1,2심의 판결에는 중대한 오류가 있다고 대법원은 지적했다. 대법원은 이 사건에 있어서 중요한 확률은 범인의 특성과 일치할 확률이 얼마나 낮은가가 아니라, 콜린즈 외에도 다른 커플이 범인의 특성과 일치할 확률이 얼마냐는 것이라고 지적했다. 이미 콜린즈와 그녀의 애인이 범인의 특성과 일치한다는 사실을 알고 있는 조건 하에서 범인의 특성과 일치하는 다른 커플이 있을 확률을 수학적으로 계산해봤다. LA 지역에 200만 커플이 있을 경우 콜린즈 외에도 범인과 특성이 일치하는 다른 커플이 있을 확률은 약 8%, 500만 커플이 있다면 그 확률은 무려 19%나 된다는 것이었다. 캘리포니아 대법원은 사건과 직접 관계된 올바른 확률계산을 근거로 해서 콜린즈 외에도 범인의 특성과 일치하는 다른 커플이 있을 확률이 상당히 높다고 판단, 이 사건의 1,2심 판결을 뒤집고 콜린즈에게 무죄를 선고했다.



2. 여론조사 이해하기


1) 국민 '76.6%' 독도 단호히 대응해야

 이번 여론조사 결과 응답자의 76.3%가 일본의 독도 영유권 교과서 명기에 대해 단호한 대응을 주문했다. 경제 상황을 묻는 질문에서는 응답자의 절반 정도가 현 정부의 경제팀을 전면 교체해야 한다고 답했다.
 일본의 독도영유권 주장에 대한 정부의 대응을 물었더니 그 결과, 국민 10명가운데 8명 정도는 한일관계 악화를 감수하고라도 단호히 대응해야 한다고 밝혔다. 현재 체감경기에 대해서는 "심각하다"고 답한 응답자가 96.1%에 달했고,"심각하지 않다"는 반응은 3.4%에 불과했다. 경기침체의 가장 큰 원인으로는 국민 10명가운데 6명 정도가 국제유가 급등을 꼽았고, 다음으로 경제 리더십, 정치불안정, 소득격차 심화순으로 나타났다. 경제팀 교체여부를 묻는 항목에 대해서는 전면교체해야 한다가 그대로 둬야 한다는 응답보다 11.5%p 높아 지금의 경제팀에 대한 불신이 다소 높은 것으로 조사되었고, 하반기 경기 전망에 대해서는 국민 10명 가운데 7명 이상이 나빠질 것으로 내다보았다. 그런 만큼 앞으로의 정책 기조를 성장 위주보다는 안정 위주로 운용해야 한다는 목소리가 압도적으로 높았다. 


 이번 여론조사는 YTN이 에이스리서치에 의뢰해 실시했고 전국 만 19살 이상 성인 남녀 1002명을 대상으로 전화조사를 통해 이뤄졌으며 평균 응답률은 18.4%로, 신뢰수준은 95%에 오차한계 ±3.1%p 이다. 


2) 개념설명

① 여론조사

- 여론조사란 : 특정 사회적 이슈에 대한 사람들의 의견이나 태도를 알아보기 위해 수행하는 조사      현재라는 조사시점이 중요하며, 시간이 흐름에 따라 변화가 가능한 것이므로 특정시점에서 조사된 것을 마치 변하지 않는 것처럼 생각하는 것은 옳지 못하다.

② 여론조사의 결과 이해

- 여론조사 지지율의 함정

여론조사 지지율의 함정


  연일 끊이지 않는 공방에 유권자의 마음은 어지럽다.

  열흘도 채 남지 않은 막바지 대선정국을 바라보는 유권자의 눈 또한 바쁘다.

BBK 수사결과 발표 이후, 잇따라 발표된 지지율 보도를 바라보며 왠지 모를 씁쓸함이 앞선다. 절반에 가까운 지지율 상승도 그렇지만 부동층이 줄어 들었다는 말도 의문이 가는 대목이다. 문제는 여론조사 응답율에 있다. 공교롭게도 대부분의 여론조사 관련 보도에는 응답율이 없다. 응답한 대상자를 100%로 놓고 본 지지율만 발표되는 속성의 한계가 있다.

  여론조사 선진국인 미국의 경우 응답율이 30%이하인 조사는 조사결과를 공개하지 못하도록 명시돼 있다. 하지만 요즘 우리나라에서 대선과 관련하여 발표되는 여론조사의 응답율은 전부 30%이하라는 소리가 들려온다. 또한 조사기관에서 눌러대는 번호가 대부분 낮 시간대, 그것도 가정번호가 주류를 이룬다.

  응답자 중 가정주부의 비율이 32,1%에 이른다는 분석도 있다. 젊은층은 응답거부율이 높고 끝까지 듣고 답하는 이들 대부분이 보수 또는 노인층이라는 통계치도 있다. 유선전화 없는 세대의 급증하는 현실과 응답거부 세대의 표심은 얼마나 반영되었을지 의문이다. 특히 지난해 5월 지방선거 때 여론조사 거절율은 무려 47.1%에 이른다고 한다. 기왕에 할 여론조사라면 보다 객관성 있고 전체 유권자를 대변할 수 있는 시스템이 마련돼야 한다. 신뢰성을 잃은 여론조사는 자칫 여론호도로 이어질 수 있음을 간과치 말아야 한다.


- 신뢰수준과 표본오차 이해

 “이번 조사는 지난 19일부터 20일까지 이틀 동안 전국 19세 이상 남녀 700명을    대상으로 전화로 조사했고, 표본오차는 95% 신뢰수준에서 ±3.7%p 이다.”에서 표본오차는 95% 신뢰수준에서 ±3.7%P 라는 의미는?


- 신뢰수준 : 여론조사 결과가 어느 정도의 신빙성을 가지고 있는가를 수치로 나타낸 것으로 신뢰수준이 95%라는 것은 같은 조사를 100번 실행했을 때 95번의 정도는 같은 결과가 나올 것이라는 의미

- 표본오차 : ±3.7% 포인트'라고 말할 때 같은 조건(똑같은 표본추출 과정, 동일한 면접원, 동일한 질문지, 동일한 시간 등)에서 조사할 경우 같은 결과를 얻을 수 있는 허용한계

- 표본오차의 예 : 어떤 설문조사에서 응답율 24%에 ±2.0% 포인트의 표본오차가 나왔다면, 똑같은 조사를 100번 하더라도 그 중 95번의 조사에서는 응답률이 22-26%내에 나타난다는 것을 말한다.


  어떤 지역에서 국회의원 후보들의 지지율에 대해 여론 조사를 실시한 결과가 A 후보의 지지율이 40%, B 후보의 지지율이 35%이고 95% 신뢰수준에서 표본오차가 ±3%라고 하자.


  이 결과를 해석해 보면, A후보의 지지율 40%는 ±3%p라는 표본오차를 감안할 때 37%(40%-3%)에서 43%(40%+3%) 사이에 있을 확률이 95%라는 것이다. 즉 모든 유권자들을 대상으로 표본을 뽑아 조사했을 경우, 100번 조사하면 95번은 A 후보 지지율이 37%와 43% 사이에 있을 것이라는 뜻이고 마찬가지로 B후보의 지지도 35%는 35%±3%(32%~38%)에 있을 확률이 95%이다. 즉 표본오차를 고려한 여론조사 결과를 해석해보면 A 후보가 37 - 43 %, B 후보 32 - 38 %가 된다. 단순히 조사 결과만을 가지고 보면, A후보가 1위, B후보가 2위이며 그 지지율의 격차도 5%나 된다고 하겠지만, 표본오차를 고려하여 해석하면 A후보가 B후보를 앞서고 있다고 단정하는 것은 무리가 있다.

  이럴 경우 사실상 대등한 지지율을 보이고 있다고 하는 것이 옳다. 경우에 따라서는 A후보 37%, B후보 38%가 되어, 조사 결과의 순위와 뒤바뀔 수도 있기 때문이다.


③ 잘못된 사례


  ▲ 오마이뉴스 11월8일자 보도로 '이회창 37.4%, 이명박 32.6%…오차범위내로 앞질러"라고 달고 있다. 오차범위라고 밝혔지만, '앞질렀다'는 데 의미를 두고 제목을 뽑았다.


  김창룡 교수는 "그러나 이 조사의 응답율은 8.23%, 신뢰수준 95%에 표본오차 ± 4.0%포인트"라면서 "대구시민 604명, 응답율 8.23%가 과연 대구지역의 여론을 얼마나 정확히 나타내고 있는 지 의문이며, 맞을 수도 있고 틀릴 수도 있는 걸 기사화하는 것은 믿거나 말거나 식의 보도와 다를 게 없다"고 비판했다.


 보통 여론조사 1000명 정도로 하는 것 같던데 여론조사 응답율 17%는 1000명에 물어 170명 대답했다는 것이고 응답율 22% 정도는 1000명한테 물었을 때 220명 대답했다는 뜻이고, 응답율 15%는 1000명한테 물었을 때 150명만 대답했다는 뜻인데 대개 1000명을 대상으로 여론조사하는데 응답률 20%는 200명이 답변했고 800명이 누구 지지하는지 대답 안했다는 뜻. 그 응답층(200)에서 지지도가 40%라고 했을때 조사대상 전체에서 그 후보를 지지한다고 밝힌 실제 인원은 80명에 불과합니다. 그런데 여론조사 발표를 들여다보면 마치 1000명중에 40%인 400명이 지지하는 것처럼 왜곡되죠. 방송에서 발표하는 여론조사도 대부분 응답율 발표하는 것 거의 못 보았는데 신문에서 발표하는 여론조사도 응답율은 신문에 거의 실지 않는 것 같고 이것 공론화 해서 한번 알아 보았으면 합니다. 왜냐하면 여론조사 보고 사람들이 한쪽으로 더 몰리는 경향이 있기에.



3. 내용정리


  • (귀무가설)은 “관계가 없다, 차이가 없다, 다르지 않다”라고 가정한다. 
  • (대립가설)은 귀무가설과 반대되는 주장 즉 “관계가 있다, 차이가 있다, 다르다”라고 가정한다.
  • 여론조사의 결과를 이해하는데 (응답율), 신뢰구간, 표본오차 등이 중요한 요소이다.
  • '표본오차는 ±3.7% 포인트'라고 말할 때의 (표본오차)는 같은 조건에서 조사할 경우 같은 결과를 얻을 수 있는 허용한계를 말하는 것이다.





반응형
: