7. 통계적 추론
1. 유전자 검사로 본 통계적 추론
1) 돌연사 스미스 상속녀딸 친부는 사진기자
돌연사 스미스 상속녀딸 친부는 사진기자
바하마 법원 최종판결...'세기의 재판' 취재진 북새통
지난 2월초 돌연사한 플레이보이 모델 출신 애나 니콜 스미스의 백만장자 상속 딸의 친아버지가 2개월 만에 최종 판가름이 났다. 바하마 법원은 10일 스미스의 사망으로 최소한 수백만달러를 상속받게 된 어린 딸 다니엘린의 친부(親父)라고 주장해온 3명의 남성을 상대로 DNA 검사까지 벌여, 연예지 기자겸 사진기자였던 래리 버크해드가 친부라고 최종 판결했다.
DNA 조사를 벌였던 전문의는 이날 비공개 심리에서 "버크해드가 다니엘린의 친부일 확률은 99.9%에 이른다"면서 "그가 친아버지임에 틀림없다"고 확인했다.
앞서 스미스의 약물 과다에 따른 급사로 6개월 된 딸 다니엘린이 스미스의 수백만달러 재산을 고스란히 물려받게 되자 그녀와 한때 뜨거운 사이였던 3명의 남성이 친부라고 서로 우기는 바람에 법정 다툼을 벌이게 됐다. 한편 스미스가 생전에 다니엘린의 친부라고 말해온 마지막 남자친구인 변호사 호워드 스턴은 엉뚱한 판결결과가 나오자 실망한 표정을 감추지 못하면서도 버크해드를 껴안으며 "양육권 다툼을 벌이지 않겠다" 며 승복 의사를 밝혔다.
스미스는 스물 여섯살이던 지난 1994년 89세의 텍사스 석유재벌 하워드 마샬과 결혼, 신접을 차린 뒤 이듬해 마샬이 사망하자 5억달러의 유산을 놓고 유가족과 분쟁을 벌이기도 했다.
2) 개념설명
① 유전자 검사
- 누가 진짜 아빠인가 : 위의 이야기에서 친부라고 주장하는 세 남자에 대해 유전자 검사라는 의학적 방법이 있어 별다른 오류 없이 친부를 찾아 낼 수 있었다.
사실 검사결과 |
가짜 아빠 |
진짜 아빠 |
DNA 검사 불일치 |
올바른 판정 |
①오류 |
DNA 검사 일치 |
①오류 |
올바른 판정 |
② DNA 검사
- 유전자 검사과정
1. 아이와 후보 아빠의 혈액을 채취한다.
2. 아이와 아빠의 유전자가 어느 정도 일치하는지를 검사하면 그 결과는 ‘DNA 검사 불일치’ 또는 ‘DNA 검사 일치’로 나온다.
3. ‘DNA 검사 불일치’라면 판단이 명확하고 오류가 없다. 즉 진짜 아빠는 ‘불일치’로 나오지 않기 때문에, ‘불일치’결과가 나왔다면 가짜 아빠라고 오류 없이 결정할 수 있다. 그러므로 ①오류가 발생할 확률은 0%이다.
4. ‘DNA 검사 일치’라면 상황은 2가지이다. 즉 진짜 아빠, 가짜 아빠 모두 ‘일치’인 검사결과가 가능하다. 이때 우리는 조건과 검사결과와의 확률이 얼마인가를 계산한다.
5. 가짜 아빠일 때 검사결과가 이렇게 나올 가능성의 확률은 10의 -6승 즉, 백만분의 1정도의 확률 값을 가진다. 즉 ②오류가 발생할 확률은 이다.
보통의 친자 확인 검사는 99.9999% 정확도로 표시되는데, 이는 혈연관계가 없는 상태에서 이렇게 우연히 관계가 있는 것처럼 나올 가능성이 얼마나 되는가를 계산해 보니, 정도로 확률값이 작다.
위의 표를 확률값으로 나타내면 다음과 같다.
※ 확률값 0은 전혀 발생하지 않음, 1은 반드시 발생함을 의미하므로 여기에서는 DNA 검사 불일치 결과는 진짜 아빠일 경우는 전혀 없으며, DNA검사 일치는 반드시 진짜 아빠임을 의미
③ 통계적 가설 검정
- 귀무가설 : “관계가 없다, 차이가 없다, 다르지 않다”라는 가정을 귀무가설이라 한다. 귀무란 “없었던 것으로 하자”는 뜻이다.
- 대립가설 : “관계가 있다, 차이가 있다, 다르다”라는 가정을 대립가설이라고 한다.
위 이야기를 통계적 가설 검정으로 기술해보면
귀무가설 : 두 사람사이에는 혈연관계가 없다.
대립가설 : 두 사람사이에는 혈연관계가 있다.
래리 버크해드의 DNA 검사 결과 “일치”가 나왔는데 귀무가설을 택하기에는 확률이 너무 낮으므로 대립가설을 택해서 두 사람사이에 혈연관계가 있다고 판정
④ 사례보기
- 통계는 살인범도 구할 수 있다.
2. 여론조사 이해하기
1) 국민 '76.6%' 독도 단호히 대응해야
이번 여론조사 결과 응답자의 76.3%가 일본의 독도 영유권 교과서 명기에 대해 단호한 대응을 주문했다. 경제 상황을 묻는 질문에서는 응답자의 절반 정도가 현 정부의 경제팀을 전면 교체해야 한다고 답했다. 일본의 독도영유권 주장에 대한 정부의 대응을 물었더니 그 결과, 국민 10명가운데 8명 정도는 한일관계 악화를 감수하고라도 단호히 대응해야 한다고 밝혔다. 현재 체감경기에 대해서는 "심각하다"고 답한 응답자가 96.1%에 달했고,"심각하지 않다"는 반응은 3.4%에 불과했다. 경기침체의 가장 큰 원인으로는 국민 10명가운데 6명 정도가 국제유가 급등을 꼽았고, 다음으로 경제 리더십, 정치불안정, 소득격차 심화순으로 나타났다. 경제팀 교체여부를 묻는 항목에 대해서는 전면교체해야 한다가 그대로 둬야 한다는 응답보다 11.5%p 높아 지금의 경제팀에 대한 불신이 다소 높은 것으로 조사되었고, 하반기 경기 전망에 대해서는 국민 10명 가운데 7명 이상이 나빠질 것으로 내다보았다. 그런 만큼 앞으로의 정책 기조를 성장 위주보다는 안정 위주로 운용해야 한다는 목소리가 압도적으로 높았다. 이번 여론조사는 YTN이 에이스리서치에 의뢰해 실시했고 전국 만 19살 이상 성인 남녀 1002명을 대상으로 전화조사를 통해 이뤄졌으며 평균 응답률은 18.4%로, 신뢰수준은 95%에 오차한계 ±3.1%p 이다. |
2) 개념설명
① 여론조사
- 여론조사란 : 특정 사회적 이슈에 대한 사람들의 의견이나 태도를 알아보기 위해 수행하는 조사 현재라는 조사시점이 중요하며, 시간이 흐름에 따라 변화가 가능한 것이므로 특정시점에서 조사된 것을 마치 변하지 않는 것처럼 생각하는 것은 옳지 못하다.
② 여론조사의 결과 이해
- 여론조사 지지율의 함정
여론조사 지지율의 함정 연일 끊이지 않는 공방에 유권자의 마음은 어지럽다. 열흘도 채 남지 않은 막바지 대선정국을 바라보는 유권자의 눈 또한 바쁘다. BBK 수사결과 발표 이후, 잇따라 발표된 지지율 보도를 바라보며 왠지 모를 씁쓸함이 앞선다. 절반에 가까운 지지율 상승도 그렇지만 부동층이 줄어 들었다는 말도 의문이 가는 대목이다. 문제는 여론조사 응답율에 있다. 공교롭게도 대부분의 여론조사 관련 보도에는 응답율이 없다. 응답한 대상자를 100%로 놓고 본 지지율만 발표되는 속성의 한계가 있다. 여론조사 선진국인 미국의 경우 응답율이 30%이하인 조사는 조사결과를 공개하지 못하도록 명시돼 있다. 하지만 요즘 우리나라에서 대선과 관련하여 발표되는 여론조사의 응답율은 전부 30%이하라는 소리가 들려온다. 또한 조사기관에서 눌러대는 번호가 대부분 낮 시간대, 그것도 가정번호가 주류를 이룬다. 응답자 중 가정주부의 비율이 32,1%에 이른다는 분석도 있다. 젊은층은 응답거부율이 높고 끝까지 듣고 답하는 이들 대부분이 보수 또는 노인층이라는 통계치도 있다. 유선전화 없는 세대의 급증하는 현실과 응답거부 세대의 표심은 얼마나 반영되었을지 의문이다. 특히 지난해 5월 지방선거 때 여론조사 거절율은 무려 47.1%에 이른다고 한다. 기왕에 할 여론조사라면 보다 객관성 있고 전체 유권자를 대변할 수 있는 시스템이 마련돼야 한다. 신뢰성을 잃은 여론조사는 자칫 여론호도로 이어질 수 있음을 간과치 말아야 한다. |
- 신뢰수준과 표본오차 이해
“이번 조사는 지난 19일부터 20일까지 이틀 동안 전국 19세 이상 남녀 700명을 대상으로 전화로 조사했고, 표본오차는 95% 신뢰수준에서 ±3.7%p 이다.”에서 표본오차는 95% 신뢰수준에서 ±3.7%P 라는 의미는? |
- 신뢰수준 : 여론조사 결과가 어느 정도의 신빙성을 가지고 있는가를 수치로 나타낸 것으로 신뢰수준이 95%라는 것은 같은 조사를 100번 실행했을 때 95번의 정도는 같은 결과가 나올 것이라는 의미
- 표본오차 : ±3.7% 포인트'라고 말할 때 같은 조건(똑같은 표본추출 과정, 동일한 면접원, 동일한 질문지, 동일한 시간 등)에서 조사할 경우 같은 결과를 얻을 수 있는 허용한계
- 표본오차의 예 : 어떤 설문조사에서 응답율 24%에 ±2.0% 포인트의 표본오차가 나왔다면, 똑같은 조사를 100번 하더라도 그 중 95번의 조사에서는 응답률이 22-26%내에 나타난다는 것을 말한다.
어떤 지역에서 국회의원 후보들의 지지율에 대해 여론 조사를 실시한 결과가 A 후보의 지지율이 40%, B 후보의 지지율이 35%이고 95% 신뢰수준에서 표본오차가 ±3%라고 하자.
이 결과를 해석해 보면, A후보의 지지율 40%는 ±3%p라는 표본오차를 감안할 때 37%(40%-3%)에서 43%(40%+3%) 사이에 있을 확률이 95%라는 것이다. 즉 모든 유권자들을 대상으로 표본을 뽑아 조사했을 경우, 100번 조사하면 95번은 A 후보 지지율이 37%와 43% 사이에 있을 것이라는 뜻이고 마찬가지로 B후보의 지지도 35%는 35%±3%(32%~38%)에 있을 확률이 95%이다. 즉 표본오차를 고려한 여론조사 결과를 해석해보면 A 후보가 37 - 43 %, B 후보 32 - 38 %가 된다. 단순히 조사 결과만을 가지고 보면, A후보가 1위, B후보가 2위이며 그 지지율의 격차도 5%나 된다고 하겠지만, 표본오차를 고려하여 해석하면 A후보가 B후보를 앞서고 있다고 단정하는 것은 무리가 있다. 이럴 경우 사실상 대등한 지지율을 보이고 있다고 하는 것이 옳다. 경우에 따라서는 A후보 37%, B후보 38%가 되어, 조사 결과의 순위와 뒤바뀔 수도 있기 때문이다. |
③ 잘못된 사례
김창룡 교수는 "그러나 이 조사의 응답율은 8.23%, 신뢰수준 95%에 표본오차 ± 4.0%포인트"라면서 "대구시민 604명, 응답율 8.23%가 과연 대구지역의 여론을 얼마나 정확히 나타내고 있는 지 의문이며, 맞을 수도 있고 틀릴 수도 있는 걸 기사화하는 것은 믿거나 말거나 식의 보도와 다를 게 없다"고 비판했다. |
3. 내용정리
|