PGR21.com
다시봐도 좋은 양질의 글들을 모아놓는 게시판입니다.
Date 2012/09/06 12:09:48
Name 곰주
Subject 통계수치라는 녀석, 그 녀석은 "다중이(Multiple Personality)" (부제: 분모와 표준오차)
*전문적인 통계학/혹은 통계에 대한 이야기가 아닙니다. 지표에 대한 해석을 할 때에 대한 개인적인 의견입니다*
*제목 수정했습니다.*

1.
대략 5년전쯤 제네럴일렉트릭에서 꽤나 중요한 부서에 있었던 한 형님과 대화를 하는 중
형님이 저에게 "왜 일본차가 미국차보다 품질이 좋은줄 아느냐?"고 질문을 했습니다.
(도요타 리콜사태 이전이라 꽤나 미국내 일본차에 대한 신용도는 높았습니다.)

뭐, 저야 산업공학을 전공하지도 않았고 생산업에 종사해서 일해본 적도 없기 때문에
전혀 모른다고 했지요.

그 형님은 한국말보다 영어가 익숙한데다가, 저는 정 반대라-_-;;;  이래저래 이야기 했지만 기억에 남는것은 딱 이 한마디입니다.
제가 정확히 기억하는한 이런 식으로 이야기 했습니다.

"둘의 품질관리 전략이 달랐다. 미국회사는 생산차량의 품질의 평균을 컨트롤하는데 비중을 둔 반면,
일본회사는 품질의 표준오차를 컨트롤하는데 좀 더 주목했다."

그 형님의 말이 얼마나 신빙성이 있는 사실이든 아니든, 저에게는 큰 배움이 됬습니다.


2.
또 다른 이야기를 해보지요.



위의 이미지는 체코에서 발생한 유방암 (breast cancer)에 대한 역학조사 결과입니다.
incidence가 뭔지 mortality가 뭔지는 일단 중요하지 않으니까 넘어가도록 하구요.

여기서 질문하나,
이 표만으로 봤을 때, Mortality를 체코 여인의 전체 사망률 그리고 Incidence를 유방암 발생이라고 정의한다면, 체코에서의 유방암 발생은 꾸준이 증가해왔다
는 말은 참일까요? 거짓일까요?

정답은 모른다입니다.
물론 절대적인 숫자가  늘었을 수도 있겠으나, 그렇지 않을 수도 있겠지요.
단적인 예로, 기술의 발달로 인하여 실제 수는 증가하지 않았으나 유방암으로 진단된 환자가 늘었을 수도 있으니까요.

하지만 만약에, 그래프상에서 Mortality를 유방암 때문에 일어나는 사망률이라고 가정한다면
해석할 수 있는 폭이 조금 달라집니다. 즉, 유방암 발생은 늘었으나 그로 인한 사망률은 늘지 않았다
라고 해석할 수 있기 때문에, 아주 단순하게 (이러면 안되지만-_-;;) 해석하면
1. 유방암의 발생은 유방암으로 인한 사망률과 관계가 없다. 혹은
2. 유방암의 발생의 실제 숫자는 늘은 것이 아니라 실은 발견되어진 숫자가 늘었다.
라고도 해석할 수 있겠지요.
물론, 여러가지 해석이 나올 수 있으므로, 좀 더 정확한 해석을 위해서는 다른 결과를 보여주는 데이터가 더욱 필요할 것입니다.


3.
일반적으로 통계적인 수치를 보여주는데 있어서 단순히 어떤 수치값 하나를 보여주는 것은
그것만으로 의미가 없는 경우가 많습니다.

단순한 예를 들어볼께요.
제 혈압이 120/80이라 한 들, 만약 140/90이상은 고혈압이다라고하는 비교할 수 있는 기준지수가 없다면
고혈압이다 혹은 저혈압이다 말할 수 없는 의미 없는 숫자가 되어버리니까요.

또 다른 예를 들어보죠.
철수가 매일매일 5천만원을 썼다라고 했을 때,
이 문장만으로 철수는 과소비했다라고 결론 내릴 수 있을까요?

답은 모른다. 겠죠.

만약 "철수가 매일매일 5천만원을 썼다. (그런데 철수의 월급은 1조다)"라면
철수에게 있어서 5천만원의 소비는 과소비라고 보기 어렵겠죠. 부럽게도-_-;;;;
왜냐하면 철수의 1개월간의 소비는 월급에 비하여, 즉 나누어 보면 결코 큰 액수가 아니니까요.
분모로 무엇이 오느냐에 따라서 그결과에 대한 해석은 아주 달라질 수 있습니다.

좀 더 나아가 볼께요.
질문을 조금 바꾸어서, 만약,

"철수의 월급은 1조라 할 때, 철수가 살고 있는 나라의 사람들의 월평균 월급을 고려하면 철수의 소비는 어떤수준인가?"

라고 한다면 어떻게 될까요.
예를 들어 평균 월급이 10억이라고 한다면 어떨까요? 물론 철수의 소비수준은 상당히 과하다고 볼 수 있겠지요.
그런데, 이런 경우 철수의 월급은 평균에 비해 극단적으로 높기 때문에
철수가 살고 있는 나라의 사람들은 실은 소득이 철수와는 비견할 수 없을 정도로 작다라는 거지요.
즉, 이럴경우 월급의 표준오차는 상당히 커질 것이구요.

결과적으로, 표준오차가 커지면 커질수록 평균의 대표성은 더욱 줄어들 수 밖에 없다는 말이 됩니다.
더 나아가 아주 큰 표준오차를 가진 표본은 그 표본이 속한 모집단에 대한 통계적 유의성이 줄어들게 됩니다.
다시말해, 통계값과 실제현상이 다르다는 말이 됩니다.


4.
정리하자면, 하나의 통계적 수치 혹은 지표(index)는 하나 혹은 여러가지 복잡한 계산과 모델들이 사용되어 나온 숫자입니다.
그렇기 때문에 통계자료를 볼 때에는 항상 주의를 해야 하는데요,

그 중에 가장 중요하게 생각하여야 할 점은,
무엇으로 표준화가 되었느냐 혹은 무엇에 비교되었는가 즉 분모는 무엇인가
평균값은 과연 얼마나 모집단을 대표할 수 있는가 즉 표준오차는 얼마인가라고
개인적으로 생각합니다.


별 관계가 없을 지 모르겠습니다만, 전기요금 폭탄에 관련된 글을 읽고서 갑작스레든 생각을 두서없이 적어보았습니다.

긴 글 읽어주셔서 감사합니다.

====(수정)=====

유게에 있었던 최진기의 인문학강의 49회 50회의 링크를 겁니다.
한번쯤 보시길 권장합니다. 하나당 15분 정도 입니다.







* 信主님에 의해서 게시물 복사되었습니다 (2012-09-27 09:09)

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
정 주지 마!
12/09/06 12:56
수정 아이콘
좋은 글 잘 봤습니다.
12/09/06 13:08
수정 아이콘
긴 글 읽으시느라 수고 하셨습니다.
진리는나의빛
12/09/06 13:05
수정 아이콘
현실적으로 많은 수치에는 표준오차가 큰데.. 왜 통계자료를 보면 중간값이나 최빈값을 쓰지않고 평균값을 쓰는걸까요?
12/09/06 13:13
수정 아이콘
일단 parametric statistic (이걸 모수통계라고 하는 걸 오늘 처음 알게되었습니다)을 적용하기 편해서 그런것이 아닐까요?
그리고, 모수통계에 적용되는 모델들은 정규분포를 따르게 되는 경우가 많기 때문에
사회현상을 일반화시켜 대중에게 설명하기 쉬운 이점도 있지 않나 싶습니다.....

라고 통계학 비전문가의 잡설이었습니다. ㅡㅡ;;;;;
zeppelin
12/09/06 13:32
수정 아이콘
중간값과 최빈값이 불편성을 만족하는 경우가 있더라도 최소분산성을 만족하지 않습니다.
반면 평균값의 경우, 불편서과 최소분산성을 동시에 만족하기에.. 표준오차는 그나마 중간값이나 최빈값보다 작기 마련이죠..
slowtime
12/09/06 14:04
수정 아이콘
분산(편차의 제곱합)을, 결국 표준편차를 최소화하는 대표값이 평균이고,
절대편차(편차의 절대값)의 합을 최소화하는 대표값이 중앙값(median)입니다. (잠시 착각 ^^;)
어느 쪽이 더 낫다고 말하기는 어렵지만, 분산과 평균이 다루기는 훨씬 쉽습니다.

그리고 위 글에서는 문맥상 표준오차(SE)보다 표준편차(SD)가 적절하지 않을까요?
12/09/06 15:01
수정 아이콘
좋은 지적이십니다. 실은 둘 중 무엇을 사용할까 고민하다 표준오차를 적었는데요.
실생활에서 표준편차라는 말보다는 표준오차를 많이 사용하는 것처럼 느꼈기에 좀 더 익숙한 표현을 택하였습니다.

그리고 어차피, 실생활의 통계수치는 표준오차값이 더 적확하지 않나 싶기도 합니다.
한번 샘플링한것으로 통계수치를 나타내는 일이 실제로는 적지 않을까 싶어서 그렇기도 하구요.
레지엔
12/09/06 13:05
수정 아이콘
가볍게 보려고 들어왔더니 breast Ca.가 딱! 해서 흠칫했습니다(..) 펴.. 편하게 글을 보고 싶어요...ㅠ
12/09/06 13:09
수정 아이콘
불편을 느끼게 해드려서 죄송해요 ㅠㅠ;;
bachistar
12/09/06 13:19
수정 아이콘
재밌게 읽었습니다. 감사합니다
12/09/06 13:24
수정 아이콘
감사합니다.
스웨트
12/09/06 13:33
수정 아이콘
통계란 정말 신기하면서도 어쩔땐 사기같아요. 그래서 표준오차가 더더욱 중요하겠죠. 좋은글 감사합니다.

뻘플이지만 통계글을 보니까 예전에 읽었던 통계의패러독스 라는 책 내용중 한구절 생각나네요.
"세계에서 천식환자가 가장 많고 또 가장많이 천식으로 죽는 곳은? 알프스 휴양지.
왜냐하면 천식환자들이 좋은 공기를 마시며 요양하기 위해 몰려들기 때문"
고등학교때 읽었던 책인데도 이 글은 아직도 기억에 남네요.
12/09/06 14:24
수정 아이콘
제가 통계를 배울 때 맨처음 수업시간에 교수가 냈던 퀴즈네요.^^;;
12/09/06 15:21
수정 아이콘
재밌네요. 통계학입문 강의 첫 시간을 이런식으로 시작했다면... 통계란 학문에 엄청 흥미를 가졌을거 같아요 :)
강남구 가리봉동
12/09/06 15:22
수정 아이콘
실제로 미국차와 일본차가 저렇게 관리하지 않겠죠. 원래 6시그마 개념이 나오 것도 미국인데요.
직관적으로 생각할 때도 평균을 관리하는 게 표준편차를 관리하는 것보다 훨씬 쉽습니다.
1. 50, 100, 150
2. 95, 100, 105
1,2 번 모두 평균은 100이지만, 1번에 비해 2번의 표준편차가 훨씬 적죠. 당연히 2번 공정이 1번 공정보다 훨씬 우수한 공정이 되겠죠.

저도 통계가 전공도 아니고 6시그마 맛만 본 사람인데요. 말씀하신대로 통계란 놈은 다루기가 쉽지 않고, 어떤 의도로 통계를 이용하느냐에 따라 결과가 반대로 바뀌기도 하죠. 그래서 통계를 전가의 보도처럼 함부로 사용하면 안 된다고 봅니다.
12/09/06 15:27
수정 아이콘
Like!!!
Dear Again
12/09/06 17:40
수정 아이콘
또한 통계학은 거짓말을 하지 않죠.. 사람들이 통계학을 이용해서 '속이거나' 알지 못해서 '속는'것이지,

통계학에서는 기본적으로 얼마 정도의 가능성으로 (유의수준), 얼마 이상 잘못 예측할지(유의구간)을 다 말하는데 말이죠
절대빈곤
12/09/07 12:31
수정 아이콘
좋은글 잘 봤습니다 .
짧게 부언하면

표준편차 : 측정치가 평균에서 떨어져 있는 정도
표준오차 : 표본의 평균이 실제 모집단의 평균과 떨어져 있는 정도
라고 정의 할 수 있습니다.

문맥상 보면 처음의 자동차 얘기에서는 표준편차가 어울리고 철수의 얘기에서는 표준오차가 어울려 보입니다.
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회
1949 [LOL] 잔나 바이블: 서포터 잔나의 道 (4) - 스펠에 대해~와딩에 대해 [7] LenaParkLove3546 12/09/24 3546
1948 [LOL] 잔나 바이블: 서포터 잔나의 道 (3) - 라인전 운영 2~라인전 종료 이후 [12] LenaParkLove3660 12/09/23 3660
1947 [LOL] 잔나 바이블: 서포터 잔나의 道 (2) - 라인전 운영 1 [6] LenaParkLove3794 12/09/23 3794
1946 [LOL] 잔나 바이블: 서포터 잔나의 道 (1) - 잔나의 역할 이해~키 세팅 [47] LenaParkLove6236 12/09/21 6236
1945 [리뷰] 광해, 왕이 된 남자 - 이런 사극을 기다렸다 (스포 있음) [89] Eternity8774 12/09/15 8774
1944 스타크래프트2. 전략의 역사(1), TvsZ [38] 스카이바람5262 12/09/14 5262
1943 [야구] 불멸의 철완 최동원, 세상에 작별을 고하다. [31] 민머리요정8577 12/09/12 8577
1942 통계수치라는 녀석, 그 녀석은 "다중이(Multiple Personality)" (부제: 분모와 표준오차) [18] 곰주6050 12/09/06 6050
1940 상실감에 대하여 [26] Judas Pain9311 12/09/09 9311
1939 LOL the Champions Summer 직관 후기입니다. (사진 있습니다.) [34] 티니6926 12/09/09 6926
1938 수수께끼는 모두 풀렸어. [42] 삭제됨19992 12/09/04 19992
1937 서울, 2006년, 겨울 [7] Neo4813 12/09/01 4813
1936 스타크래프트2 세계 10대 메이져 토너먼트 [31] 어강됴리8029 12/09/01 8029
1934 처음 접하시는 분들을 위한 GSL 리그방식 설명 [45] Marionette6513 12/08/31 6513
1933 나란 인간 눈치빠른 인간 [53] 바람모리8633 12/08/31 8633
1932 [영화공간] 우리 시대, 한국의 아름다운 중견배우들 [31] Eternity7313 12/08/30 7313
1931 누가 그들을 벌주는가 [12] happyend5737 12/08/30 5737
1930 경제 민주화에 대해 생각해본다. [24] bachistar4922 12/08/29 4922
1929 [오늘] 8.29 국치일 [9] 눈시BBver.26122 12/08/29 6122
1928 각개전투 [15] 헥스밤7700 12/08/27 7700
1927 [LOL] 정글러와 친해지는 방법. [62] 헥스밤8877 12/08/30 8877
1926 [영화공간] 2012년, 가장 주목해야 할 조연 배우 7인 [44] Eternity8651 12/08/26 8651
1925 [영화공간] 이 시대, 한국 최고의 남자 배우들 [97] Eternity11355 12/08/26 11355
목록 이전 다음
댓글

+ : 최근 6시간내에 달린 댓글
+ : 최근 12시간내에 달린 댓글
맨 위로