PGR21.com
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2015/12/23 12:01:25
Name Colorful
Subject [일반] 논문의 오자 개수
이 글은 존 D. 배로 저자의 '당신이 모르는 줄도 모르는 100가지 수학이야기'라는 책에서 한 가지 챕터를 발췌한 내용입니다. 각 챕터마다 제목-명구-본문순으로 되어있습니다. 2001년 출판등록된책이라 올드한 이야기일수도 있겠네요

/


<논문의 오자 개수>

[누군가가 폭탄을 소지하고 비행기에 탈 확률은 약 1,000분의 1이라고 어느 글에서 읽었다. 그래서 나는 비행기에 탈 때마다 폭탄을 소지하기 시작했다. 두 사람이 폭탄을 소지하고 비행기에 탈 확률은 엄청나게 낮다고 보기 때문이다. _익명의 저자]

나는 1977년 7월 4일 미국 독립기념일을 생생하게 기억한다. 영국은 몇 년 만에 최고로 더웠고, 나는 옥스퍼드에서 박사학위를 위한 구술시험을 치렀다. 의미가 약간 다르긴 했지만, '독립'은 나의 시험과도 상당한 관련이 있었다. 시험관들이 가장 먼저 던진 질문이 내 논문의 주제인 우주론과 전혀 무관한, 독립적인 질문이었던 것이다. 통계학에 관한 질문이었다. 한 시험관은 내 논문에서 오자 32개를 발견했다(워드프로세서와 맞춤법 검사기가 없던 시절이다.). 또 다른 시험관은 23개를 발견했다. 그리하여 질문은 이러했다. 두 시험관이 발견하지 못한 오자가 얼마나 더 있겠는가? 잠깐동안 두 시험관이 찾아낸 오자들을 비교해보니, 두 사람이 공통으로 발견한 오자는 16개였다. 아마 독자들은 믿기 어렵겠지만, 이 정보를 알고, 두 시험관이 각자 독립적으로 논문을 검토했으므로 한 사람이 오자를 발견할 확률은 다른 사람이 오자를 발견할 확률과 무관하다고 전제하면, 시험관들의 질문에 대답할 수 있다.
시험관 1과 시험관 2가 오자를 각자 A개와 B개 발견했고, 두 사람이 공통으로 발견한 오자는 C개라고 해보자. 이때 시험관 1이 오자를 발견할 확률은 a, 시험관 2가 오자를 발견할 확률은 b라고 가정하자. 만일 논문에 들어 있는 오자의 총수가 T라면, A=aT이고 B=bT이다. 그런데 두 시험관이 독립적으로 논문을 검토했다면, 우리는 C=abT라는 핵심적인 사실도 알 수 있다. 따라서 AB=abTT=CT이다. 그러므로 T=AB/C, 다시말해 논문에 들어 있는 오자의 총수 T는 a와 b가 얼마이든 상관없이 AB/C이다. 두 시험관이 찾아낸 오자의 개수는(공통으로 찾아낸 오자들은 한 번씩만 세어야 하므로) A+B-C이므로, 그들이 못 찾은 오자의 개수는 T-(A+B-C), 즉(A-C)(B-C)/C이다. 풀어서 이야기하면, 시험관들이 못 찾은 오자의 개수는, 시험관 1만 발견한 오자의 개수 곱하기 시험관 2만 발견한 오자의 개수 나누기 두 사람 다 발견한 오자의 개수이다. 곰곰이 생각해보면 충분히 납득할 만한 결론이다. 만일 두 시험관이 오자를 많이 찾았는데 공통으로 찾은 오자가 없다면, 그들은 오자를 찾는 데 그리 능하지 않은 것이고, 따라서 두 사람 다 못 찾은 오자가 훨씬 더 많을 가능성이 높다. 내 논문의 경우에는 A=32, B=23, C=16이었으므로, 발견되지 않은 오자의 개수는 7로 예측되었다.
이런 유형의 논증은 다양한 상황어 써먹을 수 있다. 여러 전문가들이 각각 독립적으로 원유 매장 지점들을 찾는다고 해보자. 이들이 발견하지 못한 매장 지점들이 얼마나 더 있을까? 또는 여러 관찰자들이 숲에서 24시간 내내 관찰하여 어떤 동물이나 새의 개체수를 보고한다고 해보자. 이들이 관찰하지 못한 동물이나 새가 몇 마리나 더 있을까?
문학작품 분석에서도 이와 유사한 문제가 발생했다. 1976년에 스탠퍼드 대학의 통계학자 두 명은 월리엄 세익스피어의 모든 작품에 쓰인 단어의 개수를 세고 여러 번 쓰인 단어들을 고려하면서 위와 똑같은 방식으로 논증하여 그가 아는 어휘의 규모를 추정했다. 셰익스피어는 총 90만 단어로 작품들을 썼다. 그의 전집에 등장하는 서로 다른 단어는 총31,534개인데, 이 중에서 14,376개는 단 한 번, 4,343개는 단 두 번, 2,292개는 단 세 번 등장한다. 통계학자들은 셰익스피어가 작품에 써먹지 않은 단어를 적어도 35,000개는 알고 있었다고 추정했다. 결론적으로 셰익스피어의 어휘규모는 약 66,500단어였을 것이다. 그런데 놀랍게도 당신의 어휘 역시 이 정도 규모이다.

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
치맛살
15/12/23 12:15
수정 아이콘
재밌게 읽었습니다.
안스브저그
15/12/23 12:17
수정 아이콘
익명의 저자부분은 조건부 확률 개념을 생각하면 오류를 범하고 있네요.
Colorful
15/12/23 13:38
수정 아이콘
저도 저 부분을 생각해 봤는데, 1000분의 1이라는 확률이 모든 경우의 수를 포함해서 나온 숫자 아닌가요?
그러니까 저 목적을 가지고 탄 폭탄의 숫자까지 포함 되지 않을까요?
그러면 저 사람말도 일리가 있어보이는데요
안스브저그
15/12/23 14:19
수정 아이콘
본문 그대로라면 누군가가 폭탄을 소지하고, 비행기에 탈 확률이 1/1000분이라고 나와있기에. 나의 폭탄 소지확률이 1/1000이고 다른 누군가의 폭탄 소지확률도 1/1000인 서로 독립인 사건이라고 해석하는게 매끄럽죠.

비행기에 탄 사람중 한명이라도 폭탄을 소지한 사람이 있을 확률은 1/1000이다라고 했을 경우에 colorful님 말씀대로 해석하는게 매끄럽습니다.

그렇지만 이 경우에도 다른 사람이 폭탄을 소지한 채로 비행기에 타고 있을 확률이 극적으로 낮아진다고 보기에는 어렵습니다. 두 사건이 동시에 일어날 확률을 독립시행으로 계산해 놓고, 해석을 함에 있어서 서로 영향을 주고 받는 사건으로 간주했기 때문입니다.

내가 항상 폭탄을 소지하고 탑승하기 때문에, '나를 포함하여' 두 사람이 폭탄을 소지하고 탑승할 확률은 어떤 한 사람이 폭탄을 소지하고 탑승할 확률 1/1000이 되는 것이지 1/1000의 확률로 폭탄을 소지할 확률이 있는 일반적인 경우가 두번 중첩되는 경우가 아니라는 것입니다.

타율인 3할인 두 타자가 연속안타를 뽑아낼 확률을 계산하는 걸 예시로 들어보겟습니다.

3할인 두타자가 일반적으로 연속안타를 칠 확률은 0.09입니다.

하지만 앞타자가 안타를 쳤을때 뒷타자가 안타를 칠 확률이 0.09로 극적으로 떨어지지 않습니다. 두 타자의 타격기록은 독립시행에 가깝기 때문입니다. 이 경우 연속안타가 나올 확률은 3할이죠. 0.09로 떨어진다면 야구는 축구만큼이나 점수가 나지 않을겁니다.

익명의 저자는 앞타자인 내가 10할의 타자이므로 후속타자의 안타 확률을 9푼이라고 주장하네요. 궤변의 한 종류입니다. 아니면 번역이 매끄럽지 않거나요.
IRENE_ADLER.
15/12/23 14:48
수정 아이콘
나와 내가 아닌 사람은 독립적인 사건이기 때문에 서로 영향을 끼치지 않습니다. 나를 제외하고 나머지 사람들이 폭탄을 가지고 탑승할 확률은 여전히 1000분의 1이죠.

예전에 야구에서 해설들이 많이 저질렀던 오류랑 비슷하죠. 3할타율의 타자가 오늘 2타수 무안타니까 세번째 타석에서 안타를 기록할 확률이 높다는 식의 헛소리...
Phlying Dolphin
15/12/23 12:17
수정 아이콘
아주 재미있는 이야기입니다. 후속연구로 오자를 발견할 시험관을 추가시킨다면 전체 오자 수가 어떻게 변할 지 경험식을 만들 수도 있겠네요. 아무래도 오자마다 발견확률이 다를 텐데 그것까진 고려가 안 되어 있으니까요.
김연우
15/12/23 12:23
수정 아이콘
재밌네요. 천천히 읽어보면 분명 학교 다니면서 배운 내용임에도, 글을 읽기전까지는 저런 생각을 유도 못했네요./

그나저나 맨 마지막에 '그런데 놀랍게도...'에서 이야기한 놀랍게도는, 셰익스피어랑 현대인의 어휘량이 비슷하다는게 놀랍다는 것이겠지요? 대문호의 어휘력이나 일반 현대인의 어휘력이 비슷하다는 의미로
몽키매직
15/12/23 12:25
수정 아이콘
추정 자체가 허점이 많기 때문에 도출된 결론은 그냥 재미로 넘길 내용이니 진지하게 받아들이시면 곤란....
tempo stop
15/12/23 12:38
수정 아이콘
자기가 아는 단어를 100% 활용해서 책을 쓴거라고 가정해야 그렇게 되겠죠.
실제로는 훌쩍 뛰어넘는다고 봐야겠죠? 시대차이가 나는데도.
또는 반대로 어휘갯수는 같은데 아는단어를 다 써가면서 저작활동을 했다고 해도 그것도 엄청 대단한거고요.
(보통 사람들은 글을 쓸때 항상 쓰는 단어만 쓰게 되죠. 어휘력과는 별개로.)
15/12/24 00:36
수정 아이콘
셰익스피어는 단어를 만들면서 글을 쓰던 사람이라..
폭풍허세
15/12/23 12:40
수정 아이콘
이과 망했으면
다다다닥
15/12/23 13:14
수정 아이콘
망해라 이과..
Thursday
15/12/23 18:19
수정 아이콘
이거 무척 재미있네요 헉헉
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
62746 [일반] '청풍상회에서 페북에 올린 글에 대한 상인회 입장', 강화풍물시장 [86] Smiling Killy15146 15/12/24 15146 5
62745 [일반] 그래미(Grammy)마저 속인 희대의 사기 밴드... [21] Neanderthal14806 15/12/24 14806 0
62744 [일반] 슈가맨에서 보고 싶은 가수들 [144] IRENE_ADLER.22087 15/12/24 22087 0
62743 [일반] 안철수의 혁신안은 결국 그저 말뿐인건가요 [192] 에버그린14414 15/12/24 14414 9
62742 [일반] 크리스마스 이브는 도대체 정체가 뭘까? [36] 구라리오10154 15/12/24 10154 7
62741 [일반] LG G5 프로토타입 유출 및 사양 [62] CoMbI COLa12983 15/12/24 12983 1
62740 [일반] 내가 부동산을 비관적으로 보지 않는 이유 [52] The Special One11789 15/12/24 11789 4
62739 [일반] 12/23 헌법재판소 주요 결정들 [14] NightBAya7613 15/12/24 7613 12
62738 [일반] 만남 이벤트 후기 (2편) [8] 두꺼비7302 15/12/24 7302 2
62737 [일반] [MLB] 김현수 볼티모어 오리올스 입단식.jpg [38] 김치찌개9674 15/12/24 9674 1
62736 [일반] [리뷰] 저도 써보는 최근 본 영화 4편 이야기 [4] 로랑보두앵5261 15/12/24 5261 0
62735 [일반] 잠 못 이루는 크리스마스 이브의 새벽 [8] The xian5595 15/12/24 5595 3
62731 [일반] 헌법재판소 "한일협정, 위헌심판 대상 아니다" [42] 군디츠마라9039 15/12/23 9039 0
62730 [일반] [리뷰] 최근 본 영화들 6편 [6] 잠잘까8824 15/12/23 8824 4
62729 [일반] 마누라가 청소기를 돌리라고 했다. [18] 영혼의공원9092 15/12/23 9092 6
62727 [일반] 친구의 가게가 문을 닫게 생겼습니다. [124] 고양사람19508 15/12/23 19508 18
62726 [일반] [리뷰] 세월호의 아이들이 우리들에게 보낸 편지 "엄마. 나야.'' [97] 트위스터7230 15/12/23 7230 36
62725 [일반] Mx제라지다/에이프릴/월간 윤종신/터보의 뮤직비디오가 공개되었습니다. [2] 효연덕후세우실4488 15/12/23 4488 0
62724 [일반] 메갈리아의 기호성 : vagina dentata [288] 삭제됨13646 15/12/23 13646 2
62723 [일반] 김무성 건이 재발굴된 것 같습니다.(수정) [36] 갈색이야기11654 15/12/23 11654 0
62722 [일반] 스베누의 상황이 최악으로 가는것 같습니다. [129] 공유는흥한다29713 15/12/23 29713 8
62721 [일반] [아이돌] I wanna be your star [20] 양주오5540 15/12/23 5540 2
62720 [일반] 논문의 오자 개수 [13] Colorful6931 15/12/23 6931 0
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로