야구 기록, 얼마나 쌓여야 믿을 수 있나요

얼마 전 메이저리그(MLB) 사무국에서 일하는 친구로부터 문자 메시지를 받았다. 자기가 하는 연구를 신뢰하려면 어느 정도의 데이터가 쌓여야 하느냐는 질문이었다. ‘피자 커터’라는 필명으로 더 유명한 러셀 칼튼의 방법을 소개해줬다. 15년 가까이 된 글이지만, 야구에서 ‘데이터의 안정화’에 관련해 자주 인용되곤 한다.

타율을 예로 들어보겠다. 1년에 주전 선수들은 대개 650타석 정도의 기회를 얻는다. 이 정도면 타율이 안정화되었다고 할 수 있을까? 칼튼의 방법을 사용해보자.

선수별로 1300타석을 잡아, 무작위로 A와 B로 나눈다(칼튼은 타석을 시간순으로 정렬한 후 홀수 번째 타석을 A에, 짝수 번째 타석을 B에 넣었다). 그리고는 모든 선수를 아울러 A와 B의 상관관계를 본다. 칼튼은 사회과학에서 쓰이는 것처럼 이 상관계수가 0.7이 넘는다면 650타석의 타율은 안정화가 된 것이라고 봤다. 참고로 타율은 다른 연구의 결과, 910타수의 표본을 취한 후에야 상관계수가 0.7을 넘는다는 것이 확인됐다.

데이터의 안정화에 대해 잘못 이해하는 경우가 드물지 않다. ‘이 수치가 안정화되려면 최소한 이만큼의 데이터가 쌓여야 하고, 그에 도달하지 못한 경우는 아무런 의미가 없다’라는 식이다. 이건 반은 맞고 반은 틀린 얘기다. 많이 쌓인 데이터의 신뢰성이 더 높은 것은 당연하다.

하지만 의미 없는 데이터가 일정 타석 수를 채우는 순간 갑자기 의미 있게 변하는 건 아니다. 5타석의 결과로 선수를 평가하는 건 어렵지만, 100타석의 결과라면 그 선수의 실제 능력치를 가늠하는 데 도움이 될 것이다. 200타석이면 더더욱 좋다.

타율이 910타수에서 안정화가 되었다는 말은 ‘910타수 이상의 타율만이 선수의 능력을 고스란히 보여준다’라기보다 ‘910타수를 기록한 선수의 타율은 그가 올린 또 다른 910타수의 타율과 상관관계가 매우 깊다’의 의미에 가깝다.

적은 타석 수를 놓고 보더라도 원래 잘 치는 선수 타율이 높을 확률이 높은 건 맞다. 하지만 그 적은 타석에서 타율이 높은 선수가 잘 치는 선수라고 판단하기에는, 즉 다음에 그만큼 타석에 섰을 때도 역시 높은 타율을 기록할 확률이 높다고 하기에는 근거가 부족하다는 뜻이다.

100타석의 타율과 1000타석의 그것은 신뢰도에 큰 차이가 있다. 하지만 그렇게 큰 데이터를 모으는 데 10년이 걸린다면 그게 무슨 의미가 있겠는가. 선수의 기량이 10년 후에는 바뀔 수밖에 없으니 말이다.

여기에 핵심이 있다. 칼튼의 연구 결과는 어떤 수치가 언제 안정화되는지 알려준다는 의미가 있지만, 여러 수치 중 어느 것이 빨리 안정화가 되는지 비교할 수 있다는 점에 더 큰 매력이 있다.

※ 이 글의 나머지 내용은 “일간스포츠”에서 만나실 수 있습니다. (링크)

 

Be the first to comment

댓글 남기기