이번 시즌, 몇 게임쯤 보면 대략 ‘각’이 나올까?

시즌 개막 2주가 지났다. 144경기를 기준으로, 2주는 고작 10% 정도에 해당한다.  얼치기지만 나는 통계를 사랑하기에, 팀당 13~4경기만으로 경기 리뷰나 시즌 예측 요청을 받으면 조금 불편하다. 적어도 이성은 작은 샘플로 섣부른 예측을 경계하라고 시켜왔다.

내가 야구를 본지도 이제 10년이 넘었다. 초심자 티는 벗은 느낌이다. 시즌이 길다는 것, 잘 안다. 손에 땀을 쥐며 시즌 막판까지 경우의 수를 헤아리며 통계를 가슴으로 익힌 ‘나’다. 그러나 통계 “따위” 뒤로 하고, 개막 후 한 달이 지나면 얼추 ‘각’이 나온다는 사실을 가슴은 알고 있다. 한 번의 예외도 없이, 우승 각이 서는 시즌은 시작부터 달랐다.

 

ㅁ 무엇을 구했는가?
– 팀별 일간 득점, 실점, 승패 기록 ( KBO 2001~2020, MLB 1980~2020 ) 조사
– 시즌 개막일 기준, 경기가 있는 날은 모두 1일차로 카운트 후 정렬
– 10G, 20G, …, 100G 까지 10경기 단위로 팀별 승률 집계
– 경기 단위 별 승률과 시즌 종료 시점 승률 사이 상관 계수 도출
– 경기 단위별로 “상관 계수”를 점으로 찍고, 이를 선으로 연장

상관계수란,   두 변수 간 관련성이 얼마나 강한지를 나타내는 통계 지표다. 두 변수가 완전한 양(+)의 선형관계라면 상관계수는 1, 완전한 음(-)의 선형 관계라면 상관계수는 -1이다. 둘 사이에 아무 관련이 없으면 상관계수는 0이다. 30G시점의 승률 집합과, 시즌 최종 승률 집합간 상관 계수가 0.7 이라면, 매우 밀접한 관계로 볼 수 있다.

ㅁ 결론
1.  상관계수가 0.7을 통과하는 시점은 대략 30경기(144경기 기준 20.8%) 언저리에 해당함을 볼 수 있다. 경기 수가 162경기인 MLB는 50경기(162경기 기준 30.9%) 가 대략 상관계수 0.7를 통과하는 지점이었다. 실제 승률과 피타고리안 승률 사이에는 큰 차이가 없다. 물론 승률이 아니라 순위로 구한 상관 계수도 30경기 근처에서 상관계수 0.7을 넘어선다.

2.  30경기라면, 산술적으로 시즌을 개막하고 모든 팀과 한 번씩 시리즈를 경험한 시점에 해당한다. 새로운 선수들의 경기력이나 특성에 대한 분석을 하기에 적절한 샘플이 쌓이기 시작하는 시점이다. 시즌 전체의 20% 정도에 해당하지만, 이를 시즌 초반이라고 무시하기에는 상관도가 높다. 따라서 30경기는 팀별로 이번 시즌의 큰 그림을 점검하는 첫 번째 기착점이 될 수 있다.

3.  승률이나 순위는 구분할만한 큰 차이가 없다. 그러나 승률이 아니라 가을야구 여부로 변수를 바꾸면 이야기가 달라진다. 지난 KBO 최근 20시즌 동안, 포스트시즌 진출팀 여부의 상관계수가 0.7을 넘어서는 시점은 90G이다. 당연하면서 흥미로웠다. 미세한 승률 차이가 승률 기준 상관계수에서는 반영되지 않지만, 가을야구 여부를 기준으로 한 상관계수에서는 확연한 차이를 만든 것이 아닐까 추측한다.

 

ㅁ 맺음말
이 글은 이성과 감성의 충돌 사이에서 느끼던 불편함을 직접 해결하고자 시작한 노가다에 해당한다. 단순한 관찰이다. 야구공작소 박광영 칼럼니스트는 2018년, KBO 리그의 샘플 사이즈 그리고 스트라이크 존”이라는 글을 통해 공수 스탯별 최소 샘플사이즈에 대한 연구 결과를 발표한 바 있다. 해당 칼럼의 외전 또는 스핀오프 정도로 이 글이 위치하기를 희망한다.

[자료 출처]

– 20년치 자료 구해서 정리하는데 2시간이 걸린 KBO 홈페이지

– 70년치 구해서 정리하는데 10분이 걸린 baseballreference.com

 

야구공작소  김지호 칼럼니스트
에디터 = 야구공작소 이희원, 전언수

Appendix

(미국)

(KBO순위)

(가을야구)

Be the first to comment

댓글 남기기