+ [아이추판다 트랙뷋] 통계의 의미

있는 그대로 | 2008-04-16 16:41
스크랩 0 | 추천 0
알기 쉽게 쓰는 것이 혁명이요 민주화라는, 이상한 전제를 가지고 임해본다.
(이 전제는 서기 연도에 따라 민주화되었다는 아이추판다의 전제와 완전히 어긋난다.)
그런데 쉽게 쓸 수가 없네. 그래서 그림으로 그랬다.

이 그림은 아이추판다의 회귀 분석 결과를 분석한 것이다. 이제 주석을 달아보자.




로그승수 = 로짓 = logit(이하 로짓) 값이 132일때 투표율이 거의 100%인 창세기이다.

                     133-0.066 x (서기) = 투표율로짓 (공식1)

(공식1)에 따르면 이 때는 서기 15년 즈음 된다. 서기 15년 즈음에 이루어진 총선에는 투표율이 100% 에 육박했는데, 이는 민주화가 엉망이던 시기였기 때문이다.

그림의 빨간선이다. 132 값은 물론 이 값의 저저저저저쪽 오른쪽에 있다. 그냥 오른쪽에 땡겨 붙였다. 그래서 가로축에 보면 1,2,3,4 지나서 132다 -_-

투표율은 아주 천천히 떨어지다가 (공식1)에 따른 로짓값이 대략 3인 무렵부터 급격히 떨어진다. 이때가 1990년대 후반쯤 된다. 그리하여 현세인 2000년도에는 마침내 50%에 그치게 된다. 이것은 1990년대 후반무터 무진장 민주화가 가속되었다는 것을 뜻한다. 특히 지금 시점이 투표율이 가장 가속화되어 떨어지는 시점으로 사회 모든 부문에서 급속한 민주화가 진전되고 있음을 의미하는 것이다. 인류가 이천년간 쌓아온 민주화 열망이 폭발한 것인가?

그래프가 2000년도에 한창 떨어진다는 점에 주목하자. 투표율은 무지막지 하게 떨어지다가 우리 죽을 때쯤에는 10% 내외가 되었다가, 2090년대 즈음에는 로짓값 -4.5 투표율 10%에 그치게 된다. 민주화가 완성되고 역사가 끝나는 시점이다.

그리고 그후로 수백 수천년동안 대략 투표율 10%미만의 완전한 민주화 사회가 유지될 것으로 생각된다.

아마도 이 결과는 단군이 태어났다는 4천몇백년 단기를 써도 유사할 것으로 보인다. 시간 계열이 너무나 길기 때문에 2000년 부근에 급격한 기울기를 가지는 회귀수렴 결과가 나오게 된다. 오차는 적다. 끝점 데이터만 넣은 셈이니까. 그 대신 그 분석 결과로는 앞으로 수십년간 투표율은 지금과 같은 정도로 무식하게 떨어지게 된다.

쌈박한 다른 결과가 필요하다면 주체력, 김일성 태어난 날을 기준으로 회귀수렴을 한다면 그 결과는 매우 다를 수 있다. 시계열이 짧기 때문이다. 물론 이 경우 수렴정도가 나빠질 수 있다.

진지하게 말해보자.

간단하게 문제 삼을 수 있는 것은,
물리적으로 불가능한 투표율을 고려하여 투표율 최대값을 100%로 잡지 말것. 그리고 대의제 투표제가 한반도에 소개된 시기 이후로 시계열 값을 서기에서 변경할 것. 이 두가지를 이룬 다음에 다시 얘기해 보아야한다. 100%와 서기 0년의 만남이 현세의 투표율 감소 정도를 매우 과장된 것으로 나타나게 하여 이 분석을 코미디로 만들었다.

투표율은 예수 탄생부터 지금까지 유지되다가 1990년도부터 2010년도까지 급격하게 감소한다. 그리스 시민사회, 로마 공화정, 춘추전국시대, 중국삼국시대, 그 모든 시기동안 투표율은 거의 100%에 육박한다. 고대 이집트 1기 2기 3기는 말할 것도 없다. 99.9999% 다.

시계열을 이렇게 늘여버리면 거의 모든 분석은 현재가 기울기 최대 지점으로 묘사될 수 밖에 없다. 데이터는 불과 20년 시계열은 무려 2000년. 장대한 인류역사와 그 모든 정치의 역사를 지금 순간적으로 융성하며 한반도에 소개된지 불과 50년이 된 대의제 민주주의 밖에 모르는 사람이 분석한 결과일까? 이런 것을 유식한 말로 뭐라고 하는데, 그러니까 짧은 현세에 만들어진 아주 짧은 안목으로 과거 역사를 심하게 왜곡하여 받아들이는 그런 거. 의도치 않게 이 분석은 그런게 되어 버렸다.

적합한 시계열을 사용하고 예를 들어 건국년도 1년따위, 그리고 투표율의 물리적 한계를 90% 정도로 잡고 다시 분석했으면 하지만 내게는 프로그램이 없다. 그런 분석은 고려할 가치가 있다. 이 결과는 logit 회귀분석의 이해로서 가치가 있을 뿐, 분석 결과는 무의미하다. 아 그리고 그렇게 재분석할 경우 과연 설명정도가 93.8% 만큼 될 것인가가 핵심이다.