통계분석이란 그 목적과 방법에 따라 위와 같이 구분할 수 있다. (정답은 아닐 수도 있다. 통상적으로 그러하다는 뜻.) 자, 그러면 우리가 얻고자 하는 직관이나 통찰 즉 미래의 예측값을 구할 수 있는 방법들은 위의 표에서 노란색 회귀분석의 영역에 속한다. 그렇다면 적어도 이러한 회귀분석이 통계학에서 어떠한 목적과 방법에 의해 분석되는지 정도는 짚고 넘어가보자.
우선 첫 번째 카테고리를 보면 차이검정과 관계검정으로 구분이 된다. 차이검정이란 쉽게 말해서 두 표본집단간의 유의미한 차이가 있는가를 알아보는 방법이다. 집단의 갯수가 2개인가 혹은 그 이상인가에 따라 t검정과 분산분석으로 접근법이 달라지기는 하지만 결과적으로 보면 표본집단간의 차이를 알아보는 방법이다.
자 그러면 어떠한 경우에 이러한 차이검정이 유효하게 사용될까? 간단한 예로 (주)알파제약회사에서 코로나 백신을 개발했다고 하자. (코로나! 마스크 꼭 착용합시다.) 자 그렇다면 이 백신이 과연 효과가 있는가 없는가에 대한 검증이 필요하다. 사람을 상대로 실험할 수는 없으니 우리는 토끼 100마리에 대해서 임의의 50마리는 백신을 접종시켰고 나머지 50마리는 백신을 접종시키지 않았다. 이제 한 3주 정도 기다려보자.
백신을 접종한 이후 완치된 토끼 : 50마리 중 20마리.
백신을 접종하지 않아도 저절로 완치된 토끼 : 50마리 중 12마리.
단순히 비교한다면 첫 번째 그룹이 백신을 접종해서 완치율이 높다고 판단할 수도 있다. 그러나 매우 큰 오산이다. 왜? 우리는 처음 토끼 100마리에 대해서 임의로 50마리를 추출했다. 그 중에 우연히 튼튼한 놈(가만히 놔둬도 자연치유될 능력이 있는 놈들)이 많이 뽑혀서 백신이 효과가 있는 것처럼 오판할 수 있다는 점이다.
바로 이런 경우 통계적 차이검정이 필요할 수 있다. 물론 비교대상이 독립적인가(독립표본) 혹은 그렇지 않은가에 따라 (대응표본:동일대상에 대해서 반복해서 측정) 다를 수 있지만 분석의 방법은 상황에 맞게 선택하면 되는 것이고 분석의 목적은 차이가 유의미한가 아닌가를 검정하는데 있다는 점은 변함이 없다.
그럼 두 번째 카테고리의 관계검정에 대해서 알아보자. 세부적인 카테고리로 들어가면 상관분석과 회귀분석 등으로 분류된다. 자, 그렇다면 상관분석이란 무엇일까? 어떠한 2변수들 사이에 존재하는 상호영향을 의미하며 원인과 결과에 무관하게 어느 한쪽이 증가(혹은 감소)하면 다른 한쪽이 증가(혹은 감소)하는 현상들로 추정할 수 있는데 한 가지 유의할 점은 상관관계가 있다고 해서 인과관계가 있다고 판단할 수 없다. 이와 반대로 뭐 나중에 다룰지 잘 모르겠지만 어떠한 결과의 원인변수를 찾아내는 방법으로 구조화방정식(SEM)이라는 것이 있는데 이 역시 회귀분석의 조합으로 표현할 수 있다. 따라서 정확하다고 표현하기는 애매하지만 어떠한 변수들 사이의 인과관계를 분석하는 방법론 중의 하나가 바로 회귀분석이라고 표현할 수도 있다. 회귀분석에서 독립변수(원인변수)와 종속변수(독립변수에 종속되어 변화하는 변수)로 구분하여 표현하는 이유도 이와 비슷한 맥락에서 이해할 수 있다.
자 그렇다면 회귀분석은 어떠한 경우에 응용할 수 있을까? 주가와 금리의 관계를 예로 들어 둘 사이에 인과관계가 존재할 것인가 그렇지 않을 것인가에 대해서 생각해보자. 우선 금리는 잘 아는 것처럼 한국은행에서 결정한다. 경기확장국면에서는 시중의 유동성을 회수하기 위해서 금리를 높이고 경기수축국면에서는 시중에 유동성을 공급하기 위해서 금리를 낮춘다. 왜? 경기수축기에는 장사도 안 되고 실업률도 높고 그러니 시중에 돈이라도 풀어서 경제를 돌아가게 만들어야하기 때문이지. 그 반대는? 시중에 너무 돈이 남아돌아도 인플레(물가상승)가 발생하는 등의 부작용이 있으니 금리를 높여서 시중 유동성을 축소하는 정책을 펼치게 된다.
자 그렇다면 금리가 높을 때(경기확장)에는 주식가격이 어떻게 될까? 그렇다. 상상하는 것과 비슷하다. 장사도 잘 되니 기업의 매출액은 증가할 것이고 이렇게 늘어난 실적은 주가상승의 요인으로 작용하여 가격이 올라간다. 그와 반대로 금리가 낮을 때에는? 경기수축기에는 기업의 실적이 악화되어 주가가 하락하는 현상을 보이게 된다. 물론 이것 역시 정답은 아니다. 전혀 반대로 작용할 때도 있다. 앙드레코스콜라니(유럽의 유명한 펀드매니저)는 경기가 안 좋아서 금리가 하락하면 갈 곳 잃은 돈들이 주식시장으로 유입되어 오히려 주가가 상승한다고 했다. 그렇다. 실제로 이러한 경우도 많다. 그러나 이런 현상까지 아우르는 분석을 하기 위해서는 시차(time-leg)도 고려해야 한다. 문제의 본질은 둘 사이에 인과관계가 존재하는가 아닌가이다.
그렇다. 아주 높은 확률로 둘 사이에는 인과관계가 존재한다고 볼 수 있다. 물론 경기라는 간접효과가 끼여 있어서 직접적인 효과라고 판단하기에는 다소 무리가 있을 수 있지만 그래도 한다리 건너서 인과관계가 존재한다고 볼수도 있다. 추후 경로분석이라는 것을 다루게 된다면 직접효과와 간접효과로 구분해서 분석도 하겠지만 지금은 그냥 중간에 끼든 아니든 존재한다라고 보자..
자, 그럼 우리가 궁금한게 뭐라고? 그렇다. 내일의 가격이다. 변수들간의 어떠한 회귀식을 산출할 수 있다면 내일의 가격에 대한 추론 값 역시 구할 수 있을 것이다. 우선 이번에는 간단한 이론적 배경만 짚고 넘어가고 다음 포스트에서는 실전 예측을 수행해보자.
'인과관계분석' 카테고리의 다른 글
삼성전자의 중회귀분석 with R (0) | 2020.09.02 |
---|---|
코스피지수의 회귀분석 with R (0) | 2020.09.02 |
R 데이터 가져오기 (0) | 2020.09.01 |
R 기초문법을 배워보자 (0) | 2020.09.01 |
R 프로그램을 설치해보자 (0) | 2020.09.01 |
댓글