728x90 반응형 728x90 반응형 분류 전체보기 319 기계학습의 종류 - 확률기반 확률기반 학습은 베이즈 정리에 기반을 두고 있다. 우선 베이즈 정리란 무엇인가에 대해 간략하게 짚고 넘어가보자. 확률론과 통계학에서, 베이즈 정리(영어: Bayes’ theorem)는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다. 베이즈 확률론 해석에 따르면 베이즈 정리는 사전확률로부터 사후확률을 구할 수 있다.[1] 베이즈 정리는 불확실성 하에서 의사결정문제를 수학적으로 다룰 때 중요하게 이용된다. 특히, 정보와 같이 눈에 보이지 않는 무형자산이 지닌 가치를 계산할 때 유용하게 사용된다. 전통적인 확률이 연역적 추론에 기반을 두고 있다면 베이즈 정리는 확률임에도 귀납적, 경험적인 추론을 사용한다.[2] [출처 : 위키백과] 베이즈 정리 - 위키백과, 우리 모두의 백과사전 위키백.. 2021. 1. 10. 기계학습의 종류 - 유사도 기반 우리는 지난 포스트에서 엔트로피를 최소화하는 정보기반 학습에 대해 살펴봤다. 이번에 살펴볼 유사도 기반 학습은 말 그대로 얼마나 닮아 있는가를 찾아내어 정보의 불확실성을 줄이는 방법이다. 가장 대표적인 사례가 KNN 분류기법이다. 잠시 복습하고 지나가자면 이 방법은 데이터의 속성을 다차원의 공간으로 투영하여 그룹화를 수행하는 것으로 보면 되는데 이때 같은 그룹으로 묶이기 위해서 유클리드 거리를 사용한다. 각 속성치들의 거리차의 제곱의 제곱근이 최소화되는 그룹을 찾는데 만약 데이터의 속성치가 2개라면 2차원 공간상에 투영한 뒤 유클리드 거리를 측정하면 되겠지만 속성이 많아질 수록 그걸 이미지화 시키기가 녹록치 않다. 특히 3차원 이상이라면 말이다. 따라서 다수의 속성정보를 가진 n차원 좌표계는 추상화할 수.. 2020. 12. 22. 파마 프렌치의 3요인 모형 자본 자산 가격 결정 모델 (CAPM)로 알려진 전통적인 모델은 주식의 수익률과 시장 전체 수익률을 설명하는데 하나의 변수만 사용한다. 반대로 Fama–French 모델은 세 가지 변수를 사용하는데 파마과 프렌치는 기존 CAPM 에 두 가지 요소를 추가했다. Capital asset pricing model - WikipediaIn finance, the capital asset pricing model (CAPM) is a model used to determine a theoretically appropriate required rate of return of an asset, to make decisions about adding assets to a well-diversified portfolio.. 2020. 12. 14. 기계학습의 종류 - 정보 기반 기계학습의 학습방법은 크게 보면 정보기반, 유사도기반, 확률기반, 오차기반으로 분류할 수 있다. 모든 학습법은 불확실성(무질서도)의 해소라는 공통의 목표를 가지고 있지만 각 각 목적지에 이르는 방법론에 있어서는 차이가 있다. 이번 포스트에서 알아볼 정보기반 학습의 대표적인 분석기법이 바로 트리모형인데 무질서한 데이터 속에서 어떠한 속성치를 기준으로 점차 가지치기를 해나가는 방법이다. 예를 들어 코스피 200 종목들 중 펀더멘털이 우수(단, 여기서 우수하다는 것은 미리 정의되어 있다고 가정하자.)한 그룹과 그렇지 않은 그룹으로 분류를 한다고 할 때 가장 첫 번째 던질 수 있는 질문은 흑자기업인가? 적자기업인가? 정도가 될 것이다. 만약 흑자기업이라면 순이익률은 은행이자율(Risk Free Rate)보다 높.. 2020. 12. 13. Facebook prophet(예언자)을 이용한 주가예측 모델링 지난번 포스트(2020/09/17 - [데이터마이닝 with R/시계열모델링 with R] - 시계열 분석이란?)에서 언급했던 시계열 모델링의 기초를 요약하면 driving force(추세)의 유무, 계절성의 유무, 인접한 자료들 사이에 상관성의 유무, 일정한 평균과 분산의 조건 등에 대한 검증 및 전처리 과정을 거친 뒤 본격적으로 시계열 분석을 수행하게 되는데 이러한 일련의 과정들을 하나의 함수로 요약해주는 예언자가 등장했다 ㄷㄷㄷ. 이름부터 prophet 이다. 예측(forecast)이 아닌 예언이라고 한다. 이름만 들어서는 누가 오만하게 예언이라고 하는가 했다가 개발주체가 페이스북이라는 이야기를 듣고 난 이후에는 음... 이하 생략한다. 주가자료에 대한 데이터만 있다면 특별한 전처리 없이도 함수 몇.. 2020. 12. 2. 의사결정나무를 이용해서 HTS 조건검색식 만들어보기 의사결정트리에 관한 이론적 배경은 지난번 포스트(2020/09/10 - [데이터마이닝 with R/인과관계분석 with R] - 의사결정나무(Decision Tree) with R)를 참고하면 되는데 그래도 다시 한번 간략히 복습하고 넘어가자. 트리를 만드는 과정은 재귀적 분할이라고도 하는데 임의의 데이터를 부분 집합으로 나누고 그 다음은 더 작은 부분집합으로 반복적으로 분할하다 보면 나누어진 집단의 속성이 매우 동질적이어서 더 이상 부분으로 나누기 힘든 구간까지 반복하는 방법을 의미한다. 지난번 포스트에서 rpart를 이용한 트리모형을 구현했다면 이번 포스트에서는 C5.0 엔진을 이용해 볼 예정인데 rpart 에 비해 우수한 점은 수치나 명목에 대해서 특별히 가리지 않고 중요하지 않은 속성치는 알아서 .. 2020. 11. 12. KNN, 나이브베이즈 분류를 이용해서 종목분석하기 이전 포스트 이베스트편(2020/11/09 - [증권사 API] - 특정기업의 FNG 요약, 마켓컨센서스 가져오기)를 잘 활용하면 아래의 그림과 같이 코스피, 코스닥 시가총액 상위종목들의 에프앤가이드 요약 재무비율과 마켓 컨센서스(시장의견)를 가져올 수 있다. 물론 여러번 반복과정을 거쳐야 아래와 같은 로데이터를 얻을 수 있으니 귀찮은 사람은 첨부된 엑셀파일을 가져다가 써도 되겠다. 자, 이제부터 우리가 무엇을 하는가하면! 바로 특정종목들의 재무비율을 속성데이터로 하고 해당 종목에 대한 마켓 컨센서스를 정답 라벨링으로 간주하고 분류를 수행해 볼 예정이다. 이러한 것을 왜하는가? 그렇다. 통상 변두리의 종목들, 스몰캡 종목에 대해서 보고서를 작성하는 애널리스트들은 많지 않다. 그러나 유진파마의 이론에서도 .. 2020. 11. 10. 특정기업의 FNG 요약, 마켓컨센서스 가져오기 주식투자자의 유형을 크게 2가지로 분류한다면 하나는 펀더멘털(가치투자) 나머지는 모멘텀(움직임) 투자자로 분류할 수 있겠다. 뭐 정답은 아니지만 대부분의 사람들의 투자철학은 이 2가지로 압축되는 경향이 있다. 회귀분석, 시계열분석, 인관관계분석의 경우 큰 범주에서는 모멘텀 분석의 한 종류라 볼 수 있다. 그러나 이는 시장전체적인 유기관계에 있어 가장 확률개연성이 높은 예측자료를 얻는데 유용할 수 있으나 개별기업의 특성에 따른 비체계적 효과는 간과할 수 있는 한계가 존재한다. 따라서 이번 포스트에서는 특정기업의 재무데이터를 가져오는 방법에 대해 한번 알아보자. 방법은 여러가지가 있을 수 있다. 한국전자공시 사이트에 API신청을 하고 XMR 등으로 파싱하는 방법도 있을 수 있지만 이럴 경우 데이터를 정제하는.. 2020. 11. 9. 머신러닝 개요 with R 우선 AI를 설계하기 전에 하고자하는 일(프로젝트, 연구 기타 등)의 목적에 맞는 방법론을 선택해야 삽질을 덜 할 수 있다. 위의 표에서 간단하게 요약한 것처럼 데이터가 범주형의 자료(라벨링)인가 혹은 수치형(관계분석)인가에 따라 분류와 수치예측으로 구분이 된다. 그러면 이제 위의 표를 기준으로 하나씩 순차적으로 살펴보자. 자, 우선 분류의 문제를 예로 들어보면 어떤 기업이 디폴트(채무불이행)할 것인가 아닌가를 분류를 하기 위해서는 모든 기업들의 디폴트한 기업 그렇지 않고 잘 버티는 기업에 대한 라벨링이 된 데이터와 이들 기업들 개별에 대한 부채비율, 유동비율, 순이익률, 매출성장률 등의 재무비율 속성 데이터가 필요하다. 반드시 그렇다고 볼 순 없지만 부채비율은 높고 유동비율은 낮은 기업들은 디폴트 그룹.. 2020. 11. 6. (G)ARCH 모형의 분석절차 동분산의 가정은 고전적 최소자승법에서 횡단면 자료의 오차분산이 일정하다는 가정을 중요시하여 시계열 자료의 분석에서도 모든 t에 대해 분산이 일정하다는 안정성 조건을 중요시였기 때문에 ARMA 모형에서는 잔차의 분산이 동일하다고 가정한다. 하지만 실제 시계열 자료 특히 금융시계열에서는 무작위적으로 일정한 구간을 벗어난 극단값이 관측되는 경우가 많다. 이러한 오류가 자주 발생을 하자 시간의 흐름에 따라 변화하는 분산에 대한 연구로 ARCH, GARCH 모형이 개발되었다. 이러한 시계열 자료의 특징은 변동성의 군집화 현상을 보이는데 높은 변동성을 가진 구간이 그렇지 않은 구간에 비해서 집중되어 있고 분포를 살펴보면 fat-tail을 가진 뾰족한 분포를 가지는 것이 특징이다. 그래서 로버트 앵글은 특정시점 t기.. 2020. 10. 20. ARIMA 모형의 분석절차(확률적 모형분석) 시계열 자료는 추세, 계절, 백색잡음 등 다양한 요인이 중첩되어 결정된다. 이 때 각 요인들이 결합되어 고정적인 패턴을 나타내는 확정적 모형과 그렇지 않고 불규칙적인 패턴을 보이는 확률적 모형이 있다. 대표적인 확률적 시계열 패턴이 주가변동이다. 자 그렇다면 이렇게 확률적 모형을 분석하는 절차는 어떤 과정을 거치는가에 대해 알아보자. 1. 시계열자료의 안정성을 검정 2. 불안정 시계열일 경우 적절한 변환을 통해 안정적 시계열로 변환 3. 개연성 있는 예비모형을 산정해야 하는데 이때 acf, pacf cv 지표 혹은 auto.arima 프로그램을 이용할 수 있다. 4. 선정된 모형을 통해 추정 및 평가과정을 거친 다음 최종모형을 선정한다. 5. 예측에 대한 성능평가를 통해 최대한 현실에 가까운 모형을 도출.. 2020. 10. 19. 시계열 자료의 분해법 분해법이라는 것은 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법으로 시계열의 구성요소를 추세요인, 계절요인, 순환요인 및 불규칙요인으로 구분하여 각 요소로 분해하여 분석한다. 즉 이 4가지 구성요소 중에서 추세, 계절, 순환요인을 제거한다면 남은 자료는 우연변동에 의한 정상 시계열로 만들 수 있기 때문이다. 사실 주식의 경우 로그차분을 수행하면 평균이 뮤, 분산이 시그마인 안정 시계열로 대부분 변환이 되지만 경우에 따라 그렇지 않은 경우도 있기 때문에 이러한 방법들에 대해 간략히 짚고 넘어가보자. #작업경로를 지정하는 명령어 setwd("") mydatat 2020. 10. 19. 이전 1 ··· 21 22 23 24 25 26 27 다음