본문 바로가기

전체 글

(28)
Overfitting과 Underfitting Overfitting 은 모델이 training set 의 noise 까지 학습하여 test set 에서의 성능이 하락하는 현상이다. 아래 그림에서 모델링을 하고자 하는 함수는 검은색 선이다. 하지만 sample 이 drawn 될 때에는 noise 가 더해지기 때문에 검은색 경계선 주변에는 파란색, 빨간색 point 가 혼재될 수 있다. 이런 상황에서 모델이 drawn 된 sample 들에 맞춰 과하게 학습되면 아래의 초록색 선과 같이 복잡한 함수가 나오게 된다. 검은색 선을 경계로 앞으로 draw 될 sample 까지 잘 분류하기 위해서는 이미 draw 된 빨간색, 파란색 sample 들만을 가지고 검은색 선에 최대한 가까운 함수를 찾아야 한다. Underfitting 은 overfitting 과 반대..
주식시장의 정량적 분석에 필요한 재료들은 어디에 있을까? 코딩을 활용하여 무언가를 해보려면 데이터 수집을 해야한다. 기관의 연구원이라면 이미 활용할 수 있는 데이터가 많겠지만 우리는 개인이니까 직접 데이터를 모아야한다. github에서 소스를 공유하듯이 데이터도 공유를 하면 좋으련만 돈놀이와 관련된 데이터라 그런지 유용한 데이터를 공유해주는 사람은 거의 없다. 데이터 스크랩퍼를 만들기 위해서는 어떤 프로그래밍 언어를 사용하여도 무관하지만 대부분은 생산성이 좋은 python을 사용한다. python에서 주로 활용되는 라이브러리는 html 파싱을 위한 BeautifulSoup, html request를 보내기 위한 requests 이다. 그 외에 필수적인 도구는 chrome 브라우저의 개발자 도구이다. 개발자 도구는 파싱을 위해 html 페이지 구조를 분석하거나 ..
HTML Cheat Sheet HTML Elements HTML element는 start tag, content, end tag로 구성되어 있다 (content). Empty element의 경우에는 content를 포함하지 않고, end tag를 포함하지 않는다 ( , 등의 tag). tag의 href 같은 것들을 attribute라 한다. Attributes는 HTML elements에 추가적인 정보를 제공한다. end tag를 생략하여도 웹브라우저가 잘 처리할 수 있지만, 추후 예상하지 못한 버그가 발생할 수 있으니 end tag는 꼭 붙이도록 하자. HTML tag는 대소문자를 가리지 않는다. 대신에 를 사용해도 된다. 하지만 W3C는 소문자를 권장하므로 소문자로 사용하도록 하자. HTML Documents 모든 HTML 문..