파이썬에서 XGBoost 라이브러리를 사용하기 위해 설치하고 import 하는 중 발생한 오류를 해결하는 과정을 담았다. (OS X기준) 먼저 설치되어 있지 않다면 설치부터 진행한다. 터미널을 열고 1. pip install xgboost 2. Import install xgboost 이후 필자는 다음과 같은 에러가 발생했다. 해결: brew install libomp (brew가 설치되어 있다는 전제하에) brew로 libomp를 설치했더니 해결되었다.
1. 아이디어 무작위로 선택된 수천 명의 사람들에게 독립적으로 어떤 문제에 대한 질문을 하고 대답을 모은다고 가정하자. 많은 경우 이들의 대답이 전문가 한 명의 답보다 낫다고 한다. 즉 집단지성이 전문가 한 사람보다 낫다는 것이다. 앙상블 방법을 통해 이 집단지성을 학습 알고리즘들에 적용시켜 단일 학습 알고리즘보다 더 좋은 성능을 꾀하고자 한다. 1.1 앙상블 그렇다면 앙상블이란 무엇인가? 사전적 정의로는 a group of musicians, actors, or dancers who perform together. 머신러닝에서는 일련의 예측기를 앙상블이라 부른다. 2. 앙상블 방법 앙상블 방법은 크게 2가지로 나뉜다. 먼저, 하나의 데이터 셋에 여러가지 다른 훈련 알고리즘을 훈련시킨 후 조합하는 방식으..
1. 아이디어 랜덤 포레스트의 아이디어는 앙상블 방법에서 나왔다. 배깅이나 페이스팅 방법을 적용한 결정 트리의 앙상블이 랜덤 포레스트이다. 아래와 같이 분류 문제는 사이킷런의 RandomForestClassifier 메서드로 사용한다. (BaggingClassifier와 DecisionTreeClassifier를 결합한 것과 같다.) 2. 엑스트라 트리 결정 트리에서는 CART 비용 함수를 최소화하는 특성 k와 그 임계값 t_k를 선택해 샘플을 분할하는 반면 랜덤 포레스트 알고리즘은 전체 특성 중에서 무작위로 선택한 특성 후보 중에서 최적의 특성을 찾는 방식으로 무작위성을 더 주입한다. 엑스트라 트리는 여기서 더 무작위성을 주입해 전체 특성 중에서 무작위로 특성을 후보를 선택해 샘플을 무작위로 분할한 후..
1. 아이디어 결정 트리는 우리가 일상 생활에서도 사용하는 방식이다. 예를 들어 음식 배달 주문을 할 때, 중식을 먹을지 양식을 먹을지, 중식을 먹는다면 짜장면을 먹을지, 짬뽕을 먹을지, 짜장면을 먹는다면 간짜장을 먹을지 삼선짜장을 먹을지와 같이 선택지를 큰 범주부터 작은 범주로 점진적으로 좁혀나가는 방식이다. 2. 훈련 방식 그림을 보자. 위에서 든 짜장면 예시와 다를 것이 없다. 맨 위에서 부터, 특정 샘플의 petal width(꽃잎 너비)가 0.8보다 작으면 왼쪽, 크면 오른쪽 아래로 내려간다. 예를 들어 샘플의 꽃잎 너비가 1.8, 길이가 5라고 하자. 맨 위 루트 노드부터 시작한다. 이 샘플의 꽃잎 너비가 0.8보다 크기 때문에 오른쪽 아래로 내려간다. 이 노드에서는 샘플의 꽃잎 너비가 1.7..