학습 목표
- 최적의 성능을 내는 모델을 찾을 수 있습니다.
핵심 키워드
- Gradient Boosting
- Random Search
학습하기
학습 목표
- 최적의 성능을 내는 모델을 찾을 수 있습니다.
핵심 키워드
- Gradient Boosting
- Random Search
학습하기
학습내용
가장 좋은 파라미터는 우리가 넣은 파라미터 중에서 찾게 됩니다.
iteration이 크면 오래 걸리므로 보통 쉬는 시간에 실행을 하는 편입니다.
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
estimators = [DecisionTreeRegressor(random_state=42),
RandomForestRegressor(random_state=42),
GradientBoostingRegressor(random_state=42)]
estimators
estimator 3개가 들어간 것을 확인할 수 있습니다.
결과 :
results = [ ]
for estimator in estimators:
result = [ ]
result.append(estimator.__class__.__name__)
results.append(result)
pd.DataFrame(results)
모델을 for문을 돌면서 하나씩 클래스 이름만 리스트에 넣어줍니다.
결과 :
from sklearn.model_selection import RandomizedSearchCV
results = [ ]
for estimator in estimators:
result = [ ]
max_depth = np.random.randint(5, 30, 10)
max_features = np.random.uniform(0.3, 1.0, 10)
param_distributions = {"max_depth" : max_depth,
"max_features" : max_features}
regressor = RandomizedSearchCV(estimator,
param_distributions,
n_iter=10,
scoring=None,
cv=5
verbose=2, random_state=42)
regressor.fit(X_train, y_train)
result.append(estimator.__class__.__name__)
results.append(regressor.best_params_)
results.append(regressor.best_estimator_)
results.append(regressor.best_score_)
results.append(regressor.cv_result_)
results.append(result)
iteration을 돌린 값을 regressor에 담고 있기 때문에 regressor_best_params_를 append 시켜줍니다.
모델 3개를 로그를 보여주면서 학습을 하여 result에 결과가 들어갑니다.
df_cv = pd.DataFrame(results)
df_cv.columns = ["model", "params", "estimator", "score", "cv_result"]
df_cv
r2_score에 의하면 RandomForest가 가장 좋은 성능을 나타냅니다.
결과 :
best_estimator = df_cv.loc[1, "estimator"]
best_estimator
가장 성능이 좋은 모델을 출력합니다.
결과 :
best_estimator.fit(X_train, y_train)
가장 성능이 좋은 모델을 다시 학습합니다.
결과 :
from sklearn.model_selection import cross_val_predict
y_predict = cross_val_predict(best_estimator, X_train, y_train, cv=5, verbose=2, n_jobs=-1
y_predict[:5]
cross_validation으로 오차를 측정합니다.
결과 :
sns.regplot(y_train, y_predict)
회귀선에 값들이 가까워졌음을 알 수 있습니다.
결과 :
sns.distplot(y_train, hist=False, label="train")
sns.distplot(y_predict, hist=False, label="predict")
r2_score은 0.352가 나왔고, distplot으로 확인했을 때 값의 분포는 차이가 있어보입니다.
결과 :
error = abs(y_train - y_predictr)
error.mean()
가장 좋은 파라미터를 찾았더니 가장 좋은 수치를 얻었습니다.
결과 :
44.385
sns.distplot(error)
오류 차이가 적게 나는 부분에 데이터들이 몰려있습니다.
결과 :
error.describe()
3분위수와 max 값이 여전히 차이가 많이 납니다. 평균값이 중앙값보다 많이 높은데 max 값이 편향되어 있기 때문입니다.
결과 :
np.sqrt(((y_train - y_predict) ** 2).mean())
RMSE 값도 많이 낮아졌습니다.
결과 :
59.689428766488554
best_estimator.feature_importances_
피처의 중요도를 추출합니다.
결과 :
sns.barplot(x=model.feature_importance_, y=feature_names)
피처의 중요도를 시각화합니다.
결과 :
평균과 max 값의 차이가 크고, 중앙값의 크기가 test에서 더 큽니다.
옵션 값을 더 자세히 설정해준다면 좋은 성능을 찾을 것입니다.