ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • feature importance
    카테고리 없음 2022. 2. 18. 09:45

    머신러닝에서 각 변수들의 중요도는

    각 변수들의 값에 따른 예측 값이 균형되게 분포될수록 높아진다.

     

    이진 분류의 예를 들면, 특정 변수 x1, x2의 값에 따라 예측 값이 0 혹은 1일 확률이 각각

    (0, 1), (1/3, 2/3)으로 되는 경우

    후자가 더 균형된 예측값 분포이기 때문에 x2의 중요도가 더 커진다

     

    수식으로 계산하자면, 균형되게 분포된 정도는 entropy로 구할 수 있다.

     

    information gain, (S: 부모노드 샘플, Sv: 자식노드 샘플)

    특정 노드 C에서 특정 feature f에 대한 information gain은 위와 같이 구할 수 있고

    특정 feature f1에 대한 IG를 구하려면, 모든 노드에 대해 Gain(C, f1)을 구해 더하면 된다

Designed by Tistory.