여기 참조

 

개요

일별수익률등 거의 0이 나타나지 않는 feature를 dense feature라고 한다.

원핫 인코딩을 거친 범주형 데이터처럼 0이 매우 많이 나타나고 드물게 0이 아닌 1등이 나타나는 feature를 sparse feature라고 한다.

(원핫 인코딩 여부가 판가름하는 지표가 되기도 한다)

 

한가지 주의할것은 업데이트 주기로 판단하지는 않는 다는 것이다.

예를 들어 GDP값이라는 feature가 있을때, 값은 1년내 거의 고정이지만 이를 sparse feature라고 하지는 않는다. (값의 대부분이 0이진 않기 때문에)

 

모델

XGBoost: 주로 연속적인 수치형 feature(dense feature)에 강점을 가지며, 트리 기반 모델은 feature의 분할을 통해 비선형 관계를 잘 포착함. sparse feature를 사용할때는 카디널리티(cardinality, 고유값의 수)가 높지 않고 연속성이 어느정도 의미가 있는 경우에 효과적.

 

딥러닝모델: dense feature와 sparse feature모두를 효과적으로 처리. sparse feature는 임베딩을 통해 dense vector로 변환되어 처리함.(특히 NLP등에서 중요)

 

즉, 카디널리티가 높지 않은 경우는 XGBoost도 어느정도 sparse feature를 처리할 수 있지만, 카디널리티가 높은 경우는 딥러닝이 임베딩을 통한 기술이 있어서 더 유리하다고 하는 것.

 

 

반응형

'AI, ML > ML' 카테고리의 다른 글

문자열을 벡터로 바꾸는 방법1 - CountVectorizer  (0) 2024.03.12
cardinality  (1) 2024.01.07
binning  (0) 2023.12.28
디시전트리기반 코드 실습  (0) 2023.10.16
그레디언트 부스팅 (Gradient Boosting)  (0) 2023.10.15

+ Recent posts