Binning은 연속형 값을 일정한 구간으로 나누어 범주형 값처럼 다루는 전처리 방법입니다.
나이, 금액, 점수처럼 값의 범위가 넓은 데이터를 10대, 20대, 낮음, 중간, 높음 같은 구간으로 바꾸면 모델이 패턴을 더 단순하게 볼 수 있지만 정보 손실도 함께 생깁니다.
핵심 정리
Binning의 장점은 이상치와 작은 노이즈의 영향을 줄이고, 특정 구간에서만 달라지는 비선형 패턴을 표현하기 쉬워진다는 점입니다. 반대로 구간 경계를 어떻게 잡느냐에 따라 결과가 달라지고, 원래 값의 세부 정보가 사라질 수 있습니다. 구간화한 뒤에는 구간 사이의 순서가 의미 있으면 Label Encoding을, 순서를 강제로 주고 싶지 않으면 One-Hot Encoding을 고려합니다. 트리 계열 모델과 선형 모델은 인코딩 방식에 대한 반응이 다를 수 있으므로 모델 성격까지 함께 봐야 합니다.
- Binning은 숫자 값을 여러 구간으로 묶어 범주처럼 쓰는 방법입니다.
- 구간 경계가 자연스러운 문제에서는 해석이 쉬워집니다.
- 이상치와 작은 노이즈의 영향을 줄이는 데 도움이 될 수 있습니다.
- 구간을 너무 거칠게 잡으면 원래 값의 차이가 사라집니다.
- Label Encoding은 구간 순서가 의미 있을 때 어울립니다.
- One-Hot Encoding은 구간 사이의 순서를 모델에 강제로 주고 싶지 않을 때 적합합니다.
원문은 장단점과 인코딩 선택이 한 덩어리로 이어져 있었습니다. 이번 보강은 Binning을 쓰는 이유, 잃는 정보, 인코딩 선택 기준을 분리해 처음 읽어도 판단 기준이 보이게 했습니다.
이어서 볼 글
- Feature cardinality 개념: 범주값 종류 수와 모델링 영향 - 구간화나 범주형 인코딩 후 값 종류 수가 모델링에 미치는 영향을 설명한다.
- Dense Feature vs Sparse Feature: 원핫 인코딩, 임베딩, XGBoost - One-Hot Encoding이 sparse feature를 만드는 대표 방식임을 이어서 볼 수 있다.
- 데이터 전처리 clipping vs trimming 차이 - 구간화와 함께 수치 feature 전처리에서 자주 비교하는 이상값 처리 방식이다.
Binning: 데이터를 구간으로 나누는 기법
예를들어 나이라는 컬럼을 binning하게 되면 10대, 20대, 30대 등으로 범주화 된다.
Binning 사용의 장점:
이상치 감소: Binning은 데이터의 이상치나 노이즈에 덜 민감하게 만들 수 있습니다.
비선형 관계 포착: 특히, 특정 범위 내의 데이터가 결과에 다르게 영향을 미칠 때 유용합니다.
해석 용이성: 데이터를 더 쉽게 이해하고 해석할 수 있게 만듭니다.
Binning 사용의 단점:
정보 손실: 데이터를 구간으로 나누면 원래 데이터의 상세한 정보가 일부 손실될 수 있습니다.
임의성: Binning 과정에서 구간을 어떻게 설정하느냐에 따라 결과가 크게 달라질 수 있으며, 이는 때로 분석의 임의성을 증가시킵니다.
Binning은 특정 상황과 데이터 유형에 매우 유용할 수 있지만, 항상 최선의 방법은 아닙니다. 데이터의 복잡성과 모델의 정교함이 증가함에 따라, 머신 러닝 모델은 종종 binning 없이도 원 데이터에서 복잡한 패턴을 학습할 수 있습니다.
---
Binning(데이터 구간화) 후에 데이터를 모델에 입력하기 위해 사용하는 인코딩 방식은 주로 두 가지 중 하나입니다:
레이블 인코딩(Label Encoding) 또는 원핫 인코딩(One-Hot Encoding)
레이블 인코딩
방식: 각 구간에 고유한 정수 값을 할당합니다.
적용: 레이블 인코딩은 구간이 순서를 가지고 있을 때 유용합니다. 예를 들어, '낮음', '중간', '높음'과 같은 순서가 의미를 가질 때 적합합니다.
장단점: 레이블 인코딩은 구간 간의 순서 관계를 유지하지만, 모델이 숫자의 크기나 순서에 의미를 부여할 위험이 있습니다.
원핫 인코딩
방식: 각 구간을 독립된 열로 변환하고, 해당 구간에 속하는 데이터에는 1을, 그렇지 않은 데이터에는 0을 할당합니다.
적용: 구간 간에 순서가 중요하지 않거나, 모델이 구간 간의 순서를 고려하지 않게 하고 싶을 때 적합합니다.
장단점: 원핫 인코딩은 구간 간의 순서나 중요도를 부여하지 않지만, 차원의 증가와 데이터의 희소성 문제를 야기할 수 있습니다.
결론
데이터의 성격과 모델의 종류에 따라 선택: 데이터에서 구간의 순서가 중요하고, 순서대로의 관계가 모델에 반영되어야 한다면 레이블 인코딩이 적합할 수 있습니다. 반면, 구간 간의 순서가 중요하지 않거나 모델이 순서를 고려하지 않아야 할 때는 원핫 인코딩이 더 적합할 수 있습니다.
모델의 요구사항 고려: 일부 모델들은 원핫 인코딩된 데이터에 대해 더 잘 작동할 수 있으며, 다른 모델들은 레이블 인코딩된 데이터에서 더 나은 성능을 보일 수 있습니다.
따라서, binning 후에 어떤 인코딩 방식을 사용할지 결정하기 위해서는 데이터의 특성과 분석 목적을 명확히 이해하는 것이 중요합니다.
'AI, ML > ML' 카테고리의 다른 글
| Feature cardinality 개념: 범주값 종류 수와 모델링 영향 (2) | 2024.01.07 |
|---|---|
| Dense Feature vs Sparse Feature: 원핫 인코딩, 임베딩, XGBoost (0) | 2024.01.07 |
| Decision Tree, Random Forest, XGBoost 실습: Wine 데이터 교차검증 (0) | 2023.10.16 |
| Gradient Boosting 개념: Random Forest 차이와 XGBoost 관계 (0) | 2023.10.15 |
| 랜덤 포레스트(random forest) (1) | 2023.10.15 |
