feature가 가질 수 있는 값의 종류.
예를 들어 성별은 남자/여자 둘중의 하나이므로 카디널리티가 2이다.
카테고리의 경우 가구/가전/의류 등 세가지 범주를 갖는다면 카디널리티가 3이다.
방의 개수는 대략 1에서 10사이이므로, 이 경우 카디널리티가 10이다.
고객ID/제품SKU등의 경우 매우 높은 카디널리티를 갖는다.
위내용까지는 이해가 쉬운데, 연속형 수치를 갖는 feature의 카디널리티는 판단하기 까다로울 수 있다.
예를 들어 일별수익률, 집의 면적, 제품의 가격등이다.
수치형 데이터의 카디널리티 판단:
- 소수점 2자리에서 끊던지 하는 방법으로 어느정도 양자화하고
- SQL쿼리에서 COUNT(DISTINCT colume)으로 카니널리티 측정
예를 들어 온도보다는 인구수가 카니널리티가 높을것이다.
반응형
'AI, ML > ML' 카테고리의 다른 글
문자열을 벡터로 바꾸는 방법2 - TfidfVectorizer (0) | 2024.03.12 |
---|---|
문자열을 벡터로 바꾸는 방법1 - CountVectorizer (0) | 2024.03.12 |
dense feature vs sparse feature (0) | 2024.01.07 |
binning (0) | 2023.12.28 |
디시전트리기반 코드 실습 (0) | 2023.10.16 |