이 가이드에서는 데이터 수집부터 학습, 결과 확인까지 모든 과정을 쉽게 따라할 수 있도록 설명합니다.
군집화는 비지도학습(unsupervised learning)의 대표적인 방법으로, 레이블(정답)이 없는 데이터들을 군집(cluster)별로 자동으로 분류하는 기능입니다.
페이지 상단에 시계열 기능을 설명하는 제목이 표시됩니다.
업로된 파일명이 표시됩니다.
예: 영화 평점.xlsx엑셀에서 작업한 내용을 표로 업로드 할 수 있습니다.
표에서 작업한 내용을 엑셀 파일로 다운로드 받을 수 있습니다.
열 추가, 삭제 버튼 클릭시 표의 열이 추가 되거나 삭제 됩니다.
행 추가, 삭제 버튼 클릭시 표의 행이 추가 되거나 삭제 됩니다.
표는 입력 데이터를 보여줍니다.
AI 모델을 학습시키는 버튼입니다.
학습 과정에서 필요한 다양한 설정(예: 학습 횟수, 학습률 등)을 조정할 수 있는 영역입니다.
군집화의 핵심은 비슷한 특성을 가진 데이터끼리 자동으로 묶어주는 것입니다.
따라서 데이터를 어떻게 수집하고 정리하느냐에 따라 군집화 결과가 크게 달라집니다.
아래는 효율적인 군집화를 위한 데이터 수집 가이드라인입니다.
먼저, 왜 군집화를 수행하는지 명확히 합니다. (예: 고객 세분화, 상품 분류 등)
목적에 따라 필요한 변수(특징)와 필요하지 않은 변수를 구분하는 것이 중요합니다.
내부 DB: 고객 정보, 매출 데이터, 로그 기록 등 (CRM, ERP 등 각종 내부 시스템)
외부 데이터: 공공 데이터, SNS, 웹 크롤링 등을 통해 추가 정보를 확보할 수 있음
정형 데이터(Structured): 숫자, 범주형(카테고리) 데이터, 날짜/시간 데이터 등
예: "네티즌 1"이라는 행(row)은 첫 번째 사용자의 평가/특성 정보를 나타냄
예: "어바웃타임"이라는 열(column)은 영화 어바웃타임에 대한 평점을 나타냄
사용자가 제공한 데이터를 기반으로 AI 모델이 학습하여 결과를 예측하는 과정입니다.
학습 과정은 자동으로 이루어지며, 사용자는 결과만 확인하면 됩니다.
학습하기 버튼을 누르면 학습이 시작되면 상단에 학습 진행률을 나타내는 그래프 바가 표시됩니다.
모델이 데이터를 반복 학습하는 횟수입니다.
한 번에 처리할 데이터의 개수를 설정합니다.
학습 속도를 제어하는 값입니다.
결과 UI를 보려면 UI 컴포넌트 구성 소개 학습하기 버튼을 클릭하세요.
페이지 상단에 학습된 모델의 이름이 표시됩니다.
입력한 데이터는 AI 모델의 예측 결과를 생성하는 데 사용됩니다.
중앙(그룹) 노드: 해당 군집(클러스터)의 대표 노드
주변(네티즌1, 네티즌2 등) 노드: 해당 군집에 속하는 객체들
NEW: 새로운 원인 데이터에 입력한 값을 의해 추가된 객체
각 그룹은 영화 평점 패턴 혹은 선호도가 비슷한 대상들이 자동으로 묶인 결과입니다.
예:
어떤 데이터(컬럼)로 군집화했는지에 따라, 그룹별 특징을 파악하는 방식이 달라집니다.
상세 내용은 노드에 마우스를 올리면 내용이 보입니다.
선택된 객체(예: NEW)가 어떤 그룹에 속해 있는지 표시합니다.
이 정보를 통해 "NEW는 주로 어떤 영화를 좋아하는지" 를 파악할 수 있습니다.
영화 추천: 비슷한 선호도를 가진 그룹 구성원에게 새로운 영화를 추천
고객 마케팅: 유사 고객군을 대상으로 맞춤 프로모션
상품 관리: 비슷한 특성을 지닌 상품끼리 카테고리화, 재고/생산 전략 수립 등