📘 표 회귀 사용 설명서

이 가이드에서는 데이터 수집부터 학습, 결과 확인까지 모든 과정을 쉽게 따라할 수 있도록 설명합니다.

🖼️ 표 회귀 콘텐츠 소개

"표 회귀"는 연속적인 값을 예측하는 기술입니다. 주로 수치 예측이 중심이 됩니다.

예를 들어, 결혼 연령에 따른 출산율을 예측하는 경우, 입력 변수로 결혼 연령을 사용하고 출력 변수로 출산율을 예측할 수 있습니다.

원인 데이터: 모델이 학습에 사용하는 데이터로, 예를 들어 결혼 연령 같은 데이터를 입력 데이터로 사용할 수 있습니다.

결과 데이터: 모델이 예측하려는 목표 값으로, 예를 들어 출산율이 결과 데이터로 사용될 수 있습니다.

이 과정을 통해 데이터와 결과 간의 관계를 파악하고, 새로운 데이터가 들어왔을 때 AI가 어떤 결과를 예측할 수 있는지 학습하게 됩니다.

🖥️ UI 컴포넌트 구성 소개

데이터를 수집하고 학습하기 버튼을 클릭하면 나만의 AI 모델이 만들어집니다.
원인 표
결과 표

제목

페이지 상단에 표 분류 기능을 설명하는 제목이 표시됩니다.

파일명

업로된 파일명이 표시됩니다.

예: 결혼 연령에 따른 출산율.xlsx

엑셀 파일 업로드

엑셀에서 작업한 내용을 표로 업로드 할 수 있습니다.

엑셀 파일 다운로드

표에서 작업한 내용을 엑셀 파일로 다운로드 받을 수 있습니다.

열 추가, 삭제

열 추가, 삭제 버튼 클릭시 원인 표, 결과 표의 열이 추가 되거나 삭제 됩니다.

행 추가, 삭제

행 추가, 삭제 버튼 클릭시 해당 표의 행이 추가 되거나 삭제 됩니다.

원인 표

원인 표는 입력 데이터를 보여줍니다.

결과 표

결과 표는 출력 데이터를 보여줍니다.

원인 표
결과 표

학습하기

AI 모델을 학습시키는 버튼입니다.

학습 설정

학습 과정에서 필요한 다양한 설정(예: 학습 횟수, 학습률 등)을 조정할 수 있는 영역입니다.

📸 수집하기

표 회귀는 예측하려는 목표 값(출산율, 가격 등)을 기반으로 한 실제 데이터를 사용해야 합니다.

표 분류와 다르게, 학습과 예측의 정확도를 높이기 위해 외부 데이터를 수집하는 것이 중요합니다.

원인 데이터와 결과 데이터의 관계성

표 회귀에서는 원인 데이터와 결과 데이터 사이의 관계를 학습하여 예측합니다.

여기에서 원인 데이터와 결과 데이터의 관계를 이해하는 것은 매우 중요하며, 아래는 결혼 연령과 출산율 데이터를 예시로 들어 관계성을 설명해보겠습니다.

원인 데이터

원인 데이터는 모델이 학습하는 입력 데이터로, 결과 데이터(출산율)에 영향을 미칠 수 있는 요소들을 포함합니다.

  • 연도: 데이터가 수집된 시점으로, 시간이 지남에 따라 결혼 연령과 출산율이 어떻게 변화했는지 보여줍니다.
  • 결혼 연령 평균(남/여): 남성과 여성의 결혼 연령 평균은 출산율에 직접적인 영향을 미칠 가능성이 높은 원인 데이터입니다.

결과 데이터

결과 데이터는 모델이 예측하려는 값으로, 원인 데이터와 밀접한 관계를 가집니다.

  • 출생아 수(천 명): 해당 연도의 출생아 수는 결혼 연령이나 사회적 요인에 따라 달라질 수 있습니다.
  • 합계출산율: 특정 연도의 평균 출산율로, 결혼 연령이 높아질수록 감소할 가능성이 큽니다.

가정 1: 결혼 연령이 높아지면 출산율이 감소한다

  • 결혼 연령이 높아질수록 출산 가능한 기간이 줄어들어, 결과적으로 출산율이 낮아질 가능성이 높습니다.
  • 이는 사회적, 경제적 요인과도 연결될 수 있습니다(예: 경력 추구, 경제적 부담 등).

가정 2: 연도별로 사회적 변화가 출산율에 영향을 미친다

  • 특정 연도에는 사회적 정책(출산 장려 정책 등)이나 경제적 상황이 출산율에 영향을 줄 수 있습니다.
  • 예를 들어, 1990년대와 2000년대의 결혼 연령과 출산율 패턴은 큰 차이를 보일 수 있습니다.

가정 3: 결혼 연령 평균(남/여)이 출산율에 비례적으로 영향을 미친다

  • 남성과 여성의 결혼 연령 평균은 가정을 꾸리는 시점과 출산 가능성을 결정짓는 중요한 변수입니다.
  • 결혼 연령이 비슷한 속도로 증가할수록 출산율 변화도 일정한 패턴을 보일 가능성이 있습니다.

모델 학습을 통해 관계 분석하기

결혼 연령과 출산율의 관계는 단순히 가정으로 끝나는 것이 아니라, 데이터를 기반으로 모델이 학습하여 더 정확한 관계를 찾아냅니다.

  • 결혼 연령의 변화가 출산율 감소에 얼마나 영향을 미치는지 분석
  • 연도별 패턴과 결혼 연령 간의 상관관계
  • 예측 가능한 출산율의 범위와 신뢰도

왜 실제 데이터가 필요할까요?

표 회귀는 숫자 값의 패턴을 학습하여 결과를 예측합니다.

따라서 신뢰할 수 있는 실제 데이터를 사용해야 모델이 올바른 학습을 할 수 있습니다.

이 데이터는 외부 API나 공공 데이터 포털 등에서 얻을 수 있습니다.

데이터 수집 방법

아래는 표 회귀 모델에 필요한 데이터를 수집할 수 있는 참고 사이트들입니다.

날씨 데이터를 활용한 모델

  • 출처: 날씨 API, 네이버 트렌드 API
  • 활용 예시: 특정 날씨 조건에서의 에너지 소비량 예측, 계절별 판매량 변화 예측.

주식 데이터를 활용한 모델

  • 출처: 야후주식 API, 한국거래소 API
  • 활용 예시: 특정 주식의 가격 변동 예측, 경제 지표와 주식 간의 관계 분석.

농산물 데이터를 활용한 모델

  • 출처: 농산물유통정보 KAMIS
  • 활용 예시: 계절별 농산물 가격 예측, 특정 작물의 수요 변화 분석.

출산율 데이터를 활용한 모델

  • 출처: 국가통계포털 KOSIS
  • 활용 예시: 결혼 연령 변화에 따른 출산율 예측, 지역별 출산율 변화 분석.

엑셀 파일 데이터 입력 방법

엑셀에 입력할 때는 다음과 같은 규칙을 따라야 합니다

시트 구성

  • 시트는 반드시 두 개로 구성됩니다: 원인 시트와 결과 시트.

데이터 형식

  • 입력 데이터는 연속적인 값(예: 나이, 온도, 거리)이나 특정 범위의 값(예: 점수, 수익).

원인 시트

  • 열 아래에 원인 데이터를 나열합니다. (예: 결혼 연령 평균(남/여))

결과 시트

  • 열 아래에 결과 데이터를 나열합니다. (예: 출생아 수(천 명), 합계출산율)

파일 업로드

  • 데이터를 모두 입력한 후, 파일을 엑셀(.xlsx) 형식으로 저장합니다.
  • 업로드 시 파일에 오류가 없도록 입력 규칙을 반드시 확인하세요.

📚 학습하기

사용자가 제공한 데이터를 기반으로 AI 모델이 학습하여 결과를 예측하는 과정입니다.

학습 과정은 자동으로 이루어지며, 사용자는 결과만 확인하면 됩니다.

학습하기

학습하기 버튼을 누르면 학습이 시작되면 상단에 학습 진행률을 나타내는 그래프 바가 표시됩니다.

학습 설정

학습 횟수 (Epoch)

입력한 데이터 전체를 몇 번 반복하여 학습할지 정하는 부분입니다. 예를들어 학습 횟수가 10일 경우, 전체 데이터를 10번 반복하여 학습합니다. 많이 학습할 수록 더 정확한 모델을 만들 수 있지만, 학습 시간이 오래 걸립니다. 또한 학습 횟수가 많을수록 과적합(Overfitting)이 발생하여 오히려 안좋은 모델이 생성 될 수 있습니다.

배치 크기 (Batch Size)

입력한 데이터 전체를 얼마큼 작은 부분으로 쪼개서 학습할지 정하는 부분입니다. 예를들어 전체 데이터가 1000개이고 배치 크기가 100일 경우, 한번에 100개의 데이터로 학습하게 됩니다. 배치크기가 작을수록 모델이 더 자주 학습하게 됩니다. 배치크기가 클수록 메모리 사용량이 올라가며, 일반적으로 1~1024의 배치 크기를 사용합니다.

학습률 (Learning Rate)

AI 모델을 얼마나 빠르게 학습할지 정하는 부분입니다. 학습률이 너무 높으면 학습이 빠르게 진행되지만, 최적의 값을 찾지 못할 수 있습니다. 학습률이 너무 낮으면 학습이 느리게 진행되지만, 최적의 값을 찾을 수 있습니다.

📈 결과보기

결과 UI를 보려면 학습하기 버튼을 클릭하세요.

학습 모델명

페이지 상단에 학습된 모델의 이름이 표시됩니다.

새로운 원인 데이터 입력 표

입력한 데이터는 AI 모델의 예측 결과를 생성하는 데 사용됩니다.

예측 결과 그래프

학습된 AI 모델의 예측 결과를 보여줍니다.

모델 다운로드

학습된 AI 모델 파일을 다운로드할 수 있습니다.

다운로드한 파일은 오프라인 환경에서도 AI 모델을 실행하거나 분석하는 데 사용할 수 있습니다.