머신러닝 - Linear Regression ( 선형 회귀 )

머신러닝

zzuvely 2022. 5. 6. 18:06

머신러닝에서 신규데이터 예측하는 순서

1) NaN 이 있는지 확인하고 처리해준다.

2) X, y로 데이터를 분리해준다. X는 2차원이어야한다.

인공지능 학습하는 fit 함수에 X 값을 2차원으로 넣어야 동작하기 때문이다.

X값이 1차원이라면 reshape 함수를 사용해서 2차원으로 만들어주어야한다.

3) 피쳐스케일링한다. - StandardScaler (표준화), MinMaxScaler (정규화) 방법이 있다.

단, Linear Regression 라이브러리는 자체에서 피쳐스케일링을 해주므로 이 과정을 생략한다.

4) 분석할 컬럼의 데이터가 문자열이라면 숫자로 바꿔준다. - Label Encoding 방법과 OneHot Encoding 방법이 있다.

5) 데이터셋을 학습용과 테스트용으로 데이터를 분리한다.

데이터중 80%는 학습용으로, 20%는 테스트용으로 설정해주었다.

6) 인공지능 모델링 - LinearRegrssion(선형회귀) 사용

7) 예측값과 실제값 비교

8) 오차와 성능 측정

오차 측정 : 실제값 - 예측값

성능 측정 : MSE(Mean Squared error) : 오차의 제곱에 대한 평균을 취한 값을 구하여 성능을 측정하였다.

9) 실제값과 예측값 시각화