【sklearn】 scikit-learn에서 제공하는 예제 데이터 사용하기

작성자 임베디드코리아 작성일26-04-15 23:47 조회589회 댓글0건

<* scikit-learn에서 제공하는 예제 데이터 사용하기 *>

● Scikit-learn은 다양한 예제 데이터를 제공하여 머신러닝 알고리즘을 테스트하거나 연습하는 데 유용하다.
▶ 이 데이터들은 sklearn.datasets 모듈을 통해 쉽게 불러올 수 있다.
▶ 주요 예제 데이터는 다음과 같다:

1. Iris 데이터셋
꽃잎과 꽃받침의 길이와 폭을 측정한 데이터로, 세 가지 붓꽃 품종을 구분하는 데 사용된다

-----------------------------------------------------------
from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target
-----------------------------------------------------------

2. Wine 데이터셋
세 가지 와인 품종을 화학적 특성으로 구분하는 데이터셋 이다.

-----------------------------------------------------------
from sklearn.datasets import load_wine
wine = load_wine()
X, y = wine.data, wine.target
-----------------------------------------------------------

3. Breast Cancer 데이터셋
유방암 데이터로, 양성 및 악성 종양을 분류하는 데 사용된다.

-----------------------------------------------------------
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
X, y = cancer.data, cancer.target
-----------------------------------------------------------

4. Diabetes 데이터셋
당뇨병 진행 상태를 예측하는 회귀 분석용 데이터셋 이다.

-----------------------------------------------------------
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target
------------------------------------------------------------

5. Boston Housing 데이터셋
보스턴 지역의 주택 가격을 예측하는 데이터셋 이다.
(이 데이터셋은 윤리적 문제로 Scikit-learn에서 더 이상 기본 제공되지 않으므로 다른 데이터로 대체 가능)

--------------------------------------------------------------------------------------------
from sklearn.datasets import fetch_openml
boston = fetch_openml(name="boston", version=1) # 대신 openml에서 가져오기
X, y = boston.data, boston.target
----------------------------------------------------------------------------------------------

6. Digits 데이터셋
손으로 쓴 숫자(0~9)를 분류하는 이미지 데이터셋 이다.

---------------------------------------------------------------------------------------------
from sklearn.datasets import load_digits
digits = load_digits()
X, y = digits.data, digits.target
---------------------------------------------------------------------------------------------

7. California Housing 데이터셋
캘리포니아 지역의 주택 가격을 예측하는 데이터셋으로, Boston Housing 데이터의 대안이다.

---------------------------------------------------------------------------------------------
from sklearn.datasets import fetch_california_housing
california_housing = fetch_california_housing()
X, y = california_housing.data, california_housing.target
---------------------------------------------------------------------------------------------