Processor

【Pandas】 개요

작성자 임베디드코리아 작성일26-04-15 23:53 조회77회 댓글0건
◆ 판다스(Pandas)는 "Panel Data"와 "Python Data Analysis"의 합성어로 만들어진 이름이다.
◆ 데이터의 전처리나 분석 단계에서 유용하게 사용할 수 있는 도구를 갖고 있는 라이브러리 이다.
◆ 데이터프레임(DataFrame)과 시리즈(Series)라는 두 가지 주요 데이터 구조를 사용하여
    데이터를 조작 및 분석할 수 있다.
◆ pandas는 데이터 과학 및 머신러닝 분야에서 널리 사용된다.
◆ Numpy 기반에서 개발되어 Numpy와 함께 유용하게 사용할 수 있다.
◆ Pandas는 특히 R 언어의 data.frame 구조를 본뜬 DataFrame이라는 강력하고 유연한 데이터 구조를 제공하여,
  테이블 형태의 정형 데이터를 효율적으로 다루고 분석할 수 있게 해주었다.

< 개발자 및 초기 목적 >
▶ Pandas는 Wes McKinney가 개발을 시작했다.
▶ 2007년부터 2010년까지 AQR Capital Management 라는 금융 회사에서 연구원으로 일하면서,
  금융 데이터에 대한 계량적 분석을 수행하기 위한 고성능의 유연한 도구의 필요성을 느껴
  2008년부터 개발을 시작했습니다. 즉, 초기에는 금융 데이터를 다루기 위한 목적으로 탄생했다.

< 오픈 소스화 >
▶ Wes McKinney는 AQR Capital Management를 떠나기 전에 회사를 설득하여 이 라이브러리를 오픈 소스로 공개했다.
▶ Pandas는 2009년에 오픈 소스로 전환되었고, 이후 데이터 분석가와 데이터 과학자들 사이에서 인기가 급증하며
    다양한 분야에서 사용되는 필수 라이브러리가 되었다.


【 판다스의 핵심 구성 요소 】
  판다스는 데이터를 크게 두 가지 형태로 관리합니다.

  ◆ 시리즈(Series): 1차원 배열 형태의 데이터 (엑셀의 '열' 하나에 해당)
  ◆ 데이터프레임(DataFrame): 행과 열로 이루어진 2차원 표 형태 (엑셀의 '시트' 전체에 해당)


【 판다스의 주요 기능 】
( 1 ) 데이터 구조
Series:
1차원 데이터 구조로, 파이썬의 리스트와 유사하지만, 인덱스를 사용해 각 요소에 접근할 수 있습니다.

DataFrame:
2차원 데이터 구조로, 엑셀 시트나 데이터베이스 테이블과 유사합니다.
행과 열로 이루어져 있으며, 데이터를 쉽게 조작하고 분석할 수 있습니다.

( 2 ) 데이터 읽기/쓰기
      CSV, Excel, SQL, JSON, HTML 등의 파일 형식에서 데이터를 불러오고 저장할 수 있다.
---<예시>---------------------------------------------------
import pandas as pd
df = pd.read_csv("data.csv")  # CSV 파일 읽기
df.to_excel("output.xlsx")    # Excel 파일로 저장
----------------------------------------------------------------

( 3 ) 데이터 정리 및 변환
    결측값 처리, 중복 데이터 제거, 데이터 필터링, 정렬 등의 작업을 쉽게 수행할 수 있다.
---<예시>---------------------------------------------------
df.dropna()  # 결측값 제거
df.drop_duplicates()  # 중복 데이터 제거
----------------------------------------------------------------

( 4 ) 데이터 분석
      그룹화, 요약 통계, 피벗 테이블 등을 사용하여 데이터를 분석할 수 있다.
---<예시>-------------------------------------------------------
df.describe()  # 요약 통계
df.groupby("column_name").mean()  # 그룹화하여 평균 계산
-------------------------------------------------------------------

( 5 ) 시계열 데이터 처리
      날짜와 시간 관련 데이터를 다룰 수 있으며, 날짜 인덱스 설정, 리샘플링 등의 작업을 지원한다.

( 6 ) 데이터 시각화
      matplotlib이나 seaborn과 같은 라이브러리와 함께 사용하여 데이터를 시각적으로 표현할 수 있다.