본문 바로가기
소소한 일상 정리/유튜브 | 블로그 | SNS

파이썬 데이터 함수 사용법 정리

by 코코쥬안 cocojuan 2021. 11. 27.

 

데이터 읽어오기 import pandas as pd
read_data = pd.read.csv('readdata.csv')
데이터의 앞, 뒤 5개의 정보 불러오기 read_data.head()
read_data.tail()
열에 자료 붙이기 (세로로 자료 붙이기)

read_data1 = pd.read.csv('readdata_1.csv')
read_data2 = pd.read.csv('readdata_2.csv')
join_row = pd.concat([readdata1, readdata2], ignore_index=True)
행에 자료 붙이기 (제목 탭에 필요한 자료 붙이기) join_col = pd.merge(read_data, add_data[["id","date","tel"]], on="id", how="left")
기준은 "read_data", joint key는 "id", 조인종류: left join → 즉, id가 기준점이 되고 add_data "date", "tel" 데이터는 제목 탭의 오른쪽으로 제목 탭이 추가 됨)
필요한 데이터 칼럼 만들기 join_col[price] = join_col['quantity'] * join_data['item_price']
join_data[["quantity", "item_price","price"]].head()
"행"의 총합 구하기 print (join_col['price'].sum())
두 데이터 값이 값은지 확인하기 previous_data['price'].sum()  == update_data['price'].sum()
결과 값을 TRue/False 로 볼 수 있다
통계값 확인하기 join_data.isnull().sum() → 결손값이 있는지 칼럼마다 확인하기
join_data.describe()  → 개수 count, 평균값 mean. 표준편차 std, 최소값 min , 25%중간값 50%, 75%, 최대값 max 확인
최소값, 최대값 구하기 print(join_data['salary'].min())
print(join_data['salary'].max())
데이터형 확인(int, object 등) add_data.dtypes
날짜 데이터형 가공하기

join_data['payment_date'] = pd.to_datetime(join_data['payment_date'])
join_data['payment_month'] = join_data['payment_date'].dt.strftime('%Y%m')
join_data[['payment_date', 'payment_month']].head()

결과값: payment_date (2021-11-27 20:35.67) / payment_mont (202111)
해석: to_datetime은 datetime형으로 변환, dt (=datetime)를 사용해 연월 추출 strftime 사용해 연월 작성 
월별 매출 집계하기 join_data.groupby('payment_month').sum()['price']
해석: groypby는 집계하고  싶은 칼럼인 payment_month의 값을 합하기

join_data.gourpby('payment_month', 'item_name']).sum()[['price','quantity']]
상품별 데이터 별로 가격과 수량을 월별로 정리
피봇 테이블을 이용해 가격기준 월별 아이템, 수량기준 월별 아이템데이터구하기 (p23)  pd.pivot_table(join_data, index='item_name', columns='payment_month', values=['price', 'quantity'], aggfunc='sum')
행(index)에는 상품명, 열(column)에는 집계하고 싶은 값은 (가격과 수량) 집계방식(aggfunc)은 합으로 

 

댓글