데이터 읽어오기 | import pandas as pd read_data = pd.read.csv('readdata.csv') |
데이터의 앞, 뒤 5개의 정보 불러오기 | read_data.head() read_data.tail() |
열에 자료 붙이기 (세로로 자료 붙이기) |
read_data1 = pd.read.csv('readdata_1.csv') read_data2 = pd.read.csv('readdata_2.csv') join_row = pd.concat([readdata1, readdata2], ignore_index=True) |
행에 자료 붙이기 (제목 탭에 필요한 자료 붙이기) | join_col = pd.merge(read_data, add_data[["id","date","tel"]], on="id", how="left") 기준은 "read_data", joint key는 "id", 조인종류: left join → 즉, id가 기준점이 되고 add_data "date", "tel" 데이터는 제목 탭의 오른쪽으로 제목 탭이 추가 됨) |
필요한 데이터 칼럼 만들기 | join_col[price] = join_col['quantity'] * join_data['item_price'] join_data[["quantity", "item_price","price"]].head() |
"행"의 총합 구하기 | print (join_col['price'].sum()) |
두 데이터 값이 값은지 확인하기 | previous_data['price'].sum() == update_data['price'].sum() 결과 값을 TRue/False 로 볼 수 있다 |
통계값 확인하기 | join_data.isnull().sum() → 결손값이 있는지 칼럼마다 확인하기 join_data.describe() → 개수 count, 평균값 mean. 표준편차 std, 최소값 min , 25%중간값 50%, 75%, 최대값 max 확인 |
최소값, 최대값 구하기 | print(join_data['salary'].min()) print(join_data['salary'].max()) |
데이터형 확인(int, object 등) | add_data.dtypes |
날짜 데이터형 가공하기 |
join_data['payment_date'] = pd.to_datetime(join_data['payment_date']) join_data['payment_month'] = join_data['payment_date'].dt.strftime('%Y%m') join_data[['payment_date', 'payment_month']].head() 결과값: payment_date (2021-11-27 20:35.67) / payment_mont (202111) 해석: to_datetime은 datetime형으로 변환, dt (=datetime)를 사용해 연월 추출 strftime 사용해 연월 작성 |
월별 매출 집계하기 | join_data.groupby('payment_month').sum()['price'] 해석: groypby는 집계하고 싶은 칼럼인 payment_month의 값을 합하기 join_data.gourpby('payment_month', 'item_name']).sum()[['price','quantity']] 상품별 데이터 별로 가격과 수량을 월별로 정리 |
피봇 테이블을 이용해 가격기준 월별 아이템, 수량기준 월별 아이템데이터구하기 (p23) | pd.pivot_table(join_data, index='item_name', columns='payment_month', values=['price', 'quantity'], aggfunc='sum') 행(index)에는 상품명, 열(column)에는 집계하고 싶은 값은 (가격과 수량) 집계방식(aggfunc)은 합으로 |
댓글