[업무 자동화]/파이썬

[파이썬] 데이터 처리 자동화(feat. pandas, 오류 해결)

시간 확보러 2024. 9. 1. 08:00
728x90

챕터4에서는 데이터 처리 자동화(데이터 관리&편집)에 대해 실습을 하였다.

 

실무자 입장에서

정리해야 하는 파일이 10개 미만이거나, 편집해야하는 행이 100개 미만이면

엑셀이 훨씬 수월하고 빠르다.

 

하지만, 파일이 100개가 넘어가고

행이 몇천개가 되는 순간 엑셀로 작업하기에는 시간이 오래걸려 적합하지 않다.

 

점점 데이터화 되어가는 시대에 앞으로 몇년이내에는 파이썬을 기본으로 사용하는 날이 오지 않을까 생각된다.

 

이번 챕터 실습을하면서 오류는 생각보다 적었다.

하지만 다른분들에게 도움이 되고자 내용을 기록해 본다.

 

1. pandas 설치오류

pandas는 1.4.3을 넣으면 오류가 나서 버젼 삭제하고 돌리니까 정상 작동함

 

2. 지정된 경로를 찾을 수 없습니다. 'new_data2'

아마도 바탕화면이 기본으로 세팅이 되어 있기 때문에

new data 위치를 복사해서 바탕화면으로 옮기면 문제 해결!

 

 

※ 작성한 파이썬 코드

!pip install pandas

import pandas as pd

import os

 

file_list=os.listdir("new_data2")

file_list_xls=[]
for a in file_list:
    if ".xlsx" in a:
        file_list_xls.append(a)

 

print(file_list_xls)

 

b=file_list_xls[0]

df=pd.read_excel("new_data2/"+b)

df['나라']=b.split("_")[1]

data_unit=df[['나라', '조사제품', '제목', '내용']]

 

data_unit_sum=pd.DataFrame()
for b in file_list_xls:
    df=pd.read_excel("new_data2/"+b)
    df['나라']=b.split("_")[1]
    data_unit=df[['나라', '조사제품', '제목', '내용']]
    data_unit_sum=pd.concat([data_unit_sum, data_unit], axis=0)
data_unit_sum.to_excel('combined_excel.xlsx')
data_unit_sum.shape

 

product_list=data_unit_sum['조사제품'].value_counts()
product_list

 

dict(product_list)

 

for d in dict(product_list):
    xls_name=data_unit_sum[data_unit_sum['조사제품']==d]
    xls_name.to_excel(f"{d}.xlsx")

 

728x90