챕터4에서는 데이터 처리 자동화(데이터 관리&편집)에 대해 실습을 하였다.
실무자 입장에서
정리해야 하는 파일이 10개 미만이거나, 편집해야하는 행이 100개 미만이면
엑셀이 훨씬 수월하고 빠르다.
하지만, 파일이 100개가 넘어가고
행이 몇천개가 되는 순간 엑셀로 작업하기에는 시간이 오래걸려 적합하지 않다.
점점 데이터화 되어가는 시대에 앞으로 몇년이내에는 파이썬을 기본으로 사용하는 날이 오지 않을까 생각된다.
이번 챕터 실습을하면서 오류는 생각보다 적었다.
하지만 다른분들에게 도움이 되고자 내용을 기록해 본다.
1. pandas 설치오류
pandas는 1.4.3을 넣으면 오류가 나서 버젼 삭제하고 돌리니까 정상 작동함
2. 지정된 경로를 찾을 수 없습니다. 'new_data2'
아마도 바탕화면이 기본으로 세팅이 되어 있기 때문에
new data 위치를 복사해서 바탕화면으로 옮기면 문제 해결!
※ 작성한 파이썬 코드
!pip install pandas
import pandas as pd
import os
file_list=os.listdir("new_data2")
file_list_xls=[]
for a in file_list:
if ".xlsx" in a:
file_list_xls.append(a)
print(file_list_xls)
b=file_list_xls[0]
df=pd.read_excel("new_data2/"+b)
df['나라']=b.split("_")[1]
data_unit=df[['나라', '조사제품', '제목', '내용']]
data_unit_sum=pd.DataFrame()
for b in file_list_xls:
df=pd.read_excel("new_data2/"+b)
df['나라']=b.split("_")[1]
data_unit=df[['나라', '조사제품', '제목', '내용']]
data_unit_sum=pd.concat([data_unit_sum, data_unit], axis=0)
data_unit_sum.to_excel('combined_excel.xlsx')
data_unit_sum.shape
product_list=data_unit_sum['조사제품'].value_counts()
product_list
dict(product_list)
for d in dict(product_list):
xls_name=data_unit_sum[data_unit_sum['조사제품']==d]
xls_name.to_excel(f"{d}.xlsx")
'[업무 자동화] > 파이썬' 카테고리의 다른 글
[파이썬] 음원 차트 수집하기(feat. 코드 포함) (2) | 2024.09.22 |
---|---|
[파이썬] 명함 만들기 자동화 (4) | 2024.09.15 |
[파이썬] MS office 자동화 실습(feat. 엑셀, PPT, 워드클라우드) (8) | 2024.09.08 |
[파이썬] 인터넷 자동화 현업 실습(feat. 오류 해결, wordcloud, pandas) (0) | 2024.08.25 |
건설업 안전관리자가 파이썬을 공부하는 이유 (0) | 2024.08.11 |