[업무 자동화]/파이썬

[파이썬] 인터넷 자동화 현업 실습(feat. 오류 해결, wordcloud, pandas)

시간 확보러 2024. 8. 25. 08:00
728x90

업무를 하다보면 인터넷 정보를 찾을 때 반복적인 행동이 필요할 수가 있다.

이때 파이썬을 통해 자동화를 세팅하여 나의 시간을 아낄 수 있다.

 

결론적으로 책을 따라서 진행하면 아래와 같이 반도체 관련 인터넷 기사를 워드 클라우드로 정리할 수 있다.

 

하지만 실습을 하면서 오류가 없었던건 아니다.

실습을 하면서, 생긴 오류와 어떻게 해결했는지 공유하고자 한다.

 

1. Wordcloud 설치 실패

책에 기입되어 있는대로 기입하니 wordcloud 설치가 되지 않았다.

 

그래서 아래의 사이트에서 언급한것과 같이 wordcolud 설치를 위해 아래와 같이 수정하니 설치가 되었다.

conda install -c https://conda.anaconda.org/conda-forge wordcloud 

https://justjs.tistory.com/117

 

220123-2 [코딩공부] 쥬피터 노트북에서 wordcloud 설치 오류시 해결방법

쥬피터 노트북에서 !pip install wordcloud(워드크라우드 설치) 진행시 아래와 같은 오류가 발생하였다. 이리저리 구글링 해보고 이것저것 시도해 본 결과 내가 해결한 방법은 아래와 같다. 구글링(검

justjs.tistory.com

 

 

2. pandas 설치 오류

파이썬 3.12는 pandas 지원이 되지 않는다고 하여,

3.7로 버젼을 변경하니 설치가 되었다.

 

 

 

3. cannot open resource

폰트가 설치가 되어 있지 않아 오류가 발생하였다.

실습자료에 있는 "BMJUA_ttf"자료를 바탕화면에 복사해서 다시 실행하면 정상 작동한다.

 

https://chongmin-k.tistory.com/entry/%EC%9B%8C%EB%93%9C%ED%81%B4%EB%9D%BC%EC%9A%B0%EB%93%9C-%EC%98%A4%EB%A5%98-cannot-open-resource

 

워드클라우드 오류 cannot open resource

DACON의 영화 리뷰 EDA를 따라가면서 워드 클라우드 시각화 연습을 하던 중에 이런 오류에 부딪혔습니다. font_path가 문제였는데 원인을 알아도 해결책은 검색해봐도 찾기가 쉽지 않더라구요. 간단

chongmin-k.tistory.com

 

 

[파이썬 上 작성한 내용]

!pip install selenium==4.1.5
import selenium

 

!pip install selenium webdriver_Manager
from selenium import webdriver
from seleniuhttp://m.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from seleniuhttp://m.webdriver.common.by import By
service = Service(executable_path=ChromeDriverManager().install())
options=webdriver.ChromeOptions()
options.add_argument('--no-sandbox')
driver=webdriver.Chrome(service=service)

 

driver.get("https://www.naver.com")

 

greenbox=driver.find_element(By.XPATH, "/html/body/div[2]/div[1]/div/div[3]/div/div/form/fieldset/div/input")
greenbox.send_keys("반도체")
driver.find_element(By.CLASS_NAME, "ico_btn_search_svg").click()

 

driver.get("https://search.naver.com/search.naver?where=news&query=%EB%B0%98%EB%8F%84%EC%B2%B4&sm=tab_opt&sort=1&photo=0&field=0&pd=0&ds=&de=&docid=&related=0&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so%3Add%2Cp%3Aall&is_sug_officeid=0&office_category=0&service_area=0")

 

driver.get("https://search.naver.com/search.naver?where=news&query=%EB%B0%98%EB%8F%84%EC%B2%B4&sm=tab_opt&sort=1&photo=0&field=0&pd=0&ds=&de=&docid=&related=0&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so%3Add%2Cp%3Aall&is_sug_officeid=0&office_category=0&service_area=0")

 

import pandas as pd
df = pd.DataFrame(news_title_lists)

 

df

 

df.to_excel('bhyunco_test.xlsx')

 

!pip install wordcloud
from wordcloud import WordCloud, STOPWORDS
stopwords=set(STOPWORDS)
wc=WordCloud(font_path="BMJUA_ttf.ttf", stopwords=stopwords)
wc.generate(str(news_title_lists))
wc.to_file('wordcloud.png')

 

 

※응용편

평소 하남시의 스타월드 진행상황에 대해 궁금하여 자주 검색해 본다.

위에서 배운 것을 토대로 실시하면 아래와 같이 알 수 있었다.

(자세한 내용은 첨부파일 참고하시기 바랍니다.)

 

 

starworld_test.xlsx
0.02MB
wordcloud.png
0.06MB
챕터3 실습(스타월드).ipynb
0.05MB

728x90