본문 바로가기
STUDY/Python

뉴스 크롤링 : newspaper3k

by EROOTS 2020. 11. 5.

주식, 재테크, 시황등 많은 뉴스들이 쏟아지는데,

그것을 하나하나 찾아보기는 힘들다.

 

 

그래서 뉴스 크롤링 후 요약을 해주는 Python 코드를 작성해보려고한다.

 

 

1. newspaper3k (python 3.x기준)

https://pypi.org/project/newspaper3k/

 

newspaper3k

Simplified python article discovery & extraction.

pypi.org

 

pip install newspaper3k

 

 

설치가 완료되면, 예제를 따라해보려고한다.

 

from newspaper import Article

url = 'https://www.msn.com/ko-kr/news/other/%EB%B6%88%EB%B3%B5-%ED%83%9D%ED%95%9C-%ED%8A%B8%EB%9F%BC%ED%94%84-%EC%B5%9C%EC%95%85%EB%95%90-%EB%82%B4%EB%85%84-1%EC%9B%94-%EB%8C%80%ED%86%B5%EB%A0%B9-%EC%B7%A8%EC%9E%84%EC%8B%9D-%EB%AA%BB%ED%95%9C%EB%8B%A4-%ED%98%BC%EB%8F%88%EC%9D%98-%E7%BE%8E%EB%8C%80%EC%84%A0/ar-BB1aIn2C?ocid=msedgntp'
article = Article(url, language='ko')
article.download()
article.parse()
print(article.text)

 

굉장히 쉽게 크롤링이 된다.

 

 뉴스의 URL만 알면 원하는 뉴스를 바로 크롤링할수있다.

 

 

뉴스 메인페이지에있는 URL(?)을 읽을수있는것으로보이는데,

네이버 같은경우는 원하는 URL이 나오지는 않았다...

 

html로 뉴스를 읽는게 가장 좋을것으로 보인다.

import newspaper
paper = newspaper.build('https://finance.naver.com/news/', language='ko')

for url_ in paper.article_urls():
    print(url_)

 

 

 

결론적으로 하고싶은것은

 

전날 이슈키워드 -> 키워드 뉴스찾기(?) -> 뉴스 요약 -> Bot으로 전달 -> 매일아침확인(?)

잘됐으면 좋겠다.

'STUDY > Python' 카테고리의 다른 글

K올웨더 Python 백테스트  (0) 2022.06.06
텔레그램봇 만들기  (0) 2020.11.04