코딩 배우기

두근두근 파이썬에서 웹크롤링 소스(네이버뉴스, 이미지 긁어오기)

배수의 진 2020. 9. 13. 18:57

네이버 뉴스와 이미지를 파이썬으로 웹 크롤링할 수 있는 소스입니다.

 

 

 

1) 네이버 뉴스를 웹크롤링하는 소스

 

urllib : 파이썬에서 웹과 관련된 데이터를 쉽게 이용할 수 있게 도와주는 라이브러리

urllib는 총 4개의 내부모듈이 존재한다. 그중에 하나는 웹을 열어 Data를 읽어오는 역할을 하는 request모듈이 있다.

import 모듈을 가져오는 것

 

from urllib.request import urlopen

from bs4 import BeautifulSoup

 

html=urlopen("https://news.naver.com")

 

bsObject=BeautifulSoup(html, "html.parser")

 

for link in bsObject.find_all('a'):

print(link.text.strip(), link.get('href'))

 

 

네이버 뉴스를 웹크롤링하는 소스

네이버뉴스 웹크롤링 소스_뉴스.txt
0.00MB



2) 네이버 뉴스 속 이미지를 웹 크롤링하는 소스

뉴스를 웹크롤링하는 소스에서 'a' >>> 'img', 'href' >>> 'src'로 바꿔서 파이썬(repl.it)을 써서 RUN 시키면 크롤링이 되네요. 신기합니다. 이걸 어디에 응용을 할 수 있을 것 같은데. 너무 아는 게 없어서... 일단 필요하신 분들을 위해서 소스를 직접 찾아서 올립니다.

 

네이버뉴스가 크롤링된 모습

 

from urllib.request import urlopen

from bs4 import BeautifulSoup

 

html=urlopen("https://news.naver.com")

 

bsObject=BeautifulSoup(html, "html.parser")

 

for link in bsObject.find_all('img'):

print(link.text.strip(), link.get('src'))

 

 

네이버 뉴스 속 이미지를 웹크롤링하는 소스

네이버뉴스 웹크롤링 소스_img.txt
0.00MB

 

 

파이썬에서 웹크롤링 소스(네이버뉴스, 이미지 긁어오기)를 긁어오는 소스를 공유합니다. 감사합니다.