JJUNNAK's
[ BeautifulSoup4 ] 뉴스 웹페이지 크롤링 하기 본문
예제 코드
# URL 열어주는 라이브러리
from urllib.request import urlopen
from bs4 import BeautifulSoup
# url 지정
url = "https://www.ddaily.co.kr/news/article/?no=241974"
# urlopen 함수로 경로를 따라가서 html 변수에 저장
html = urlopen(url)
# bs_obj 변수에 url 페이지에 있는 html 저장
bs_obj = BeautifulSoup(html, "html.parser")
# <dl> 태그로 감싸진 부분 추출
dl = bs_obj.find_all("dl")
# <dl>부분에 <dd>태그 부분만 추출
dd = dl[1].find_all("dd")
# 추출된 dd 객체를 enumerate() 함수로 나누어서 인덱스 + 텍스트 형식으로 print
for idx, element in enumerate(dd):
print(idx, element.text)
결과

'Crawling' 카테고리의 다른 글
[ BeautifulSoup4 ] find(), find_all() 차이점. (0) | 2023.01.13 |
---|---|
공공데이터 OpenAPI 사용법 (예제) (0) | 2023.01.13 |
[ Selenium ] 로또 당첨번호 크롤링 예제 (0) | 2023.01.13 |
[ Selenium ] 해외 축구사이트 크롤링 예제 (0) | 2023.01.13 |
[ Selenium ] Selenium 준비과정 (0) | 2023.01.13 |
Comments