크롤링(crawling) 크롤링 기능을 제공하기 위해 BeautifulSoup 라이브러리를 먼저 설치해 보자 Python 이 설치한 폴더의 하위 폴더에 Script 폴더로 이동한 후에, 아래와 같이 requests 와 BeautilfulSoup 라이브러리를 설치한다. pip install bs4 이제 아래와 같이 requests 와 BeautifulSoup 라이브러리를 활용해서 웹 페이지를 읽은 후에 title 태그의 내용을 출력하는 예제를 출력해 본다. 이 예제는 news.naver.com 웹 페이지의 title 태그의 내용을 크롤링 하는 예제이다 get_text() 함수를 사용하면 html 코드는 제거하고 텍스트만 읽어와서 출력한다. 아래와 같이 get_text() 함수를 쓰는 경우와 쓰지 않는 경우를 비교해 보자 print(title) // html 태그를 포함해서 출력
실행해 보면 title 변수를 그대로 출력하는 경우에는 HTML 태그가 포함되어 출력되고, get_text() 함수를 사용하면 "네이버 뉴스" 라는 titie 의 텍스트만 출력되는 것 을 확인할 수 있다
'IT > Programming' 카테고리의 다른 글
|