Python #2] 파이썬을 활용한 크롤링(crawling)
크롤링(crawling)
Web상에 존재하는 Contents를 수집하는 작업으로, 프로그래밍을 활용한 자동화 기능이다.
HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법이다.
Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한
데이터만 추출하는 기법으로, 브라우저를 프로그래밍으로 조작해서 필요한 데이터만 추출하는 기법
크롤링 기능을 제공하기 위해 BeautifulSoup 라이브러리를 먼저 설치해 보자
Python 이 설치한 폴더의 하위 폴더에 Script 폴더로 이동한 후에, 아래와 같이 requests 와 BeautilfulSoup 라이브러리를 설치한다.
pip install bs4
pip install BeautifulSoup
이제 아래와 같이 requests 와 BeautifulSoup 라이브러리를 활용해서 웹 페이지를 읽은 후에 title 태그의 내용을 출력하는 예제를 출력해 본다. 이 예제는 news.naver.com 웹 페이지의 title 태그의 내용을 크롤링 하는 예제이다
get_text() 함수를 사용하면 html 코드는 제거하고 텍스트만 읽어와서 출력한다. 아래와 같이 get_text() 함수를 쓰는 경우와 쓰지 않는 경우를 비교해 보자
print(title) // html 태그를 포함해서 출력
print(title.get_text()) // html 태그를 제거하고 텍스트만 출력
실행해 보면 title 변수를 그대로 출력하는 경우에는 HTML 태그가 포함되어 출력되고,
get_text() 함수를 사용하면 "네이버 뉴스" 라는 titie 의 텍스트만 출력되는 것 을 확인할 수 있다