Python #2] 파이썬을 활용한 크롤링(crawling)

IT/Programming 2020. 1. 15. 18:34

크롤링(crawling)
Web상에 존재하는 Contents를 수집하는 작업으로, 프로그래밍을 활용한 자동화 기능이다.
HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법이다.
Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한
데이터만 추출하는 기법으로, 브라우저를 프로그래밍으로 조작해서 필요한 데이터만 추출하는 기법

크롤링 기능을 제공하기 위해 BeautifulSoup 라이브러리를 먼저 설치해 보자

Python 이 설치한 폴더의 하위 폴더에 Script 폴더로 이동한 후에, 아래와 같이 requests 와 BeautilfulSoup 라이브러리를 설치한다.

pip install bs4
pip install BeautifulSoup

이제 아래와 같이 requests 와 BeautifulSoup 라이브러리를 활용해서 웹 페이지를 읽은 후에 title 태그의 내용을 출력하는 예제를 출력해 본다. 이 예제는 news.naver.com 웹 페이지의 title 태그의 내용을 크롤링 하는 예제이다

get_text() 함수를 사용하면 html 코드는 제거하고 텍스트만 읽어와서 출력한다. 아래와 같이 get_text() 함수를 쓰는 경우와 쓰지 않는 경우를 비교해 보자

print(title) // html 태그를 포함해서 출력
print(title.get_text()) // html 태그를 제거하고 텍스트만 출력

실행해 보면 title 변수를 그대로 출력하는 경우에는 HTML 태그가 포함되어 출력되고,

get_text() 함수를 사용하면 "네이버 뉴스" 라는 titie 의 텍스트만 출력되는 것 을 확인할 수 있다

저작자표시 비영리 변경금지 (새창열림)

'IT > Programming' 카테고리의 다른 글

K-Fold 교차 검증 (0)	2022.01.21
Python #1] Python 개발환경 설치하기 (0)	2020.01.15
error LNK2019: unresolved external symbol "__declspec(dllimport) (0)	2009.04.17
문자열 변환 (0)	2008.11.28

ABOUT ME

세상의 온갖 잡지식을 모아놓은 블로그 세상의 온갖 잡지식을 모아놓은 블로그

'IT > Programming' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'IT > Programming' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바