크롤링(crawling) 
Web상에 존재하는 Contents를 수집하는 작업으로, 프로그래밍을 활용한 자동화 기능이다. 
HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법이다.
Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 
데이터만 추출하는 기법으로, 브라우저를 프로그래밍으로 조작해서 필요한 데이터만 추출하는 기법

크롤링 기능을 제공하기 위해 BeautifulSoup 라이브러리를 먼저 설치해 보자 

Python 이 설치한 폴더의 하위 폴더에 Script 폴더로 이동한 후에, 아래와 같이 requests 와 BeautilfulSoup 라이브러리를 설치한다. 

pip install bs4
pip install BeautifulSoup 

이제 아래와 같이 requests 와 BeautifulSoup 라이브러리를 활용해서 웹 페이지를 읽은 후에 title 태그의 내용을 출력하는 예제를 출력해 본다. 이 예제는 news.naver.com 웹 페이지의 title 태그의 내용을 크롤링 하는 예제이다

get_text() 함수를 사용하면 html 코드는 제거하고 텍스트만 읽어와서 출력한다. 아래와 같이 get_text() 함수를 쓰는 경우와 쓰지 않는 경우를 비교해 보자 

print(title)               // html 태그를 포함해서 출력
print(title.get_text())  // html 태그를 제거하고 텍스트만 출력

실행해 보면 title 변수를 그대로 출력하는 경우에는 HTML 태그가 포함되어 출력되고,

get_text() 함수를 사용하면 "네이버 뉴스" 라는 titie 의 텍스트만 출력되는 것 을 확인할 수 있다 

'IT > Programming' 카테고리의 다른 글

K-Fold 교차 검증  (0) 2022.01.21
Python #1] Python 개발환경 설치하기  (0) 2020.01.15
error LNK2019: unresolved external symbol "__declspec(dllimport)  (0) 2009.04.17
문자열 변환  (0) 2008.11.28
AND