본문 바로가기
Programming/Python

[Crawling] 비전공자도 쉽게 따라하는 크롤링

by 코딩의성지 2020. 4. 9.

하이 ~~!!! ㅎㅎ

 

오늘은 간단하게 파이썬 몇줄만 가지고도 쉽게 웹페이지를 크롤링해오는 것을 보여줄거다.

 

크롤링을 할때는 딱 5가지만 기억하자.

 

1. 필요 라이브러리 import하기

2. 요청을 통한 웹페이지 가져오기

3. 웹페이지 파싱하기

4. 데이터 추출하기

5. 데이터 활용하기

 

나중에 코드가 복잡해질 수는 있지만, 이러한 핵심적인 원리는 같다는거 잘 기억해주자.

 

간단하게 코드로 보여주겠다.

 

 

 

필요 라이브러리 import하기

 

이전에 내가 올렸던 포스팅에서 외부의 필요한 라이브러리를 설치하는 pip install  명령어를 기억하실 거다. bs4 같은 경우 라이브러리 설치가 필요하니, install 해주자.

 

 

 

요청을 통한 웹 페이지 가져오기

 

 

실제로 접근할 페이지의 url 을 넣어주면 된다. ㅎㅎ 나는 실제 네이버 뉴스기사에 대한 url을 넣었다. 

 

 

웹페이지 파싱하기

 

 

지금 가져온 결과값은 그냥 문자열이 쭉 붙여진대로 왔을거다. 우리는 이러한 데이터 파싱과정을 거쳐서 html 형태의 값으로 파싱을 해준다.

 

 

 

데이터 추출하기

 

html 내부에 보면 각종 태그 값으로 페이지가 구성되는걸 아는데, 본인이 크롤링하기를 원하는 태그명을 넣어주면 된다.

 

 

 

데이터 활용하기

 

 

이제 이부분은 크롤링의 영역이 아닌 본인이 이 데이터를 활용하여 어떻게 쓸지 생각해서 코딩하면 되는 부분이다.

 

 

하하 !! 내가 왜 비전공자도 할 수 있을거라고 제목을 달았겠는가 !! 

쉽기때문이다. 물론 코드가 나중에는 복잡해질 수도 있지만, 아까 말했듯 핵심은 저 5가지 과정이다. 

두려워하지말고 열심히 공부해보자 !그럼 오늘도 열공~~

반응형

댓글