본문 바로가기
Programming/Python

[Crawling] Python select로 크롤링하기

by 코딩의성지 2020. 4. 14.

하이 ~~ 여러분

 

저번에 아주! 정말! 쉽게! 크롤링 하는 방법 여러분들에게 알려드렸었다 ㅎㅎ

 

혹시 기억안나시는 분들은 보고오자 !!

 

https://devkingdom.tistory.com/125 

 

[Crawling] 비전공자도 쉽게 따라하는 크롤링

하이 ~~!!! ㅎㅎ 오늘은 간단하게 파이썬 몇줄만 가지고도 쉽게 웹페이지를 크롤링해오는 것을 보여줄거다. 크롤링을 할때는 딱 5가지만 기억하자. 1. 필요 라이브러리 import하기 2. 요청을 통한 웹페이지 가져오..

devkingdom.tistory.com

저번에는 find로 크롤링하는 방법을 보여드렸는데 오늘은 select를 써서 크롤링해볼꺼다.

 

select를 이용한 크롤링

 

오늘은 내가 좋아하는 축구기사에 대해 크롤링을 해볼거다.

 

<출처 - 네이버 뉴스>

크 ... 우리 갓지성형님~~

 

일단 저번에 공부한대로 크롤링할 준비를 해보자.

 

다들 기억하지? ㅎㅎ 이렇게 세팅을 해주는건 기본이다 !! 잘기억하자.

여러분들이 select를 사용해서 크롤링하면 결과값은 리스트 형태로 나온다.

 

 

select를 쓰는 방법은 여러가지다 !

 

1) tag 로 가져오기

 

일단 h3이라는 태그로 가져오는 예제를 한번 해봤다. 이렇게하면 모든 h3 태그 안의 데이터를 쭉 가져올 수 있다.

 

 

 

2) class 로 가져오기

 

class 명으로 도 가져올 수 있다. 가져오는 방법은 .class명 이렇게 가져오면 된다. 아래 예를 참고하자.

결과를 보면 ...!

이렇게 잘 가져오는 것 확일 할 수 있다.

 

 

3) tag.class 로 가져오기

 

1번과 2번을 결합해서 태그와 클래스를 동시에 넣어서 가져올 수 도 있다.

 

4) tag.class1.class2 로 가져오기

 

웹프로그래밍을 하다보면 복수의 클래스를 사용할 때가 많을 것이다. 우리는 복수의 클래스를 넣어서도 가져올 수 있다.

 

 

 

5) id로 가져오기

 

또 id 값으로도 가져올 수 있는데, 이번에는 #id명 으로 가져올 수 있다. 잘기억하자.

 

 

6) 상- 하위 태그로 가져오기

 

html은 태그안에 태그가 들어가 있는 구조로 작성되어 있다. 이러한 속성을 이용해 상 하위에 있는 태그 값으로 데이터를 가져올 수도 있다.

 

 

위의 방식은 그냥 태그안에 순서만 맞으면 된다. 몇가지 태그를 건너 뛰어도 상관없다. 하지만 아래의 방식은 바로 아래의 태그를 가리켜서 가져오게 된다.

 

 

7) 짬뽕(?) 해서 사용하기

 

마지막으로 짬뽕해서 사용할 수 있다. 갑자기 짬뽕먹고싶다.

 

 

뭐 ..! 내용이 어렵지 않다. 크롤링에서 중요한건 내용을 가져오는것보다 그 가져온 데이터로 의미있는 코드를 작성하는게 더 중요한 것 같다. 다들 열심히 공부해서 좋은 프로그램 만들자. 그럼 화이팅 하자.

 

 

반응형

댓글