반응형

파이썬, 크롤링 라이브러리

 

1. Requests

   작고 빠른 브라우징 패키지이다.

  • 웹서버로부터 HTML만 받는다.
  • 거의 모든 플랫폼에서 구동 가능
  • 그외 특별한 제어 기능은 없으므로 단순한 페이지 크롤링에 적합하다.

 

2. Selenium 

   기존 브라우저와 드라이버를 이용하여 원격 제어가 가능하다.

  • 다양한 드라이버(Chrome, Firefox, IE 등)가 존재한다.
  • CSS/JavaScript 처리 같은 게 가능하다.
  • 자원을 많이 사용한다. 접근 못하는 사이트도 가끔 있다.

 

3. BeautifulSoup4 

HTML parser 기능을 제공한다.

  • HTML 코드에서 원하는 위치의 문자열을 가져올 수 있다.
  • Requests 또는 Selenium과 함께 활용하기도 한다.

 

반응형

+ Recent posts