웹 크롤링, 스크래핑
파이썬, 크롤링 라이브러리
수알치
2022. 7. 9. 14:17
파이썬, 크롤링 라이브러리
1. Requests
작고 빠른 브라우징 패키지이다.
- 웹서버로부터 HTML만 받는다.
- 거의 모든 플랫폼에서 구동 가능
- 그외 특별한 제어 기능은 없으므로 단순한 페이지 크롤링에 적합하다.
2. Selenium
기존 브라우저와 드라이버를 이용하여 원격 제어가 가능하다.
- 다양한 드라이버(Chrome, Firefox, IE 등)가 존재한다.
- CSS/JavaScript 처리 같은 게 가능하다.
- 자원을 많이 사용한다. 접근 못하는 사이트도 가끔 있다.
3. BeautifulSoup4
HTML parser 기능을 제공한다.
- HTML 코드에서 원하는 위치의 문자열을 가져올 수 있다.
- Requests 또는 Selenium과 함께 활용하기도 한다.
반응형