반응형

스크래핑, 크롤링

 

글. 오상문 sualchi@daum.net

 

인터넷상에 있는 자료 중에서 특정 정보를 추출하여 분석하고 수집하는 것을 스크래핑(scraping) 또는 스크레이핑이라고 부릅니다. 일반적으로 HTML 구조의 웹 정보를 가져오는데, 로그인을 해서 가져오는 방법과 로그인 없이 가져오는 방법이 있습니다. 로그인 없이 가져오는 방법은 로그인 방법에 비해 자료 수집에 제한이 있을 수도습니다.

 

크롤링(crawling) 또는 스파이딩은 자료 수집용 프로그램(크롤러, 스파이더라고 부름)을 이용하여 자동으로 자료를 수입하는 것입니다. 크롤링을 사용하는 대표 예로는 검색 엔진을 들 수 있습니다. 구글이나 네이버, 다음과 같은 검색 사이트에는 검색 엔진 프로그램이 있는데 검색 자료를 모으기 위해서 정기적으로 크롤링 작업을 합니다.

 

스크래핑이나 크롤링을 이용하여 웹상의 자료를 모아서 특정한 형식 구조로 변환하여 데이터베이스에 저장하고 그 자료를 활용할 수 있습니다. 가령 주식 서비스를 제공한다면, 웹에서 정기적으로 크롤링을 하면서 주식 변동 자료를 수집하고, 그것을 데이터베이스에 저장한 후에 과거/현재 주식 가격(주가) 변동 사항이나 미래 주식 가격 변화를 예측하는 등의 서비스를 제공할 수 있습니다.

 

인공지능 분야에서 필요한 정보를 수집하기 위해서 이러한 크롤링 기능을 활용하기도 합니다. 자동으로 정보를 수집하면서 그것을 기반으로 학습자료 데이터베이스를 구축하여 인공지능 서비스에 활용하는 것입니다.

 

<이상>

반응형

+ Recent posts