본문 바로가기
Springboot

Jsoup으로 크롤링하기

by hyerann 2020. 4. 12.

build.gradle에 의존성 추가

implementation 'org.jsoup:jsoup:1.13.1'

 

url로 크롤링할 페이지 접근하기

String crawlingURL = "크롤링할 주소";

Document document = Jsoup.connect(crawlingURL).get();

 

원하는 정보 찾기

  • getElementById
  • getElementsByTag
  • getElementsByClass
  • getElementsByAttribute

 

특정 정보 text로 변환하기

String info = elements[0].select("td").text();

 

공식 문서에 더욱 자세한 정보가 나와있습니다.

https://jsoup.org

 

jsoup Java HTML Parser, with the best of HTML5 DOM methods and CSS selectors.

jsoup: Java HTML Parser jsoup is a Java library for working with real-world HTML. It provides a very convenient API for fetching URLs and extracting and manipulating data, using the best of HTML5 DOM methods and CSS selectors. jsoup implements the WHATWG H

jsoup.org

댓글