6주차 - 코드로 브라우저 조종하기

안녕하세요! 코알라 데이터수집 스터디 마지막 시간입니다.

6주차에서는 Selenium 이라는 라이브러리를 사용하여 브라우저를 제어하고 데이터를 수집해봅니다.

5주차까지 잘 사용했던 페이지 수집방식에 어느 정도 익숙해지셨나요? 하지만 그 방법으로는 수집하려는 페이지의 형태를 전부 커버할 수 없습니다.

접속을 유지하는 것이 아니라 단 한번 요청하여 HTML을 받아오는 방식이기 때문에, 로그인이 필요하거나 데이터가 실시간으로 로딩되는 경우는 수집이 불가능합니다. 사람이 아닌 코드가 데이터를 요청하고 있는 것을 감지하여 차단하는 경우도 있구요.

이번 주에 배울 방식은 실제 브라우저를 조종하여 인간이 입력하고 클릭하는 것과 똑같이 작동합니다. 코드만으로 해결하는 것보단 아무래도 느리지만, 위에서 말씀드린 한계를 모두 뛰어넘을 수 있는 강력한 방법입니다.

이번 주차에 배울 내용은 다음과 같습니다.

  • 정적 수집과 동적 수집의 비교

  • selenium 사용하여 브라우저 조종하기

  • Xpath를 사용해 정교하게 HTML 요소 선택하기

  • 복잡한 흐름의 데이터 수집 처리하기

그럼 5주차 스터디를 시작해보겠습니다!