4주차 - 수집한 데이터를 가공하여 가치있게 만들기

안녕하세요! 코알라 데이터수집 스터디 네번째 시간입니다.

4주차에서는 파일을 다루는 파이썬 클래스들을 이용하여 열심히 만든 데이터를 저장해봅니다.

그동안은 print( )를 사용해 데이터를 출력해왔지만 코드를 다시 실행하거나 PyCharm을 종료하면 사라져버리고 말았죠.

특히 3주차까지 다뤘던 네이버TV TOP 100 같은 정보는 항상 변하기 때문에, 그 날이 지나가버리면 다시는 수집할 수 없는 정보가 됩니다.

데이터를 txt, csv, 엑셀 파일 등 필요한 형태로 저장하여 두고두고 가치있게 사용할 수 있도록 만들어봅시다.

이번 주차에 배울 내용은 다음과 같습니다.

  • 간단하게 txt 파일이나 csv 파일에 저장하기

  • openpyxl 라이브러리를 이용해 엑셀 파일 다루

  • 웹페이지의 URL을 분석하여 필요한대로 응용하기

  • 여러 페이지에 걸친 데이터를 수집하고 저장하기

그럼 4주차 스터디를 시작해보겠습니다!