크롤링 정리

크롤링

requests, lxml

사전 주의 사항

  • 대상 웹 페이지 조건 확인 - robots.txt
    • URL/robots.txt 검색으로 확인
  • 크롤러 분류 - 상태 유무, Javascript 유무
  • Request 요청 주의 할 점 - 서버 부하 고려
  • 콘텐츠 저작권 문제
  • 페이지 구조 변경 가능성 숙지

urllib 사용법

lxml

Get 방식

header connection : close는 세션이 없는 단방향 통신이기에