크롤링 정리
2020년02월27일크롤링
requests, lxml
사전 주의 사항
- 대상 웹 페이지 조건 확인 - robots.txt
- URL/robots.txt 검색으로 확인
- 크롤러 분류 - 상태 유무, Javascript 유무
- Request 요청 주의 할 점 - 서버 부하 고려
- 콘텐츠 저작권 문제
- 페이지 구조 변경 가능성 숙지
urllib 사용법
lxml
Get 방식
header connection : close는 세션이 없는 단방향 통신이기에