200304_TIL

오늘부터 TIL도 약간 상세히 적어봐야겠다.

오늘 한 일

python

어제 requestsBeautifulsoup을 가지고 크롤링을 프로그래밍을 하고 있었다. 근데 이상하게도 분명 html 소스코드도 잘 갖고 오는데, Beautifulsoup으로 selector를 이용해 테이블 내용을 추출하면 이상하게 원하는 값이 안나왔다. 내가 잘못한 것인가 하고 여러 삽질을 해봤으나, 결과는 계속 같았다. 그렇게 개발자 도구의 Element탭과 원래 웹 페이지 소스를 비교하던 중 차이점을 알게됐는데, <tr>태그가 닫히고 나서도 바로 밑에 닫힌 </tr> 태그가 하나 더 있던 것이다. 아마 검색을 더 해봐야겠지만, 내 크롬에서는 짝인 없는 태그는 삭제되는거 같다. 그래서 requests만으로는 해결이 될거 같지 않아 seleniumchromewebdriver을 통해 크롬 Element탭과 동일한 소스를 갖고올 수 있다 하여 사용했고, 성공했다! 약간의 부하는 더 생기겠지만, 이게 현재로선 최선인거 같다.

git

현재 Pycharm을 사용하고 있는데, 파일 추가할 때마다 git add할지 묻는데, 실수로 했던 파일이 있었는지, 같이 commit 될뻔했다. 참고 블로그

느낀 점

확실히 이론으로만 공부하다가 내가 삽질해가면서 찾아가는게, 효과가 아주 좋은거 같다. 비록 시간은 많이 걸리지만 성취감은 좋다.

내일 할 일

git에 대해 공부해봐야겠다.