Python 2

[웹 크롤링] 2. 네이버 실시간 검색어 가져오기

저번 포스팅에서 우리는 사용자와 서버간의 관계에 대해 간략히 알아보고 이에 대한 이해를 바탕으로 파이썬 코드를 사용하여 네이버의 전체 코드를 가져와봤다. 이번 시간에는 네이버 전체 코드 중에서 실시간 검색어를 가져오는 방법에 대해 알아보자. 만약 우리가 사람에게 웹상의 어떤 정보를 수집해서 엑셀 등에 저장하라고 지시한다면 해당 정보가 웹상의 어디에 위치해 있는지 말해 주어야 한다. 실시간 검색어의 경우 네이버 메인 페이지의 오른쪽 위에 있다. 따라서 사람에게 지시할 경우 오른쪽 위에서 실시간 검색어를 찾으라고 지시해 주어야 한다. 하지만 이렇게 웹상의 화면으로 정보를 인식하는 것은 사람의 경우이고, 컴퓨터는 코드로 정보를 인식한다. 따라서 사람에게 일을 시키듯 '오른쪽 위에 있는'이라고 정보의 위치를 알..

[웹 크롤링] 1. 웹 크롤링의 기초(네이버의 전체 코드를 가져와보자)

웹 크롤링에 들어가기에 앞서 사용자(브라우저)와 서버간의 관계에 대해 간단히 알아보자. 우리는 하루에 한 번 이상은 네이버에 들어갈 것이다. 실시간 검색어가 궁금하거나 뉴스를 보거나 등등의 이유로.. 여기서 우리는 '들어간다'는 표현을 쓴다. 마치 사용자가 필요한 데이터가 있는 웹으로 움직인다는 뉘앙스로 표현을 한다. 하지만 웹은 사실 정반대로 움직인다. 사용자가 주소창에 URL을 입력하고 엔터를 누르는 순간 브라우저는 해당 URL이 가리키고 있는 서버로 데이터를 달라고 요청(request)을 보내고 서버는 요청을 받아서 문제가 없다면 응답(response)을 보낸다. 이 응답안에 우리가 브라우저로 볼 수 있는 해당 페이지의 모든 정보가 들어 있는 것이다. 즉, 오히려 사용자는 요청을 보낸 뒤 가만히 있..