모든 개발자를 위한 HTTP 웹 기본 지식

김영한님의 강의를 듣고 정리한 글이다.

인터넷 네트워크

인터넷 통신

HTTP 통신을 이해하기 위해선 인터넷 통신이 어떻게 돌아가는지 알아야 하고 그 통신을 위한 기반 요소들이 있다.

  • IP
  • TCP, UDP
  • PORT
  • DNS

이 요소들을 이해하면서 인터넷 통신을 알아보자.

IP(인터넷 프로토콜)

IP(Internet Protocol)이란

한국에 있는 내가 미국에 있는 친구에게 편지를 보내려면 어떻게 해야할까? 먼저 주소를 알아야 보낼 수 있지 않는가. 인터넷 세계도 마찬가지로 주소가 있어야 메시지를 보낼 수 있는데 이때 사용되는게 IP 주소이다. IP는 패킷이라는 단위로 포장되어 보내지는데 그 안에는 출발지, 목적지 주소와 이후의 내용들로 이루어져있다. 메세지를 보내면 인터넷 망에서 장비들이 패킷의 주소들을 보아 목적지까지 이동하게 된다.

프로토콜이란 규약이란 뜻인데 통신하기 위해 정해둔 약속이라 생각하면 되겠다. 마치 한국인과 일본인이 서로 언어가 다루니 국제 언어인 영어를 사용하는것 정도로 이해하면 될듯하다.

IP 프로토콜의 한계

IP는 비연결성이라 패킷을 받을 대상이 없거나 서비스 불능 상태여도 패킷을 전송하게 된다. 또환 비신뢰성적이라 중간에 패킷이 사라지거나 순서를 보장하지 않는다. 그리고 같은 IP를 사용하는 서버에 통신하는 애플리케이션이 있으면 구분할 방법이 없다. 이를 해결하기 위해서는 새로운 개념을 도입하게 되는데 이것이 TCP, UDP가 되겠다.

TCP, UDP

먼저 우리가 표준으로 쓰고 있는 TCP/IP 프로토콜의 계층 구조는 다음과 같이 이루어 져있다.

애플리케이션 계층 - HTTP, FTP  
전송 계층 - TCP, UDP  
인터넷 계층 - IP  
네트워크 인터페이스 계층  

그리고 애플리케이션에서 상대방에게 통신을 보내기 위해서 위에서부터 캡슐화가 이루어 지게 된다.

  1. 프로그램이 Hello, World! 메시지 작성 (애플리케이션)
  2. SOCKET 라이브러리를 통해 전달 (애플리케이션)
  3. TCP 정보 생성, 메시지 데이터 포함 (OS 영역)
  4. IP 패킷 생성, TCP 데이터 포함 (OS 영역)
  5. 랜카드 타고 슈웅~ (네트워크 인터페이스)

IP 패킷 전에 TCP로 감싸게 되는데, 이 TCP에 IP의 문제점을 해결할 내용들이 담겨있다. 바로 전송 제어, 순서, 검증 정보 등의 내용이다.

TCP (Transmission Control Protocol) 특징

  • 연결지향 - TCP 3 way handshake (가상 연결)
  • 데이터 전달 보증
  • 순서 보장
  • 신뢰할 수 있는 프로토콜
  • 현재는 대부분 TCP를 사용

3 way handshake

TCP는 서로 먼저 살아있음을 확인하고 데이터 전송을 시작하는데 이런 확인을 위해 3 way handshake라는 과정을 거친다.

  1. 클라이언트에서 서버에 SYN(연결) 요청을 보냄
  2. 서버에서는 ACK(응답)과 함께 SYN(클라이언트도 살아있는지 확인을 위해)을 보냄
  3. 클라이언트에서 ACK를 보내 서로 살아있음을 확인 (동시에 데이터 전송도 가능하다)

이 과정은 물리적으로 연결되는게 아니라 개념적으로 연결되는 것이다. 컴퓨터들끼리 논리적으로 인지하게 되는 것이다.

데이터 전달 보증

클라이언트에서 데이터를 전송하면 서버에서는 데이터를 잘 받았다고 응답을 준다. 만약 잘못 받았으면 서버에서 에러 코드를 보내던가 하여 못 받은 데이터를 요구하게 된다.

순서 보장

또한 순서를 보장해준다. 만약 순서대로 오지 않는다면 맞지 않는 순서부터 다시 보내라고 응답을 한다.

UDP (User Datagram Protocol)

UDP는 TCP와 달리 기능이 거의 없다시피 하다.

  • 연결 지향 X
  • 데이터 전달 보증 X
  • 순서 보장 X
  • 대신 단순하고 빠르다. (그래서 과거 스타크래프트 같은 게임에서 UDP로…)
  • IP랑 비슷한데 PORT와 체크섬 정도가 추가 되어있다.
  • 과거에는 UDP는 안전하지 않다고 안쓰였지만 최근에는 애플리케이션들의 최적화들로 인해 다시 각광받고 있는 추세라고 한다.

PORT

우리는 지금 컴퓨터를 쓸 때 동시에 웹 브라우저도 쓰고 있고, 게임도 하고 있고 화상통화로 수업도 받고 있다. 즉, 여러 애플리케이션 데이터들이 동시다발적으로 들어 오고 있다는 것이다. 클라이언트는 각 애플리케이션들의 데이터를 어떻게 구별할까? 바로 포트(PORT)를 활용해서 구분한다. TCP와 UDP 정보에는 출발지 포트와 목적지 포트가 있어 이것을 통해 구분한다. SSH - 22, HTTP - 80번 이런 숫자가 다 포트이다. 포트는 0부터 65535까지 할당 가능한데, 0 ~ 1023까지는 Well Known 포트라해서 이미 쓰이고 있는 포트라 건들지 않는게 좋고, 그 위로해서 사용하면 된다. 일단 안 겹치는 것이 중요하다.

쉽게, 아이피는 아파트, 포트는 아파트 호수로 이해하면 좋다.

DNS (Domain Name System)

IP를 통해 통신한다곤 했는데, 사실 IP는 기억하기 어렵다. IPv4만 해도 32억개 정돈데 내가 원하는 IP를 찾기란 불가능에 가깝다. 또한 IP 주소는 바뀔 수 있기에 더더욱 어렵다. 이런 문제점을 해결하기 위해 도입된게 DNS이다. 이 DNS를 활용해 우리가 쓰는 www.naver.com 주소와 IP 주소를 매핑시켜주어 쉽게 찾을 수 있게 해주는 것이다.

URI와 웹 브라우저 요청 흐름

URI (Uniform Resource Identifier)

  • Uniform: 리소스 식별하는 통일된 방식
  • Resource: 자원, URI로 식별할 수 있는 모든 것(제한 없음)
  • Identifier: 다른 항목과 구분하는데 필요한 정보

  • URI: 로케이터, 이름 또는 둘다 추가로 분류될 수 있다.
  • URL (Resource Locator): 리소스가 있는 위치를 지정
  • URN (Resource Name): 리소스에 이름을 부여
    • ex) urn:isbn:8960777331 (김영한님의 책이 나온다 ㅎㅎ)
    • URN 이름만으로는 실제 방법 찾기가 쉽지가 않아 보편화 되지 않았다.
    • 우리는 URL로만 다루는 걸로 이해하면 될거 같다.

URL 예

URL은 다음과 같이 구성되어있다.

대괄호 부분은 생략 가능하다.

  • scheme://[userinfo@]host[:port][/path][?query][#fragment]
  • https://www.google.com:443/search?q=hello&hl=ko

  • scheme는 어떤 프로토콜을 사용할건지 정하는 것이다. ex) http, https, ftp
  • userinfo는 사용자 정보를 포함해서 인증할 때 쓰는데, 거의 사용되지 않는다.
  • host는 호스트명으로 도메인 명이나 ip 주소를 입력한다.
  • port는 위에서 배운 포트 주소를 입력한다. 일반적으로 80, 443이 쓰인다.
  • path는 리소스가 있는 경로이다. 우리 폴더같이 계층적으로 사용되어 /home/file.jpg 같은 경로를 쓰거나 /members, /members/100 같이 쓴다.
  • query는 key=value 형태로 웹서버에 제공하는 파라미터이다. 문자 형태로 이루어 져있다.
    • ex) ?keyA=value&keyB=valueB (?로 시작하고, 여러개 쓸때는 &로 이어준다.)
    • query parmeter나 query string으로 부름
  • fragment: html 내부 북마크 등에 사용되며, 서버에 전송되는 내용은 아니다.

웹 브라우저 요청 흐름

클라이언트가 https://www.google.com:443/search?q=hello&hl=ko로 메시지를 보낸다고 가정해보자. 클라이언트는 먼저 도메인명을 IP로 바꾸기 위해 DNS 서버에 IP를 얻고, 아래와 같은 요청 메시지를 만든다.

GET /search?q=hello&hl=ko HTTP/1.1
HOST: www.google.com

그리고 TCP계층과 IP계층 캡슐화를 하여 서버에 전송하고 서버는 자신이 줄 수 있는 내용이면 200 코드와 함께 내용을 보내준다. 클라이언트는 받은 내용을 적절하게 렌더링해서 보여준다.

HTTP 기본

모든 것이 HTTP (HyperText Transfer Protocol)

이전에는 텍스트형태로만 내용이 전달되었었는데, 지금에 와서는 모든 내용을 HTTP 프로토콜에 담아 보낼 수 있게 되었다. 예로

  • HTTP, TEXT
  • IMAGE, 음성, 영상, 파일
  • JSON, XML (API)
  • 거의 모든 형태의 데이터 전송이 가능하다.
  • 서버간에 데이터를 주고 받을 때도 대부분 HTTP를 사용한다.

위처럼 모든 것을 HTTP로 보내는 지금, HTTP 시대라 해도 과언이 아닐 정도이다.

HTTP 역사

  • HTTP/0.9 1991년: GET 메서드만 지원, HTTP 헤더 X
  • HTTP/1.0 1996년: 메서드, 헤더 추가
  • HTTP/1.1: 1997년: 가장 많이 사용, 우리에게 가장 중요한 버전 (2014년도 개정 완료, RFC7230~7235)
  • HTTP/2 2015년: 성능 개선
  • HTTP/3 진행중: TCP 대신에 UDP 사용, 성능 개선

기반 프로토콜

  • TCP: HTTP1/1, HTTP/2
  • UDP: HTTP/3
  • 현재는 HTTP/1.1를 주로 사용하고 2/3도 점점 증가하고 있다.

HTTP 특징

  • 클라이언트 서버 구조이다.
  • 무상태 프로토콜(stateless), 비연결성 지향
  • HTTP 메시지로 통신
  • 단순하고 확장 가능하다.

클라이언트 서버 구조

HTTP는 Request Response 구조로 클라이언트가 서버에 요청을 보내고, 응답을 대기한다. 서버는 요청에 대한 결과를 만들어서 응답을 보낸다. 클라이언트는 UI에 집중하고 서버는 비즈니스 로직에 집중할 수 있도록 한다.

Stateful, Stateless

HTTP는 무상태 프로토콜(Stateless)이다. 때문에 서버가 클라이언트의 상태를 보존하지 않아 서버 확장성(스케일 아웃)이 높다는 장점이 있지만, 단점으론 클라이언트가 추가 데이터를 전송해도 누가 보냈던건지 모르게 된다. 반면 stateful은 연결을 유지해서 문맥 보존이 된다. 점원과 손님과의 관계로 나타내면 stateless는 점원이 계속 바뀔 수 있기에 손님이 요청사항을 갖고있는 형태로 하고, stateful은 점원이 요청사항을 유지하는 형태로 띈다. 그렇기에 stateful은 중간에 다른 점원으로 바뀌면 안되는데, (아니면 그 상태를 전달해 준다거나) stateless는 중간에 다른 점원으로 바뀌어도 어차피 손님이 요청사항을 갖고 있기에 문제 없이 처리할 수 있다. 즉,

  • 갑자기 고객이 증가해도 점원을 대거 투입할 수 있고
  • 갑자기 클라이언트 요청이 증가해도 서버를 대거 투입할 수 있다.

결론적으로 무상태(stateless)는 응답 서버를 쉽게 바꿀 수 있어, 무한한 서버 증설이 가능하다. (Scale Out) 하지만 무상태도 실무적으로 한계가 있다. 일단 데이터를 많이 보내게 된다.

무상태의 좋은 적용은 로그인이 필요없는 단순한 서비스 소개 화면일 때 좋고, 상태 유지는 로그인 상황에 좋다. 그래야 장바구니든 사용자가 처리한 정보를 계속 갖고 있으니까. 일반적으로 상태 유지는 브라우저 쿠키와 서버 세션등을 사용해서 유지하며, 최소한 적으로 사용하는게 좋다.

비 연결성(connectionless)

TCP로 서버와 클라이언트의 연결을 계속 유지하게 되면, 서버는 필연적으로 자원을 계속 소모하게 된다. 한 두대면 몰라도 수만 대가 물리게 되면 결국엔 서버가 다운이 될 것이다. 그렇기에 서버와 클라이언트가 필요한 대화만 하고 연결을 끊어버려 서버 자원을 아낄 수 있다. HTTP는 기본적으로 연결을 유지하지 않는 모델이며, 일반적으로 초 단위의 이하의 빠른 속도로 응답을 해준다. 1시간 동안 수천명이 서비스를 사용해도 실제 서버에서 동시에 처리하는 요청은 수십개 이하로 작다.(계속 검색 버튼을 누르진 않으니까) 이렇게 비 연결로 지향을 하면 서버 자원을 매우 효율적으로 사용할 수 있다. 하지만 언제나 그렇듯 단점도 있다.

비 연결성 한계와 극복

  • 일단 필요한 대화만 나누니, 대화가 필요할 때 TCP/IP 연결을 새로 맺어줘야 한다. (3 way handshake 시간 추가)
  • 웹 브라우저로 사이트를 요청하면 HTML 뿐만 아니라 자바스크립트, css, 추가 이미지 등 수 많은 자원이 함께 다운로드 된다.
  • 지금은 HTTP 지속 연결(Persistent Connections)로 문제 해결. (몇십초 동안 연결 유지)
  • HTTP/2, HTTP/3에서 더 많은 최적화가 이루어 지고 있다.

스테이스리스를 기억하자

서버 개발자들이 어려워하는 업무가 있다. 바로 정말 같은 시간에 딱 맞추어 발생하는 대용량 트랙픽들이다. 예시로는

  • 선착순 이벤트, 명절 KTX 예약, 학과 수업 등록
  • 저녁 6:00 선착순 1000명 치킨 할인 이벤트 이런게 열리면 수만명의 동시 요청이 들어온다.

이런 문제점들 때문에 꼭 스테이스리스로 구현할 수 있도록 해보자.

HTTP 메시지

HTTP 메시지는 구조는 대략 이러하다.

statrt-line 시작 라인
header 헤더
empty line 공백 라인 (CRLF)
message body

공백라인은 필수로 있어야 한다. 이것을 통해 message body와 구분하고 그럴 수 있는 것이다.

요청 메시지

요청 메시지의 형태는 이러하다.

  • start-line = request-line/status-line
  • request-line = method SP(공백) request-target SP HTTP-version CRLF(엔터)
    • ex) GET /search?q=hello&hl=ko HTTP/1.1
    • Method
      • GET: 리소스 조회
      • POST: 요청 내역 처리
    • 요청 대상(request-target)
      • absolute-path[?query] (절대경로[?쿼리] 형태이다.)
      • 절대경로는 “/”로 시작하는 경로이다.
    • HTTP 버전

응답 메시지

응답 메시지는 다음과 같다.

  • start-line = request-line / status-line
  • status-line = HTTP-version SP status-code SP reason-phrase CRLF
    • ex) HTTP/1.1 200 OK
    • HTTP 버전
    • HTTP 상태 코드: 요청 성공, 실패를 나타냄
      • 200: 성공
      • 400: 클라이언트 요청 오류
      • 500: 서버 내부 오류
    • 이유 문구: 사람이 이해할 수 있는 짧은 상태 코드 설명 글

HTTP 헤더

헤더는 HTTP 전송에 필요한 모든 부가정보가 들어가있다. 예로들면, 메시지 바디의 내용, 메시지 바디의 크기, 압축, 인증, 요청 클라이언트(브라우저) 정보, 서버 애플리케이션 정보, 캐시 관리 정보 등 엄청 많다. 또 필요시 임의의 헤더를 추가할 수 있다.

  • header-field = field-name: OWS field-value OWS (OWS: 띄어쓰기 허용)
  • field-name은 대소문자 구문 없다.
  • 요청 메시지 예
    • Host: www.google.com
  • 응답 메시지 예
    • Content-Type: text/html:charset=UTF-8
    • Content-Length: 3423

메시지 바디

  • 실제 전송할 데이터
  • HTML 문서, 이미지, 영상, JSON 등등 byte로 표현할 수 있는 모든 데이터는 전송 가능하다.

HTTP 메서드

HTTP API를 만들어보자

회원 정보 관리 API를 만들어 보자. 먼저 필요한 목록들이 뭔지 고민해보는 것이다.

  • 회원 목록 조회
  • 회원 조회
  • 회원 등록
  • 회원 수정
  • 회원 삭제

처음에는 이렇게 설계해볼 수도 있겠다. /read-member-list /read-member-by-id /create-member /update-member /delete-member

하지만 URI를 고민해볼 때는 리소스를 중점으로 두어야 한다. 회원이라는 개념이 리소스이다. 조회니 등록이니는 행위 같은게 되겠다. 즉 리소스를 식별하는게 우선이다. 그렇기에 회원 리소스를 URI에 매핑해야 한다. 그러면 아래와 같이 설계해볼 수 있다.

리소스는 명사, 행위는 동사로 보면 좋다.

  • 목록 조회 /members
  • 회원 조회/members/{id}
  • 등록 /members/{id}
  • 수정 /members/{id}
  • 삭제 /members/{id}

계층 구조상 상위를 컬렉션으로 보고 복수단어 사용을 권장한다. (member대신 members)

근데 위처럼 하면 조회부터 삭제까지 구분이 안된다. 어떻게 구분해야할까 해서 나온것이 HTTP의 메서드로 구분하는 것이다.

HTTP 메서드 - GET, POST

메서드는 클라이언트가 서버에 요청할 때 기대하는 행동이다.

  • GET: 리소스 조회
  • POST: 요청 데이터 처리, 주로 등록에 사용
  • PUT: 리소스를 대체, 해당 리소스가 없으면 생성
  • PATCH: 리소스 부분 변경
  • DELETE: 리소스 삭제

기타 메서드

  • HEAD: GET과 동일하지만 메시지 부분을 제외하고, 상태 줄과 헤더만 반환
  • OPTIONS: 대상 리소스에 대한 통신 가능 옵션(메서드)을 설명(주로 CORS에서 사용)
  • CONNECT: 대상 자원으로 식별되는 서버에 대한 터널을 설정
  • TRACE: 대상 리소스에 대한 경로를 따라 메시지 루프백 테스트를 수행

GET

GET /search?q=hello&hl=ko HTTP/1.1
Host: wwww.google.com
  • 리소스 조회에 사용
  • 서버에 전달하고 싶은 데이터는 query(쿼리 파라미터, 쿼리 스트링)를 통해 전달
  • 메시지 바디를 사용해서 데이터를 전달할 수 있지만, 지원하지 않는 곳이 많아 권장하지 않음

POST

POST /members HTTP/1.1
Content-Type: application/json

{
  "username": "hello",
  "age": 20
}
  • 요청 데이터 처리
  • 메시지 바디를 통해 서버로 요청 데이터를 전달한다.
  • 서버는 요청 데이터를 처리한다.
    • 메시지 바디를 통해 들어온 데이터를 처리하는 모든 기능을 수행한다.
    • ex) 주문에서 결제완료 -> 배달시작 -> 배달완료 처럼 단순히 값 변경을 넘어 프로세스의 상태가 변경되는 경우
    • POST의 결과로 새로운 리소스가 생성되지 않을 수 있다.
    • ex) POST /orders/{orderId}/start-delivery(컨트롤 URI)
  • 주로 전달된 데이터로 신규 리소스 등록 또는 프로세스 처리에 사용한다.
  • 예시
    • HTML 양식에 입력 된 필드와 같은 데이터 블록을 데이터 처리 프로세스에 제공: HTML FORM에 입력한 정보로 회원 가입, 주문 등에서 사용
    • 게시판, 뉴스 그룹, 메일링 리스트, 블로그 또는 유사한 기사 그룹에 메시지 게시: 게시판 글쓰기, 댓글 달기
    • 서버가 아직 식별하지 않은 새 리소스 생성: 신규 주문 생성
    • 기존 자원에 데이터 추가: 한 문서 끝에 내용 추가하기

위 같은 리소스 URI에 POST 요청이 오면 요청 데이터를 어떻게 처리할지 리소스마다 따로 정해줘야 한다.

POST로 약속된 내용을 받고 잘 처리가 되면 이런식으로 응답을 해준다.

HTTP/1.1 201 Created
Content-Type: application/json
Content-Length: 34
Location: /members/100

{
  "username": "young",
  "age": 20
}

Location을 통해 자원의 경로를 보내준다.

HTTP 메서드 - PUT, PATCH, DELETE

PUT

PUT /members/100 HTTP/1.1
Content-Type: application/json

{
  "username": "hello";
  "age": 20
}
  • 리소스를 대체
    • 리소스가 있으면 대체
    • 리소스가 없으면 생성
    • 덮어버린다 생각하면 됨
  • 클라이언트가 리소스를 식별
    • 클라이언트가 리소스 위치를 알고 URI 지정한다.

그런데 put은 완전 덮어버리는 것이기에 자칫하면 내용이 완전 없어질 수도 있다.

기존에 /members/100이 username과 age 필드를 가지고 있는데 put으로는 age만 보내게 되면 username이 사라지게 된다. 이런 부분을 해결하기 위해 나타난 메서드가 PATCH이다.

PATCH

PATCH /members/100 HTTP/1.1
Content-Type: application/json

{
  "age": 50
}

PATCH로 보내면 부분적으로만 변경이 된다. 지원 안해주는 서버가 있으면 POST를 쓰자

DELETE

DELETE는 리소스를 제거해준다.

DELETE /members/100 HTTP/1.1
Host: localhost:8080

HTTP 메서드의 속성

HTTP 메서드의 속성으론 다음과 같다.

  • 안전(Safe Methods)
  • 멱등(Idempotent Methods)
  • 캐시가능(Cacheable Methods)

안전 (Safe)

호출해도 리소스를 변경하지 않는다는 의미이다. 근데, 계속 호출해서 로그 같은게 쌓여 장애가 발생한다면 어떨까. 안전은 해당 리소스만 고려하기에 그런 부분은 고려하지 않는다.

멱등 (Idempotent)

  • f(f(x)) = f(x)
  • 한 번 호출하든 두 번 호출하든 100번 호출하든 결과가 똑같다.
  • 멱등 메서드
    • GET: 한 번 조회하든, 두 번 조회하든 같은 결과가 조회된다.
    • PUT: 결과를 대체한다. 따라서 같은 요청을 여러번 해도 최종 결과는 같다.
    • DELETE: 결과를 삭제한다. 같은 요청을 여러번 해도 삭제된 결과는 똑같다.
    • POST: 멱등이 아니다. 두 번 호출하면 같은 결제가 중복해서 발생할 수 있다.
  • 활용
    • 자동 복구 메커니즘
    • 서버가 TIMEOUT 등으로 정상 응답을 못주었을 때, 클라이언트가 같은 요청을 다시해도 되는가의 판단 근거가 된다.

근데 만약 재요청(GET) 중간에 리소스를 변경해버리면 어떻게 될까? 멱등은 외부 요인으로 중간에 리소스가 변경되는 것 까지는 고려하지 않는다.

캐시 가능 (Cacheable)

  • 응답 결과 리소스를 캐시해서 사용
  • GET, HEAD, POST, PATCH 캐시 가능
  • 실제로는 GET, HEAD 정도만 캐시로 사용한다.
    • POST, PATCH는 본문 내용까지 캐시 키로 고려해야 하는데, 구현이 쉽지 않다.

HTTP 메서드 활용

클라이언트에서 서버로 데이터 전송

데이터 전달 방식은 크게 2가지가 있다.

  1. 쿼리 파라미터를 통한 데이터 전송
    • GET (이미지, 정적 텍스트 문서)
    • 주로 정렬 필터(검색어, 동적 데이터 조회)
  2. 메시지 바디를 통한 데이터 전송
    • POST, PUT, PATCH (Form 전송)
    • 회원가입, 상품 주문, 리소스 등록, 리소스 변경 등

Form POST 전송 시 메시지

메시지 바디를 통해 key=value 형태로 전송한다.

POST /save HTTP/1.1
Host: localhost:8080
Content-Type: application/x-www-form-urlencoded(한글 인코딩돼서 넘어감)

username=kim&age=20

form에서 enctype=”multipart/form-data”으로 전송 시

바이너리 데이터(사진, 영상 등)을 넣을 때 사용한다. 다른 종류의 여러 파일과 폼의 내용 함께 전송 가능하기에 이름이 multipart로 쓰이는 것이다.

POST /save HTTP/1.1
Host: localhost:8080
Content-Type: multipart/form-data; boundary=----XXX(랜덤으로 만듬)
Content-Length: 10457

----XXX
Content-Disposition: form-data; name="username"

kim

----XXX
Content-Disposition: form-data; name="file1"; filename="intro.png"
Content-Type: image/pgn

asdfsdfl;kasjf;lkasjdf;ljadsfk;ldasjf...

HTTP API 데이터 전송

  • 서버 to 서버
    • 백엔드 시스템 통신
  • 앱 클라이언트
    • 아이폰, 안드로이드
  • 웹 클라이언트
    • HTML에서 Form 전송 대신 자바 스크립트를 통한 통신에 사용(AJAX)
    • ex) React, VueJs 같은 웹 클라이언트와 API 통신
  • POST, PUT, PATCH: 메시지 바디를 통해 데이터 전송
  • GET: 조회, 쿼리 파라미터로 데이터 전달
  • Content-Type: application/json을 주로 사용 (사실상 표준)
    • TEXT, XML, JSoN 등등
POST /members HTTP/1.1
Content-Type: application/json

{
  "username": "young",
  "age": 20
}

HTTP API 설계 예시

  • HTTP API - 컬렉션
    • POST 기반 등록
    • ex) 회원 관리 API 제공
  • HTTP API - 스토어
    • PUT 기반 등록
    • ex) 정적 컨텐츠 관리, 원격 파일 관리
  • HTML FORM 사용
    • 웹 페이지 회원 관리
    • GET, POST만 지원

회원 관리 시스템

리소스를 이용하고 POST 기반으로 등록한다. 클라이언트는 등록될 리소스의 URI를 모르기에 POST로 보내고, 서버는 새로 등록된 리소스 URI를 Location: /members/100 이런 식으로 보내준다.

컬렉션(Collection)은 서버가 관리하는 리소스 디렉토리로 서버가 리소스의 URI를 생성하고 관리한다. 여기서는 /members가 컬렉션이다.

  • 회원 목록 /members -> GET
  • 회원 등록 /members -> POST
  • 회원 조회 /members/{id} -> GET
  • 회원 수정 /members/{id} -> PATCH, PUT, POST
  • 회원 삭제 /members/{id} -> DELETE

파일 관리 시스템

PUT 기반으로 설계해본다. 파일을 등록할 때 클라이언트가 리소스 URI를 알고 있어야 한다. 그렇기에 PUT /files/star.jpg 이런식으로 해서 서버에 보내게 된다.

스토어(store)는 클라이언트가 관리하는 리소스 저장소이다. 클라이언트가 리소스의 URI를 알고 관리하며 여기서 스토어는 /files가 된다.

  • 파일 목록 /files -> GET
  • 파일 조회 /files/{filename} -> GET
  • 파일 등록 /files/{filename} -> PUT
  • 파일 삭제 /files/{filename} -> DELETE
  • 파일 대량 등록 /files -> POST

HTML FORM 사용

HTML FORM은 GET과 POST만 지원한다. 물론 AJAX를 사용하면 해결할 수 있지만 여기서는 순수 HTML 기준으로 한다.

  • 회원 목록 /members -> GET
  • 회원 등록 폼 /members/new -> GET
  • 회원 등록 /members/new, /members -> POST
  • 회원 조회 /members/{id} -> GET
  • 회원 수정 폼 /members/{id}/edit -> GET
  • 회원 수정 /members/{id}/edit, /members/{id} -> POST
  • 회원 삭제 /members/{id}/delete -> POST

순수 HTML은 GET과 POST만 지원하기에 제약이 있다. 그래서 동사처럼 사용하는 컨트롤 URI를 포함시키는 것이다. POST의 /new, /edit, /delete가 컨트롤 URI 들이다. 그렇다고 남발하면 안된다. 최대한 리소스를 중점으로 URI를 만들되 그것만으로 부족할 때 도입하도록 하자.

참고하면 좋은 URI 설계 개념

  • 문서(document)
    • 단일 개념(파일 하나, 객체 인스턴스, 데이터베이스 row)
    • 예) /memberes/100, /files/star.jpg
  • 컬렉션(collection)
    • 서버가 관리하는 리소스 디렉터리
    • 서버가 리소스의 URI를 생성하고 관리
    • 예) /membeers
  • 스토어(store)
    • 클라이언트가 관리하는 자원 저장소
    • 클라이언트가 리소스의 URI를 알고 관리
    • 예) /files
  • 컨트롤러(controller), 컨트롤 URI
    • 문서, 컬렉션, 스토어로 해결하기 어려운 추가 프로세스 실행
    • 동사를 직접 사용
    • 예) /members/{id}/delete

https://restfulapi.net/resource-naming 을 참고해보자

HTTP 상태코드

HTTP 상태코드 소개

상태 코드는 클라이언트가 보낸 요청의 처리 상태를 응답에서 알려주는 기능이다.

  • 1XX (Informational): 요청이 수신되어 처리중, 거의 사용하지 않는다.
  • 2XX (Successful): 요청 정상 처리
  • 3XX (Redirection): 요청을 완료하려면 추가 행동이 필요
  • 4XX (Client Error): 클라이언트 오류, 잘못된 문법등으로 서버가 요청을 수행할 수 없음
  • 5XX (Server Error): 서버 오류, 서버가 정상 요청을 처리하지 못함

만약 모르는 상태 코드일 시

클라이언트가 인식할 수 없는 상태코드를 서버가 반환하면 클라이언트는 상위 상태코드로 해석해서 처리한다. 그렇기에 미래에 새로운 상태 코드가 추가되어도 클라이언트를 변경하지 않아도 된다. 만약 299인데 이건 지금 없는 코드다. 이것을 받으면 2XX이런식으로 받아들여 처리한다.

2XX - 성공

클라이언트의 요청을 성공적으로 처리하면 보내는 코드이다. 대표적으로

  • 200 OK
  • 201 Created
  • 202 Accepted
    • 요청이 접수되었으나 처리가 완료되지 않았음.
    • 배치 처리 같은 곳에서 사용 예) 요청 접수 후 1시간 뒤에 배치 프로세스가 요청을 처리함
  • 204 No Content
    • 서버가 요청을 성공적으로 수행했지만, 응답 페이로드 본문에 보낼 데이터가 없음
    • 웹 문서 편집기에서 save 버튼 눌렀을 때
    • save 버튼의 결과로 아무 내용이 없어도 되고, 같은 화면을 유지해야 한다.
    • 결과 내용이 없어도 204 메시지 만으로 성공을 인식할 수 있다.

3XX - 리다이렉션1

요청을 완료하기 위해 유저 에이전트(웹 브라우저)의 추가 조치 필요

리다이렉션 이해

웹 브라우저는 3XX 응답의 결과에 Location 헤더가 있으면, Location 위치로 자동 이동한다. 이것을 리다이렉트라고 한다.

만약 기존의 /event라는 url에서 이벤트를 진행했는데 관리자가 이제 /new-event로 옮겼다고 하자. 근데 기존 고객들은 계속 /event로 들어오려 할테다. 이럴때 300코드와 함께 Location을 주면 거기로 이동하게 되는 것이다.

리다이렉션 종류

  • 영구 리다이렉션(301, 308): 특정 리소스의 URI가 영구적으로 이동, 원래의 URL를 사용하지 않고, 검색 엔진 등에서도 변경을 인지한다.
    • 301 Moved Permanently: 리다이렉트시 요청 메서드가 GET으로 변하고, 본문이 제거될 수 있음
    • Permaent Redirect: 301과 기능은 같다. 리다이렉트 요청 메서드와 본문을 유지한다. (처음 POST를 보내면 리다이렉트도 POST로)
    • /members -> /users
    • /event -> /new-event
  • 일시 리다이렉션: 일시적인 변경
    • 주문 완료 후 주문 내역 화면으로 이동
    • PRG 패턴: Post/Redirect/Get
  • 특수 리다이렉션: 결과 대신 캐시를 사용
HTTP/1.1 301 Moved Permanently
Location: /new-event
  • 300 Multiple Choices
  • 301 Moved Permanently
  • 302 Found
  • 303 See Other
  • 304 Not Modified
  • 307 Temporary Redirect
  • 308 Permanent Redirect

3XX - 리다이렉션2

일시적인 리다이렉션으로는 302, 307, 303이 있다. 이 일시적인 리다이렉션은 리소스의 URI가 일시적으로는 변경되지만 완전 바뀌는건 아니기에 검색 엔진 등에서 URL을 변경하면 안 된다.

  • 302 Found: 리다이렉트시 요청 메서드가 GET으로 변하고, 본문이 제거될 수 있음
  • 307 Temporary Redirect: 302와 기능 같음. 리다이렉트시 요청 메서드와 본문 유지(요청 메서드를 변경하면 안된다.)
  • 303 See Other: 302와 같음. 리다이렉트시 요청 메서드가 GET으로 변경

PRG: Post/Redirect/Get

POST를 보내서 DB에 반영됐는데, 만약 새로고침(마지막꺼 적용)을 하게되면 중복으로 POST가 보내져 데이터가 저장될 수도 있다. 물론 서버쪽에서 막으면 되지만, 클라이언트쪽에서 막는것이 좋기 때문에 PRG패턴을 사용하여 방지를 한다.

  • POST로 주문후에 주문 결과 화면을 GET 메서드로 리다이렉트
  • 새로고침해도 결과 화면을 GET으로 조회
  • 중복 주문 대신에 결과 화면만 GET으로 다시 요청

307과 303을 권장하지만 현실적으로 이미 많은 애플리케이션 라이브러리들이 302를 기본값으로 사용한다. 자동 리다이렉션시에 GET으로 변해도 되면 그냥 302를 사용해도 큰 문제가 없다.

기타 리다이렉션

  • 300 Multiple Choices: 안씀
  • 304 Not Modified
    • 캐시를 목적으로 사용
    • 클라이언트에게 리소스가 수정되지 않았음을 알려준다. 따라서 클라이언트는 로PC에 저장된 캐시를 재사용한다. (캐시로 리다이렉트)
    • 304 응답은 응답에 메시지 바디를 포함하면 안된다. (로컬 캐시 사용을 위해)
    • 조건부 GET, HEAD 요청시 사용

4XX - 클라이언트 오류, 5XX - 서버 오류

4XX(Client Error) 클라이언트 오류

클라이언트의 요청에 잘못된 문법등으로 서버가 요청을 수행할 수 없다. 즉 오류의 원인이 클라이언트에 있는 것이다. 클라이언트가 이미 잘못된 요청, 데이터를 보내고 있는 것이기에 똑같은 재시도가 실패하게 된다.

400 Bad Request

클라이언트가 잘못된 요청을 해서 서버가 요청을 처리할 수 없다.

  • 요청 구문, 메시지 등등 오류
  • 클라이언트는 요청 내용을 다시 검토하고, 보내야한다.
  • 예) 요청 파라미터가 잘못되거나, API 스펙이 맞지 않을 때 발생 (백엔드 개발자가 철저하게 막아야한다.)

401 Unauthorized

클라이언트가 해당 리소스에 대한 인증이 필요함

  • 인증(Authentication)이 되지 않음
  • 401 오류 발생시 응답에 WWW-Authenticate 헤더와 함께 인증 방법을 설명
  • 인증(Authentication): 본인이 누구인지 확인, (로그인)
  • 인가(Authorization): 권한부여 (ADMIN 권한처럼 특정 리소스에 접근할 수 있는 권한, 인증이 있어야 인가가 있음)
  • 오류 메시지가 Unauthorized 이지만 인증 되지 않음 (이름이 아쉬움)

403 Forbidden

서버가 요청을 이해했지만 승인을 거부.

  • 주로 인증 자격 증명은 있지만, 접근 권한이 불충분한 경우
  • 예) 어드민 등급이 아닌 사용자가 로그인은 했지만, 어드민 등급의 리소스에 접근하는 경우

404 Not Found

요청 리소스를 찾을 수 없음

  • 요청 리소스가 서버에 없음
  • 또는 클라이언트가 권한이 부족한 리소스에 접근할 때 해당 리소스를 숨기고 싶을 때

5XX (Server Error)

  • 서버 문제로 오류 발생
  • 서버에 문제가 있기 때문에 재시도 하면 성공할 수도 있음(복구가 되거나 등등)

500 Internal Server Error

서버에 문제로 오류 발생, 애매하면 500 오류

503 Service Unavailable

서비스 이용 불가

  • 서버가 일시적인 과부하 또는 예정된 작업으로 잠시 요청을 처리할 수 없음
  • Retry-After 헤더 필드로 얼마뒤에 복구되는지 보낼 수도 있음

HTTP 헤더1 - 일반 헤더

HTTP 헤더 개요

HTTP 헤더는 HTTP 전송에 필요한 모든 부가정보를 넣는 곳이다. 예를들어, 메시지 바디의 내용, 메시지 바디의 크기, 압축, 인증, 요청 클라이언트, 서버 정보, 캐시 관리 정보 등등 무수히 많은 표준 정보를 넣을 수 있고, 또는 임의의 헤더를 넣어서 사용할 수 있다.

  • header-field = field-name “:” OWS field-value OWS (OWS: 띄어쓰기 허용)
  • field-name은 대소문자 구문 없음
GET /search?q=hello&hl=ko HTTP/1.1
Host: www.google.com
HTTP/1.1 200 OK
Content-Type: text/html;charset=UTF-8
Content-Length: 3423

HTTP BODY - RFC7230

  • 메시지 본문(message body)을 통해 표현 데이터 전달
  • 메시지 본문 = 페이로드(payload)
  • 표현은 요청이나 응답에서 전달할 실제 데이터
  • 표현 헤더는 표현 데이터를 해석할 수 있는 정보 제공
    • 데이터 유형(html, json), 데이터 길이, 압축 정보 등등

표현

예전에는 헤더들을 엔티티라 불렀었는데 최근에는 표현(representation)으로 바꿨다. 왜냐하면 예전같은 경우에는 HTML로만 데이터를 응답했던 반면에 지금은 리소스를 HTML뿐만 아니라 XML, JSON 등으로 어떤 자료형태로 표현하여 응답이 가기 때문에 그에 맞춰 단어를 바꾸게 되었다. 아래의 헤더들을 활용해 표현 데이터의 정보를 기입해준다.

  • Content-Type: 표현 데이터의 형식
    • 미디어 타입, 문자 인코딩 예) text/html; charset=utf-8, application/json, image/png 등
  • Content-Encoding: 표현 데이터의 압축 방식
    • 표현 데이터를 압축하기 위해 사용, 데이터를 전달하는 곳에서 압축 후 인코딩 헤더를 추가하면 읽는 쪽에서 인코딩 헤더의 정보로 압축을 해제한다.
    • 예) gzip, deflate, identity
  • Content-Language: 표현 데이터의 자연 언어
    • 예) ko, en, en-US
  • Content-Length: 표현 데이터의 길이
    • 바이트 단위, Transfer-Encoding(전송 코딩)을 사용하면 Content-Length를 사용하면 안됨
  • 표현 헤더는 전송, 응답 둘다 사용
HTTP/1.1 200 OK
Content-Type: text/html;charset=UTF-8
Content-Length: 3423

<html>
  <body>...</body>
</html>

협상(콘텐츠 네고시에이션)

클라이언트가 선호하는 표현 요청, 요청 시에만 사용한다.

  • Accept: 클라이언트가 선호하는 미디어 타입 전달
  • Accept-Charset: 클라이언트가 선호하는 문자 인코딩
  • Accept-Encoding: 클라이언트가 선호하는 압축 인코딩
  • Accept-Language: 클라이언트가 선호하는 자연 언어

만약 내가 한국어 브라우저를 사용하는데, 접근하려는 서버가 기본적으로 영어를 사용하고 부가적으로 한국어를 지원하면, 먼저 영어로 제공하게 된다. 이럴 때 클라이언트가 Accept-Language: ko 협상 헤더를 보내 한국어로 달라할 수 있다. 근데 서버에서 1순위 독일어, 2순위 영어를 지원하면? 한국어가 없기에 독일어를 받게 될 것이다. 이런 문제를 조금이나마 줄이기 위해 우선순위를 도입하게 된다.

우선순위 1

GET /event
Accept-Language: ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7

위의 구문을 보면 q가 있는데 이것은 Quality Values로 우선순위 값이다. 0~1을 할당하고 클수록 높은 우선순위를 갖게 된다. 생략하면 1이 된다. 만약 Accept-Language: ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7

  1. ko-KR;q=1 (q생략)
  2. ko;q=0.9
  3. en-US;q=0.8
  4. en:q=0.7

이런 식으로 순위가 메겨진다.

우선순위 2

그리고 다음으로 구체적인 것을 우선으로 한다. Accept: text/*, text/plain, text/plain;format=flowed, */* 이런 헤더가 있으면, 아래와 같이 우선순위가 적용된다.

  1. text/palin;format=flowed
  2. text/plain
  3. text/*
  4. /

이런식으로 우선순위를 제공하고, 클라이언트는 자신의 환경에 맞게 적절한 헤더와 우선순위를 배치해서 서버에 보내면 된다.

전송 방식

서버에서 전송을 어떻게 할건지에 대해 여러 방식이 있다.

  • 단순 전송
    • 컨텐츠의 길이값을 알면 Content-Length: 3423 이런식으로 전송한다.
  • 압축 전송
    • 서버에서 gzip같은 형태로 줄인다면 Content-Encoding: gzip을 추가로 해서 무엇으로 압축했는지 알려준다.
  • 분할 전송
    • Transfer-Encoding: chunked(덩어리로 쪼개서)로 설정하여 데이터를 쪼개서 보낼 수 있다. 마지막에 \r\n으로 종료된다. 이때는 Content-Length를 넣으면 안된다.
  • 범위 전송
    • 클라이언트가 부분적으로 다시 보내달라 할때 쓴다. Range: bytes=1001-2000 이런식으로 요청하면, Content-Range: bytes 1001-2000 / 2000 이런식으로 전송해준다.

일반 정보

  • From: 유저 에이전트의 이메일 정보
    • 잘 사용되지 않는데, 검색 엔진 같은 곳에서 주로 사용한다. 요청에서 사용된다.
  • Referer: 이전 웹 페이지 주소
    • 크롤링할 때 정말 필요한 정보이다. A -> B로 이동하는 경우 B를 요청할 때 Referer: A를 포함해서 요청한다.
    • Referer를 사용해서 유입 경로를 분석할 수 있다.
    • 요청에서 사용되며, referrer의 오타인데 그냥 사용한다고 한다.
  • User-Agent: 유저 에이전트 애플리케이션 정보
    • 클라이언트 브라우저의 정보
    • 통계 정보에 사용
    • 어떤 종류의 브라우저에서 장애가 발생하는지 파악 가능하다.
    • 요청에서 사용
    • 이것 또한 크롤링할 때 사용되는 정보이다.
  • Server: 요청을 처리하는 오리진(실제 데이터를 주는) 서버의 소프트웨어 정보
    • Server: Apache/2.2.22 (Debian)
    • server: nginx
    • 응답에서 사용
  • Date: 메시지가 생성된 날짜
    • Date: Tue, 15 Nov 1994 08:12:31 GMT
    • 응답에서 사용

특별한 정보

  • Host: 요청한 호스트 정보(도메인)
    • 요청에서 사용하며 필수
    • 하나의 서버가 여러 도메인을 처리해야 할 때
    • 하나의 IP 주소에 여러 도메인이 적용되어 있을 때, 구분 지어서 관리해줄 수 있다.
  • Location: 페이지 리다이렉션
    • 웹 브라우저는 3XX 응답의 결과에 Location 헤더가 있으면, Location 위치로 자동 이동한다.(리다이렉트)
    • 201 (Created): Location 값은 요청에 의해 생성된 리소스 URI
    • 3XX (Redirection): Location 값은 요청을 자동으로 리디렉션하기 위한 대상 리소스를 가리킴
  • Allow: 허용 가능한 HTTP 메서드
    • 405 (Method Not aAllowed)에서 응답에 포함되어야함
    • Allow: GET, HEAD, PUT
  • Retry-After: 유저 에이전트가 다음 요청을 하기까지 기다려야 하는 시간
    • 503 (Service Unavailabe): 서비스가 언제까지 불능인지 알려줄 수 있음
    • Retry-After: Fri, 31 Dec 1999 23:59:59 GMT (날짜 표기)
    • Retry-After: 120 (초단위 표기)

인증

  • Authorization: 클라이언트 인증 정보를 서버에 전달
    • Authorization: Basic xxxxxxxxxxx
    • OAuth 인증 같은거를 공부해보자.
  • WWW-Authenticate: 리소스 접근시 필요한 인증 방법 정의
    • 401 Unauthorized 응답과 함께 사용
    • WWW-Authenticate: Newauth realm=”apps”, type=1, title”Login to " apps"”, Basic realm=”simple”

쿠키

Stateless

HTTP는 무상태 프로토콜이기 때문에 클라이언트와 서버가 요청과 응답을 주고 받으면 연결이 끊어진다. 그렇기에 클라이언트가 다시 요청하면 서버는 이전 요청을 기억하지 못하기에 로그인을 했다해도 다른 페이지에서는 이것을 알 도리가 없어진다. 대안으로는 모든 요청과 링크에 정보를 넣으면 되겠지만 사실 엄청난 노가다기에 말이 안된다. 그렇기에 쿠키를 사용한다.

  • Set-Cookie: 서버에서 클라이언트로 쿠키 전달(응답)
    • Set-Cookie: user=홍길동
    • 클라이언트는 이를 쿠키 저장소에 저장한다.
  • Cookie: 클라이언트가 서버에서 받은 쿠키를 저장하고, HTTP 요청시 서버로 전달
    • Cookie: user=홍길동
    • 해당 서버에 요청할때마다 쿠키 저장소를 찾아 위의 헤더를 보낸다.

그런데 위처럼 서버에다 무조건적으로 쿠키를 찾아 보내는것도 좋지는 않기에 관리가 필요하다. 서버에서 다음과 같이 쿠키를 설정해서 보내준다.

  • 예) set-cookie: sessionId=abcde1234; expires=Sat, 26-Dec-2020 00:00:00 GMT; path=/; domain=.google.com; Secure
  • 사용처
    • 사용자 로그인 세션 관리
    • 광고 정보 트래킹
  • 쿠키 정보는 항상 서버에 전송됨
    • 네트워크 트래픽 추가 유발
    • 최소한의 정보만 사용(세션 id, 인증 토큰)
    • 서버에 전송하지 않고, 웹 브라우저 내부에 데이터를 저장하고 싶으면 웹 스토리지를 (localStorage, sessionStorage) 참고해보자.
  • 주의할점
    • 보안에 민감한 데이터는 저장하면 안됨(주민번호, 신용카드 번호 등등)

쿠키 - 생명주기

쿠키를 무한정 저장하면 안되기에 생명주기를 설정한다.

  • Set-Cookie: expires=Sat, 26-Dec-2020 04:39:21 GMT
    • 만료일이 되면 쿠키 삭제
  • Set-Cookie: max-age=3600 (3600초)
    • 0이나 음수를 지정하면 쿠키 삭제
  • 세션 쿠키: 만료 날짜를 생략하면 브라우저 종료시까지만 유지
  • 영속 쿠키: 만료 날짜를 입력하면 해당 날짜까지 유지

쿠키 - 도메인

  • 예) doamin=example.org
  • 명시: 명시한 문서 기준 도메인 + 서브 도메인 포함
    • domain=example.org를 지정해서 쿠키 생성
      • example.org는 물론이고
      • dev.example.org도 쿠키 접근
  • 생략: 현재 문서 기준 도메인만 적용
    • example.org에서 쿠키를 생성하고 domain 지정을 생략
      • example.org 에서만 쿠키 접근
      • dev.example.org는 쿠키 미접근

쿠키 - 경로

  • 예) path=/home
  • 이 경로를 포함한 하위 경로 페이지만 쿠키 접근
  • 일반적으로 path=/(루트)로 지정
    • path=/home로 지정했다면,
    • /home -> 가능
    • /home/level1 -> 가능
    • /home/level1/level2 -> 가능
    • /hello -> 불가능

쿠키 - 보안 (Secure, HttpOnly, SameSite)

  • Secure
    • 쿠키는 http, https를 구분하지 않고 전송
    • Secure를 적용하면 https인 경우에만 전송
  • HttpOnly
    • XSS 공격 방지
    • 자바스크립트에서 접근 불가(document.cookie)
    • HTTP 전송에만 사용
  • SameSite
    • XSRF 공격 방지
    • 요정 도메인과 쿠키에 설정된 도메인이 같은 경우만 쿠키 전송

HTTP 헤더2 - 캐시와 조건부 요청

캐시 기본 동작

캐시 기능이 없을 때는 클라이언트가 서버에 요청을 해서 그에 맞게 이미지를 전송해준다. 그리고 또 사진을 요청하면 서버에 또 요청하고 받게된다. 이렇게 되면 문제점이

  • 데이터가 변경되지 않아도 네트워크를 통해 데이터를 다운로드 받아야 한다.
  • 인터넷 네트워크는 매우 느리고 비싿.
  • 브라우저 로딩 속도도 느려져, 사용자도 불편해진다.

그렇기에 캐시 기능을 적용을 하게 된다. 아래와 같이 헤더에 cache-control: max-age=60를 추가하여 보내준다. 이를 받은 브라우저는 브라우저 캐시 저장소에 캐시를 저장한다. 그렇게 되면 유효기간동안은 같은 사진은 캐시에서 조회하게 되는 것이다. 이렇게 되면 위의 문제점들이 해결된다.

HTTP/1.1 200 OK
Content-Type: image/jpeg
cache-control: max-age=60 (초 단위)
Content-Length: 34012

adfasdfasdf....

근데 만약 세 번째 요청 때 캐시 시간이 초과되면 어떻게 될까? 그러면 다시 서버에다가 요청을 하게 되는 것이다. 근데 내용이 안바뀌었는데 또 요청을 하게 되면 불필요한 다운로드가 일어나게 되는 것이다. 이를 또 해결하는 방법이 있다.

검증 헤더와 조건부 요청1

캐시 유효 시간이 초과해서 서버에 다시 요청하면 다음 두 가지 상황이 나타난다.

  1. 서버에서 기존 데이터를 변경함
  2. 서버에서 기존 데이터를 변경하지 않음 -> 로컬 데이터를 쓰게 해줘야 한다. 검증 헤더 추가

아래처럼 데이터가 마지막에 수정된 시간을 추가해준다.

cache-control: max-age=60
Last-Modified: 2020년 11월 10일 10:00:00

이렇게 받은 내용을 캐시에 저장한다. 그러고 유효시간이 만료되면 클라이언트는 요청을 보낸다. if-modified-since를 보내 자신이 가진 데이터의 최종 수정일을 보낸다.

GET /star.jpg
if-modified-since: 2020년 11월 10일 10:00:00

서버는 해당 헤더의 날짜를 보고 수정되지 않았음이 판단되면, 다음과 같이 보낸다.

HTTP/1.1 304 Not Modified
Content-Type: image/jpeg
cache-control: max-age=60
Last-Modified: 2020년 11월 10일 10:00:00
Content-Length: 34012

HTTP Body 없이 304 코드를 보내 수정되지 않음을 알려준다. 이러면 브라우저는 유효시간을 다시 세팅하고, 캐시 저장소에 있는 데이터를 사용한다. Body만 없어도 네트워크 부하가 확 줄어든다.

크롬 개발도구에서 status 항목의 색상이 회색인것은 캐시에서 불러온 것이다.

검증 헤더와 조건부 요청2

  • 검증 헤더
    • 캐시 데이터와 서버 데이터가 같은지 검증하는 데이터
    • Last-Modified, ETag
  • 조건부 요청 헤더
    • 검증 헤더로 조건에 따른 분기
    • If-Modified-Since: Last-Modified 사용
    • If-None-Match: ETag 사용
    • 조건이 만족하면 200 OK
    • 조건이 만족하지 않으면 304 Not Modified

위에서 다룬 Last-Modified, If-Modified-Since의 단점은 다음과 같다.

  • 1초 미만(0.X초) 단위로 캐시 조정이 불가능
  • 날짜 기반의 로직 사용
  • 데이터를 수정해서 날짜가 다르지만, 같은 데이터를 수정해서 데이터 결과가 똑같은 경우
  • 서버에서 별도의 캐시 로직을 관리하고 싶은 경우
    • 예) 스페이스나 주석처럼 크게 영향이 없는 변경에서 캐시를 유지하고 싶은 경우

ETag, If-None-Match

  • ETag(Entity Tag)
  • 캐시용 데이터에 임의의 고유한 버전 이름을 달아줌
    • 예) ETag: “v1.0”, ETag: “a131231321”
  • 데이터가 변경되면 이 이름을 바꾸어서 변경함(Hash를 다시 생성)
    • 예) ETag: “aaaaa” -> ETag: “bbbbb”
  • 단순하게 ETag만 보내서 같으면 유지하고, 다르면 다시 받는다.
  • 캐시 제어 로직을 서버에서 완전히 관리하여 클라이언트는 단순히 이 값을 서버에 제공한다. 즉, 클라이언트는 캐시 메커니즘을 몰라도 된다.
    • 예) 서버는 베타 오픈 기간인 3일 동안 파일이 변경되어도 ETag를 동일하게 유지
    • 애플리케이션 배포 주기에 맞추어 ETag 모두 갱신

아래처럼 헤더에 ETag를 추가해서 클라이언트에 보내준다.

ETag: "aaaaaaaa"

그러면 클라이언트는 캐시 저장소에 ETag를 저장한다. 그리고 만료시간이 보내면 클라이언트는 요청을 보낸다.

GET /star.jpg
If-None-Match: "aaaaaaa"

서버는 변함이 없으면 304 Not Modified 응답코드를 보낸다. 그럼 클라이언트는 다시 유효시간을 세팅한다.

캐시와 조건부 요청 헤더

  • Cache-Control: 캐시 제어
    • Cache-Control: max-age: 캐시 유효 시간 설정, 초 단위
    • Cache-Control: no-cache: 데이터는 캐시해도 되지만, 항상 원(Origin) 서버에 검증하고 사용
    • Cache-Control: no-store: 데이터에 민감한 정보가 있으므로 저장하면 안됨(메모리에서 사용하고 최대한 빨리 삭제)
  • Pragma: 캐시 제어(하위 호환)
    • Pragma: no-cache
    • HTTP/1.0 이전 버전에 사용
  • Expires: 캐시 유효 기간(하위 호환)
    • expires: Mon, 01 Jan 1990 00:00:00 GMT
    • 캐시 만료일을 정확한 날짜로 지정
    • HTTP 1.0 부터 사용
    • 지금은 더 유연한 Cache-Control: max-age 권장
    • Cache-Control: max-age와 함께 사용하면 Expires는 무시된다.
  • 검증 헤더 (Validators)
    • ETag: “v1.0”, ETag: “asdfas2”
    • Last-Modified: Thu, 04 Jun 2020 07:19:24 GMT
  • 조건부 요청 헤더
    • If-Match, If-None-Match: ETag 값 사용
    • If-Modified-Since, If-Unmodified-Since: Last-Modified 값 사용

프록시 캐시

원(Origin)서버가 만약에 미국에 있다면? 인터넷 속도가 엄청 빠르긴 하다만 한국에 있는 것보다는 오래걸리게 될 것이다. 그렇게 해서 도입된게 프록시 캐시 서버이다. CDN서비스라 해서 자국 내에 원 서버와 같은 캐시 서버를 놓아 한국 서버를 이용하게 되게끔 한다. 프록시 캐시 서버에 있는 캐시를 public 캐시라 하고 내 브라우저에 저장되는 캐시는 private 캐시라 지칭한다.

캐시 지시어(directives)

  • Cache-Control: public - 응답이 public 캐시에 저장되어도 됨
  • Cache-Control: private - 응답이 해당 사용자만을 위한 것임, private 캐시에 저장해야 함(기본값)
  • Cache-Control: s-maxage - 프록시 캐시에만 적용되는 max-age
  • Age: 60 (HTTP 헤더) - 오리진 서버에서 응답 후 프록시 캐시 내에 머문 시간(초)

캐시 무효화

Cache-Control에 확실한 캐시 무효화를 하는 응답이 있다. 간혹 들어 브라우저가 임의로 캐싱을 하는 경우가 있는데 이를 막을 필요가 있다.

  • Cache-Control: no-cache, no-store, must-revalidate
  • Pragma: no-cache (HTTP 1.0 하위 호환)

캐시 지시어(directives) - 확실한 캐시 무효화

  • Cache-Control: no-cache
    • 데이터는 캐시해도 되지만, 항상 원 서버에 검증하고 사용(이름에 주의)
  • Cache-Control: no-store
    • 데이터에 민감한 정보가 있으므로 저장하면 안됨(메모리에서 사용하고 최대한 빨리 삭제)
  • Cache-Control: must-revalidate
    • 캐시 만료후 최초 조회시 원 서버에 검증해야함
    • 원 서버 접근 실패시 반드시 오류가 발생해야함 - 504(Gateway Timeout)
    • must-revalidate는 캐시 유효 시간이라면 캐시를 사용함
  • Pragma: no-cache
    • HTTP 1.0 하위 호환