天天看点

深入Jetty源码之HTTP协议

在计算机网络中,如果两台机器要通信,他们首先要定义通信数据的格式,这样在服务器收到客户端的请求消息时,它才能正确的解析请求的内容,然后根据请求内容处理逻辑,并将相应消息传递会客户端;此时,客户端也要根据已定义的响应数据格式解析响应消息。在浏览器和http服务器之间的通信数据格式使用http协议定义。

其中请求消息的格式为:

深入Jetty源码之HTTP协议

例子:

请求消息由三部分组成:请求行、消息报头、请求正文。

请求行格式为:请求方法、空格、url、版本号、回车、换行。请求方法集:get、post、head、put、delete、trace、connect、options。url中'?'之后的值用于表达请求参数。版本号可以是:http/1.0、http/1.1。

消息报头格式为:报头名字、冒号(':')、空格、报头值、回车、换行。消息报头用于传递元数据信息,用于表达消息正文的类型、编码格式、缓存等,以回车换行结束。当遇到一个空行(只有回车换行),表示消息报头结束。

消息正文,可以是任意定义的格式,它接在消息报头后(空行之后)。

请求消息是否包含消息体由content-length或transfer-encoding决定,如果规范定义的请求方法不允许包含消息体,则在请求消息中不可以包含消息体。server在解析时,如果请求方法不支持消息体,则在请求消息中包含的消息体会被忽略。

请求方法:

http1.1定义的请求方法有

options:

请求查询服务器的性能,或查询与资源相关的选项和需求。

该方法的response不可缓存。当前版本http不支持该请求方法包含消息实体。如果该请求包含请求消息体,http服务器将会抛弃这些信息。如果request-uri为*,该请求类似“ping”或“no-op”操作。

get:

请求获取request-uri所标识的资源。

响应消息可缓存。在get请求消息中,如果包含if-modified-since、if-unmodified-since、if-match、if-none-match、if-range字段,则该请求称为“条件get”。

head:

请求获取由request-uri所标识的资源的响应消息报头。

响应消息可缓存。

post:

在request-uri所标识的资源后附加新的数据。

如果在http服务器中有创建新的资源,则该方法的响应状态码必须是201(created),并且响应消息实体包含描述请求的状态,以及一个location响应消息头。该方法的响应消息不可被缓存。

put:

请求服务器存储一个资源,并用request-uri作为其标识。

如果request-uri指向一个已存在的资源,那么包含的消息实体被视为已存在资源的新版本,如果request-uri没有对应的资源,则http服务器可以通过该uri创建相应资源,此时http服务器响应201(created)状态码。如果修改了已存在的资源,则返回200(ok)或204(no content)。http服务器不可以忽略content-*消息头(如content-range),如果http服务器不能理解该消息头,则返回501(not implemented)响应消息码。

delete:

请求服务器删除request-uri所标识的资源。

即使该方法的返回状态码表明该操作以执行成功,客户端还是不能保证该方法需要删除的操作已经被执行了。但是http服务器必须保证在返回响应给客户端的时候,http服务器已经打算删除这个资源或把它移动到一个不可访问的位置。成功的响应码为200(ok),并且响应消息实体中可以包含一些描述信息;202(accept)表明这个操作还没被完全执行;204(no content)表示这个操作已经执行完成,但是没有响应消息实体。该方法的响应消息不可被缓存。

trace:

请求服务器会送收到的请求信息,主要用于测试或诊断。

该方法以200返回标识成功。该请求消息不可包含请求消息实体。该方法的response必须在响应消息实体中包含所有的请求消息,其相应消息的content-type值为:message/http,该response不可被缓存。

connect:

保留将来使用。

扩展的方法:

用户自定义扩展方法。

如果server能识别某个请求方法但是不允许该请求方法,则应该返回405(method not allowed)响应状态。如果server无法识别某个请求方法或者当前server没有实现这个请求方法,则应该返回501(not implemented)状态码。

request-uri支持的值有:*|absoluteuri|abs_path|authority

*表示请求不应用于某个特定的资源,并且只对于某些不需要应用于特定资源的请求方法,如:options * http/1.1

absoluteuri:当客户端是向一个代理发送请求时需要使用absoluteuri,然后这个代理会转发这个请求,并返回响应。虽然按规范,http1.1客户端只发送absoluteuri到代理服务器,但是为了在将来的http版本中可以允许请求都转换成absoluteuri,所有http1.1 server必须可以解析absoluteuri风格的请求:get http://www.w3.org/pub/www/theproject.html http/1.1

authority只在connect请求方法中使用。

abs_path:用于表示server的资源,而server本身的信息在host消息头中表示:

get /put/www/theproject.html http/1.1

host: www.w3.org

resource identification rules:

如果request-uri是absoluteuri,并且这个absolute的host和server的host相同,则忽略host头。

如果request-uri不是absoluteuri,并且请求消息包含host头,host由host消息头决定。

如果1或2中的host不是一个合法的host,则返回400(bad request)响应消息。

响应消息的格式定义为:

深入Jetty源码之HTTP协议

响应消息也有三部分组成:状态行、消息报头、响应正文。

状态行格式:版本号、空格、状态、空格、状态短语、回车、换行。版本号可以是:http/1.0、http/1.1。状态号和状态短语由http协议定义,状态号有5中取值可能:

1xx:指示信息--表示请求已经接收,继续处理。

2xx:成功--表示请求已经被成功接收、理解、处理。

3xx:重定向--要完成请求,必须进行更进一步操作。

4xx:客户端错误--请求有语法错误或请求无法实现。

5xx:服务器端错误--服务器未能实现合法的请求。

常见的状态号和状态短语有:

200 ok --请求成功。

304 not modified --资源没有改变。

400 bad request --客户端请求有语法错误,不能被服务器理解。

401 unauthorized --请求未经授权(和www-authenticate报头一起使用)。

403 forbidden --服务器收到请求,但是拒绝提供服务。

404 not found --请求资源不存在。

500 internal server error --服务器发生不可预期的错误。

503 server unavailable --服务器当前不能处理客户端的请求,一段时间后可能恢复正常。

响应报头和请求报头格式一样:报头名、冒号(':')、空格、报头值、回车、换行。用于记录响应消息的元数据,表达响应消息的长度、编码方式、cookiee等信息。遇到一个空行(只有回车换行)表示响应消息报头结束。

响应消息正文紧随响应消息报头(在空行后),它可以是任意的内容,由客户端解析。

在响应消息中是否包含消息体是由请求方法和响应状态码决定,所有对head请求方法的响应消息不能包含任何消息体,即使在响应消息中可能会包含实体消息头,以至于有人会认为这个响应消息包含消息体。所有1xx(informational)、204(no content)、304(not modified)响应消息不能包含消息体。所有其他的响应消息都包含消息体,即使有些时候消息体的长度是0。

协议本身,最终要的在于消息格式,http协议的请求消息和响应消息已经详细说明了,剩下的就是一些具体细节的问题,比如uri的格式、各种消息报头代表的含义、响应状态号对应的含义等。因为时间有限,不做整理,所以只是一些阅读协议的杂记。

uri(uniform resource identifiers),又名:udi(universal document identifiers),是url(uniform resource locators)和urn(unifrom resource names)的组合。从http协议的角度,url只是一个由字符串组成的用于名称、位置等的标识符。在http协议中使用url作为定位符,它的格式为:http://${host}[:${port}][${abs_path}[?${query}]]

date/time格式:因为历史原因,http支持三种日期、时间格式:

sun, 06 nov 1994 08:49:37 gmt     ; rfc 822, updated by rfc 1123

sunday, 06-nov-94 08:49:37 gmt   ; rfc 850, obsolted by rfc 1036

sun nov 6 08:49:37 1994               ; ansi c's asctime() format

其中第一种格式是推荐的网络格式,而且它是固定长度的。http1.1客户端和服务器端需要能接收所有以上三种日期格式,但是只生成第一种日期格式。所有http日期、时间都必须是格林威治时间(gmt,greenwich mean time),在http中,gmt和utc(coordinated universal time)时间相同。

编码集:同mine格式规范定义。在cotent-type头中定义。

内容编码:主要用于对消息实体是否压缩、采用什么压缩算法的表示。在http1.1中使用accept-encoding和content-encoding头中定义,支持的值有:gzip、compress(废弃)、deflate(zlib格式)、identity(默认不压缩,只能用于accept-encoding中,不能用于content-encoding)。这些支持的格式在iana(internet assigned numbers authority)中注册。

传输编码(transfer-coding):用表示可以、需要应用到实体主体以确保通过网络“安全传输”的编码转换。这与内容编码不同,传输编码是消息而非原始实体的属性。所有传输编码值大小写无关,它类似于mine编码中的content-transfer-encoding。可用的值为:chunked,identity,gzip,compress,deflat。http/1.0不支持。

媒体类型:http通过content-type和accept头部域以提供可扩展的数据类型。值格式:

${type}/${subtype};${paramname}=${paramvalue};....

product符号:用于允许通信应用程序通过软件名称和版本号来标识它自己,比如:

user-agent: cern-linemode/2.15 libwww/2.17b3

server: apache/0.84

qvalue:使用[0-1]的值来表达参数的重要性,0表示不可接受,该值的小数部分不可操作三位。

语言标签:用于表达消息实体的自然语言,用accept-language和content-language字段表达。它的值可以是:en、en-us、en-cockney、i-cherokee、x-pig-latin等。

实体标签:用于比较相同请求资源的两个或多个实体的比较。如if-match、if-none-match、if-range等头部域名。

范围标签:http/1.1允许客户端值请求响应实体的某部分(范围)作为响应消息,如range、content-range头部域,他们的单位在http/1.1中只支持byte。

在请求消息和响应消息中都有消息报头,消息报头在http1.1协议中(rfc2616)有三种类型的头:通用头(general header)、请求头(request header)、响应头(response header)、实体头(entity header)。其格式为:header-name: header-value。其中header-name大小写无关,以一个空行(只包含回车和换行)结束。header-value可以以任意数量的lws开头(一般是一个空格)。消息头可以以至少一个sp或ht开头的方式扩展成多行(原文:header fields can be extended over multiple lines by preceding each extra line with at least one sp or ht,感觉理解的有问题....)。相同的header-name可以重复出现。

通用消息头:

cache-control: 

指定缓存指令。如请求相关的指令:no-cache、no-store、max-age、max-stale、min-fresh、no-transform、only-if-cached、cache-extension,响应相关的指令:public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age、s-maxage、cache-extension。

connection:

客户端通过发送包含close值的connection头,表达在这次请求结束后,server可以关闭这个连接,此时server如果选择发送响应后关闭连接,则在响应消息中需要包含值为close的connection头。 

允许发送者指定当前connection的一些选项。http/1.1只定义了close的值,表示响应返回后,当前connection将会被关闭。

date: 

表示消息发送的时间,你的描述格式由rfc822定义。例如mon, 31 dec 2001 04:25:57gmt

pragma: 

用于包含实现相关的指令。如no-cache

trailer: 

表示指定的头在chunked消息的尾部。

transfer-encoding: 

消息在传输时使用的编码。如chunked。

upgrade: 

允许客户端指定它额外支持的传输协议,如果服务器发现更新的传输协议更合适当前请求,则它可以将当前传输协议转换成更新的传输协议。如http/2.0, shttp/1.3, irc/6.9, rta/x11等。

via: 

用于网关或代理服务器,以指示客户端和服务器之间的中间协议和接收者。

warning: 

用于添加一些额外的状态或转换信息。

请求消息头:

请求消息头允许客户端传递一些额外关乎客户端信息给server,这些字段类似在方法调用中的参数。

accept: 

指定当前请求响应可以接受的媒体类型,以逗号间隔。如:“audio/*; q=0.2, audio/basic, text/html, */*”。

accept-charset: 

指定当前请求响应可以接受的字符编码集,以逗号间隔。如“iso-8859-5, unicode-1-1; q=0.8”。

accept-encoding: 

类似accept,定义消息实体的编码方式。如“compress, gzip, *, identity; q=0.5”等。

accept-language: 

类似accept,定义自然语言的限制。如“da, en-gb; q=0.8, en; q=0.7”等。

authorization: 

客户端向服务器传递认证信息。

expect:

客户端发送一个包含100-continue值的expect字段头,以在不发送真正消息实体的情况下测试服务器是否能接收这个消息。此时server响应417(expectation failed)或100(continue),然后客户端决定是否要继续发送请求消息体。

请求消息头,用于指定客户端对服务器端响应行为的需求。如100-continue、102-processing等。

from: 

请求头,指定用户的email地址。

host: 

请求头,指定服务器的主机名和端口。如:www.w3.org:8080

if-match: 

请求头,用于条件请求方法。

if-modified-since: 

请求头,用于条件请求方法:请求变体自从指定的时间内没有发生改变。

if-none-match: 

if-range: 

表示如果实体没有变法,则发送给客户端指定部分的实体。

if-unmodified-since: 

如果实体在指定时间内没有发生变化,则直接发送响应,否则返回412(precondition failed)的响应。

max-forwards: 

请求头,指定最大可以被代理、网关服务器转发的次数。

proxy-authorization: 

请求头,用于客户端包含对代理服务器的认证信息。

range: 

指示范围,如bytes=0-499

referer: 

请求头,允许客户端指定当前uri是从哪个uri中获得的。

te: 

请求头,用于指示在响应中希望接收的扩展传输编码。如deflate、trailers, deflate;q=0.5等。

user-agent: 

请求头,用于添加客户端软件信息。

响应消息头

响应消息头允许server传递一些关于响应的额外信息给客户端。

accept-ranges: 

响应头,允许服务器指定它可接受的请求范围。如“bytes”、“none”等。

age: 

响应头,当代理服务器用自己缓存的实体去响应请求时,该头部表示该实体从产生到现在经过多少时间了。该数值的代为秒。

etag: 

响应消息头,用于指定请求变体中的实体标签的当前值。如xyzzy,w/xyzzy等。

location: 

响应头,用于指示接收方重定向。

proxy-authenticate: 

响应头,在407(proxy authenticate required)响应中,它包含代理服务器需要的验证模式和参数。

retry-after: 

响应头,通503(service unavailable)响应一起使用,用于指定服务器预计不可用时间;或者3xx,用于指定客户端在重定向之前等待的时间。

server: 

响应头,用于添加服务器软件信息。

vary:

用于指示用于决定当响应是最新时,是否cache可以用于接下来的响应并且不用验证的请求字段集合。

www-authenticate: 

响应头,用于401(unauthorized)响应消息中,用于指定服务器需要的认证模式和参数。

实体消息头

实体消息头属于实体的一部分,是实体的元数据。

allow: 

实体头,列出所有对当前request-uri指定资源支持的方法。

content-encoding: 

实体头,用于指定实体内容的编码方式。如gzip、identity等。

content-language: 

实体头,用于定义实体内容的自然语言。如da、en、mi等。

content-length: 

实体头,用于指定实体内容的长度。

content-location: 

实体头,用于指定资源所在的uri。

content-md5: 

实体头,用于表示实体内容的数字摘要。

content-range: 

实体头,用于指定实体内容的范围。如bytes 0-499/1234(即单位 范围/总长度)。

content-type: 

实体头,用于指定实体内容的媒体类型。如text/html; charset=iso-8859-4等。

expires: 

实体头,用于响应在多少时间后在cache中失效。

last-modified: 

实体头,用于指定服务器认为当前变体的修改时间。

1xx: informational - request received, continuing process

这是一个临时性的响应,在http/1.0协议中不存在,因而不可以向http/1.0的客户端发送该状态码响应。客户端必须在获得正常响应之前能接收一个或多个1xx响应,即使它并没有预计会收到1xx响应。该响应码只有状态行和可选的响应消息头,没有响应消息实体。

100 - continue

客户端应该继续它的请求,这个暂时的响应用于通知客户端初始的请求已经被服务器接受,并且暂时没有被拒绝。此时客户端会继续发送剩余的请求,或者当所有请求已经发送完成时忽略该响应码。服务器必须在请求结束时发送一个最终的响应。

101 - switching protocols

服务器理解并打算执行客户端的请求,并且使用“upgrade”字段头用户表示服务器会在这个连接中的协议升级到“upgrade”头标识的版本号。

2xx: success - the action was successfully received, understood, and accepted

这个系列的响应状态码表示客户端的请求已经成功的接收并处理。

200 - ok

请求成功处理。

201 - created

请求成功处理并且新的资源被创建。新创建的资源可以使用uri标识,并且该uri在响应消息的location头中。服务器在返回201响应时必须保证新的资源已经被创建,如果服务器在返回响应时还没来得及创建新的资源,服务器应该返回202(accepted)响应。

201响应还可以包含“etag”响应头,表示实体标签的当前值。

202 - accepted

请求被接受并处理,但是处理还未完成。这个请求不一定被成功执行,并且也不会在有结果后重新异步发送响应消息。该响应状态主要用于一些类似batch的操作,当客户发送请求以后,不需要继续保持和服务器的连接。返回的消息实体需要包含请求当前的状态以及一个指向状态监视器或客户能得到结果的估计值。

203 - non-authoritative information

响应消息实体头部返回的元信息不是在原始服务器有效的集合,而是从本地或第三方中拷贝收集。当前的集合可能是原始集合的子集或超集,这个响应码不是必须的,可以使用200(ok)替代。

204 - no content

服务器已经成功的完成请求,该请求没有消息实体,只是返回一些最新的元信息。

205 - reset content

服务器已经成功的完成请求,客户端必须重置由该请求引起的文档视图。该响应主要用于清除用于之前输入的表单。该响应不可以包含消息实体。

206 - partial content

服务器已经成功完成“partial get”的请求。该响应的请求必须包含“range”头,以及可选的“if-range”头。响应必须包含以下头:content-range(或值为multipart/byteranges的content-type头)、date、etag或content-location、expires、cache-control、vary等。

3xx: redirection - further action must be taken in order to complete the request

这个系列的状态码表示为了完成当前请求,客户端必须要有进一步的处理。如果接下来的请求方法是get或者head,客户端可以自行发送接下来的请求,而不需要用于干预。并且客户端应该能检测到死循环以减少网络的堵塞。

300 - multiple choices

当前请求包含多个资源,并且在返回消息中包含每个资源的location信息。客户端可以根据一定的算法自行选择使用那个资源(没有定义算法)。服务器也可以指定一个推荐的选择(在location头中),客户端可能会使用这个值重定向。

301 - moved permanently

请求的资源已经被永久的移动到一个新的uri上。客户端可以自动跳转到新的uri上。新的uri需要在响应消息的location头中包含。

302 - found

请求的资源临时的存在于另一个uri中。因为这个重定向还可能会改变,客户端需要继续使用旧的uri。临时的uri需要包含在响应消息的location头中。

303 - see other

请求的响应可以使用另一个uri中获得,并且必须使用get方法获取另一个uri上的响应。该响应码主要用于将一个post产生的输出重定向到一个新选择的资源上。新的uri需要在location响应头中给出。

304 - not modified

如果客户端发送一个“conditional get”请求,并且该请求是被允许的,但是它所对应的文档没有改变,则服务器返回该响应。该响应不能包含消息体,但必须包含一些消息头:date、etag、content-location、expires、cache-control、vary。

305 - use proxy

请求的资源必须通过proxy使用location响应头中的uri访问。

306 - unused

以前版本使用,现在已经不使用,但是响应码保留。

307 - temporary redirect

请求的资源临时的指向另一个uri,但是由于这个重定向可能会在将来被更改,因而客户端需要继续使用原来的uri。临时的uri在location响应头中指定。

4xx: client error - the request contains bad syntax or connote be fulfilled

这个系列的响应码用于表示客户端错误请求,并且在响应实体消息中需要包含出错原因的解释(对head的响应除外)。

400 - bad request

语法错误,请求不能被服务器理解。

401 - unauthorized

请求需要包含用于认证。响应必须包含www-authenticate头,包含请求认证需要的信息。客户端可以使用包含authorization头重新发送请求。

402 - payment required

为将来使用保留。

403 - forbidden

服务器拒绝该请求。如果服务器希望让客户端知道拒绝的原因,可以将原因放在响应消息体重,如果服务器想暴露该原因,则可以返回404(not found)响应。

404 - not found

服务器没有发现任何匹配的请求uri。如果服务器知道某些资源已经永久的被移出,并且没有重定向地址,则需要返回410(gone)响应。该响应也可以用于服务器不想暴露客户请求被拒绝的原因。

405 - method not allowed

请求方法不被对请求的资源允许。在响应消息中必须包含allow头,指定请求资源允许的请求方法。

406 - not acceptable

请求的资源产生的响应包含了不被accept请求头指定的特性。

407 - proxy authentication required

类似401(unauthorized),表示客户端必须在proxy中通过认证。proxy必须返回proxy-authenticate头,包含请求认证需要的信息。

408 - request time-out

服务器已经准备好并在等待,但是客户端在指定的时间里没有发送请求。

409 - conflict

因为和资源当前状态冲突而导致请求没有完成。该响应码只有在用户知道任何解决这个冲突,并且重新提交请求时产生。

410 - gone

请求的资源已经不在服务器上,并且没有更进一步的重定向地址。

411 - length required

请求消息必须包含content-length消息头。

412 - precondition failed

服务器对一个或多个请求消息头的测试失败。

413 - request entity too large

请求消息太大。如果这个条件是临时的,则服务器需要包含retry-after响应头,表示这个响应时临时的,并在指定的时间以后重试。

414 - request-uri too large

请求的uri太长。

415 - unsupported media type

请求消息格式不被支持。

416 - request range not satisfiable

在请求包含range头,不包含if-range头,并且请求的资源不在range指定的范围中。响应头中需要包含content-range表示指定资源当前的长度。

417 - expectation failed

expect请求头指定的值不能匹配服务器的逻辑。

5xx: server error - the server failed to fulfill an apparently valid request

这个系列的响应码用于表示服务器存在错误,不能完成相应的请求。服务器需要在响应消息体中包含出错的描述信息。

500 - internal server error

服务器内部错误。

501 - not implemented

服务器没有实现当前请求。如没有实现对应的请求方法。

502 - bad gateway

代理或网关服务器从上游服务器中接收到一个不合法的响应。

503 - service unavailable

服务器因为临时负载过重或处于维护状态而不能处理请求。该响应暗示服务器当前的状态是临时的,如果服务器知道什么时候恢复可用状态,则可以包含retry-after响应头,如果没有包含retry-after头,则客户端可以把它视为500(internal server error)来处理。

504 - gateway time-out

代理服务器或网关服务器在指定的时间内没有收到上游服务器的响应。

505 - http version not supported

服务器不支持或拒绝支持请求消息中指定的http版本。

参考:

rfc2616

rfc1867

http://blog.zhaojie.me/2011/03/html-form-file-uploading-programming.html

http://www.cnblogs.com/li0803/archive/2008/11/03/1324746.html

http://www.360doc.com/content/10/0930/17/3668821_57590979.shtml

继续阅读