HTTP协议详解

HTTP协议相关详解

--------------------------------------------------------------------------------------------------------------------------------------------

一、

ARPAnet是互联网的前身

1987年钱天白建立起一个网络节点，通过国际长途电话拨号连接国际互联网

1990年钱天白代表中国正式在国际互联网络信息中心的前身DDN-NIC注册等急了我国的顶级域名CN，并且从此开通了使用装过顶级域名CN的国际电子邮件服务

1993年3月租用AT&T公司的64K专线正式开通，这条专线是我国部分连入Internet的第一根专线

1994年实现与互联网的全功能连接，被国际上正式承认为有互联网的国家

1996年开始提供服务

二、

三、跨Ineternet的主机间通讯

1、在建立通信连接的每一端，进程间的传输要有两个标志

2、ip地址和端口号，合称为套接字地址socket address

3、客户机套接字地址定义了一个唯一的客户进程

4、服务器套接字地址定义了一个唯一的服务器进程

5、httpd默认80端口

四、socket套接字

1、Socket：套接字，进程间通信IPC的一种实现，允许位于不同主机（或同一主机）上不同进程之间进行通信和数据交换

2、Socket API：封装了内核中所提供的socket通信相关的系统调用

3、Socket Domain：根据其所使用的地址

AF_INET：Address Family，IPv4

AF_INET6：IPv6

AF_UNIX：同一主机上不同进程之间通信时使用

4、Socket Type：根据使用的传输层协议

SOCK_STREAM：流，tcp套接字，可靠地传递、面向连接

SOCK_DGRAM：数据报，udp套接字，不可靠地传递、无连接

SOCK_RAW: 裸套接字,无须tcp或udp,APP直接通过IP包通信

5、Socket套接字函数

6、套接字相关的系统调用：

socket(): 创建一个套接字

bind()：绑定IP和端口

listen()：监听

accept()：接收请求

connect()：请求连接建立

write()：发送

read()：接收

close(): 关闭连接

五、再次说明端口号

因此某些服务端口号比较小，小于1023时候，普通用户无法直接开启

六、HTTP服务通信过程

1、HTTP服务通信：上网打开一个网页时，当网页打开后将断开，释放服务器资源，这样可以达到更多的网站访问

2、解封装流程

七、HTTP术语

http：Hyper Text Transfer Protocol，超文本传输协议，tcp 80端口

html：Hyper Text Markup Language，超文本标记语言，编程语言

CSS：Cascading Style Sheet，层叠样式表，定义某个标准，可以应用到很多网页上，按照它定义的标准执行

js：javascript，和java没关系

MIME：Multipurpose Internet Mail Extensions，多用途互联网邮件扩展，支持视频图片等多媒体格式，查看文件位置/etc/mime.types

八、HTTP协议

1、http/0.9：1991，原型版本，只有一个命令GET

2、http/1.0：1996年，支持cache，MIME，method，引入了POST命令和HEAD命令

3、http/1.1：1997年，支持持久连接，现在主流

(1)持久连接：TCP连接默认不关闭，可以被多个请求复用，对于同一个域名，大多数浏览器允许同时建立6个持久连接

(2)引入了管道机制（pipelining），即在同一个TCP连接里，客户端可以同时发送多个请求，进一步改进了HTTP协议的效率

(3)同一个TCP连接里，所有的数据通信是按次序进行的。服务器只能顺序处理回应，前面的回应慢，会有许多请求排队，造成"队头堵塞"（Head-of-line blocking）

(4)为避免上述问题，两种方法：一是减少请求数，二是同时多开持久连接。网页优化技巧，如合并脚本和样式表、将图片嵌入CSS代码、域名分片（domain sharding）等

(5)HTTP 协议不带有状态，每次请求都必须附上所有信息。请求的很多字段都是重复的，浪费带宽，影响速度

4、Spdy：2009年，谷歌研发解决http/1.1效率不高的问题

5、http/2.0：2015年

(1)头信息和数据体都是二进制，称为头信息帧和数据帧

(2)复用TCP连接，在一个连接里，客户端和浏览器都可以同时发送多个请求或回应，且不用按顺序一一对应，避免了“队头堵塞“,此双向的实时通信称为多工（Multiplexing）

(3)引入头信息压缩机制（header compression）,头信息使用gzip或compress压缩后再发送；客户端和服务器同时维护一张头信息表，所有字段都会存入这个表，生成一个索引号，不发送同样字段，只发送索引号，提高速度

(4)HTTP/2 允许服务器未经请求，主动向客户端发送资源，即服务器推送（server push）

九、HTTP工作机制

1、工作机制

http请求：http request

http响应：http request

一次http事务：请求<-->响应

工作在应用层，基于tcp协议

2、Web资源：web resource

一个网页由多个资源构成，打开一个页面，会有多个资源展示出来，但是每个资源都要单独请求。因此，一个“Web 页面”通常并不是单个资源，而是一组资源的集合

(1)静态文件：无需服务端做出额外处理，文件后缀：.html, .txt, .jpg, .js, .css, .mp3, .avi

(2)动态文件：服务端执行程序，返回执行的结果，文件后缀：.php, .jsp ,.asp

3、提高HTTP工作性能

(1)并行连接：通过多条TCP连接发起并发的HTTP请求

(2)持久连接：keep-alive，长连接，重用TCP连接，以消除连接和关闭的时延,以事务个数和时间来决定是否关闭连接，只建立一次TCP连接，一次三次握手和四次挥手，但后续会传很多资源

(3)管道化连接：通过共享TCP连接发起并发的HTTP请求

(4)复用的连接：交替传送请求和响应报文（实验阶段）

十、URI

URI: Uniform Resource Identifier 统一资源标识，分为URL和URN

(1)URN: Uniform Resource Naming，统一资源命名，比如说， P2P下载（类似人人为我，我为人人）使用的磁力链接是URN的一种实现，下载磁力链接生成的种子时候，会搜索网络上其它主机谁有该资源，进行并行下载

(2)URL: Uniform Resorce Locator，统一资源定位符，用于描述某服务器某特定资源位置

(3)两者区别：URN如同一个人的名称，而URL代表一个人的住址。换言之，URN定义某事物的身份，而URL提供查找该事物的方法。URN仅用于命名，而不指定地址

十一、URL

1、scheme：scheme，验证，方案，访问服务器以获取资源时要使用哪种协议

2、user：用户，某些方案访问资源时需要的用户名

3、password：密码，用户对应的密码，中间用：分隔

4、Host：主机，资源宿主服务器的主机名或IP地址

5、port：端口,资源宿主服务器正在监听的端口号，很多方案有默认端口号

6、path：路径,服务器资源的本地名，由一个/将其与前面的URL组件分隔

7、params：参数，指定输入的参数，参数为名/值对，多个参数，用;分隔

8、query：查询，传递参数给程序，如数据库，用？分隔,多个查询用&分隔

9、frag：片段,一小片或一部分资源的名字，此组件在客户端使用，用#分隔

十二、网址访问量

1、IP(独立IP)：即Internet Protocol,指独立IP数。一天内来自相同客户机IP地址只计算一次，记录远程客户机IP地址的计算机访问网站的次数，是衡量网站流量的重要指标

2、PV(访问量)：即Page View, 页面浏览量或点击量，用户每次刷新即被计算一次，PV反映的是浏览某网站的页面数，PV与来访者的数量成正比，PV并不是页面的来访者数量，而是网站被访问的页面数量

3、UV(独立访客)：即Unique Visitor,访问网站的一台电脑为一个访客。一天内相同的客户端只被计算一次。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过来访电脑的cookies实现的。如果更换了IP后但不清除cookies，再访问相同网站，该网站的统计中UV数是不变的

4、网站统计：http://www.alexa.cn/rank/

5、QPS：request per second，每秒请求数

6、PV，QPS，并发连接数换算公式

(1)QPS=PV*页面衍生连接次数/统计时间（86400）

页面衍生连接次数：页面上的图片视频等资源数

(2)并发连接数=QPS*http平均响应时间

7、峰值时间：每天80%的访问集中在20%的时间里，这20%时间为峰值时间，二八法则

8、峰值时间每秒请求数(QPS)=(总PV数*页面衍生连接次数*80%/(每天秒数*20%)

十三、web服务请求处理步骤

1、客户端向服务器发起请求，请求里带有数据报文头部，request httpd header，而请求报文头部里会带有method方法（GET、POST、PUT、HEAD、DELETE等）

HTTP协议详解

2、一次完整的http请求处理过程

(1)建立连接：接收或拒绝连接请求

(2)接收请求：接收客户端请求报文中对某资源的一次请求的过程

Web访问响应模型（Web I/O）

单进程I/O模型：启动一个进程处理用户请求，而且一次只处理一个，多个请求被串行响应

多进程I/O模型：并行启动多个进程,每个进程响应一个连接请求

复用I/O结构：启动一个进程，同时响应N个连接请求

实现方法：多线程模型和事件驱动

多线程模型：一个进程生成N个线程，每线程响应一个连接请求

事件驱动：一个进程处理N个请求

复用的多进程I/O模型：启动M个进程，每个进程响应N个连接请求，同时接收M*N个请求

(3)处理请求：服务器对请求报文进行解析，并获取请求的资源及请求方法等相关信息，根据方法，资源，首部和可选的主体部分对请求进行处理。注：HTTP常用请求方式，Method：GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS

(4)、访问资源：服务器获取请求报文中请求的资源web服务器，即存放了web资源的服务器，负责向请求者提供对方请求的静态资源，或动态运行后生成的资源。注：web服务器资源路径映射方式：docroot、alias、虚拟主机docroot、用户家目录docroot

(5)构建响应报文：一旦Web服务器识别除了资源，就执行请求方法中描述的动作，并返回响应报文。响应报文中包含响应状态码、响应首部，如果生成了响应主体的话，还包括响应主体

1）响应实体：如果事务处理产生了响应主体，就将内容放在响应报文中回送过去。响应报文中通常包括：

描述了响应主体MIME类型的Content-Type首部

描述了响应主体长度的Content-Length

实际报文的主体内容

2）URL重定向：web服务构建的响应并非客户端请求的资源，而是资源另外一个访问路径

3）MIME类型：

Web服务器要负责确定响应主体的MIME类型。多种配置服务器的方法可将MIME类型与资源管理起来

魔法分类：Apache web服务器可以扫描每个资源的内容，并将其与一个已知模式表(被称为魔法文件)进行匹配，以决定每个文件的MIME类型。这样做可能比较慢，但很方便，尤其是文件没有标准扩展名时

显式分类：可以对Web服务器进行配置，使其不考虑文件的扩展名或内容，强制特定文件或目录内容拥有某个MIME类型

类型协商：有些Web服务器经过配置，可以以多种文档格式来存储资源。在这种情况下，可以配置Web服务器，使其可以通过与用户的协商来决定使用哪种格式(及相关的MIME类型)"最好"

(6)发送响应报文

Web服务器通过连接发送数据时也会面临与接收数据一样的问题。服务器可能有很多条到各个客户端的连接，有些是空闲的，有些在向服务器发送数据，还有一些在向客户端回送响应数据。服务器要记录连接的状态，还要特别注意对持久连接的处理。对非持久连接而言，服务器应该在发送了整条报文之后，关闭自己这一端的连接。对持久连接来说，连接可能仍保持打开状态，在这种情况下，服务器要正确地计算Content-Length首部，不然客户端就无法知道响应什么时候结束了

(7)记录日志

最后，当事务结束时，Web服务器会在日志文件中添加一个条目，来描述已执行的事务

十四、http协议

服务器无法持续追踪访问者来源

解决http协议无状态方法

cookie 客户端存放，一个cookie文件4K，里面的东西是键值对（name:value）

胖cookie：把所有信息全放在cookie里

瘦cookie：只放关键的信息，唯一的id信息，根据id信息从服务器端的session中查找

session 服务端存放

十五、HTTP请求报文

十六、HTTP响应报文

十七、报文解释

报文语法格式：

1、request报文

<entity-body>

2、response报文

3、method: 请求方法，标明客户端希望服务器对资源执行的动作

GET、HEAD、POST等

4、version:

HTTP/<major>.<minor>

5、status:

三位数字，如200，301, 302, 404, 502; 标记请求处理过程中发生的情况

6、reason-phrase：

状态码所标记的状态的简要描述

7、headers：

每个请求或响应报文可包含任意个首部；每个首部都有首部名称，后面跟一个冒号，而后跟一个可选空格，接着是一个值

8、entity-body：请求时附加的数据或响应时附加的数据

9、Method 方法：

GET：从服务器获取一个资源

HEAD：只从服务器获取文档的响应首部

POST：向服务器输入数据，通常会再由网关程序继续处理

PUT：将请求的主体部分存储在服务器中，如上传文件

DELETE：请求删除服务器上指定的文档

TRACE：追踪请求到达服务器中间经过的代理服务器

OPTIONS：请求服务器返回对指定资源支持使用的请求方法

10、协议查看或分析的工具：tcpdump, wireshark,tshark

十八、常见状态码

1、状态码分类

1xx：100-101信息提示

2xx：200-206成功

3xx：300-305重定向

4xx：400-415错误类信息，客户端错误

5xx：500-505错误类信息，服务器端错误

2、常用状态码

200：成功，请求数据通过响应报文的entity-body部分发送;OK

301：请求的URL指向的资源已经被删除；但在响应报文中通过首部Location指明了资源现在所处的新位置；Moved Permanently，永久重定向，该域名将被淘汰

302：响应报文Location指明资源临时新位置Moved Temporarily，临时重定向，域名保留

304：客户端发出了条件式请求，但服务器上的资源未曾发生改变，则通过响应此响应状态码通知客户端；Not Modified，利用浏览器自身的缓存进行响应

401：需要输入账号和密码认证方能访问资源；Unauthorized

403：请求被禁止；Forbidden

404：服务器无法找到客户端请求的资源；Not Found

500：服务器内部错误；Internal Server Error

502：代理服务器从后端服务器收到了一条伪响应，如无法连接到网关；Bad Gateway

503：服务不可用，临时服务器维护或过载，服务器无法处理请求

504：网关超时

十九、HTTP首部字段

1、HTTP 首部字段包含的信息最为丰富。首部字段同时存在于请求和响应报文内，并涵盖HTTP 报文相关的内容信息。使用首部字段是为了给客服端和服务器端提供报文主体大小、所使用的语言、认证信息等内容

2、首部字段结构HTTP 首部字段是由首部字段名和字段值构成的，中间用冒号“：”分隔

3、字段值对应单个HTTP 首部字段可以有多个值

4、报文首部中出现了两个或以上具有相同首部字段名的首部字段时，在规范内尚未明确，根据浏览器内部处理逻辑的不同，优先处理的顺序可能不同，结果可能并不一致

二十、HTTP协议首部

1、首部的分类：

(1)通用首部:请求报文和响应报文两方都会使用的首部

(2)请求首部:从客户端向服务器端发送请求报文时使用的首部。补充了请求的附加内容、客户端信息、请求内容相关优先级等信息

(3)响应首部：从服务器端向客户端返回响应报文时使用的首部。补充了响应的附加内容，也会要求客户端附加额外的内容信息

(4)实体首部：针对请求报文和响应报文的实体部分使用的首部。补充了资源内容更新时间等与实体有关的的信息

(5)扩展首部

2、通用首部：

Date: 报文的创建时间

Connection：连接状态，如keep-alive, close

Via：显示报文经过的中间节点（代理，网关）

Cache-Control：控制缓存，如缓存时长

MIME-Version:发送端使用的MIME版本

Warning：错误通知

二十一、http协议

1、请求首部：

Accept：通知服务器自己可接受的媒体类型

Accept-Charset：客户端可接受的字符集

Accept-Encoding：客户端可接受编码格式，如gzip

Accept-Language：客户端可接受的语言

Client-IP: 请求的客户端IP

Host: 请求的服务器名称和端口号

Referer：跳转至当前URI的前一个URL

User-Agent：客户端代理，浏览器版本

2、条件式请求首部：

Expect：允许客户端列出某请求所要求的服务器行为

If-Modified-Since：自从指定的时间之后，请求的资源是否发生过修改

If-Unmodified-Since：与上面相反

If-None-Match：本地缓存中存储的文档的ETag标签是否与服务器文档的Etag不匹配

If-Match：与上面相反

3、安全请求首部：

Authorization：向服务器发送认证信息，如账号和密码

Cookie: 客户端向服务器发送cookie

4、代理请求首部：

Proxy-Authorization: 向代理服务器认证

5、响应首部：

信息性：

Age：从最初创建开始，响应持续时长

Server：服务器程序软件名称和版本

协商首部：某资源有多种表示方法时使用

Accept-Ranges：服务器可接受的请求范围类型

Vary：服务器查看的其它首部列表

安全响应首部：

Set-Cookie：向客户端设置cookie

WWW-Authenticate：来自服务器对客户端的质询列表

6、实体首部：

Allow: 列出对此资源实体可使用的请求方法

Location：告诉客户端真正的实体位于何处

Content-Encoding:对主体执行的编码

Content-Language:理解主体时最适合的语言

Content-Length: 主体的长度

Content-Location: 实体真正所处位置

Content-Type：主体的对象类型，如text

缓存相关：

ETag：实体的扩展标签

Expires：实体的过期时间

Last-Modified：最后一次修改的时间

二十二、APR

APR：apache运行的可移植库，apache基于apr开发，不直接面对操作系统，各系统针对各系统开发各自APR，他们最后开发出来了一个共同的APR的API接口，apache就基于这个APR的API接口之上，apache的其他应用软件也在这个接口上

HTTP协议详解

继续阅读

httpd dead but subsys locked;No space left on device:Couldn't create accept loc

apache (httpd)不支持中文路径问题先卸载yum安装的httpd再用源码安装，重装httpd再安装支持中文的插件遇到问题

搭建httpd服务

windows下配置Apache的vhost初次接触，强烈欢迎拍砖，指出错误

Apache与PHP环境下配置本地虚拟主机

Linux 7 中配置Apache服务，及禁止ip访问，删除apache广告页面。

Apache配置文件中的deny和allow的使用

Apache 配置默认编码

服务器配置——Apache

Apache静态文件访问配置（书封服务器）

apache httpd 配置

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服务

Apache2.4.x 配置文件详解Apache配置需要了解如下：开始讲解：

配置apache支持PHP（win7）