網際網路（WWW）

一、網際網路概述

網際網路 WWW (World Wide Web)是一個大規模的、聯機式的資訊儲藏所。
網際網路用連結的方法能非常友善地從網際網路上的一個站點通路另一個站點，進而主動地按需擷取豐富的資訊。
這種通路方式稱為“連結”。
網際網路提供分布式服務：

1.1超媒體與超文本

網際網路是分布式超媒體(hypermedia)系統，它是超文本(hypertext)系統的擴充。
一個超文本由多個資訊源連結成。利用一個連結可使使用者找到另一個文檔。這些文檔可以位于世界上任何一個接在網際網路上的超文本系統中。超文本是網際網路的基礎。
超媒體與超文本的差別是文檔内容不同。超文本文檔僅包含文本資訊，而超媒體文檔還包含其他表示方式的資訊，如圖形、圖像、聲音、動畫，甚至活動視訊圖像。

1.2.網際網路的工作方式

網際網路以客戶伺服器方式工作。
浏覽器就是在使用者計算機上的網際網路客戶程式。網際網路文檔所駐留的計算機則運作伺服器程式，是以這個計算機也稱為網際網路伺服器。
客戶程式向伺服器程式送出請求，伺服器程式向客戶程式送回客戶所要的網際網路文檔。
在一個客戶程式主視窗上顯示出的網際網路文檔稱為頁面(page)。

1.3.網際網路必須解決的問題

1.怎樣标志分布在整個網際網路上的網際網路文檔？

使用統一資源定位符 URL (Uniform Resource Locator)來标志網際網路上的各種文檔。
使每一個文檔在整個網際網路的範圍内具有唯一的辨別符 URL。

2.用什麼協定實作網際網路上各種超鍊的連結？

在網際網路客戶程式與網際網路伺服器程式之間進行互動所使用的協定，是超文本傳送協定 HTTP (HyperText Transfer Protocol)。
HTTP 是一個應用層協定，它使用 TCP 連接配接進行可靠的傳送，一般使用80端口。

3.怎樣使各種網際網路文檔都能在網際網路上的各種計算機上顯示出來，同時使使用者清楚地知道在什麼地方存在着超鍊？

超文本标記語言 HTML (HyperText Markup Language)使得網際網路頁面的設計者可以很友善地用一個超鍊從本頁面的某處連結到網際網路上的任何一個網際網路頁面，并且能夠在自己的計算機螢幕上将這些頁面顯示出來。

二、統一資源定位符 URL

統一資源定位符 URL 是對可以從網際網路上得到的資源的位置和通路方法的一種簡潔的表示。
URL 給資源的位置提供一種抽象的識别方法，并用這種方法給資源定位。

2.1.URL 的一般形式

由以冒号隔開的兩大部分組成，并且在 URL 中的字元對大寫或小寫沒有要求。
URL 的一般形式是：

2.2.使用 HTTP 的 URL

使用 HTTP 的 URL 的一般形式:

"http"——表示使用HTTP協定；
"：//"——冒号和兩個左斜杠是規定的格式；
"<主機>"——表示主機的域名；
"<端口>"——HTTP的預設端口号是80，通常可省略；
"<路徑>"——表示檔案路徑，若再省略檔案的<路徑>項，則 URL 就指到網際網路上的某個首頁(home page)。

三、超文本傳輸協定HTTP

3.1.HTTP 的操作過程

為了使超文本的連結能夠高效率地完成，需要用 HTTP 協定來傳送一切必須的資訊。
從層次的角度看，HTTP 是面向事務的(transaction-oriented)應用層協定，它是網際網路上能夠可靠地交換檔案（包括文本、聲音、圖像等各種多媒體檔案）的重要基礎。

3.2.HTTP 的封包結構

HTTP 有兩類封包：

請求封包——從客戶向伺服器發送請求封包。
響應封包——從伺服器到客戶的回答。
由于 HTTP 是面向正文的(text-oriented)，是以在封包中的每一個字段都是一些 ASCII 碼串，因而每個字段的長度都是不确定的。

3.3.HTTP 請求封包的結構

封包由三個部分組成，即開始行、首部行和實體主體。在請求封包中，開始行就是請求行。

方法字段——對所請求的對象進行的操作，即一些指令。請求封包的類型是由它所采用的方法決定的；
HTTP 請求封包的一些方法
- OPTION：請求一些選項的資訊；
- GET：請求讀取由 URL所标志的資訊；
- HEAD：請求讀取由 URL所标志的資訊的首部；
- POST：給伺服器添加資訊（例如，注釋）；
- PUT：在指明的 URL下存儲一個文檔；
- DELETE：删除指明的 URL所标志的資源；
- TRACE：用來進行環回測試的請求封包；
- CONNECT：用于代理伺服器；
URL字段——所請求的資源的 URL；
版本字段——表示 HTTP 的版本；

3.4.HTTP 響應封包的結構

響應封包的開始行是狀态行。狀态行包括三項内容，即 HTTP 的版本，狀态碼，以及解釋狀态碼的簡單短語。

狀态碼

狀态碼都由三個數字組成：
- 1xx 表示通知資訊的，如請求收到了或正在進行處理；
- 2xx 表示成功，如接受或知道了；
- 3xx 表示重定向，表示要完成請求還必須采取進一步的行動；
- 4xx 表示客戶的差錯，如請求中有錯誤的文法或不能完成；
- 5xx 表示伺服器的差錯，如伺服器失效無法完成請求；

3.5.超連結的工作過程

使用者點選"連結"後所發生的事件 :

浏覽器分析"文本"超鍊指向頁面的 URL；
浏覽器向 DNS 請求解析 www.123.edu.cn 的 IP 位址；
域名系統 DNS 解析出伺服器的 IP 位址；
浏覽器與伺服器建立 TCP 連接配接
浏覽器發出取檔案指令：

GET /chn/yxsz/index.htm。
伺服器給出響應，把檔案 index.htm 發給浏覽器。
TCP 連接配接釋放。
浏覽器顯示“文本”檔案 index.htm 中的所有文本。

3.6.請求一個網際網路文檔所需的時間

RTT表示資料包（封包）往返時間。

3.7.持續連接配接 (persistent connection)

HTTP/1.1 協定使用持續連接配接。
網際網路伺服器在發送響應後仍然在一段時間内保持這條TCP連接配接，使同一個客戶（浏覽器）和該伺服器可以繼續在這條TCP連接配接上傳送後續的 HTTP 請求封包和響應封包。
這并不局限于傳送同一個頁面上連結的文檔，而是隻要這些文檔都在同一個伺服器上就行。

3.8.持續連接配接的兩種工作方式

非流水線方式：客戶在收到前一個響應後才能發出下一個請求。與非持續連接配接相比節省了建立 TCP 連接配接所需的一個 RTT 時間。但伺服器在發送完一個對象後，其 TCP 連接配接就處于空閑狀态，浪費了伺服器資源。
流水線方式：客戶在收到 HTTP 的響應封包之前就能夠接着發送新的請求封包。一個接一個的請求封包到達伺服器後，伺服器就可連續發回響應封包。使用流水線方式時，客戶通路所有的對象隻需花費一個 RTT時間，使 TCP 連接配接中的空閑時間減少，提高了下載下傳文檔效率。

3.9.在伺服器上存放使用者的資訊

網際網路站點使用 Cookie 來跟蹤使用者。
Cookie 表示在 HTTP 伺服器和客戶之間傳遞的狀态資訊。
使用 Cookie 的網站伺服器為使用者産生一個唯一的識别碼。利用此識别碼，網站就能夠跟蹤該使用者在該網站的活動。

四、代理伺服器 (proxy server)

代理伺服器(proxy server)又稱為網際網路高速緩存(Web cache)，它代替浏覽器發出 HTTP 請求；
可以在代理伺服器中設定哪些網段的計算機能通過代理伺服器上網，能通過代理伺服器上什麼網；
網際網路高速緩存把最近的一些請求和響應暫存在本地磁盤中；
當與暫時存放的請求相同的新請求到達時，網際網路高速緩存就把暫存的響應發送出去，而不需要按 URL 的位址再去網際網路通路該資源。

4.1.使用代理伺服器的場合

1.節省内網通路 Internet 的帶寬。

安裝代理伺服器前：

内網的所有計算機上網的流量都通過這條2Mb/s的鍊路，這會造成該鍊路時延過大。

安裝了代理伺服器後：

浏覽器通路網際網路的伺服器時，要先與校園網的代理伺服器建立 TCP 連接配接，并向代理伺服器發出 HTTP 請求封包。

若代理伺服器已經存放了所請求的對象，則将此對象放入 HTTP 響應封包中傳回給浏覽器。

否則，代理伺服器就代表送出請求的使用者浏覽器，與網際網路上的源點伺服器建立 TCP 連接配接，并發送 HTTP 請求封包。

源點伺服器将所請求的對象放在 HTTP 響應封包中傳回給校園網的代理伺服器。

代理伺服器收到此對象後，先複制在其本地存儲器中（為今後使用），然後再将該對象放在 HTTP 響應封包中，通過已建立的 TCP 連接配接，傳回給請求該對象的浏覽器。

2.繞過路由器的防火牆通路外網

路由器設定的防火牆會攔截目标位址或源位址為特定位址的資料包。
路由器隻識别資料包的源位址和目标位址，不關心資料包内容。

如圖所示，在國内的使用者PC1想通路國外的某些網站時，路由器收到PC1的請求後，判斷出目标位址為國外的某網于是路由器的防火牆截斷了該請求，導緻PC1無法成功通路；

如果PC1通過國外的代理伺服器中轉就可以通路外網。PC1發出的請求資料包目标位址為國外某代理伺服器，請求資料包到達路由器時，路由器判斷出資料包的目标位址不是防火牆設定的屏蔽位址，故能夠把資料包傳輸給國外的代理伺服器，代理伺服器再把資料包傳輸給外網的源伺服器；從外網傳回的資料包通過代理伺服器中轉之後到達路由器時源位址變為代理伺服器位址，故能繞開路由器的防火牆，成功到達PC1；由此PC1能夠通路外網。

3.避免IP位址被跟蹤

當我們在網上發表言論時，有時候隐藏個人計算機的IP位址能夠帶來很大便利。通過代理伺服器在網絡上進行活動能夠有效地防止個人計算機地IP位址被跟蹤。

原理為改變資料包地目标位址或源位址，過程與"上2"類似。

五、浏覽器

浏覽器就是在使用者計算機上的網際網路客戶程式，相當于用戶端。

5.1.浏覽器的結構

5.2.浏覽器中的緩存

浏覽器将它取回的每一個頁面副本都放入本地磁盤的緩存中。
當使用者用點選某個超連結時，浏覽器首先檢查磁盤的緩存。若緩存中儲存了超連結的URL指向的檔案，浏覽器就直接從緩存中得到該檔案副本而不必從網絡擷取，這樣就明顯地改善浏覽器的運作特性。。
但緩存要占用磁盤大量的空間，而浏覽器性能的改善隻有在使用者再次檢視緩存中的頁面時才有幫助。許多浏覽器允許使用者調整緩存政策。

多抽出1分鐘來學習，讓你的生命更加精彩！

網際網路（WWW）