1. 前言

百度從 14 年開始對外開放了 https 的通路,并于 3 月初正式對全網使用者進行了 https 跳轉。
很多使用者看到這個新聞都比較好奇,在新聞站點,微網誌,微信和貼吧,知乎等站點進行了熱烈的讨論,這裡我們也從一個普通使用者容易了解的角度來看看大家的問題。
2 https 是什麼?我有沒有用到 https?
https 是 http over ssl(Secure Socket Layer),簡單講就是 http 的安全版本,在 http 的基礎上通過傳輸加密和身份認證保證了傳輸過程中的安全性。你通常通路的網站大部分都是 http 的,最簡單的方法可以看看網址是以 http:// 開頭還是 https:// 開頭。
以下幾個截圖就是 chrome,firefox,IE10 在使用 https 時的效果。
注意圖中綠色的部分 , 我們後面詳細說說。
想進一步了解 HTTPS,可以閱讀《大型網站的 HTTPS 實踐(一)– HTTPS 協定和原理》
3 https 為什麼比 http 安全 ?https 加密 是不是需要我在電腦上安裝證書 / 儲存密碼 ?
http 不安全,主要是因為它傳輸的是明文内容 , 也不對傳輸雙方進行身份驗證。隻要在資料傳輸路徑的任何一個環節上,都能看到傳輸的内容,甚至對其進行修改。例如一篇文章”攻下隔壁女生路由器後 , 我都做了些什麼” 中,很多攻擊的環節,都是通過分析 http 的内容來進行。而在現實生活中呢,你很有可能洩露你的論壇進階會員賬号 / 密碼,遊戲 vip 賬号 / 密碼,隐私的聊天内容,郵件,線上購物資訊,等等。
https 之是以安全,是因為他利用 ssl/tls 協定傳輸。舉個簡單的例子,電影風語者中,美軍發現密碼經常被日本竊聽和破解,就征召了 29 名印第安納瓦霍族人作為譯電員,因為這語言隻有他們族人懂。即使日本人竊聽了電文,但是看不懂内容也沒用;想僞造指令也無從下手,修改一些内容的話,印第安人看了,肯定會說看(shen)不(me)懂(gui)。看到這裡,你肯定發現了,這是基于兩邊都有懂這個語言(加密解密規則)的人才行啊,那麼我的電腦上需要安裝什麼密鑰或者證書嗎?一般情況作為普通使用者是不用考慮這些的,我們有作業系統,浏覽器,數學家,安全和網絡工程師等等 , 幫你都做好了 , 放心的打開浏覽器用就好啦。
如果你實在好奇,想知道雙方不用相同的密鑰如何進行加密的,可以搜尋下” 公鑰加密”(非對稱加密),”RSA”,” DH 密鑰交換”, “ssl 原理” “數字證書” 等關鍵詞。
有朋友會想了,不就是加密嗎,我 wifi 密碼都能破,找個工具分分鐘就破解了。這個想法可不對 , 雖然沒有絕對的安全,但是可以極大增加破解所需要的成本,https 目前使用的加密方式是需要巨大的計算量(按照目前計算機的計算能力)才可能破解的,你會用世界上最強的超級計算機花費 100 年(隻是一個比喻)去解密,看看 100 年前隔壁老王在百度上搜什麼嗎。
4 百度為什麼要上 https?
我們每天會處理使用者投訴,比如說:
- 頁面出現白頁 / 出現某些奇怪的東西
- 傳回了 403 的頁面
- 搜尋不了東西
- 搜尋 url 帶了小尾巴 , 頁面總要閃幾次
- 頁面彈窗廣告
- 搜尋個汽車就有人給我打電話推銷 4s 店和保險什麼的
- …
各種千奇百怪的情況 , 查來查去,很大一部分原因是有些壞人在資料的傳輸過程中修改百度的頁面内容,竊聽使用者的搜尋内容。悄悄告訴你,https 就是能解決這樣問題的技術哦 , 趕緊把浏覽器首頁改成 https://www.baidu.com 吧。
從方向上來說,HTTPS 也是未來的趨勢,目前大家使用的 HTTP 還是 1.1/1.0 版本的,新的 HTTP2.0 版本的标準已經釋出了。标準中涉及了加密的規範,雖然标準中沒有強制使用,但是已經有很多浏覽器實作聲稱他們隻會支援基于加密連接配接的 HTTP2.0(https://http2.github.io/faq/#does-http2-require-encryption)。
5 https 不就是在 http 後面加個 s,很難麼?
難,又不難。
它包含證書,解除安裝,流量轉發,負載均衡,頁面适配,浏覽器适配,refer 傳遞等等等等。反正我指頭肯定不夠數。
對于一個超小型個人站點來說,技術宅 1 天就能搞定從申請證書到改造完成。如果是從零開始建設,會更容易。
但是對于百度搜尋這種大胖紙來說,可就難了。
- 它一開始并不是為 https 設計的
- 内容豐富(内容本身的表現形式很多:圖檔,視訊,flash,form 等等),種類豐富 (頁面上除了自然結果,有視訊,圖檔,地圖,貼吧,百科 , 第三方的内容 , app 等等)。
- 資料來源複雜,有幾十個内部産品線的内容,幾百個域名,成千上萬個開發者的内容
- 百度在全國,甚至世界範圍都有很多 idc 和 cdn 節點,都得覆寫到。
- 還不能是以拖慢了百度的速度 (國内使用 https 的銀行 , 線上交易的站點,有沒有覺得很慢?)
-
上 https 本來就是為了更好的體驗,可不能導緻大家使用不穩定。
想了解更詳細的内容,可以閱讀《大型網站的 HTTPS 實踐(四)– 協定層以外的實踐 [1]》
Google 部署 https 花費了 1-2 年,13 年将證書從 1024 位更新到 2048 位花了 3 個月。百度也是去年就開放了入口和小流量,但是今年 3 月才進行全量上線,可以想像整體的複雜性。
6 如何看待百度搜尋支援全站 https?
國外的幾個大型站點都 https 化了,這是未來網際網路的趨勢 (有興趣的同學可以搜尋下’http/2’ )。
對百度自身來說,https 能夠保護使用者體驗,減少劫持 / 隐私洩露對使用者的傷害。
很多人會有疑惑,我沒有被劫持,百度上 https 有什麼作用,反而讓我變慢了一些。從我們的第一手資料可以看到,劫持的影響正越來越大,在法制不健全的環境下,它被當成一個産業,很多公司以它為生,不少以此創業的團隊還拿到了風投。等它真正傷害到你的時候,你可能又會問我們為什麼不做些什麼。是以,我們甯願早一些去面對它。
https 在國内的大型站點目前還隻用在部分賬戶的登陸和支付等環節。百度也是國内第一個全站 https 的大型站點,它的使用者非常多,流量也很大。百度能夠上線 https 會打消大家的疑慮,對其他國内的站點是很好的示範,這個帶頭作用會顯著加速國内網際網路 https 的程序,有助于中國網際網路的網絡安全建設。百度作為搜尋引擎,是流量的入口和分發的管道,後續如果對 https 的站點内容的抓取,标記,權值傾斜,那麼更能引導網際網路的網站向 https 進行遷移。
7 https 慢不慢 ?
如果什麼優化都不做,https 會明顯慢很多。在百度已經進行過很多速度優化的條件下,如果站點本身已經做過正常優化,但是不針對 https 做優化,這種情況下我們實測的結果是 0.2-0.4 秒耗時的增加。如果是沒有優化過的站點,慢 1 秒都不是夢。至于現在慢不慢呢,大家已經體驗了這麼多天了,有感覺嗎?
答案:A 慢死了,你們在做啥 ? B 有些慢啊 C 還行 , 基本無感 D 啥 , 我已經用了 https 了?
是不是選的 C 或者 D?喂喂,選 A 的那位 你打開别的網站慢麼 , 以前沒有上 HTTPS 的時候慢麼。。。隔壁老王在蹭你網呢。
是以,不是慢,是沒有優化。
8 https 耗性能嗎 ?
答案是,握手的時候耗,建好連接配接之後就不太耗了。按照目前加密強度的計算開銷,伺服器支撐握手性能會下降 6-8 倍,但是如果建立好連接配接之後,伺服器就幾乎可能撐住打滿網卡的 https 流量了。是以連接配接複用率的提升和計算性能的優化都是重點。可以閱讀《大型網站的 HTTPS 實踐(三)– 基于協定和配置的優化》
9 劫持有些什麼樣的途經 ?
你的電腦,你設定的 dns,你的浏覽器,你用的網絡,都有可能被劫持。
簡單和大家介紹下營運商的内容劫持是如何進行的,營運商會分析你的網絡請求,它可以先于網站回包,也能修改資料包的内容。是以它可以讓你跳轉一次,在網址上加上小尾巴,也能在你通路的頁面彈出小廣告。
感興趣的話,還可以通過這篇文章看看你的電腦如何被 lsp 劫持的《暗雲木馬》
10 https 解決了所有劫持問題嗎?
俗話說有終有始,我們來說一說文章開始說的浏覽器上的綠色标記。它标志着這個安全連接配接可信賴的級别。綠色通常是好的,黃色則是說明有些不安全,例如在 https 的頁面中加載了 http 的資源,這樣 http 的資源還是有被劫持的風險。
其實用戶端,區域網路的風險也很大,惡意插件,木馬可以做很多事情,你使用的路由器,DNS 也比較脆弱。如果某個大型網站被标記為了紅色,那你就更要小心了 (當然也可能是某個猴子忘記了續費替換證書,導緻證書過期了),你有可能遭受了 ssl 劫持 (中間人攻擊的一種),特别是遇到如下圖提示的時候(通路一些自己簽名的站點也會有類似的提示)。中間人攻擊還有其他種類的,比如代理你的通信讓你退化 http, 還可以利用注入根證書,可以讓你浏覽器還是綠色的标記,就問你怕不怕?
還是那句話,沒有絕對的安全,但是我們可以盡量降低風險。
https 能夠在絕大部分情況下保證網際網路通路資料傳輸的安全,這是目前我們力所能及的工作。