天天看點

網絡架構師:各大型網站架構分析收集 及大型高負載網站架構的感想

網絡架構師:各大型網站架構分析收集 及大型高負載網站架構的感想

1. PlentyOfFish 網站架構學習

<a href="http://www.dbanotes.net/arch/plentyoffish_arch.html" target="_blank">http://www.dbanotes.net/arch/plentyoffish_arch.html</a>

采取

Windows 技術路線的 Web 2.0 站點并不多,除了 MySpace ,另外就是這個 PlentyOfFish。這個站點提供 “Online

Dating” 服務。一個令人津津樂道的、驚人的資料是這個隻有一個人(建立人Markus Frind)的站點價值 10 億,估計要讓很多人眼熱,更何況

Markus Frind 每天隻用兩個小時打理網站–可操作性很強嘛。

2. 從LiveJournal背景發展看

大型網站系統架構以及性能優化方法

<a href="http://www.example.net.cn/archives/2006/03/olivejournaloio.html" target="_blank">http://www.example.net.cn/archives/2006/03/olivejournaloio.html</a>

LiveJournal是99年始于校園中的項目,幾個人出于愛好做了這樣一個應用,以實作以下功能:

*

部落格,論壇

* 社會性網絡,找到朋友

聚合,把朋友的文章聚合在一起

LiveJournal采用了大量的開源軟體,甚至它本身也是一個開源軟體。

在上線後,LiveJournal實作了非常快速的增長:

2004年4月份:280萬注冊使用者。

* 2005年4月份:680萬注冊使用者。

* 2005年8月份:790萬注冊使用者。

達到了每秒鐘上千次的頁面請求及處理。

* 使用了大量MySQL伺服器。

* 使用了大量通用元件。

3. YouTube

的架構擴充

<a href="http://www.dbanotes.net/opensource/youtube_web_arch.html" target="_blank">http://www.dbanotes.net/opensource/youtube_web_arch.html</a>

在西雅圖擴充性的技術研讨會上,YouTube

的 Cuong Do 做了關于 YouTube Scalability 的報告。視訊内容在 Google Video

上有(位址),可惜國内使用者看不到。

Kyle Cordes 對這個視訊中的内容做了介紹。裡面有不少技術性的内容。值得分享一下。(Kyle Cordes

的介紹是本文的主要來源)

4. WikiPedia 技術架構學習分享

<a href="http://www.dbanotes.net/opensource/wikipedia_arch.html" target="_blank">http://www.dbanotes.net/opensource/wikipedia_arch.html</a>

維基百科(WikiPedia.org)位列世界十大網站,目前排名第八位。這是開放的力量。

來點直接的資料:

峰值每秒鐘3萬個 HTTP 請求

* 每秒鐘 3Gbit 流量, 近乎375MB

* 350 台 PC 伺服器

5. Tailrank

網站架構

<a href="http://www.dbanotes.net/review/tailrank_arch.html" target="_blank">http://www.dbanotes.net/review/tailrank_arch.html</a>

每天數以千萬計的

Blog 内容中,實時的熱點是什麼? Tailrank 這個 Web 2.0 Startup 緻力于回答這個問題。

專門爆料網站架構的 Todd

Hoff 對 Kevin Burton 進行了采訪。于是我們能了解一下 Tailrank 架構的一些資訊。每小時索引 2400 萬的 Blog 與

Feed,内容處理能力為 160-200Mbps,IO 寫入大約在10-15MBps。每個月要處理 52T 之多的原始資料。Tailrank

所用的爬蟲現在已經成為一個獨立産品:spinn3r。

6. LinkedIn 架構筆記

<a href="http://www.dbanotes.net/arch/linkedin.html" target="_blank">http://www.dbanotes.net/arch/linkedin.html</a>

LinkedIn 雇員有

180 個,在 Web 2.0 公司中算是比較多的,不過人家自從 2006 年就盈利了,這在 Web 2.0 站點中可算少的。使用者超過 1600

萬,現在每月新增 100 萬,50% 會員來自海外(中國使用者不少,也包括我).

7. Yahoo!社群架構

<a href="http://www.dbanotes.net/arch/yahoo_arch.html" target="_blank">http://www.dbanotes.net/arch/yahoo_arch.html</a>

舊金山舉行的

QCon 會議帶給我們很多新鮮的資訊。雖然沒機會參加,但是看看各個網站”曬架構”也是個比較過瘾的事情。請參觀并收藏這個頁面:Architectures

you’ve always wondered about。

8. Craigslist 的資料庫架構

<a href="http://www.dbanotes.net/database/craigslist_database_arch.html" target="_blank">http://www.dbanotes.net/database/craigslist_database_arch.html</a>

Craigslist

絕對是網際網路的一個傳奇公司。根據以前的一則報道:

每月超過 1000 萬人使用該站服務,月浏覽量超過 30

億次,(Craigslist每月新增的文章近 10 億條??)網站的網頁數量在以每年近百倍的速度增長。Craigslist 至今卻隻有 18

名員工(現在可能會多一些了)。

9. Fotolog.com 的技術資訊拾零

<a href="http://www.dbanotes.net/review/fotolog_arch.html" target="_blank">http://www.dbanotes.net/review/fotolog_arch.html</a>

盡管是世界上最大的圖檔服務網站,

Fotolog.com 在國内的名氣并不是很響亮, 每當提到圖檔服務, 很多人第一個會想起 Flickr. 但實際上 Fotolog 也的确是很猛的,

Alexa 上的排名一直在 Flickr 前面, 目前注冊使用者超過 1100 萬. 而前不久也賣了一個好價錢, 9000 萬美金. 算下來的話, 1

個注冊使用者大約 9 美金. Yupoo 的劉平陽可以偷着算算自己的網站如果賣給老外是怎樣一個價格了.

10. Digg 網站架構

<a href="http://www.dbanotes.net/arch/digg_arch_cache_and_shard.html" target="_blank">http://www.dbanotes.net/arch/digg_arch_cache_and_shard.html</a>

Digg

工程師采用 LAMP (Linux, Apache, MySQL and PHP) 模式。這個 Alexa 排名在 100 左右的、自我估價 1.5

億美金的站點目前有超過 100 台的 PC 伺服器(足夠少了),可以粗略分成三個部分:資料庫伺服器,Web 伺服器,搜尋伺服器。

11.

Amazon 的 Dynamo 架構

<a href="http://www.dbanotes.net/techmemo/amazon_dynamo.html" target="_blank">http://www.dbanotes.net/techmemo/amazon_dynamo.html</a>

我在

DBAnotes.net 上記錄過不少比較大的網站架構分析(eg: eBay [1], eBay [2]) ,Amazon

一直找不到太多的資料。國慶期間讀到了一篇關于 Amazon Dynamo 的論文,非常精彩。Amazon Dynamo

這個高可用、可擴充存儲體系支撐了Amazon 不少核心服務.

12. 财幫子(caibangzi.com)網站架構

<a href="http://www.dbanotes.net/arch/caibangzi_web_arch.html" target="_blank">http://www.dbanotes.net/arch/caibangzi_web_arch.html</a>

财幫子(caibangzi.com)

定位在”基金理财社群”。是國内通路量最大的基于 Ruby on rails 的 startup

項目。“理财”這個詞據說是光大銀行發明的,且不去管,不可否認的是,目前國内”理财”是個很有潛力的切入點。财幫子網站潛在使用者群還是很大的。

13.

了解一下 Technorati 的背景資料庫架構

<a href="http://www.dbanotes.net/web/technorati_db_arch.html" target="_blank">http://www.dbanotes.net/web/technorati_db_arch.html</a>

目前處理着大約

10Tb 核心資料, 分布在大約 20 台機器上.通過複制, 多增加了 100Tb 資料, 分布在 200 台機器上. 每天增長的資料 1TB. 通過 SOA

的運用, 實體與邏輯的通路相隔離, 似乎消除了資料庫的瓶頸. 值得一提的是, 該擴充過程始終是利用普通的硬體與開源軟體來完成的. 畢竟 , Web 2.0

站點都不是燒錢的主. 從資料量來看,這絕對是一個相對比較大的 Web 2.0 應用.

14. 說說大型高并發高負載網站的系統架構

<a href="http://www.toplee.com/blog/?p=71" target="_blank">http://www.toplee.com/blog/?p=71</a>

我 在CERNET做過撥号接入平台的搭建,而後在Yahoo&amp;3721從事過搜尋引擎前端開發,又在MOP處理過大型社群貓撲大雜燴的架構更新等工 作,同時自己接觸和開發過不少大中型網站的子產品,是以在大型網站應對高負載和并發的解決方案上有一些積累和經驗,可以和大家一起探讨一下。

15.

大型高負載網站架構 的感想