1. PlentyOfFish 網站架構學習
<a href="http://www.dbanotes.net/arch/plentyoffish_arch.html" target="_blank">http://www.dbanotes.net/arch/plentyoffish_arch.html</a>
采取
Windows 技術路線的 Web 2.0 站點并不多,除了 MySpace ,另外就是這個 PlentyOfFish。這個站點提供 “Online
Dating” 服務。一個令人津津樂道的、驚人的資料是這個隻有一個人(建立人Markus Frind)的站點價值 10 億,估計要讓很多人眼熱,更何況
Markus Frind 每天隻用兩個小時打理網站–可操作性很強嘛。
2. 從LiveJournal背景發展看
大型網站系統架構以及性能優化方法
<a href="http://www.example.net.cn/archives/2006/03/olivejournaloio.html" target="_blank">http://www.example.net.cn/archives/2006/03/olivejournaloio.html</a>
LiveJournal是99年始于校園中的項目,幾個人出于愛好做了這樣一個應用,以實作以下功能:
*
部落格,論壇
* 社會性網絡,找到朋友
聚合,把朋友的文章聚合在一起
LiveJournal采用了大量的開源軟體,甚至它本身也是一個開源軟體。
在上線後,LiveJournal實作了非常快速的增長:
2004年4月份:280萬注冊使用者。
* 2005年4月份:680萬注冊使用者。
* 2005年8月份:790萬注冊使用者。
達到了每秒鐘上千次的頁面請求及處理。
* 使用了大量MySQL伺服器。
* 使用了大量通用元件。
3. YouTube
的架構擴充
<a href="http://www.dbanotes.net/opensource/youtube_web_arch.html" target="_blank">http://www.dbanotes.net/opensource/youtube_web_arch.html</a>
在西雅圖擴充性的技術研讨會上,YouTube
的 Cuong Do 做了關于 YouTube Scalability 的報告。視訊内容在 Google Video
上有(位址),可惜國内使用者看不到。
Kyle Cordes 對這個視訊中的内容做了介紹。裡面有不少技術性的内容。值得分享一下。(Kyle Cordes
的介紹是本文的主要來源)
4. WikiPedia 技術架構學習分享
<a href="http://www.dbanotes.net/opensource/wikipedia_arch.html" target="_blank">http://www.dbanotes.net/opensource/wikipedia_arch.html</a>
維基百科(WikiPedia.org)位列世界十大網站,目前排名第八位。這是開放的力量。
來點直接的資料:
峰值每秒鐘3萬個 HTTP 請求
* 每秒鐘 3Gbit 流量, 近乎375MB
* 350 台 PC 伺服器
5. Tailrank
網站架構
<a href="http://www.dbanotes.net/review/tailrank_arch.html" target="_blank">http://www.dbanotes.net/review/tailrank_arch.html</a>
每天數以千萬計的
Blog 内容中,實時的熱點是什麼? Tailrank 這個 Web 2.0 Startup 緻力于回答這個問題。
專門爆料網站架構的 Todd
Hoff 對 Kevin Burton 進行了采訪。于是我們能了解一下 Tailrank 架構的一些資訊。每小時索引 2400 萬的 Blog 與
Feed,内容處理能力為 160-200Mbps,IO 寫入大約在10-15MBps。每個月要處理 52T 之多的原始資料。Tailrank
所用的爬蟲現在已經成為一個獨立産品:spinn3r。
6. LinkedIn 架構筆記
<a href="http://www.dbanotes.net/arch/linkedin.html" target="_blank">http://www.dbanotes.net/arch/linkedin.html</a>
LinkedIn 雇員有
180 個,在 Web 2.0 公司中算是比較多的,不過人家自從 2006 年就盈利了,這在 Web 2.0 站點中可算少的。使用者超過 1600
萬,現在每月新增 100 萬,50% 會員來自海外(中國使用者不少,也包括我).
7. Yahoo!社群架構
<a href="http://www.dbanotes.net/arch/yahoo_arch.html" target="_blank">http://www.dbanotes.net/arch/yahoo_arch.html</a>
舊金山舉行的
QCon 會議帶給我們很多新鮮的資訊。雖然沒機會參加,但是看看各個網站”曬架構”也是個比較過瘾的事情。請參觀并收藏這個頁面:Architectures
you’ve always wondered about。
8. Craigslist 的資料庫架構
<a href="http://www.dbanotes.net/database/craigslist_database_arch.html" target="_blank">http://www.dbanotes.net/database/craigslist_database_arch.html</a>
Craigslist
絕對是網際網路的一個傳奇公司。根據以前的一則報道:
每月超過 1000 萬人使用該站服務,月浏覽量超過 30
億次,(Craigslist每月新增的文章近 10 億條??)網站的網頁數量在以每年近百倍的速度增長。Craigslist 至今卻隻有 18
名員工(現在可能會多一些了)。
9. Fotolog.com 的技術資訊拾零
<a href="http://www.dbanotes.net/review/fotolog_arch.html" target="_blank">http://www.dbanotes.net/review/fotolog_arch.html</a>
盡管是世界上最大的圖檔服務網站,
Fotolog.com 在國内的名氣并不是很響亮, 每當提到圖檔服務, 很多人第一個會想起 Flickr. 但實際上 Fotolog 也的确是很猛的,
Alexa 上的排名一直在 Flickr 前面, 目前注冊使用者超過 1100 萬. 而前不久也賣了一個好價錢, 9000 萬美金. 算下來的話, 1
個注冊使用者大約 9 美金. Yupoo 的劉平陽可以偷着算算自己的網站如果賣給老外是怎樣一個價格了.
10. Digg 網站架構
<a href="http://www.dbanotes.net/arch/digg_arch_cache_and_shard.html" target="_blank">http://www.dbanotes.net/arch/digg_arch_cache_and_shard.html</a>
Digg
工程師采用 LAMP (Linux, Apache, MySQL and PHP) 模式。這個 Alexa 排名在 100 左右的、自我估價 1.5
億美金的站點目前有超過 100 台的 PC 伺服器(足夠少了),可以粗略分成三個部分:資料庫伺服器,Web 伺服器,搜尋伺服器。
11.
Amazon 的 Dynamo 架構
<a href="http://www.dbanotes.net/techmemo/amazon_dynamo.html" target="_blank">http://www.dbanotes.net/techmemo/amazon_dynamo.html</a>
我在
DBAnotes.net 上記錄過不少比較大的網站架構分析(eg: eBay [1], eBay [2]) ,Amazon
一直找不到太多的資料。國慶期間讀到了一篇關于 Amazon Dynamo 的論文,非常精彩。Amazon Dynamo
這個高可用、可擴充存儲體系支撐了Amazon 不少核心服務.
12. 财幫子(caibangzi.com)網站架構
<a href="http://www.dbanotes.net/arch/caibangzi_web_arch.html" target="_blank">http://www.dbanotes.net/arch/caibangzi_web_arch.html</a>
财幫子(caibangzi.com)
定位在”基金理财社群”。是國内通路量最大的基于 Ruby on rails 的 startup
項目。“理财”這個詞據說是光大銀行發明的,且不去管,不可否認的是,目前國内”理财”是個很有潛力的切入點。财幫子網站潛在使用者群還是很大的。
13.
了解一下 Technorati 的背景資料庫架構
<a href="http://www.dbanotes.net/web/technorati_db_arch.html" target="_blank">http://www.dbanotes.net/web/technorati_db_arch.html</a>
目前處理着大約
10Tb 核心資料, 分布在大約 20 台機器上.通過複制, 多增加了 100Tb 資料, 分布在 200 台機器上. 每天增長的資料 1TB. 通過 SOA
的運用, 實體與邏輯的通路相隔離, 似乎消除了資料庫的瓶頸. 值得一提的是, 該擴充過程始終是利用普通的硬體與開源軟體來完成的. 畢竟 , Web 2.0
站點都不是燒錢的主. 從資料量來看,這絕對是一個相對比較大的 Web 2.0 應用.
14. 說說大型高并發高負載網站的系統架構
<a href="http://www.toplee.com/blog/?p=71" target="_blank">http://www.toplee.com/blog/?p=71</a>
我 在CERNET做過撥号接入平台的搭建,而後在Yahoo&3721從事過搜尋引擎前端開發,又在MOP處理過大型社群貓撲大雜燴的架構更新等工 作,同時自己接觸和開發過不少大中型網站的子產品,是以在大型網站應對高負載和并發的解決方案上有一些積累和經驗,可以和大家一起探讨一下。
15.
大型高負載網站架構 的感想