天天看點

谷歌投資他們,資料挑戰癌症!

谷歌投資他們,資料挑戰癌症!

你以前聽過這樣的故事:一對高才生在一所精英大學裡相識,出于對計算機的熱愛而走到一起,在經過了幾次開到深夜的技術讨論會後,建立了一家網站或是一種應用程式。沒等你聽說,他們的課餘小項目就變成了新創企業,兩位青澀少年從投資者那裡籌集到了大筆資金,入駐了高檔寫字樓,組建了一家讓他們一夜之間至少在賬面上成為百萬富翁的公司。

初看上去,納特·特納(nat turner)和紮克·溫伯格(zach weinberg)就是這樣的人。他們到賓夕法尼亞大學讀大一的第一天即成為密友。現在,這對年輕的二人組—都是28歲—在紐約經營着一家新創企業。可是他們的創業夢想比絕大多數人都要宏大。他們的嶄露頭角的新創企業不是普通的社交網絡、照片共享軟體或是約會網站。他們制作的工具不是給十幾歲和二十幾歲的人用來在手機螢幕上調情或是買宵夜的。

他們在兩年前創辦的公司flatiron health正在追逐一個相當大膽的目标:撼動醫療界。他們針對的,并非是一般的醫療難題。特納和溫伯格希望通過收集和分析海量的臨床資料,打入醫學界最為複雜、最需要研究、也是最艱難的一個領域:癌症治療。不過,這二位在沃頓商學院(wharton school)學的是經濟學和創業學,從來沒有上過一堂像樣的生物課。

不過,在你嘲笑他們之前,先想想這個吧:flatiron不是他們一起創辦的第一家公司,而是第三家。他們嘗試過為大學生開辦一家線上食品購買服務網站,結果失敗了。他們的第二次創業是在讀大三時開辦的invite media,利用大資料技術來提高數字營銷的效力。他們獲得了巨大的成功,大資料教父、全球最大的數字營銷企業谷歌公司(google)在2010年出資超過8,000萬美元,買下了invite。

谷歌投資他們,資料挑戰癌症!

現在,谷歌為特納和溫伯格再次打開了支票薄,通過其風險資本部門谷歌風投公司(google ventures)給flatiron注資超過1億美元。(flatiron總共籌集了1.38億美元。)不隻有谷歌被這兩位年輕的技術人員打動。杜克大學的一位醫學教授、著名的惡性良性腫瘤學家艾米·阿伯内西(amy abernethy)承認,flatiron的目标極難實作。但是,它的收集整理臨床資料的方法嚴密而周全,她深受吸引,在今年7月決定加盟公司,擔任首席醫學官。阿伯内西說:“上了flatiron這條船,我已經把聲譽都搭上了。”她不久前主持過杜克大學癌症研究計劃(duke cancer care research program),曾經介入早期的一些通過收購大量臨床資料以改進癌症治療的“夢幻”項目。

即使沒有背書以及谷歌的投資,這種極端自負的主張也值得關注:一對長着娃娃臉的it技術人員居然将癌症治療推進到迄今為止連科研人員和受過高度教育訓練的醫生都達不到的程度。flatiron的首席執行官特納為人謙遜,卻無所畏懼。“我們在打造一家正好處于癌症空間的科技公司。”他說。(他經常使用“空間”這個詞。)

flatiron的論點如下:目前,僅有一小部分癌症患者的治療資料得到了有系統的采集。這種采集基本上是在臨床試驗中随意為之的,隻覆寫了大約4%的成人癌症患者(不過,相關的估計有差異)。flatiron将餘下大約96%的資訊加以整理,實作标準化,然後将資料提供給醫生。公司認為,這能幫助醫生找出更好的治療方案。

谷歌投資他們,資料挑戰癌症!

理論上,醫生們能夠找出病情類似的患者的最有效療法,或者是評估自己的療效,比如他們可以将自己的乳腺癌治療效果與美國各地其他專家的治療效果做比較,并且快速糾正不足之處。這些資料可以突顯出最為經濟的療法,反之也能展示哪裡浪費了醫療開支。它能給更多的病人比對合适的臨床試驗,有可能加快新藥開發和審批的過程。特納和溫伯格并沒有在鼓吹通過資料來終結癌症困擾的烏托邦式的科技夢想,而是希望能夠帶來有意義的進步。特納表示:“我們所做的一切是在表明,如果我們能從其他行業中借鑒些什麼,那就是資料的價值。有多大價值,現在還不知道。”即使好處不大,也能影響千百萬人。“哪怕隻有影響到各種癌症的5% ……”他說話的聲音漸漸變弱。2014年,美國有約170萬人新确診為癌症,患者整體存活率提高5%,相當于一年就拯救了數萬人的生命。

谷歌投資他們,資料挑戰癌症!

特納的父親是一位地球實體學家,從事石油勘探工作。特納在成長的過程中,曾經在美國的得克薩斯州和路易斯安娜州,荷蘭、蘇格蘭之間來回搬遷。同僚們形容特納是笑面“老精靈”。他的淺棕色頭發已經開始脫落,露出了寬大的額頭,但是他的面相依舊年輕,像個研究所學生。不久前的一個早上,他身穿一件馬球衫,一隻肩膀上挂着雙肩背包,手腕上戴着為各種活動籌集資金的橡膠手镯。坐在從前flatiron位于紐約特裡貝卡區(tribeca)的一間房“總部”(公司後來搬到了更寬敞的辦公空間)對面的一家咖啡店裡,特納一五一十地講述了flatiron公司的計劃。他既沒有成功的系列創業者身上普遍存在的那種張揚,也沒有自認為可以改變世界的創新者身上的專橫之氣。但是他和在曼哈頓上西區(upper west side)長大的溫伯格都有一種堅定的信念:技術可以給癌症患者的生活帶來重大的影響。溫伯格說:“正如你了解到的有關醫療空間和惡性良性腫瘤學的情況,如果有一個團隊不恥下問,願意提出正當的問題,它就有助于解決很多問題。”

特納首次對癌症産生興趣是在2009年。當時,他和親屬在北卡羅來納州度假,7歲的表弟布倫南·西姆金斯(brennan simkins)生病了。經過一連串的化驗,表弟被确診患上了急性骨髓細胞白血病,由此開始了多年的折磨,先是骨髓移植,然後又複發,再移值,再複發。西姆金斯總共經受了四次痛苦的骨髓移值,還被數次誤診。他今年12歲,病情自2011年以來一直處于緩解期。

表弟痛苦求生的經曆促使特納和溫伯格開始動腦筋,為患有類似病症的人們做點什麼。他們讨論了開辦一家新公司的創意,起初考慮通過網際網路提供補充性的專業醫療建議。特納(他的橡膠手镯上刻有西姆金斯的名字)說:“在半年的時間裡,我們把精力都放在了癌症上。”二人造訪了大約60家癌症中心,與專家交談,和醫生巡訪,探讨可能的商業創意。經常與他們同行的,還有克裡施納·耶什萬特(krishna yeshwant),他是一名醫生和谷歌風投公司的合夥人,專業從事生命科學投資。

經過數十次交談,特納和溫伯格形成了一個新的創意:整理分散在美國各地的惡性良性腫瘤治療中心檔案裡的海量臨床資料,無論是數字形式還是其他材質的資料,加以編排彙總,再傳回給醫生,目的是幫助他們更好地決定怎樣治療病人。

對于特納和溫伯格這兩位資料狂人來說,惡性良性腫瘤學臨床資料的問題既明顯又熟悉。盡管多年來,醫學機構一直在努力說服醫生和醫院采用電子病曆(簡稱“emr”),但是惡性良性腫瘤學的資料依舊難于查找和使用。特納說:“emr的資料太不合格。”一位病人的資料可能有幾十個來源:實習醫師、惡性良性腫瘤科醫生、放射科醫生、外科醫生、化驗室和病理報告,等等。即使數字化的資料也存在着技術人員所說的“格式散亂”的問題。資料庫沒有經過規整,展示方式因化驗報告和病曆的不同而存在差異。更糟糕的是,隐藏的報告裡的海量資料有的是手寫的,有的是掃描檔案,有的是從沒有人聽過的錄音,還有的是由傳真機生成的低分辨率pdf文檔,結果造成各種資料系統無法相容,再加上有關個人健康資訊的嚴格隐私規定,令共享數萬種惡性良性腫瘤療法變得難上加難。

坦白地說,挑戰極為巨大。

理論上,電子病曆應該很容易做這樣的資料彙總和整合。但是想想這樣的情況:假設要測量某一種蛋白質的水準,比如癌症病人通常要化驗的白蛋白,來自于某家癌症中心的emr可能會被用30多種格式展示出來。這算是一大挑戰,考慮到癌症治療中采用的蛋白質和遺傳化驗、活組織檢查及其他診斷方法超過100種,整理的難度将成倍增長。再考慮到美國獨立的emr系統和癌症中心的數量,難度又會提高很多倍。想必現在,你已經了解這個問題的複雜性了。

為了解決這一問題,特納和溫伯格花了兩年多的時間建立他們所謂的資料模型,也就是将海量資料清楚地分門别類的方法。他們很快發現,針對所有類型的癌症來做這項工作實在是太複雜了。是以,他們與一群醫生顧問合作,專注于結腸癌。利用公開的臨床資料,他們提取了超過350個類别,包括人口結構、地點、癌症發展期、疾病的生物學辨別以及對療法的回報,等等。然後,他們再對其他類型的癌症重複這一過程。

從emr中提取資料是一項極度勞動密集型的工作,為了将這一過程自動化,flatiron采用了各種計算機技巧,包括給化驗報告确定價值的比對算法。公司還完善了一種叫做“自然語言處理”的技術,讓計算機“閱讀”檔案,并且從中提取資料。這類系統特别容易出錯,是以flatiron創造了一種人機混合感覺系統,鎖定并糾正錯誤。其實就是公司聘請了一個由50名護士組成的團隊,手工錄入500名患者的資料,制作出特納所謂的“教育訓練模闆”,可以用來發現自動收集的資料中的錯誤。相關的差異再被回報回系統中,幫助完善自動收集程式。

flatiron并不是第一家從事這項工作的組織。去年,一家非營利專業機構美國臨床惡性良性腫瘤學協會(american society of clinical oncology)公布了cancerlinq計劃,打算開發一種系統,利用臨床資料庫來改進療效和加快發現新藥的速度。另一家由資深計算機科學家馬蒂·特南鮑姆(marty tenenbaum)管理的非營利機構cancer commons希望進一步推進惡性良性腫瘤學臨床資料的标準化,能夠供所有人免費使用。ibm借助其沃森(watson)人工智能系統,已經在與紀念斯隆-凱特琳醫院(memorial sloankettering)等癌症治療中心合作,篩選數以百萬計的臨床資料資料、期刊文章以及臨床試驗報告,自動向醫生推薦患者的治療方案。

早期的努力—包括美國國家癌症研究所(national cancer institute)的一項耗資5億美元之巨、名叫“cabig”的生物資訊學計劃—不是失敗,就是尚未産生積極的效果。但是,阿伯内西說,flatiron對複雜資料的專注讓她驚歎。她曾經擔任過cancerlinq項目顧問委員會主席,并且參與了其他的臨床惡性良性腫瘤資料的數字化編纂工作。她說,特納和溫伯格顯然明白,“光有技術解決不了這個問題,這是我決定和他們一起努力的原因”。

谷歌風投公司的投資不僅提升了flatiron的信譽,還讓它有本錢收購為惡性良性腫瘤醫學創造emr服務的altos solutions公司。該公司位于加利福尼亞州山景城(mountain view),距離谷歌不遠,收購它讓flatiron擁有了更大的使用者基礎,加強了與醫生的聯系。目前,大約有210家癌症醫療中心使用flatiron的系統,每年共收治大約30萬名新患者。大多數客戶是社群癌症診所,但是也有一些大型學術機構,比如耶魯紐黑文醫院(yale-new haven)的斯米洛癌症診所(smilow cancer hospital)、賓夕法尼亞大學(university of pennsylvania)的艾布拉姆森癌症中心(abramson cancer center)。谷歌表示,給flatiron投資的原因之一,是想讓一個前景光明的領域快點出成果。谷歌風投公司的主管比爾·馬裡斯(bill maris)說:“我們努力不讓電子醫療紀錄還要再過一代人的時間才能得到廣泛應用。我希望,我們能省去人們的很多麻煩和痛苦。”

橫穿美國,前往位于長島(long island)林木蔥茏的郊區傑斐遜港(port jefferson)的一座不起眼的低闆辦公樓,這裡的傑弗裡·瓦奇爾卡(jeffrey vacirca)醫生相信flatiron的願景。瓦奇爾卡說,他已經使用了數年altos的emr系統,幫助他改進了對患者的治療,但是這個系統還有很大的潛力沒有發揮出來。他說:“資料非常多,但是沒有人能整理它,沒人知道其中的含義。我認為,flatiron的重要性就在這裡。它提取所有的詳細資料和數百萬名患者的治療結果,加以評估和歸類,尋找真正有效的方法。”瓦奇爾卡醫生将flatiron系統稱為“癌症治療的基礎設施”。他說,未來有了它,他就能發現,他對特定癌症的治療方法是否在哪些方面已經落後并加以調整,還能确定是否有更多的病人符合臨床試驗的資格。他還說:“如果積累患者的速度增加五倍,想象一下,你能讓多少藥物通過規定的流程?”

該領域的一些領軍人物仍然對大資料的長期抗癌前景表示懷疑。在不久前發表在《細胞》雜志(cell)上的一篇論文中,開創性研究者羅伯特·溫伯格(robert weinberg)指出了大資料和癌症之間不穩定的關系。他與紮克·溫伯格沒有親戚關系,是麻省理工學院懷特黑德生物醫學研究所(mit's whitehead institute for biomedical research)的創始人之一。他強調,從惡性良性腫瘤裡的蛋白質間的互相作用到基因突變,方方面面的資料膨脹已經超過了研究人員的解讀能力。他後來在一次采訪中對《财富》雜志說:“有人對生物資訊學太着迷,以為隻要做一下資料彙總,就可以獲得從前無法得到的高品質的見解。對我來說,這一點并不明顯。”

羅伯特·溫伯格還說,即便可以利用資料來提高某些治療方案的療效,其改進的程度也并非大到足以讓醫生改變他們的療法。他說:“有很多大膽的嘗試和樂觀的聲明。相比于已經付出的努力,實際得到的經驗很少。”

斯坦福大學的一位醫學健康研究和政策教授約翰·約安尼季斯(john ioannidis)給出的評價要高一些,但是也有限。他認為,如果有能力通過一個集中的系統将患者的病曆與療法進行比對,有助于減少小診所與大醫院在癌症治療方法上的巨大差異。但是除了高度受控的臨床試驗,依靠其他資料能否實作重大進步,約安尼季斯心存疑問。他說:“我們能從這個沒有試驗設計的資料大集合中學到多少東西,是個公開的疑問。”

特納和紮克·溫伯格并不期望能迅速打消别人的疑慮。但是他們和很多客戶(flatiron的客戶數量還在不斷增長)都相信,他們的“智能資料”将給癌症患者帶來更佳的治療。阿伯内西說,它首先可以消除社群診所和醫術通常更高的頂級教學醫院之間的差距。與此同時,聯合創始人溫伯格說,flatiron從事的是長期抗癌鬥争:“我們是一家隻有兩年曆史,但有着雄心勃勃的龐大計劃的新創企業。我們已經來了個開門紅,但歸根到底,這是一個需要花數十年才能解決的問題。”

原文釋出時間為:2014-10-30

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀