天天看點

36氪專訪 | 亞馬遜雲科技顧凡:雲計算、大資料和人工智能是加速醫療與生命科學行業數字化轉型的重要途徑

作者:36氪

“在1990年,需要十三年才能完成一個人基因測序,現在隻需要一天就能測60個人,而每個人的測序成本降到百萬分之一,而大規模的基因測序,需要調用數萬台虛拟伺服器同時進行。”

“十年間,亞馬遜雲科技服務了全球超過4200個醫療及生命科學行業客戶,包括輝瑞、拜爾、羅氏、默沙東、GE、飛利浦等頭部企業。全球前十大藥企中,九家都在使用亞馬遜雲科技。”

“亞馬遜雲科技通過了全球百項安全合規認證,符合全球50+醫療生命科學合規要求。”

“20 多年來,人工智能和機器學習一直是亞馬遜關注的焦點。亞馬遜雲科技的使命是讓各種技能水準的開發人員和各種規模的組織都有機會使用生成式AI進行創新。”

4月27日,在“2023亞馬遜雲科技醫療與生命科學行業峰會”上,亞馬遜雲科技大中華區戰略業務發展部總經理顧凡在演講中圍繞“資料、算力和體驗”正在加速行業數字化創新,重點介紹了亞馬遜雲科技在全球以及中國醫療與生命科學行業的實踐。

在會後的專訪中,顧凡和亞馬遜雲科技大中華區醫療及生命科學行業總監黃慶春共同接受了36氪等媒體采訪。

對于目前大熱的AI大模型,顧凡認為:“我們既不應該去高估AIGC大模型的力量,但是更重要的是,不能低估AIGC大模型會重塑大量行業客戶的體驗。過去20多年的人工智能和機器學習一直都是亞馬遜關注的焦點,亞馬遜無論是對外的服務,還是對内部的營運,到處都可以看到人工智能和機器學習的身影。在生成式AI方面,我們的使命就是,要讓各種技能水準的開發人員和各種組織都有機會使用生成式AI進行創新。”

亞馬遜雲科技長期關注生物制藥、基因測序和醫療保健領域的客戶需求,發現三大共同挑戰:

  • 資料挑戰:資料量的劇增帶來洞察力挑戰,科學家發現,自然界裡可能成為藥物的分子個數有10的60次方,而太陽系的原子個數才是10的50次方;
  • 算力挑戰:在1990年,需要十三年才能完成一個人基因測序,現在隻需要一天就能測60個人,而每個人的測序成本降到百萬分之一,而大規模的基因測序,需要調用數萬台虛拟伺服器同時進行;
  • 體驗挑戰:醫院用的醫療資訊軟體有近100種,常用的就有約20,醫療機構需要适合行業使用者的解決方案,不需要有專業的計算機背景也可以使用開箱即用的解決方案支援業務。

醫療與生命科學領域的資料挑戰尤為突出,為此,亞馬遜雲科技提供了基因測序領域的資料全生命周期管了解決方案, 該解決方案包括資料上傳、資料分析、資料共享和資料備份及存檔全生命周期。

Amazon S3對象存儲提供高達八層的存儲層級,提供的自動分層功能可以更高效地存儲資料和實作成本節約。同時亞馬遜雲科技還将自動分層功能擴充至Amazon Elastic File System (Amazon EFS)雲原生檔案存儲之中,進一步降低資料管理的難度。

亞馬遜雲科技在2022年re:Invent期間最新推出了Amazon Omics服務,該服務能夠幫助行業使用者更快速地進行基因分析研究,進而加速新藥研發、疾病診斷和治療等領域的進展。

晶泰科技是一家智能化自動化驅動的藥物研發科技公司,首創了智能計算、自動化實驗和專家經驗相結合的藥物研發新模式,利用人工智能、自動化等前沿技術,顯著縮短藥物研發周期,提高藥物研發成功率。目前支撐晶泰科技藥物研發業務的計算排程平台已經建構在亞馬遜雲科技之上,每年可以節省大量的營運成本。

海量資料的計算不斷推高算力需求,亞馬遜雲科技打造了一系列的創新服務,助力客戶打造極緻性能的雲上HPC叢集以加速新藥研發:

  • 針對HPC優化的Amazon EC2計算執行個體;
  • EFA網絡提供具有高達400Gbps的網絡帶寬的節點間通信,以連接配接 AmazonEC2 執行個體網絡;
  • 亞毫秒級的高性能檔案系統 Amazon FSx for Lustre 快速處理大規模海量資料;
  • 叢集排程管理工具Amazon Parallel Cluster可簡化HPC叢集的部署和管理;
  • 雲原生批處理排程器Amazon Batch 支援跨亞馬遜雲科技 計算服務和功能擴充數十萬個計算任務。

在更前沿的科技領域,亞馬遜雲科技建構了完整的量子計算生态系統,包括量子服務Amazon Bracket、量子實驗室以及量子計算中心。可提供了一鍵部署的量子計算/經典計算混合架構,通過Amazon Braket量子計算平台調用量子計算資源進行實驗,為量子計算在藥物發現方面的應用探索新思路。

醫療和生命科學行業的使用者,更加青睐即開即用的解決方案,為此,亞馬遜雲科技專門建構的行業解決方案包括:

  • Amazon Omics,用于存儲、分析和闡述基因組學、轉錄組學和其他組學資料的托管服務;
  • Amazon HealthLake Imaging醫療成像服務,它可以在雲中以PB級規模存儲、通路和分析醫學圖像,降低存儲成本,提供亞秒級圖像檢索和自動化基礎設施管理;
  • Amazon Comprehend Medical,是一項符合 HIPAA 要求的自然語言處理 (NLP) 服務,它使用經過預先訓練的機器學習了解和提取醫學文本中的健康資料,如處方、程式或診斷。

亞馬遜雲科技在大模型與醫療及生命科學結合的探索也已經有序推進,不久前,飛利浦醫療宣布與亞馬遜雲科技合作,将飛利浦醫學影像系統Philips HealthSuite Imaging部署在雲端,并且使用Amazon Bedrock快速開發生成式人工智能應用程式,如醫護人員的語音識别,同時生成專業診斷資訊,降低模型開發成本,而不是從頭建構LLM基礎模型,還能夠確定資料安全和隐私保護。

亞馬遜雲科技還開放了96種生命科學公開資料集,涵蓋生命科學、基因、惡性良性腫瘤以及新冠等重要領域。

以下為36氪等媒體與亞馬遜雲科技大中華區戰略業務發展部總經理顧凡的訪談,内容經摘編:

媒體:亞馬遜雲科技如何幫助垂直領域的客戶将其私有資料在第三方大模型上訓練?

顧凡:客戶的需求在于想用大模型去改進客戶體驗或者項目,而大模型之是以成功,是要抓取非常多資料去反複學習。難點在于,有些第三方大模型是閉源的,使用者隻能送資料,而無法訓練。

Amazon Bedrock對接了亞馬遜自己的大模型,以及一些第三方大模型,從技術上、架構上讓使用者能夠調用大模型與私有資料結合,去訓練自己的模型,其解決的核心問題是行業中最後一公裡的精度。

舉例來說,一個企業有40%-50%的問題可以靠機器人來解決,解決不了的部分需要依靠大模型和大量資料做定制化,Amazon Bedrock要做的事情就是幫助客戶結合大模型來解決業務中的具體問題。

媒體:企業普遍擔心資料安全問題?以及訓練成本是否會很高?

顧凡:亞馬遜雲科技上的賬号對應獨立的VPC,VPC(Virtual Private Cloud)就好像雲上的隔離網絡,在VPC中的資料,隻有自己的ID能夠通路。也就是說在VPC總去調用Amazon Bedrock的API、以及VPC中的資料,去完成聯合訓練,最終定制化模型的API也隻有自己能使用,是以沒有人能夠使用VPC中的資料。

Amazon Bedrock還在試用階段,成本還不是主要問題。這個行業在快速演進疊代,要想走向普适化,就得把成本拉下來。早期我們會計算在ChatGPT API的成本、在Amazon Bedrock API的成本,長線來看AI要普适化,成本是必須要解決的問題。

媒體:目前大模型還要解決哪些方向上的問題?

顧凡:一方面是如何解決客戶的核心訴求,就是定制化資料訓練問題;另一方面,Amazon Bedrock一定是走開放的路線,是以會接入其他的大模型,以不斷優化成本。更重要的是,開源和客戶商業化應用之間的距離,需要定制化聯合訓練。有些是易用性問題,可以由雲廠商去解決;還有一些會和底層算力密切相關,不但需要GPU,還要看有沒有能力自研晶片,比如亞馬遜雲科技自研的Trainium和Inferentia晶片追求的就是最極緻成本效益。

媒體:亞馬遜雲科技96種生命科學公開資料集的資料來源、以及資料集的建構過程是什麼樣的?開放過程是公益性質的麼?

黃慶春:The Registry Open Data on Amazon Web Services (RODA)公開資料集是亞馬遜雲科技一個全球項目,與數十家科研機構來合作。資料集由這些科研機構提供的,托管在亞馬遜雲科技,願意為科學家們免費開放使用。

現在亞馬遜雲科技把這個資料集與内部很多資料分析功能結合,科學家不僅可以接觸到這些公開資料集,還可以在上面直接利用亞馬遜雲科技的資料分析工具,以及人工智能服務,在公開資料集上進行加工,獲得所需的洞察。

整個公開資料集是不收費的,但是因為公開資料集是由各個不同的科研機構提供,是以有不同的授權機制,有些個人機構不允許作為商用。因為不同的資料集屬于不同的擁有方,登入的時候要點選一些同意或不同意的條款,之後就可以免費使用。

媒體:在醫療健康領域如何保證資料在深度學習之後的資料安全性?如何避免造成誤判、誤診的情況?

顧凡:生成式AI在醫療和生命科學行業中還在探讨階段,我們既不應該高估它,也不應該低估它。低估可能競争對手會先蹚出一條路,但高估它盲目地蹭熱點是沒有任何意義的,因為它的應用場景無論是為患者,還是為降本增效,必須能達到目的才有生命力。

大模型和生成式AI最終的目的是普惠,讓使用者不必去探讨AIGC工具,而投入更多精力去探讨場景。包括我們分享的飛利浦案例,都還在一個探讨階段,但是探讨階段的核心在于要麼能夠提供客戶體驗,要麼能夠降本增效。

資料安全中很重要的首先是要保護好客戶的資料,其中包含了大量患者資訊。是以一方面基礎層要合規,在合規的基礎上,AIGC要解決剛才探讨的沖突:又想用大模型,但是又需要保護自己的私有資料,同時還想用自己的私有資料訓練定制化模型,這就要靠雲的技術去解決。

黃慶春:亞馬遜雲科技在全球遵守超過50種專門針對醫療行業的合規要求,像美國的HIPAA等,這是一個底線,先要符合行業的安全合規,再去拓展相關應用。

現在的探索我們稱之為輔助階段,現在有很多試點在做,比如新藥研發階段,我們用大模型去閱讀海量文獻和過去的實驗,給未來要做的實驗提出指導性意見。但是最後是否采取這個實驗方法,還是由化學家、藥學家做決定。在醫學上,我們會閱讀大量電子病曆或其他資料,去看病人整個疾病的發展周期,但是最後也是給出建議,由主治醫生決定診療方式是否适用。現階段AI不是替換醫生,而是培養懂AI的醫生。

顧凡:其他行業也有同樣的問題,有人會擔心AI會不會替代很多人,實際上要看這些人會不會用AI。比如最經典的AIGC應用場景是在客服中心,作為客戶找客服的時候,通常還是希望真人來處理問題。

媒體:新藥的研發往往需要10年甚至更長時間,雲技術的應用在生命科學行業能解決哪些問題和痛點?

顧凡:一款新藥可能用10年時間,20億美金,才有10%的成功率。國家大力主張國内的新藥研發一定要跟上,而不是仿制藥。顯然策也有,挑戰也有。10%的成功率就意味着,創業風險太高,一定要檢查長期主義。

雲計算作為數字化底座,真正能在這個行業解決的問題幫客戶更快,以及幫客戶獲得高成本效益,以及幫客戶更精準地發現适合的化合物。

是以最重要的三個方向是:高性能計算,AI輔助藥物研發以及量子計算。這三個萬變不離其宗,算力技術的演進疊代中,最初計算機輔助藥物研究,高性能計算用得比較多,當AI出現之後,很多人更多思考,到底AI輔助藥物研發會帶給藥物輔助研發哪些想象空間。

現在,我們的客戶在量子計算方面已經取得了成功,未來可能算法是跨經典計算和量子計算的兩種計算資源,在這種混合結構更有機會破局,讓現在研發的計算速度大幅提升。

算力的發展會幫客戶以雲計算作為數字化底座,讓研究藥物的科學家能夠随時通路、調用資料。讓他們專注于自己的專業領域,而不是花時間去研究IT流程,這就是雲廠商的價值。亞馬遜雲科技把量子計算等最複雜的科技變成API,使藥物研發出現跨躍式的性能提升。

媒體:如何使AI技術人才和現實中研發需求達到比對?在實際的應用中,AI制藥還是在老藥新用方面做得比較多,有沒有可能AI也能設計出一些新藥物?

黃慶春:學醫和學AI互相不太了解确實是市場現狀,這也是為什麼亞馬遜雲科技要做從資料存儲到算力,再到行業解決方案,我們要降低AI使用門檻。門檻降低到讓沒有很強計算機背景的人,可以快速使用AI的成果,實作普适化的AI。亞馬遜雲科技既提供雲原生應用給計算機水準比較高的開發者自己搭建新應用,也提供指導方案給有一定計算機水準的初階開發人員,還會提供端到端、開箱即用的解決方案。亞馬遜雲科技在用不同的解決方案降低AI的門檻。

顧凡:客戶希望自己建構AI輔助藥物研發平台,亞馬遜雲科技可以提供Amazon SageMaker,幫客戶把底層的機器學習、人工智能工作流、基礎資源全部管起來,同時也會把一些常用算法和Amazon SageMaker打包,作為方案指導,讓客戶快速去實驗。

黃慶春:計算機輔助藥物研發90年代就有了,發展到21世紀以後AI越來越強,AI監督學習的時候,是利用曆史資料訓練模型,一些未解的問題,比如老藥有沒有新療效,或者化合物适不适合做先導化合物。

現在業界更希望幹濕實驗結合,人工智能輔助藥物發現AIDD(AI DrugDesign)稱為幹實驗,就是用計算機做實驗,沒有實驗器材,業界還希望保留一定的濕實驗,但幹實驗的好處是可以改善濕實驗成本和程序。舉例來說很多客戶表示AIDD可以篩查掉可能不适合做藥的化合物,這樣的話需要做的濕實驗數量就降低了很多。藥界的觀點是AIDD是很好技術,但還是要配合傳統藥物研發的技術來用。随着技術發展,可能未來AI覆寫的領域越來越多,濕實驗可能越來越少。

媒體:綜合醫藥研發的成本、風險、以及投入,中國客戶與國外客戶有哪些差異?

黃慶春:有一些差異,但主要還是共性,從行業需求出發,國内市場現狀使AIDD等年限相對短一點。國外最近一家AI上市公司薛定谔(Schrodinger),在2000年初就成立了。國内很多是在近五年、十年。亞馬遜雲科技不隻是一個技術提供方,還有對初創企業的雲創計劃,也有IDAC(數字化賦能中心),以及合作夥伴計劃,和應用市場Marketplace。IDAC提供的不單是技術賦能,還提供生态賦能、能力賦能等其他一系列的賦能。

比如英矽智能剛成立就與亞馬遜雲科技合作,可以稱為雲原生的人工智能企業,它确實得到了很大的進展,首先是研發費用,英矽最近推出了第一款治療肺纖維化的藥物,隻用了200多萬美金就做出來了。英矽是一個非常有行業特點的公司,它的全流程都與亞馬遜雲科技合作。做出一個藥,除了要研發化合物,還要做臨床試驗,這些英矽都采用了亞馬遜雲科技相關的技術,也是全球第一個推出了由AI為主要技術的藥物。

媒體:有沒有成本對比分析,比如通過幹實驗能夠在哪些領域降低濕實驗的成本?幹實驗和濕實驗這兩者的成本,在醫藥行業怎麼去做對比分析?

黃慶春:首先幹實驗和濕實驗不是競争關系。傳統的濕實驗也用數字化技術,比如LIMS(Laboratory Information Management System)和ELM。幹實驗可能更多用數字化技術,俗稱用計算機來模拟實驗。濕實驗現在亞馬遜雲科技也有數字化實驗室解決方案,利用數字化技術去提升傳統幹實驗中,比如裝置之間的資料采集、資料分析。雲計算能夠幫助幹實驗和濕實驗提高效率,當然成本也會更低。

醫藥行業要降低試錯成本,提升成功的快速彈性。雲計算有個特性是按需付費,如果自己搭建一個本地資料中心,可能是90%的失敗率,但是用雲的話,雖然還是90%的失敗率,但是計算成本、存儲成本都大大降低了,其實是很大地降低了試錯成本。

另外在藥物研發中,如果發現了一個潛在藥物特别有效,要越快越好,但還有一個挑戰是10年。我們有另外一個案例,新冠疫情早期Moderna數十天就把新冠疫苗推向上市,Moderna是亞馬遜雲科技全球客戶,無論實驗還是生産,大部分應用都放在亞馬遜雲科技上。是以除了可以把失敗成本壓到很低之外,還有一方面是成功以後可以加速上市。

媒體:雲計算和生命科學相結合進行研究,會産生特别龐大的資料量,如何在海量資料中快速找到所需要的資料?

顧凡:資料是今天探讨話題的核心,從資料存儲來說,醫療生命科學行業的資料比網際網路公司的資料要大很多。對于生命科學醫療行業,首先要解決的是先把它存下來,從存的角度,Amazon S3天然就有8層存儲,放在熱的層,最關鍵是及時調用,然後計算速度、分析速度要快,放在冷裡面是暫時用不到,但使用時,能馬調出來。

亞馬遜雲科技做的第一件事,是行業中的專家要把最佳實踐總結下來,把這些最佳實踐結合亞馬遜Amazon S3雲服務,打成一個包,叫方案指南,下遊客戶拿着方案指南能馬上知道基因資料怎麼存更有效。另外像今天介紹的Amazon Omics,就是專門針對醫療行業推出的托管服務,它的好處就是使用者不用學,Amazon Omics可以智能分層。

資料本身有生命線,存完後一定要分析。從分析的角度來說,亞馬遜雲科技除了有非常多的資料分析的工具之外,專門針對醫療行業還有兩個分析工具,一個是Amazon Omics,專門針對基因資料内嵌了基因分析的算法,和亞馬遜雲科技雲上分析的工具已經打通,客戶一站式使用的易用性體驗就更強。

另外一個是Amazon HealthLake,是一個非常重要的資料分析服務,它還有一個子服務叫做Amazon HealthLake Imaging,未來有可能成為PACS醫療影像歸檔和通信系統的基礎,它要解決醫療場景下的特定問題。亞馬遜雲科技有非常多普适性的存儲服務、分析服務,把這些普适性的服務放到醫療的場景下再做一些開發,就可以解決類似最短時間内查詢的問題。

醫療行業要想繼續發展,跟資料共享交換是分不開的。沿着資料的旅程,無論是自己存儲、自己分析、未來自己去訓練機器學習模型,到了機器學習模型,經常會發現資料永遠是不夠的,除了我們給客戶有96個開放資料集之外,很多時候生态裡的人希望資料共享。全球化的醫療公司和藥企,有資料合規問題、有分公司資料權限管控的問題。但萬變不離其宗,不能阻礙資料的使用。

Amazon DataZone幫藥企跨部門去做細粒度的資料權限的管控,就是要找到平衡點,既把資料的權限管控好,同時鼓勵使用資料去做分析。另外Amazon Clean Rooms希望能夠讓資料可用不可見,也就是說根本看不到原始資料,但是模型能夠調用資料,能夠讓這個模型更健壯,能造福整個行業,這種想法和合作現在在行業裡都在疊代。

繼續閱讀