使用說明文檔
在申請資料集權限之前請先登入阿裡雲賬号,并申請加入BIO-IT計劃,
點選申請
快速開始
浏覽目前提供
資料集清單,檢視具體項目資訊,并申請權限。在收到審批通過郵件後,就可以開始使用了。您可以在具體項目詳情頁面提供的檔案浏覽器中,檢視資料集檔案。
資料存儲說明
阿裡雲基因公共資料集使用
對象存儲OSS産品作為底層存儲,資料檔案按照源站目錄結構進行梳理群組織,并提供必要的索引檔案和中繼資料檔案來進行說明。如果有準确性問題,歡迎幫助我們
回報改進。
項目資料同時存儲在阿裡雲一個或者多個資料中心,以保證使用者的就近通路。項目存儲資訊包括該資料集支援的可用區域(Region),存儲桶(Bucket)和通路域名(Endpoint)。使用者可以根據實際情況選擇合适的存儲通路域名。
存儲資訊
注意:在存儲資訊支援以外的區域,或者通過外網通路域名下載下傳資料時,辨別有“請求者”付費的項目,使用者會産生流量費用。
基因公共資料集計劃為所有項目提供免費存儲,資料檔案由資料提供方或者管理者進行上傳,更新和維護。
使用限制
通路權限
所有項目資料預設不對外開放,使用者按照步驟加入Bio-IT計劃後,才可以申請指定項目權限。對于非完全公開的項目,可能還需要提供額外的資料,用于資料所有者的單獨審批。所有的線上申請阿裡雲會在2-3個工作日内處理,您也可以通過[email protected]聯系我們。
地域限制
項目資料存儲具有地域性。使用者在不同的地點和環境下通路資料,将會存在通路速度,通路費用上的差異。 在阿裡雲環境内,如華北2(北京),通過ECS等阿裡雲計算産品來通路同一區域的項目資料,可使用内網的通路域名(oss-cn-beijing-internal.aliyuncs.com), 能夠高速下載下傳資料,并且不産生任何費用。 如果使用者需要通過外網通路域名(oss-cn-beijing.aliyuncs.com),在項目不支援的區域或者環境下下載下傳資料檔案,速度将主要取決您的網絡帶寬。在存儲資訊中标有"請求者付費”标簽時,産生的"下載下傳流量費用",将由您使用的阿裡雲賬号承擔。
資料可用性限制
根據更新政策,基因公共資料集檔案可能會不定期進行更新和維護。在經過阿裡雲和資料提供方共同讨論後,資料集項目也可能會對外停止服務。使用者被要求使用前,加入阿裡雲Bio-IT計劃,并提供正确的聯系方式。在發生影響原有資料可用性的事件前,該項目的已有使用者将會收到提前通知。
具體使用方法
除網頁浏覽外,使用者可以使用任何支援對象存儲OSS的通路工具或者計算服務來使用基因公共資料集檔案
1.準備工作
使用者賬号AK資訊,你可以登入
阿裡雲控制台,檢視或者建立AK資訊
申請需要的資料集權限,并已經審批通過
檢視資料集的存儲資訊,了解資料集支援的區域,存儲桶,通路域名和請求者付費等資訊。
注意:請充分了解資料集的地域限制,根據你使用的阿裡雲産品或服務,選擇正确的存儲桶和通路域名。
2.使用OSS工具通路資料
OSS Browser用戶端下載下傳并安裝OSS Browser, 填入AK資訊,并且選擇正确的Region,和Preset OSS Path, 點選Login後,檢視和下載下傳資料
**注意:标注有請求者付費的項目,需要勾選“請求者付費”的選項。
**
Ossutil指令行工具根據您的作業系統選擇對應版本的
軟體下載下傳并配置ossutil, 以linux系統(64位)為例
$./ossutil64 config
$./ossutil64 ls -e oss-cn-beijing.aliyuncs.com -d oss://gatk-test-data/
$./ossutil64 cp -e oss-cn-beijing.aliyuncs.com -r oss://gatk-test-data/wgs_ubam/NA12878_20k/ ./
注意:标注有請求者付費的項目,需要提供加上 --payer=requester , 用于表示您需要為資料的外網下載下傳流量付費。
$./ossutil64 cp -e oss-cn-beijing.aliyuncs.com --payer=requester -r oss://gatk-test-data/wgs_ubam/NA12878_20k/ ./
開發SDK你可以選擇指定開發語言的SDK,并且參考網站提供的
樣例代碼來通路資料檔案。
3.使用阿裡雲計算服務通路資料
阿裡雲的計算産品,都可以直接支援OSS通路,例如批量計算,EMR作業中,使用者指定基因資料集檔案作為作業輸入即可。以GATK4的WDL流程所需的input.json為例,使用者可以指定Broad參考基因組檔案,和GATK測試資料集中的比對參考序列和Demo的WGS fastq資料檔案的OSS URL作為輸入。
{
“reference”: “oss://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta”
“fq1”: “oss://gatk-test-data/wgs_fastq/NA12878_20k/H06HDADXX130110.2.ATCACGAT.20k_reads_1.fastq”
“fq2”: “oss://gatk-test-data/wgs_fastq/NA12878_20k/H06HDADXX130110.2.ATCACGAT.20k_reads_2.fastq”
}
服務條款
阿裡雲“按原樣”提供資料集,對此不作任何明示或暗示的保證。對于使用該等資料集仍需獲得其他權利人的許可或同意的,您應自行擷取授權或同意。對于因使用資料集而導緻的任何直接或間接損害, 不承擔任何責任。
阿裡雲無法保證任意資料集項目的連續可用性。因資料提供方要求、監管政策變化、項目終止等多種因素的影響,可能無法繼續提供服務。使用者在加入申請項目使用權限時,知曉并同意這一說明。在單個資料集項目無法繼續時,根據登記時提供的郵箱位址,使用者将會收到正式通知,在15天的關閉期内,資料集檔案可以繼續通路。完全關閉後,将不再繼續提供服務。
常見問題
Q:公共資料集資料來源?沒有我需要的資料
A:阿裡雲基因行業公共資料集提供的項目,包括了阿裡雲托管的公開項目資料集,和資料提供方管理和維護的項目資料集。如果沒有包含您認為有價值的資料項目,請回報給我們。我們可以根據使用者需求,可能在後續更新中引入。對于擁有項目資料的機構,阿裡雲提供必要的支援來滿足雙方的合作。
Q:**使用公共資料集的收費麼?
A:基因公共資料集是由阿裡雲提供資料存儲,并且免費提供給阿裡雲使用者進行通路。當計算或者應用服務,和資料集存儲資訊中的區域一緻,使用者使用内網位址來通路資料檔案,不會産生任何費用。但是需要注意的是,辨別有“請求者付費”的資料集項目,使用者在通過公網下載下傳資料時,需要支付資料流量費用。
編者按:非常歡迎大家使用公共資料集,歡迎大家互相溝通交流。
任何問題,請直接掃碼咨詢: