基本文法
bulk操作和以往的普通請求格式有差別。不要格式化json,不然就不在同一行了,這個需要注意。
{ action: { metadata }}\n
{ request body }\n
{ action: { metadata }}\n
{ request body }\n
...
- { action: { metadata }} 代表批量操作的類型,可以是新增、删除或修改
- \n 是每行結尾必須填寫的一個規範,每一行包括最後一行都要寫,用于es的解析
- { request body } 是請求body,增加和修改操作需要,删除操作則不需要
批量操作的類型
action 必須是以下選項之一:
- create:如果文檔不存在,那麼就建立它。存在會報錯。發生異常報錯不會影響其他操作。
- index:建立一個新文檔或者替換一個現有的文檔。
- update:部分更新一個文檔。
-
delete:删除一個文檔。
metadata 中需要指定要操作的文檔的 _index 、 _type 和 _id , _index 、 _type 也可以在url中指定
實操
create新增文檔資料,在metadata中指定index以及type
POST /_bulk
{"create": {"_index": "shop2", "_type": "_doc", "_id": "2001"}}
{"id": "2001", "nickname": "name2001"}
{"create": {"_index": "shop2", "_type": "_doc", "_id": "2002"}}
{"id": "2002", "nickname": "name2002"}
{"create": {"_index": "shop2", "_type": "_doc", "_id": "2003"}}
{"id": "2003", "nickname": "name2003"}
create建立已有id文檔,在url中指定index和type
POST /shop/_doc/_bulk
{"create": {"_id": "2003"}}
{"id": "2003", "nickname": "name2003"}
{"create": {"_id": "2004"}}
{"id": "2004", "nickname": "name2004"}
{"create": {"_id": "2005"}}
{"id": "2005", "nickname": "name2005"}
index建立,已有文檔id會被覆寫,不存在的id則新增
POST /shop/_doc/_bulk
{"index": {"_id": "2004"}}
{"id": "2004", "nickname": "index2004"}
{"index": {"_id": "2007"}}
{"id": "2007", "nickname": "name2007"}
{"index": {"_id": "2008"}}
{"id": "2008", "nickname": "name2008"}
update建立,部分更新一個文檔。
POST /shop/_doc/_bulk
{"update": {"_id": "2004"}}
{"doc": {"id": "20041"}}
{"update": {"_id": "2007"}}
{"doc": {"nickname": "name-20071"}}
delete建立,删除一個文檔。
POST /shop/_doc/_bulk
{"delete": {"_id": "2004"}}
{"delete": {"_id": "2007"}}
{"delete": {"_id": "2008"}}
一次處理多少最好
整個批量清求都需要由接收到請求的節點加載到記憶體中,是以該請求越大,其他請求所能獲得的記憶體就越少。批量請求的大小有一個最佳值,大于這個值,性能将不再提升,甚至會下降。但是最佳值不是一個固定的值。它完全取決于硬體、文檔的大小和複雜度、索引和搜尋的負載的整體情況。
幸運的是,很容易找到這個最佳點:通過批量索引典型文檔,并不斷增加批量大小進行嘗試。當性能開始下降,那麼你的批量大小就太大了。一個好的辦法是開始時将1000到5000個文檔作為一個批次,如果你的文檔非常大,那麼就減少批量的文檔個數。
密切關注你的批量請求的實體大小往往非常有用,一千個1KB的文檔是完全不同于一千個1MB文檔所占的實體大小。一個好的批量大小在開始處理後所占用的實體大小約為5-15 MB。
個人感覺最好每次設定1000就好