天天看點

elasticsearch批量操作bulk基本文法批量操作的類型實操一次處理多少最好

基本文法

bulk操作和以往的普通請求格式有差別。不要格式化json,不然就不在同一行了,這個需要注意。

{ action: { metadata }}\n 
{ request body }\n 
{ action: { metadata }}\n 
{ request body }\n 
...
           
  • { action: { metadata }} 代表批量操作的類型,可以是新增、删除或修改
  • \n 是每行結尾必須填寫的一個規範,每一行包括最後一行都要寫,用于es的解析
  • { request body } 是請求body,增加和修改操作需要,删除操作則不需要

批量操作的類型

action 必須是以下選項之一:

  • create:如果文檔不存在,那麼就建立它。存在會報錯。發生異常報錯不會影響其他操作。
  • index:建立一個新文檔或者替換一個現有的文檔。
  • update:部分更新一個文檔。
  • delete:删除一個文檔。

    metadata 中需要指定要操作的文檔的 _index 、 _type 和 _id , _index 、 _type 也可以在url中指定

實操

create新增文檔資料,在metadata中指定index以及type

POST /_bulk 
{"create": {"_index": "shop2", "_type": "_doc", "_id": "2001"}} 
{"id": "2001", "nickname": "name2001"} 
{"create": {"_index": "shop2", "_type": "_doc", "_id": "2002"}} 
{"id": "2002", "nickname": "name2002"} 
{"create": {"_index": "shop2", "_type": "_doc", "_id": "2003"}} 
{"id": "2003", "nickname": "name2003"}

           

create建立已有id文檔,在url中指定index和type

POST /shop/_doc/_bulk 
{"create": {"_id": "2003"}} 
{"id": "2003", "nickname": "name2003"} 
{"create": {"_id": "2004"}} 
{"id": "2004", "nickname": "name2004"} 
{"create": {"_id": "2005"}} 
{"id": "2005", "nickname": "name2005"}

           

index建立,已有文檔id會被覆寫,不存在的id則新增

POST /shop/_doc/_bulk 
{"index": {"_id": "2004"}} 
{"id": "2004", "nickname": "index2004"} 
{"index": {"_id": "2007"}} 
{"id": "2007", "nickname": "name2007"} 
{"index": {"_id": "2008"}} 
{"id": "2008", "nickname": "name2008"}

           

update建立,部分更新一個文檔。

POST /shop/_doc/_bulk 
{"update": {"_id": "2004"}} 
{"doc": {"id": "20041"}} 
{"update": {"_id": "2007"}} 
{"doc": {"nickname": "name-20071"}} 

           

delete建立,删除一個文檔。

POST /shop/_doc/_bulk 
{"delete": {"_id": "2004"}} 
{"delete": {"_id": "2007"}} 
{"delete": {"_id": "2008"}} 

           

一次處理多少最好

整個批量清求都需要由接收到請求的節點加載到記憶體中,是以該請求越大,其他請求所能獲得的記憶體就越少。批量請求的大小有一個最佳值,大于這個值,性能将不再提升,甚至會下降。但是最佳值不是一個固定的值。它完全取決于硬體、文檔的大小和複雜度、索引和搜尋的負載的整體情況。

幸運的是,很容易找到這個最佳點:通過批量索引典型文檔,并不斷增加批量大小進行嘗試。當性能開始下降,那麼你的批量大小就太大了。一個好的辦法是開始時将1000到5000個文檔作為一個批次,如果你的文檔非常大,那麼就減少批量的文檔個數。

密切關注你的批量請求的實體大小往往非常有用,一千個1KB的文檔是完全不同于一千個1MB文檔所占的實體大小。一個好的批量大小在開始處理後所占用的實體大小約為5-15 MB。

個人感覺最好每次設定1000就好

繼續閱讀