Elasticsearch写入原理（1）--数据底层

名词解释

Document（文档）: 文档是存储在elasticsearch中的一个JSON文件，相当于关系数据库中表的一行数据。
Shard（分片）：索引数据可以拆分为较小的分片，每个分片放到不同的服务器上，提高并发能力。Lucene 中的 Lucene index 相当于 ES 的一个 shard。
Segments（段）: 分片由多个segments组成，每个segments都是一个独立的倒排索引，且具有不变性，segment 提供了搜索功能。
Transaction Log（translog，事务日志）：Elasticsearch使用translog来记录index,delete,update,bulk请求，保障数据不丢失，如果Elasticsearch需要恢复数据可以从translog中读取。每个分片对应一个translog文件。
Commit point（提交点）：记录着所有已知的segment。
Lucene index ：由一堆 Segment 的集合加上一个Commit point组成。

内存分配

OS Cache: Lucene 中的倒排索引 segments 存储在文件中，为提高访问速度，都会把它加载到OS Cache中，从而提高 Lucene 性能，所以建议至少留系统一半内存给Lucene。
Node Query Cache：负责缓存filter 查询结果，每个节点有一个，被所有 shard 共享，filter query查询结果不涉及 scores 的计算。
Indexing Buffe：索引缓冲区，用于存储新索引的文档，当其被填满时，缓冲区中的文档被写入磁盘中的 segments 中。
Shard Request Cache：用于缓存aggregations，suggestions，hits.total的请求结果。
Field Data Cache：Elasticsearch 加载内存 fielddata 的默认行为是延迟加载。在首次对text类型字段做聚合、排序或者在脚本中使用时，需要设置字段为fielddata数据结构，它将会完整加载这个字段所有 Segment 中的倒排索引到堆内存中。不推荐使用，因为fielddata会占用大量堆内存空间，聚合或者排序使用doc_value。

写入流程--数据底层

Elasticsearch写入原理（1）--数据底层

1.数据写入Index Buffer缓冲和Translog日志文件。

- 为了保证数据不会丢失，从高版本开始Transaction Log对每个index,delete,update,bulk请求都fsync持久化到磁盘。

2.Refresh：将Index Buffer写入Segment的过程叫做Refresh。

- 每隔1s，Index Buffer中的数据被写入新的Segment（OS Cache中），此时Segment被打开并提供Search。Refresh后，数据就可以被搜索到了，这也是为什么Elasticsearch被称为近实时搜索的原因。
- 当Index Buffer被占满时，会触发Refresh，默认值是JVM堆内存的10%。
- Refresh不执行fsync操作，不会清空Transaction Log。

3.重复1~2步，新的Segment不断添加，Index Buffer不断被清空，而Transaction Log中的数据不断累加。
4.每隔30分钟或者当Transaction Log用满时（默认512M），ES Flush （Lucene Commit）操作发生：

- 4.1 调用Refresh清空Index Buffer。
- 4.2 调用fsync，将缓存中的Segments写入磁盘。
- 4.3 清空（删除）Transaction Log。
- 4.4 commit ponit被写入磁盘，标明了所有Segment。

参数说明

Refresh

PUT my-index/_settings
{
  "refresh_interval": "60s" #默认1s
}

Translog

PUT my-index/_settings
{
  "translog.flush_threshold_size": "1gb",  #默认512M，当 translog 超过该值，会触发 flush
  "translog.sync_interval": "60s", #默认5s
  "translog.durability": "async" #默认是 request，每个请求都落盘，忽视translog.sync_interval。设置成 async，异步写入，根据index.translog.sync_interval参数的间隔时间做fsync。
}

Elasticsearch写入原理（1）--数据底层

名词解释

内存分配

写入流程--数据底层

Elasticsearch写入原理（1）--数据底层

参数说明

Refresh

Translog

继续阅读

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

mybatis_入门程序Mybatis入门

vue-cli简介（中文翻译）

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

登录plsql 报错 the account is locked --用户被锁

Ajax发送和获取json数据到Spring mvc 1.spring mvc后端2.web前段

Effective Java 8:通用程序设计

SequoiaDB巨杉数据库C++驱动概述

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method

JSONObject包导入异常 java.lang.NoClassDefFoundErrorweb项目的导入包的问题

Elasticsearch写入原理（1）--数据底层

名词解释

内存分配

写入流程--数据底层 Elasticsearch写入原理（1）--数据底层

参数说明

Refresh

Translog

继续阅读

写入流程--数据底层

Elasticsearch写入原理（1）--数据底层