开始使用 Elasticsearch

准备好试用 Elasticsearch 并亲自了解如何使用 REST API 来存储、搜索和分析数据了吗？

逐步完成本入门教程以：

启动并运行 Elasticsearch 集群
索引一些示例文档
使用 Elasticsearch 查询语言搜索文档
使用存储桶和指标聚合分析结果

需要更多上下文？

查看Elasticsearch 简介以了解术语并了解 Elasticsearch 工作原理的基础知识。如果您已经熟悉 Elasticsearch 并想了解它如何与堆栈的其余部分一起工作，您可能想跳到 Elastic Stack 教程以了解如何使用 Elasticsearch、Kibana、Beats 和日志存储。

启动并运行 Elasticsearch

要试用 Elasticsearch，您可以在 Elasticsearch 服务上创建托管部署或在您自己的 Linux、macOS 或 Windows 机器上设置多节点 Elasticsearch 集群。

在 Elastic Cloud 上运行 Elasticsearch

当您在 Elasticsearch 服务上创建部署时，该服务会预配一个三节点 Elasticsearch 集群以及 Kibana 和 APM。

创建部署：

注册免费试用并验证您的电子邮件地址。
为您的帐户设置密码。
单击创建部署。

创建部署后，您就可以为某些文档编制索引了。

在 Linux、macOS 或 Windows 上本地运行 Elasticsearch

在 Elasticsearch 服务上创建部署时，会自动供应一个主节点和两个数据节点。通过从 tar 或 zip 存档安装，您可以在本地启动多个 Elasticsearch 实例以查看多节点集群的行为。

在本地运行三节点 Elasticsearch 集群：

下载适用于您的操作系统的 Elasticsearch 存档：

Linux：elasticsearch-7.10.2-linux-x86_64.tar.gz

curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.10.2-linux-x86_64.tar.gz

macOS：elasticsearch-7.10.2-darwin-x86_64.tar.gz

curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.10.2-darwin-x86_64.tar.gz

Windows： elasticsearch-7.10.2-windows-x86_64.zip

提取存档：

Linux：

tar -xvf elasticsearch-7.10.2-linux-x86_64.tar.gz

macOS:

tar -xvf elasticsearch-7.10.2-darwin-x86_64.tar.gz

Windows PowerShell:

Expand-Archive elasticsearch-7.10.2-windows-x86_64.zip

从bin目录启动 Elasticsearch ：

Linux and macOS:

cd elasticsearch-7.10.2/bin
./elasticsearch

Windows:

cd elasticsearch-7.10.2\bin
.\elasticsearch.bat

您现在已经启动并运行了一个单节点 Elasticsearch 集群！

再启动两个 Elasticsearch 实例，这样您就可以看到典型的多节点集群的行为方式。您需要为每个节点指定唯一的数据和日志路径。

Linux and macOS:

./elasticsearch -Epath.data=data2 -Epath.logs=log2
./elasticsearch -Epath.data=data3 -Epath.logs=log3

Windows:

.\elasticsearch.bat -E path.data=data2 -E path.logs=log2
.\elasticsearch.bat -E path.data=data3 -E path.logs=log3

额外的节点被分配了唯一的 ID。由于您在本地运行所有三个节点，因此它们会自动与第一个节点一起加入集群。

使用 cat health API 验证您的三节点集群是否已启动。cat API 以比原始 JSON 更易于阅读的格式返回有关集群和索引的信息。

您可以通过向 Elasticsearch REST API 提交 HTTP 请求来直接与集群交互。如果您已安装并运行 Kibana，您还可以打开 Kibana 并通过开发控制台提交请求。

tip
当您准备好开始在自己的应用程序中使用 Elasticsearch 时，您将需要查看 Elasticsearch 语言客户端。

GET /_cat/health?v=true

响应应该表明elasticsearch集群的状态是green并且它有三个节点：

epoch      timestamp cluster       status node.total node.data shards pri relo init unassign pending_tasks max_task_wait_time active_shards_percent
1565052807 00:53:27  elasticsearch green           3         3      6   3    0    0        0             0                  -                100.0%

如果您只运行 Elasticsearch 的单个实例，集群状态将保持为黄色。单节点集群功能齐全，但无法将数据复制到另一个节点以提供弹性。要使集群状态为绿色，副本分片必须可用。如果集群状态为红色，则部分数据不可用。

使用 cURL 命令与 Elasticsearch 对话

本指南中的大多数示例使您能够复制适当的 cURL 命令并将请求从命令行提交到本地 Elasticsearch 实例。

对 Elasticsearch 的请求与任何 HTTP 请求由相同的部分组成：

curl -X<VERB> '<PROTOCOL>://<HOST>:<PORT>/<PATH>?<QUERY_STRING>' -d '<BODY>'

此示例使用以下变量：

适当的 HTTP 方法或动词。例如，GET，POST， PUT，HEAD，或DELETE。无论是http或https。如果您在 Elasticsearch 前面有一个 HTTPS 代理，或者您使用 Elasticsearch 安全功能来加密 HTTP 通信，请使用后者。 Elasticsearch 集群中任何节点的主机名。或者， localhost用于本地计算机上的节点。运行 Elasticsearch HTTP 服务的端口，默认为9200. API 端点，可以包含多个组件，例如 _cluster/stats或_nodes/stats/jvm。任何可选的查询字符串参数。例如，?pretty 将漂亮地打印 JSON 响应以使其更易于阅读。 JSON 编码的请求正文（如有必要）。如果启用了 Elasticsearch 安全功能，您还必须提供有权运行 API 的有效用户名（和密码）。例如，使用 -uor --ucURL 命令参数。有关运行每个 API 需要哪些安全权限的详细信息，请参阅REST API。

Elasticsearch 使用 HTTP 状态代码响应每个 API 请求，例如200 OK. 除了HEAD请求之外，它还返回一个 JSON 编码的响应正文。

其他安装选项

从存档文件安装 Elasticsearch 使您可以轻松地在本地安装和运行多个实例，以便您可以尝试一下。要运行单个实例，您可以在 Docker 容器中运行 Elasticsearch，在 Linux 上使用 DEB 或 RPM 包安装 Elasticsearch，在 macOS 上使用 Homebrew 安装，或在 Windows 上使用 MSI 包安装程序安装。有关更多信息，请参阅安装 Elasticsearch。

索引一些文档

集群启动并运行后，您就可以为一些数据建立索引了。Elasticsearch 有多种摄取选项，但最终它们都做同样的事情：将 JSON 文档放入 Elasticsearch 索引中。

您可以使用简单的 PUT 请求直接执行此操作，该请求指定要添加文档的索引、唯一文档 ID 以及"field": "value"请求正文中的一对或多对：

PUT /customer/_doc/1
{
  "name": "John Doe"
}

customer如果索引不存在，此请求会自动创建索引，添加一个 ID 为的新文档1，并存储和索引该name字段。

由于这是一个新文档，响应显示操作的结果是创建了文档的版本 1：

{
  "_index" : "customer",
  "_type" : "_doc",
  "_id" : "1",
  "_version" : 1,
  "result" : "created",
  "_shards" : {
    "total" : 2,
    "successful" : 2,
    "failed" : 0
  },
  "_seq_no" : 26,
  "_primary_term" : 4
}

新文档可立即从集群中的任何节点获得。您可以使用指定其文档 ID 的 GET 请求检索它：

GET /customer/_doc/1

响应表明找到了具有指定 ID 的文档并显示了已编入索引的原始源字段。

{
  "_index" : "customer",
  "_type" : "_doc",
  "_id" : "1",
  "_version" : 1,
  "_seq_no" : 26,
  "_primary_term" : 4,
  "found" : true,
  "_source" : {
    "name": "John Doe"
  }
}

批量索引文档

如果您有大量文档需要索引，您可以使用批量 API批量提交它们。使用批量来批处理文档操作比单独提交请求要快得多，因为它最大限度地减少了网络往返。

最佳批量大小取决于许多因素：文档大小和复杂性、索引和搜索负载以及集群可用的资源。一个好的起点是批量处理 1,000 到 5,000 个文档，总负载在 5MB 到 15MB 之间。从那里，您可以尝试找到最佳位置。

要将一些数据输入 Elasticsearch，您可以开始搜索和分析：

下载accounts.json示例数据集。这个随机生成的数据集中的文档代表具有以下信息的用户帐户：

{
  "account_number": 0,
  "balance": 16623,
  "firstname": "Bradshaw",
  "lastname": "Mckenzie",
  "age": 29,
  "gender": "F",
  "address": "244 Columbus Place",
  "employer": "Euron",
  "email": "bradshawmckenzie@euron.com",
  "city": "Hobucken",
  "state": "CO"
}

bank使用以下_bulk请求将帐户数据索引到索引中：

curl -H "Content-Type: application/json" -XPOST "localhost:9200/bank/_bulk?pretty&refresh" --data-binary "@accounts.json"
curl "localhost:9200/_cat/indices?v=true"

响应表明已成功索引 1,000 个文档。

health status index uuid                   pri rep docs.count docs.deleted store.size pri.store.size
yellow open   bank  l7sSYV2cQXmu6_4rJWVIww   5   1       1000            0    128.6kb        128.6kb

开始搜索

一旦您将一些数据摄取到 Elasticsearch 索引中，您就可以通过向_search端点发送请求来搜索它。要访问全套搜索功能，您可以使用 Elasticsearch Query DSL 在请求正文中指定搜索条件。您在请求 URI 中指定要搜索的索引的名称。

例如，以下请求检索bank 索引中按帐号排序的所有文档：

GET /bank/_search
{
  "query": { "match_all": {} },
  "sort": [
    { "account_number": "asc" }
  ]
}

默认情况下，hits响应的部分包括与搜索条件匹配的前 10 个文档：

{
  "took" : 63,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
        "value": 1000,
        "relation": "eq"
    },
    "max_score" : null,
    "hits" : [ {
      "_index" : "bank",
      "_type" : "_doc",
      "_id" : "0",
      "sort": [0],
      "_score" : null,
      "_source" : {"account_number":0,"balance":16623,"firstname":"Bradshaw","lastname":"Mckenzie","age":29,"gender":"F","address":"244 Columbus Place","employer":"Euron","email":"bradshawmckenzie@euron.com","city":"Hobucken","state":"CO"}
    }, {
      "_index" : "bank",
      "_type" : "_doc",
      "_id" : "1",
      "sort": [1],
      "_score" : null,
      "_source" : {"account_number":1,"balance":39225,"firstname":"Amber","lastname":"Duke","age":32,"gender":"M","address":"880 Holmes Lane","employer":"Pyrami","email":"amberduke@pyrami.com","city":"Brogan","state":"IL"}
    }, ...
    ]
  }
}

响应还提供有关搜索请求的以下信息：

took – Elasticsearch 运行查询需要多长时间，以毫秒为单位
timed_out – 搜索请求是否超时
_shards – 搜索了多少个分片以及成功、失败或跳过了多少分片的细目。
max_score – 找到的最相关文档的分数
hits.total.value - 找到了多少匹配的文件
hits.sort - 文档的排序位置（当不按相关性分数排序时）
hits._score- 文档的相关性分数（使用时不适用match_all）

每个搜索请求都是独立的：Elasticsearch 不会跨请求维护任何状态信息。要翻阅搜索结果，请在您的请求中指定from和size参数。

例如，以下请求的命中次数为 10 到 19：

GET /bank/_search
{
  "query": { "match_all": {} },
  "sort": [
    { "account_number": "asc" }
  ],
  "from": 10,
  "size": 10
}

现在您已经了解了如何提交基本搜索请求，您可以开始构建比match_all.

要在字段中搜索特定术语，您可以使用match查询。例如，以下请求搜索address字段以查找地址包含mill或的客户lane：

GET /bank/_search
{
  "query": { "match": { "address": "mill lane" } }
}

要执行短语搜索而不是匹配单个术语，请使用 match_phrase代替match。例如，以下请求仅匹配包含短语的地址mill lane：

GET /bank/_search
{
  "query": { "match_phrase": { "address": "mill lane" } }
}

要构造更复杂的查询，您可以使用一个bool查询来组合多个查询条件。您可以根据需要（必须匹配）、希望（应该匹配）或不希望（必须不匹配）指定条件。

例如，以下请求在bank索引中搜索属于 40 岁客户的帐户，但排除居住在爱达荷州 (ID) 的任何人：

GET /bank/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "age": "40" } }
      ],
      "must_not": [
        { "match": { "state": "ID" } }
      ]
    }
  }
}

布尔查询中的每个must、should和must_not元素称为查询子句。文档满足每个mustor should条款中的标准的程度会影响文档的相关性得分。分数越高，文档就越符合您的搜索条件。默认情况下，Elasticsearch 返回按这些相关性分数排名的文档。

must_not子句中的条件被视为过滤器。它会影响文档是否包含在结果中，但不会影响文档的评分方式。您还可以明确指定任意过滤器以包含或排除基于结构化数据的文档。

例如，以下请求使用范围过滤器将结果限制为余额在 20,000 美元到 30,000 美元（含）之间的帐户。

GET /bank/_search
{
  "query": {
    "bool": {
      "must": { "match_all": {} },
      "filter": {
        "range": {
          "balance": {
            "gte": 20000,
            "lte": 30000
          }
        }
      }
    }
  }
}

使用聚合分析结果

Elasticsearch 聚合使您能够获取有关搜索结果的元信息并回答诸如“德克萨斯州有多少帐户持有人？”之类的问题。或“田纳西州的平均账户余额是多少？” 您可以在一个请求中搜索文档、过滤匹配项并使用聚合来分析结果。

例如，以下请求使用terms聚合将bank索引中的所有帐户按状态分组，并按降序返回帐户最多的十个状态：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "state.keyword"
      }
    }
  }
}

的buckets响应中的是的值state字段中。该 doc_count节目在每个州帐户数量。例如，您可以看到ID（爱达荷州）有 27 个帐户。因为请求集size=0，响应只包含聚合结果。

{
  "took": 29,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped" : 0,
    "failed": 0
  },
  "hits" : {
     "total" : {
        "value": 1000,
        "relation": "eq"
     },
    "max_score" : null,
    "hits" : [ ]
  },
  "aggregations" : {
    "group_by_state" : {
      "doc_count_error_upper_bound": 20,
      "sum_other_doc_count": 770,
      "buckets" : [ {
        "key" : "ID",
        "doc_count" : 27
      }, {
        "key" : "TX",
        "doc_count" : 27
      }, {
        "key" : "AL",
        "doc_count" : 25
      }, {
        "key" : "MD",
        "doc_count" : 25
      }, {
        "key" : "TN",
        "doc_count" : 23
      }, {
        "key" : "MA",
        "doc_count" : 21
      }, {
        "key" : "NC",
        "doc_count" : 21
      }, {
        "key" : "ND",
        "doc_count" : 21
      }, {
        "key" : "ME",
        "doc_count" : 20
      }, {
        "key" : "MO",
        "doc_count" : 20
      } ]
    }
  }
}

您可以组合聚合来构建更复杂的数据摘要。例如，以下请求avg在前一个聚合中嵌套一个聚合， group_by_state以计算每个状态的平均账户余额。

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "state.keyword"
      },
      "aggs": {
        "average_balance": {
          "avg": {
            "field": "balance"
          }
        }
      }
    }
  }
}

您可以通过指定terms聚合内的顺序来使用嵌套聚合的结果进行排序，而不是按计数对结果进行排序：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "state.keyword",
        "order": {
          "average_balance": "desc"
        }
      },
      "aggs": {
        "average_balance": {
          "avg": {
            "field": "balance"
          }
        }
      }
    }
  }
}

除了像这样的基本存储桶和指标聚合之外，Elasticsearch 还提供专门的聚合来操作多个字段并分析特定类型的数据，例如日期、IP 地址和地理数据。您还可以将单个聚合的结果提供给管道聚合以供进一步分析。

聚合提供的核心分析功能支持使用机器学习来检测异常等高级功能。

从这往哪儿走

现在您已经设置了一个集群，为一些文档编制了索引，并运行了一些搜索和聚合，您可能想要：

深入了解 Elastic Stack 教程以安装 Kibana、Logstash 和 Beats 并设置基本的系统监控解决方案。
将其中一个示例数据集加载到 Kibana 中，以了解如何结合使用 Elasticsearch 和 Kibana 来可视化您的数据。
尝试一种弹性搜索解决方案：
- 网站搜索
- 应用搜索
- 企业搜索

如果觉得文章对你有用，请随意赞赏

开始使用 Elasticsearch

https://blog.ichees.tech/archives/%E5%BC%80%E5%A7%8B%E4%BD%BF%E7%94%A8elasticsearch

作者

秘密基地

发布于

2022-01-05

更新于

2023-06-04

许可协议

CC BY 4.0

开始使用 Elasticsearch

开始使用 Elasticsearch

启动并运行 Elasticsearch

在 Elastic Cloud 上运行 Elasticsearch

在 Linux、macOS 或 Windows 上本地运行 Elasticsearch

使用 cURL 命令与 Elasticsearch 对话

其他安装选项

索引一些文档

批量索引文档

开始搜索

使用聚合分析结果

从这往哪儿走

作者

发布于

更新于

许可协议

评论