Elasticsearch - 搜索你的数据

Posted on 2020-06-29

运行搜索

你可以使用搜索API搜索 Elasticsearch 数据流或索引中存储的数据。

该 API 可以运行两种类型的搜索，具体取决于你如何提供查询：

URI 搜索
- 通过查询参数提供查询。URI 搜索往往更简单，最适合测试。
请求体搜索
- 通过 API 请求的 JSON body 提供查询。这些查询是用查询DSL 编写的。我们建议在大多数生产用例中使用请求体搜索。

如果同时在 URI 和请求正文中指定查询，则搜索 API 请求仅运行 URI 查询。

运行 URI 搜索

你可以使用搜索 API 的 q查询字符串参数在请求的 URI 中运行搜索。该 q 参数仅接受以 Lucene 的查询字符串语法编写的查询。

例子:

首先，向 Elasticsearch 索引添加一些数据。

以下 bulk API 将一些示例用户日志数据添加到 user_logs_00001 索引。

示例

$response = $client->bulk([ 'body' => [ [ 'index' => [ '_index' => 'user_logs_00001', '_id' => 1, ], ], [ '@timestamp' => '2020-12-06T11:04:05.000Z', 'user' => [ 'id' => 'vlb44hny', ], 'message' => 'Login attempt failed', ],

    [
            'index' => [
                '_index' => 'user_logs_00001',
                '_id' => 2,
            ],
        ],
        [
            '@timestamp' => '2020-12-07T11:06:07.000Z',
            'user' => [
                'id' => '8a4f500d',
            ],
            'message' => 'Login successful',
        ],

        [
            'index' => [
                '_index' => 'user_logs_00001',
                '_id' => 3,
            ],
        ],
        [
            '@timestamp' => '2020-12-07T11:07:08.000Z',
            'user' => [
                'id' => 'l7gk7f82',
            ],
            'message' => 'Logout successful',
        ],
    ],
]);

echo json_encode($response, JSON_PRETTY_PRINT);

现在你可以使用 URI 搜索来匹配一个 user.id 为 l7gk7f82 的文档，请注意查询通过 q 查询参数来指定。

$response = $client->search([
    'index' => 'user_logs_00001',
    'q' => 'user.id:8a4f500d',
]);

echo json_encode($response, JSON_PRETTY_PRINT);

响应结果的 hits.hits 属性包含了匹配到的文档。

运行一个请求体查询

你也可以通过查询DSL 语法来传递一个 query 请求体参数进行查询。

示例

$response = $client->search([ 'index' => 'user_logs_00001', 'body' => [ 'query' => [ 'match' => [ 'message' => '登录成功', ], ], ] ]);

echo json_encode($response, JSON_PRETTY_PRINT);

API 返回以下响应：

该 hits.hits 属性包含匹配的文档。默认情况下，响应按这些匹配的文档 _score 的相关性得分排序，该得分衡量每个文档与查询的匹配程度。

响应

{ "took": 1, "timed_out": false, "_shards": { "total": 1, "successful": 1, "skipped": 0, "failed": 0 }, "hits": { "total": { "value": 3, "relation": "eq" }, "max_score": 0.9983525, "hits": [ { "_index": "user_logs_00001", "_type": "_doc", "_id": "2", "_score": 0.9983525, "_source": { "@timestamp": "2020-12-07T11:06:07.000Z", "user": { "id": "8a4f500d" }, "message": "Login successful" } }, { "_index": "user_logs_00001", "_type": "_doc", "_id": "3", "_score": 0.49917626, "_source": { "@timestamp": "2020-12-07T11:07:08.000Z", "user": { "id": "l7gk7f82" }, "message": "Logout successful" } }, { "_index": "user_logs_00001", "_type": "_doc", "_id": "1", "_score": 0.42081726, "_source": { "@timestamp": "2020-12-06T11:04:05.000Z", "user": { "id": "vlb44hny" }, "message": "Login attempt failed" } } ] } }

搜索多个数据流和索引

要搜索多个数据流和索引，请将它们作为逗号分隔的值添加到搜索 API 请求路径中。

示例

以下请求搜索 user_logs_00001 和 user_logs_00002 索引。

$response = $client->search([ 'index' => 'user_logs_00001,user_logs_00002', 'body' => [ 'query' => [ 'match' => [ 'message' => 'Login Successful', ], ], ] ]);

echo json_encode($response, JSON_PRETTY_PRINT);

你也可以使用通配符 * 模式搜索多个数据流和索引。

示例

$response = $client->search([ 'index' => 'user_logs*', 'body' => [ 'query' => [ 'match' => [ 'message' => 'Login Successful', ], ], ] ]);

echo json_encode($response, JSON_PRETTY_PRINT);

要搜索集群中的所有数据流和索引，请从请求路径中省略目标。或者，你可以使用 _all 或 *。

示例

$response = $client->search([ 'index' => '', // 搜索全部索引 // 'index' => '_all', // 搜索全部索引 // 'index' => '*', // 搜索全部索引 'body' => [ 'query' => [ 'match' => [ 'message' => 'Login Successful', ], ], ] ]);

echo json_encode($response, JSON_PRETTY_PRINT);

分页搜索结果

默认情况下，搜索 API 返回前 10 个匹配的文档。

要分页显示更多结果，可以使用搜索 API size 和 from 参数。该 size 参数是要返回匹配文档的数量。该 from 是从完整结果集开始的零索引偏移量，该偏移量指示要开始使用的文档。

示例

以下搜索 API 请求将 from 偏移量设置为 5，表示请求偏移量或跳过前五个匹配文档。该 size 参数是 20，这意味着该请求最多可返回 20 个文档，开始偏移。

$response = $client->search([ 'index' => '*', 'body' => [ 'query' => [ 'term' => [ 'user.id' => '8a4f500d', ], ], ], 'from' => 5, 'size' => 20, ]);

echo json_encode($response, JSON_PRETTY_PRINT);

默认情况下，你不能使用 from 和 size 参数分页浏览超过 10000 个文档。使用 index.max_result_window 索引设置来设置此限制。

深度分页或一次请求许多结果可能会导致搜索缓慢。结果在返回之前先进行排序。由于搜索请求通常跨越多个分片，因此每个分片必须生成自己的排序结果。然后必须对这些单独的结果进行合并和排序，以确保总体排序顺序正确。

作为深度分页的替代方法，我们建议使用 scroll 或 search_after 参数。

Elasticsearch 使用 Lucene 的内部文档 ID 作为平局。这些内部文档 ID 在相同数据的副本之间可能完全不同。在进行分页时，您可能偶尔会看到排序顺序相同的文档的顺序不一致。

检索选定的字段

默认情况下，搜索响应中的每个 _source 匹配都包括 document，这是对文档建立索引时提供的整个 JSON 对象。如果在搜索响应中仅需要某些源字段，则可以使用 source-filtering 来限制返回源的哪些部分。

仅使用文档源返回字段有一些限制：

该 _source 不包含多字段或字段别名。同样，源中的字段也不包含使用 copy_to 映射参数复制的值。
由于 _source 在 Lucene 中存储为单个字段，因此即使只需要少量字段，也必须加载和解析整个源对象。

为了避免这些限制，你可以：

使用 docvalue_fields 参数获取选定字段的值。当返回相当少量的支持 doc 值的字段（例如关键字和日期）时，这是一个不错的选择。
使用 sorted_fields 参数获取特定存储字段的值。（使用 store 映射选项的字段。）

你可以在以下各节中找到有关这些方法的更多详细信息：

源过滤
文件值栏位
储存栏位

源过滤

你可以使用该 _source 参数选择返回源的哪些字段。这称为源过滤。

如下的搜索请求设置 _source 请求体参数为 false，这样请求结果里就不会包含 _source 字段。

示例

$response = $client->search([ 'index' => '*', 'body' => [ 'query' => [ 'term' => [ 'user.id' => '8a4f500d', ], ], ], '_source' => false, ]);

echo json_encode($response, JSON_PRETTY_PRINT);

也可以通过 * 通配符来让搜索 API 返回对应的字段，下面的请求返回的响应结果中的 _source 字段只会包含 obj 字段以及它的属性：

示例

$response = $client->search([ 'index' => '*', 'body' => [ 'query' => [ 'term' => [ 'user.id' => '8a4f500d', ], ], ], '_source' => 'obj.*', ]);

echo json_encode($response, JSON_PRETTY_PRINT);

你也可以通过数组指定多个字段名匹配的模式，如下的请求会返回 obj1 和 obj2 字段和它们的属性：

示例

$response = $client->search([ 'index' => '*', 'body' => [ 'query' => [ 'term' => [ 'user.id' => '8a4f500d', ], ], ], '_source' => ['obj1.', 'obj2.'], ]);

echo json_encode($response, JSON_PRETTY_PRINT);

为了更好地控制，你可以指定一个对象，该对象在参数中包含 includes 和 excludes 模式的数组 _source。

如果 includes 指定了属性，则仅返回与其模式之一匹配的源字段。你可以使用 excludes 属性从此子集中排除字段。

如果 includes 未指定该属性，则返回整个文档源，不包括与该 excludes 属性中的模式匹配的任何字段。

以下搜索 API 请求仅返回 obj1 和 obj2 字段及属性的源，不包括任何子 description 字段。

示例

$response = $client->search([ 'index' => '*', 'body' => [ 'query' => [ 'term' => [ 'user.id' => '8a4f500d', ], ], ], '_source' => [ 'includes' => [ 'obj1.', 'obj2.', ], 'excludes' => [ '*.description', ], ], ]);

echo json_encode($response, JSON_PRETTY_PRINT);

`docvalue_fields`

你可以使用 docvalue_fields 参数返回搜索响应中一个或多个字段的 doc-values。

Doc 值存储与 _source 相同的值，但是在磁盘上基于列的结构中进行了优化，该结构针对排序和聚合进行了优化。由于每个字段都是单独存储的，因此 Elasticsearch 仅读取所请求的字段值，并且可以避免加载整个文档。

默认情况下，将为支持的字段存储文档值。但是，text 和 text_annotated 字段不支持 doc 值。

以下搜索请求使用该 docvalue_fields 参数来检索以下字段的 doc 值： * 名称以 my_ip 开头的字段 * my_keyword_field * 名称以 _date_field 结尾的字段

例

$response = $client->search([ 'index' => '*', 'body' => [ 'query' => [ 'match_all' => (object)[ ], ], 'docvalue_fields' => [ 'my_ip*', [ 'field' => 'my_keyword_field', ], [ 'field' => '*_date_field', 'format' => 'epoch_millis', ], ], ], ]);

echo json_encode($response, JSON_PRETTY_PRINT);

通配符 patten，用于匹配以字符串形式指定的字段名称
通配符 patten，用于匹配指定为对象的字段名称
使用对象符号，可以使用 format 参数指定字段的返回 doc 值格式。日期字段支持日期格式，数值字段支持 DecimalFormat 模式。其他字段数据类型不支持该 format 参数。

储存栏位

也可以使用 store 映射选项存储单个字段的值。你可以使用 stored_fields 参数将这些存储的值包括在搜索响应中。