Elasticsearch中,深分页(deep pagination)是指从一个大的搜索结果集中获取大量的结果数据,通常是通过指定非常大的from参数和较小的size参数来实现的。深分页可能会导致性能问题,因为它需要Elasticsearch从大量的分片中获取大量的数据并进行排序,从而消耗大量的计算资源和网络带宽。

由于深分页的性能问题,Elasticsearch不建议使用深分页来获取大量的结果数据。相反,它提供了一些替代方案来解决这个问题:

  1. 滚动查询(Scroll API):滚动查询是一种查询方式,它允许你从一个大的搜索结果集中逐步地获取数据,而不是一次性获取所有数据。使用滚动查询,你可以通过一个初始的搜索请求获取一个唯一的滚动ID,然后使用该ID来不断地获取下一批结果数据,直到所有结果数据都被获取完毕。
  2. 游标查询(Search After API):游标查询允许你使用一个或多个字段作为游标,以便于在一个大的搜索结果集中获取数据。使用游标查询,你可以通过一个初始的搜索请求获取第一批结果数据,并且指定一个或多个游标字段来获取下一批结果数据。
  3. 分页查询(From/Size API):分页查询是一种获取少量结果数据的查询方式,它通过指定一个较小的size参数和一个适当的from参数来获取数据。由于分页查询只获取少量的结果数据,因此它的性能通常比深分页要好得多。

需要注意的是,虽然滚动查询和游标查询可以用于获取大量的结果数据,但它们并不是完全的替代方案,因为它们都需要维护一些状态信息,从而增加了Elasticsearch集群的负载。因此,当你需要获取大量的结果数据时,最好使用一些其他的技术,如Elasticsearch的分布式搜索和聚合等功能,来减少需要获取的结果数据。

 

当需要从Elasticsearch中获取大量的结果数据时,使用深分页可能会导致性能问题。这是因为深分页需要Elasticsearch从大量的分片中获取大量的数据并进行排序,这将消耗大量的计算资源和网络带宽。为了解决这个问题,Elasticsearch提供了一些替代方案,如滚动查询、游标查询和分页查询等。

滚动查询是一种查询方式,它允许你从一个大的搜索结果集中逐步地获取数据,而不是一次性获取所有数据。使用滚动查询,你可以通过一个初始的搜索请求获取一个唯一的滚动ID,然后使用该ID来不断地获取下一批结果数据,直到所有结果数据都被获取完毕。滚动查询的优点是可以避免一次性获取大量的数据,从而减少了Elasticsearch集群的负载和网络带宽的消耗。但是,滚动查询需要维护一些状态信息,因此在某些情况下可能会增加Elasticsearch集群的负载。

游标查询是另一种查询方式,它允许你使用一个或多个字段作为游标,以便于在一个大的搜索结果集中获取数据。使用游标查询,你可以通过一个初始的搜索请求获取第一批结果数据,并且指定一个或多个游标字段来获取下一批结果数据。游标查询也可以避免一次性获取大量的数据,但是它需要维护游标字段的状态信息,从而增加了Elasticsearch集群的负载。

分页查询是一种获取少量结果数据的查询方式,它通过指定一个较小的size参数和一个适当的from参数来获取数据。由于分页查询只获取少量的结果数据,因此它的性能通常比深分页要好得多。但是,分页查询不适用于需要获取大量结果数据的场景。

除了上述方法外,还可以使用Elasticsearch的分布式搜索和聚合等功能,来减少需要获取的结果数据。例如,你可以使用分片和副本来水平扩展Elasticsearch集群,以便于处理更大的搜索结果集。此外,你还可以使用聚合功能来对结果数据进行汇总和分析,以便于减少需要获取的结果数据。

总之,当需要从Elasticsearch中获取大量的结果数据时,应该避免使用深分页。取而代之,可以使用滚动查询、游标查询、分页查询、分布式搜索和聚合等技术来减少需要获取的结果数据,并且避免对Elasticsearch集群产生过大的负载。

滚动查询:

 

Scroll Search是Elasticsearch中一种用于处理大量数据的机制。它允许你在不影响集群性能的情况下,逐步地检索大量数据。Scroll Search使用了游标的概念,它会在每一次请求中返回下一批数据,并且保存上一批数据的状态,以便在下一次请求中继续检索。

下面是一个使用Scroll Search检索数据的示例:

首先,你需要开启一个scroll上下文,请求中需要指定要检索的索引、查询条件、游标过期时间(即scroll参数),以及返回的结果数量(size参数)等:

POST /my_index/_search?scroll=1m
{
    "size": 1000,
    "query": {
        "match_all": {}
    }
}

上面的请求中,scroll参数指定了游标的过期时间为1分钟。size参数指定了每次请求返回的结果数量为1000。query参数指定了检索的查询条件,这里使用了一个match_all查询,表示检索所有文档。

在请求返回的结果中,会包含一个_scroll_id字段,它是一个唯一标识符,用于指定当前scroll上下文的状态。下一步,你需要使用这个_scroll_id字段发起下一次请求,以获取下一批数据:

POST /_search/scroll
{
    "scroll": "1m",
    "scroll_id": "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAD4WYm9laVYtZndUQlNsdDcwakFMNjU1QQ=="
}

在上面的请求中,scroll参数指定了游标的过期时间为1分钟。scroll_id参数指定了上一次请求返回的_scroll_id字段的值,用于指定当前scroll上下文的状态。这个请求会返回下一批数据,并且会更新scroll上下文的状态。你可以使用相同的scroll_id参数发起多次请求,以获取更多的数据。

需要注意的是,每次使用scroll_id参数发起请求时,游标的过期时间会被重置,因此你需要在一定时间内完成所有的请求,否则游标会过期。如果游标过期了,你需要重新发起一个新的scroll请求来重新开始检索。

使用Scroll Search可以有效地处理大量数据,但是也需要注意一些事项,例如游标的过期时间、每次请求返回的结果数量等,需要根据实际情况进行设置。另外,使用Scroll Search也可能会影响集群的性能,因此需要仔细评估使用的风险和收益.

下面是一个使用Java API进行Scroll Search的示例代码:

// 创建一个Elasticsearch客户端
RestHighLevelClient client = new RestHighLevelClient(
        RestClient.builder(new HttpHost("localhost", 9200, "http")));

// 创建一个Scroll请求
SearchRequest searchRequest = new SearchRequest("my_index");
searchRequest.scroll(TimeValue.timeValueMinutes(1L));
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
searchSourceBuilder.query(QueryBuilders.matchAllQuery());
searchSourceBuilder.size(1000);
searchRequest.source(searchSourceBuilder);

// 发起第一次请求,并获取第一批数据
SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);
String scrollId = searchResponse.getScrollId();
SearchHit[] hits = searchResponse.getHits().getHits();
while (hits != null && hits.length > 0) {
    // 处理当前批次的数据
    for (SearchHit hit : hits) {
        String id = hit.getId();
        String source = hit.getSourceAsString();
        // ...
    }

    // 发起下一次请求,并获取下一批数据
    SearchScrollRequest scrollRequest = new SearchScrollRequest(scrollId);
    scrollRequest.scroll(TimeValue.timeValueMinutes(1L));
    searchResponse = client.scroll(scrollRequest, RequestOptions.DEFAULT);
    scrollId = searchResponse.getScrollId();
    hits = searchResponse.getHits().getHits();
}

// 删除Scroll上下文
ClearScrollRequest clearScrollRequest = new ClearScrollRequest();
clearScrollRequest.addScrollId(scrollId);
client.clearScroll(clearScrollRequest, RequestOptions.DEFAULT);

// 关闭客户端
client.close();

上面的代码中,首先创建了一个Elasticsearch客户端,然后创建了一个Scroll请求。在请求中指定了要检索的索引、查询条件、游标过期时间(即scroll参数),以及返回的结果数量(size参数)等。发起第一次请求后,可以通过SearchResponse对象获取第一批数据,并且获取这个请求的_scroll_id。接下来,使用这个_scroll_id发起下一次请求,以获取下一批数据。重复这个过程,直到所有数据都被检索完毕。

最后,需要删除Scroll上下文,以释放资源。这里使用了ClearScrollRequest对象来删除Scroll上下文。需要注意的是,每个Scroll上下文都需要占用一定的内存资源,因此需要删除不再需要的Scroll上下文,以释放资源。

需要注意的是,这只是一个简单的示例代码,实际应用中需要根据具体情况进行调整。比如,需要根据实际数据量和查询条件设置游标过期时间和返回结果数量,以避免占用过多的内存资源。同时,还需要处理可能出现的异常情况,比如网络连接失败、请求超时等。

 

游标查询:

Search After是Elasticsearch的一种查询方式,它允许你在一个大的搜索结果集中获取数据,而不会对Elasticsearch集群产生大量的负载。与分页查询不同,Search After使用一个或多个字段作为游标,以便于获取下一批结果数据。使用Search After,你可以通过一个初始的搜索请求获取第一批结果数据,并且指定一个或多个游标字段来获取下一批结果数据。每次查询返回的结果数据都是按照游标字段的排序顺序排列的。

Search After的语法如下:

GET /my_index/_search
{
    "size": 10,
    "sort": [
        { "date": { "order": "desc" } },
        { "title": { "order": "asc" } }
    ],
    "query": {
        "match": {
            "title": "Elasticsearch"
        }
    },
    "search_after": [ "2014-09-01T00:00:00", "Introduction to Elasticsearch" ]
}

在上面的例子中,我们使用search_after参数来指定游标字段。这个参数的值是一个数组,其中包含当前查询的游标值。在这个例子中,我们使用了两个游标字段:datetitle。这意味着我们需要在每次查询时指定这两个游标字段的值,以便于获取下一批结果数据。在第一个查询中,我们没有指定游标字段的值,因此Elasticsearch将从第一页开始返回数据。在接下来的查询中,我们将使用上一次查询返回的最后一个游标值作为下一次查询的游标值,从而获取下一批结果数据。

使用Search After可以避免使用深分页和游标查询时可能出现的性能问题。当你需要从一个大的搜索结果集中获取数据时,可以使用Search After来获取数据,而不会对Elasticsearch集群产生过大的负载。

 

Elasticsearch中,_id是一个唯一标识符,它是按照文档插入的顺序自动生成的。因此,如果你使用_id作为游标字段进行Search After查询,下一批结果数据中的文档ID一定是大于上一次查询返回的最后一个文档ID的。

如果你想要获取比上一批结果数据中的最小文档ID还要小的一批数据,你可以将sort参数中的排序顺序设置为desc,并且将上一次查询返回的最小文档ID作为search_after参数的值。这样,Elasticsearch会返回比上一批结果数据中的最小文档ID还要小的一批数据。

下面是一个使用_id字段作为游标字段,获取比上一批结果数据中的最小文档ID还要小的一批数据的Search After查询示例:

GET /my_index/_search
{
    "size": 10,
    "sort": [
        { "_id": "desc" }
    ],
    "query": {
        "match": {
            "title": "Elasticsearch"
        }
    },
    "search_after": [ "10" ]
}

在这个例子中,我们将sort参数中的排序顺序设置为desc,并且将上一次查询返回的最小文档ID(假设为10)作为search_after参数的值。这样,Elasticsearch会返回比文档ID为10还要小的一批数据。

需要注意的是,如果你使用_id作为游标字段进行Search After查询,需要确保每个文档的ID是唯一的且按照插入顺序递增的。如果你的数据集中存在重复的文档ID或者文档ID不是按照插入顺序递增的,那么使用_id作为游标字段可能会导致查询结果不准确。

更多可参考:
ElasticSearch深度分页解决方案


0 条评论

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据