Elasticsearch從入門到放棄:再聊搜索

前文中我們曾經聊過搜索文檔的方法,Elasticsearch 一般適用於讀多寫少的場景,因此我們需要更多的關注讀操作。

Elasticsearch 提供的 Search API 可以分為 URI Search 和 Request Body Search 兩大類。從名稱上可以直觀的看出,URI Search 是使用URI的參數傳遞參數給 Elasticsearch,Request Body Search 則是將參數放到 Body 中進行傳遞,下面我們具體來看一下。

首先我們來看 URI Search 的一些參數。

  • q 指定查詢語句,其使用的是 Query String Syntax
  • df 指定默認字段,如果不指定,則會查詢全部字段
  • Sort 對哪些字段進行排序
  • from/size 用於分頁

此外,我們還可以通過在請求體中指定 profile 參數來查看查詢是如何被執行的。

你可以在Kibana中執行下面的查詢來看一下 Elasticsearch 的查詢是怎樣執行的。

GET /movies/_search?q=2012
{
  "profile": "true"
}

GET /movies/_search?q=title:2012
{
  "profile": "true"
}

GET /movies/_search?q=2012&df=title
{
  "profile": "true"
}

在上面這組查詢中,當我們指定了查詢字段時, Elasticsearch 使用的 query type 是Term Query。

term query

與之對應的還有 Phrase Query。

Term

如果我們的查詢條件是 title:(Code Review),那麼它使用的就是 Term Query,它等價於查詢 title 中存在 Code 或 Review 的文檔。

Phrase

如果我們的查詢條件是title:"Code Review"這樣用引號引起來的,那麼它使用的就是 Phrase Query,它等價於查詢同時存在 Code 和 Review 的文檔,並且 Code 出現的順序必須在 Review 之前。

這裡你可能會有疑問,為什麼 Term Query 前後需要加括號,這是 Elasticsearch 中的分組概念,如果想要像我們說的那樣,在 titile 字段中查找存在 Code 或 Review 的文檔,那麼就必須把它們作為一個分組進行查詢。這裡你可以自己動手試一下不加括號的情況,看一下 Elasticsearch 會如何執行。

Term Query 中還提供了很多種查詢語法,例如我們可以只用 AND、OR、NOT 這樣的字符進行布爾操作(需要注意它們都必須大寫),也可以使用加號或減號表示 must 和 must not 的概念。同時區間、通配符、甚至是正則表達式查詢。

介紹完 URI Search,我們再一起學習一下 Request Body Search,其實在 Elasticsearch 中,Request Body Search 是更加常用的查詢方式。因為它能夠支持更多高階的使用方法。

在 Request Body Search 中,我們同樣是用 fromsize 來進行分頁,默認的是從0開始,返回10個結果。

排序的方法也是使用 sort,一般建議在「數字型」或「日期型」字段上進行排序。

對於一些字段比較多的文檔,我們並不是每次查詢都需要全部的字段,這時候就可以在 body 中加上 _source 字段來進行過濾。_source字段可以支持通配符,例如_source:["name*"],查詢中就只會返回字段名是 name 開頭的字段。

前面我們聊了 Term Query 和 Phrase Query,在 Request Body Search 中,我們使用 Match Query 來進行類似的操作。

GET /movies/_search
{
  "query": {
    "match": {
      "title": "Lord Rings"
    }
  }
}

在這個例子中,Elasticsearch 會幫我們查詢的是 title 中有 Lord 或 Rings 的文檔,如果想要查詢 Lord 和 Rings,我們需要用到 operator 來進行修改。

GET /movies/_search
{
  "query": {
    "match": {
      "title": {
        "query": "Lord Rings",
        "operator": "and"
      }
    }
  },
  "profile": "true"
}

如果要使用 Phrase 查詢,只需要把上面的 match 替換為 match_phrase 即可。

在 Phrase 查詢中,可以使用 slot 參數來指定可以插入在中間的單詞數量。

GET /movies/_search
{
  "query": {
    "match_phrase": {
      "title": {
        "query": "Lord Rings",
        "slop": 2
      }
    }
  },
  "profile": "true"
}

總結

本文我們學習了 Elasticsearch 的兩種查詢方法:URI Search 和 Request Body Search 。這裡更加推薦使用 Request Body Search,因為它可以支持很多高階用法,這裡我們只介紹了一些比較常用的查詢方法,包括 Term Query 和 Phrase Query,也介紹了一些字段的用法,包括分頁、排序、過濾字段等。當然,Elasticsearch 的 Request Body Search 還支持很多其他參數,由於篇幅限制,就不再一一介紹了,大家在使用時可以自行查閱官方文檔

最後多說一句,關於 Elasticsearch,我也是剛剛接觸,歡迎志同道合的同學一起交流。