ELK的理論雜項知識

2019 年 10 月 7 日
筆記

區分9200埠口和9300埠

9300埠：ES節點之間通訊使用,是TCP協議埠號，ES集群之間通訊埠號
9200埠：ES節點和外部通訊使用,暴露ES RESTful介面埠號

倒排索引

ES為什麼那麼快？正是因為ES內部採用了倒排索引。讓我們來看下什麼是倒排索引吧。

什麼是正排索引？

源數據

1   我是中國人  2    我是大學生

如果使用正排索引的話，建立索引的過程是這樣的：

切詞結果:  1    我   我是  中國  中國人  2    我   我是  大學  大學生    將切詞結果進行創建索引，保存文章/id。當搜索的時候，  索引庫中如有匹配則返迴文章內容。      不足：通過切詞之後，索引比正文多了。

倒排索引：

1. 我（1:1）{0}，（2:1）{0}  2. 我是（1:1）{0},(2:1){0}  3. 中國（1:1）{2}  4. 中國人（1:1）{2}  5. 大學（2,1）{2}  6. 大學生（2,1）{2}    解釋：      （）中保存的第一個元素是文章id，第二個元素是出現次數。         {} 中保存的是當前分詞在文章中的偏移量。    通過這樣的方式，當我們去搜索的時候。比如搜索『中國』，當拿到中國的時候  就可以看到哪些地方含有中國這兩個字。類似於字典的目錄。

ES的優勢

橫向可擴展性: 只需要增加台伺服器，做一點兒配置，啟動一下Elasticsearch就可以併入集群。
分片機制提供更好的分布性:同一個索引分成多個分片(sharding), 這點類似於HDFS的塊機制;分而治之的方式可提升處理效率。
高可用提供複製( replica) 機制，一個分片可以設置多個複製，使得某台伺服器在宕機的情況下，集群仍舊可以照常運行，並會把伺服器宕機丟失的數據資訊複製恢復到其他可用節點上。
使用簡單:
共需一條命令就可以下載文件，然後很快就能搭建一一個站內搜索引擎。

Elasticsearch應用場景

大型分散式日誌分析系統ELK        elasticsearch（存儲日誌）+        logstash(收集日誌) +        kibana(展示數據)    大型電商商品搜索系統  網盤搜索引  網站內搜索

Elasticsearch版本控制

為什麼要進行版本控制

為了保證數據再多執行緒操作下的準確性

悲觀鎖和樂觀鎖

悲觀鎖：假設會發生並發衝突，屏蔽一切可能違反數據準確性的操作
樂觀鎖：假設不會發生並發衝突，只在提交操作是檢查是否違反數據完整性。

內部版本控制和外部版本控制

內部版本控制： version自增長，修改數據後，version會自動的加1
外部版本控制：為了保持_version與外部版本控制的數值一致

ES基本概念名詞

Cluster

代表一個集群，集群中有多個節點，其中有一個為主節點，這個主節點是可以通過選舉產生的，主從節點是對於集群內部來說的。es的一個概念就是去中心化，字面上理解就是無中心節點，這是對於集群外部來說的，因為從外部來看es集群，在邏輯上是個整體，你與任何一個節點的通訊和與整個es集群通訊是等價的。

Shards代表索引分片，es可以把一個完整的索引分成多個分片，這樣的好處是可以把一個大的索引拆分成多個，分布到不同的節點上。構成分散式搜索。分片的數量只能在索引創建前指定，並且索引創建後不能更改。

replicas代表索引副本，es可以設置多個索引的副本，副本的作用一是提高系統的容錯性，當某個節點某個分片損壞或丟失時可以從副本中恢復。二是提高es的查詢效率，es會自動對搜索請求進行負載均衡。

Recovery代表數據恢復或叫數據重新分布，es在有節點加入或退出時會根據機器的負載對索引分片進行重新分配，掛掉的節點重新啟動時也會進行數據恢復。

logstash 抽取MySQL的數據到ES的配置文件

input {    jdbc {      jdbc_driver_library => "G:developlogstash-7.3.2binjobmysql-connector-java.jar"      jdbc_driver_class => "com.mysql.jdbc.Driver"      jdbc_connection_string => "jdbc:mysql://localhost:3306/drugs_manager"      jdbc_user => "root"      jdbc_password => "root"      schedule => "* * * * *"      statement => "SELECT * FROM drugs;"      use_column_value => true      tracking_column_type => "timestamp"      tracking_column => "update_time"      last_run_metadata_path => "syncpoint_table"    }  }      #output {  #   stdout {  #    codec => rubydebug  #   }  #}      output {    elasticsearch {      hosts => ["127.0.0.1"]      user => ""      password => ""      index => "drugs_manager"      document_id => "%{id}"    }  }

ELK的理論雜項知識

區分9200埠口和9300埠

倒排索引

什麼是正排索引？

ES的優勢

Elasticsearch應用場景

Elasticsearch版本控制

ES基本概念名詞

logstash 抽取MySQL的數據到ES的配置文件

VirMach 便宜 VPS

QNews

ELK的理論雜項知識

區分9200埠口和9300埠

倒排索引

什麼是正排索引？

ES的優勢

Elasticsearch應用場景

Elasticsearch版本控制

ES基本概念名詞

logstash 抽取MySQL的數據到ES的配置文件

分享此文：

Related Posts

[ASP.NET Core 3框架揭秘] 配置[2]：讀取配置數據[下篇]

Windows10下JDK8的下載安裝與環境變數的配置

拼接GET請求的參數

使用Python抓取動態網站數據

VirMach 便宜 VPS

QNews

熱門搜尋