Elastic開源協議改了,用戶怎麼辦?

1月15日,全球著名的大數據搜索與實時處理公司Elastic公司CEO Shay Banon突然發文宣布,Elasticsearch和Kibana的其中一項開源許可協議將發生變更

據悉,此次許可協議變更對大部分免費使用默認發行版的社區用戶沒有影響,主要限制的是雲服務提供商。

當然這並不是Elastic第一次更改開源許可協議。專家介紹,Elastic曾在2018年就更改過一次開源許可協議。

同樣,在開源領域,資料庫軟體MongDB、Redis Lab、圖資料庫Neo4j等在2018年就修改過相關的開源許可協議,以改變其在資料庫商業化方面面臨的「吸血」困境。

此次Elastic修改開源軟體許可協議,必然會對使用Elasticsearch和Kibana的大量用戶生產重大影響,尤其會對公有雲上的用戶造成衝擊。如何規避影響,保證應用穩定持續運營是大量的中國用戶面臨的一個主要問題。

另外,在開源軟體得到大量應用的情況中,用戶不得不面對開源軟體協議修改帶來的巨大風險。

作為目前世界上非常流行的數據搜索與實時分析引擎,Elasticsearch大名鼎鼎,單單2018年其下載量就超過了2.25億人次,全球眾多公司以某一種形式使用它。

Elasticsearch首個版本發佈於2012年。經過7年多的更新迭代,Elastic Stack生態已經日漸成熟,在中國擁有越來越多的用戶,應用Elasticsearch的開發人群也不斷擴大。

開發者利用Elastic Stack開發出靈活的軟體,在搜索、日誌記錄、安全防護、運維指標監控、資料庫加速等應用場景,以及在互聯網與軟體業、金融業等行業得到廣泛應用。

近些年來,雲服務提供商一直在使用開源產品,修改其程式碼,開發託管(收費)服務解決方案版本。然而,修改後的程式碼將無法作為開源程式碼加以訪問。

同時雲服務商的商業行為也妨礙了開源軟體公司商業化。在開源許可下,如何實現盈利,實現更健康的發展,則成為開源軟體公司面臨的最大挑戰。

因此,Elasticsearch和Kibana在許可證方面進行了重大的更改,由開源Apache 2.0許可證,改為採用SSPL(伺服器端公共許可證)。

早在2018年,MongoDB就改變了許可協議,採用了SSPL(伺服器端公共許可證),以保護開源程式碼,避免被雲服務提供商用來開發自己的SaaS/DBaaS產品。

毫無疑問,Elastic更改許可協議對用戶尤其是雲上託管的應用必然造成巨大的衝擊。不少國家都把開源軟體修改許可協議,列為軟體產業發展的一大風險,引發全球相關用戶的恐慌

幸運的是。在國家政策的大力支援下,中國信創產業不斷發展壯大。在大數據綜合搜索的國產化自主可控方面,中國已經推出了自己的產品。

中國大數據與AI基礎軟體的領導企業星環科技已經推出了完全可以替換Elasticsearch的大數據綜合搜索引擎——Transwarp New Search這一國際領先的大規模統計和搜索融合引擎,不但可以完成用戶對全文搜索、關係的精確查詢及分析需求,而且還在半結構化數據檢索、時空數據檢索、語義檢索、模糊檢索等方面更勝一籌。

受國家自主可控政策的支援,以及星環科技技術的不斷突破,星環科技已經完成了大數據基礎軟體的完全自主研發,未來將不會存在開源軟體Hadoop身影,其大數據基礎軟體產品在不同領域開始替換甲骨文、IBM等國外軟體。

超過2000多家不同行業的用戶,選擇使用星環科技自主研發的平台構建大數據底層的基礎設施,為各個行業賦予相關的業務能力,涉及金融、政府、能源、製造、交通、教育等。

2.New Search青出於藍而勝於藍

星環科技自研的Transwarp New Search用於在企業內部構建大數據搜索引擎。New Search支援Word/Excel/PDF/CSV/互聯網數據/圖片/音影等非結構化數據格式的存儲和檢索,在PB級數據量上進行檢索時,能夠秒級返回。

在開發介面方面,New Search提供了完整的SQL語法,支援並提供搜索語法SQL擴展,通過和星環科技的分析型資料庫Inceptor優化器有效結合,使開發者無需了解底層架構,就可以開發出高效的搜索引擎。

與開源的大數據搜索引擎Elasticsearch(ES)相比,星環科技自研New Search具有更多的優勢

New Search提供分散式計算引擎,能滿足多表關聯和複雜聚合分析等場景需求,改變了開源的Elasticsearch聚合結果不準確的問題,提供精確聚合。

New Search支援標準SQL、SQL擴展搜索語義,以及Oracle、DB2L方言,配套星環自己的安全管控平台Guardian 和大數據管理平台Manager,方便安全管理和運維管理。

在全文檢索方面,New Search支援pdf/word/excel等常用格式文檔的存儲和搜索,提供中、維、藏、英、法、日、韓、德、西、葡等多種語言分詞器,支援文章相似度匹配、關鍵字提取、摘要提取等自然語言處理功能。

New Search時空資料庫模組支援包括點、線、多邊形、集合類型在內的OGC定義的標準圖形類型,支援基於WMTS協議的瓦片服務,支援伴隨分析、軌跡相似度匹配等時空資料庫演算法。

另外,New Search在大數據量、大集群環境下的性能表現優異,相對於開源的Elasticsearch(ES)有了明顯的改善

在硬體投入成本有限時,用戶希望要儘可能提高資源利用率,因此集群單節點支援實例量就顯得至關重要。New Search單節點支援單實例 50TB,遠超過開源ES單節點單實例10TB。

當用戶的數據總量達到百TB-PB量級時,採用開源ES軟體當實例超過100個節點時,會出現連環失聯等穩定性問題。而星環科技的New Search產品為大集群專門調優參數,能大幅緩解節點失聯等問題,而採用最新一代的New Search,支援節點或實例達到200個以上節點時,依然能有更好的穩定性

大數據搜索對高可用要求高,應能保證99%以上的SLA服務水平協議,在有節點異常情況下可自動快速恢復,當需要人工運維介入時能提供工具快速診斷和修復集群。開源ES軟體TB數量級節點重啟一般需要數小時,而星環科技的New Search,TB數量級節點重啟只需幾分鐘。 下圖所示為NS在不同存量數據規模情況下的重啟耗時,其中cold和hot的區別在於是否排除作業系統pageCache影響。
image.png

對於數據維度高,需要做多表關聯分的業務,星環科技的New Search一改開源ES不直接支援多表關聯操作的做法,滿足一個查詢結果需要從兩個或兩個以上表中提取欄位數據的多表關聯查詢的需求

對於短平快查詢,開源ES支援最大並發量一般在700-800,且受GC影響,查詢性能有毛刺。而星環科技的New Search一代產品查詢流程優化,減少一次rpc,響應時間減少30%,而且通過offheap、automerge、cooling等技術減少heap佔用,受GC影響變小。

最新一代New Search,進行了執行緒池優化和lucene優化,記憶體佔用繼續減小1/3,受GC波動更小,既滿足短平快查詢秒級需求,又能滿足查詢高峰期高並發量。如下圖所示,單機存量數據為4.5T的情況下,New Search通過對堆外記憶體的高效使用,大幅度減少了堆記憶體的佔用,明顯降低了GC壓力。
image.png

用戶的查詢主要針對最近N天內的數據,對再老的數據查詢頻度相對不高。面對這一需求,開源ES沒有對冷熱數據做特別處理,而星環科技的New Search對冷熱數據做了優化,提升了查詢性能

當集群規模很大,表格分片較多的情況下,開源ES由於其自身PP架構和平衡策略的局限,會造成DDL操作延遲非常高,造成明顯的使用卡頓和集群高負載。而New Search的中心式架構能夠明顯優化這方面的性能, 測試對比如下圖。
image.png

當每天的增量數據增加時,用戶對入庫性能就會提出特別的要求。如何保證入庫數據的性能呢?開源ES的數據入庫性能隨著數據量增大會逐漸變小。星環科技的New Search一代產品優化存儲格式,性能提升10%-20%;而二代產品加入bloomfilter索引,將入庫性能隨著數據量增大的影響儘可能減小,入庫性能繼續提高30%-70%。另外,支援bulkload功能,通過BulkLoad的方式快速導入海量數據

如下圖所示,是New Search在使用 TPC-DS標準數據進行批量寫入測試中的性能表現和ES的對比,單位為單節點/MB/秒。

image.png

除了綜合搜索產品的技術、性能以外。星環科技在大數據基礎軟體方面,可圈可點的地方還很多,如星環科技被認為是大數據領域產品線最豐富的企業,產品涉及數據領域眾多應用需求和場景,在中國有更多成功的案例,也能為中國用戶提供更好的本地化服務與支援等。

隨著開源軟體在全球範圍內不斷發展壯大,開源軟體的影響日益擴大,並成為軟體產業發展不可忽視的重要力量。開源軟體在全球的發展證明了這種模式不僅是商業模式,而且也是研發模式、推廣模式、產業化的模式。

伴隨著眾多開源軟體的商業化,以及眾多開源軟體成功IPO,在巨大的利益誘惑下,開源軟體企業頻頻修改開源協議,造成的風險不但不防。同樣開源軟體也可能受到貿易摩擦、貿易制裁的影響。因此,在國家自主可控政策的支援下,發展自主研發、自主可控的大數據基礎軟體大勢所趨,以滿足中國企業大數據應用的需求。