90後技術宅研發Magi一夜爆紅,新一代知識化結構搜索新時代來了?

  • 2019 年 11 月 13 日
  • 筆記

以下文章來源於AI科技大本營,作者CSDN APP

導讀:11 月 7 日,微信群里突然炸了,大家似乎都在討論一個叫做 Magi 的搜索引擎,據說搜索結果和現在的搜索引擎很不一樣,能夠輸出以結構化知識呈現的結果。

創始人季逸超表示,Magi 其實並不是單純的網頁搜索引擎,而是自主閱讀文本並持續糾錯的 AI。

Magi究竟有多神奇呢?

整理:夕顏

來源:AI科技大本營(ID:rgznai100)

Magi 彷彿「一夜爆紅」,訪問量劇增,導致自 2012 年就不再更新微博,其他社交媒體也久未有動態的創始人季逸超更新了一條微博:

內容大致是不知道為何 Magi 突然躥紅,在沒有做任何推廣的前提下訪問量劇增,導致 Magi 伺服器直接崩了……

在置頂微博中,自稱自閉很久的創始人還告訴大家,Magi 其實並不是單純的網頁搜索引擎,而是自主閱讀文本並持續糾錯的 AI。

這個 AI 真的有這麼神奇嗎?帶著疑問,我們上手實測了一把,結果一下子震驚了。

從上圖中可以看到,單單是頁面簡潔的風格就讓人很舒爽,重要的是搜索結果不僅有較為精準的描述,屬性中的每一個結果還有對應的鏈接,並帶有標籤和主要學習來源部分,最關鍵的一點是,搜索結果以結構化知識的形式呈現。

相比之下,一些目前流行的搜索引擎效果相形見絀。

再比如輸入「大棗和紅棗」,結果不但會羅列出功效,還會給出「斷言」,表示這兩個概念是「近義項」「又名」「又稱」「也稱」的關係,把滑鼠放在右側的學習來源上,還會顯示出斷言的根據。

反觀另一款流行瀏覽器,輸入相同的關鍵字,得出的結果如下圖,第一條和第二條都是廣告,第三條總算有點用了,第四條的時間顯示這還是去年的答案。

偶然間在 magi.com 首頁停留了一會,我們發現了一個小秘密,Magi 竟然在不斷地學習,上圖中,短短几秒鐘時間,Magi 就學習到了「德國」「防長」兩個詞。總之很神奇。

這不禁讓人好奇,Magi 究竟是怎樣一種搜索引擎呢?為什麼搜索效果不同於一般搜索引擎?背後使用了哪些 AI 相關技術?

接下來,通過 Magi 的官網介紹和季逸超的技術解讀,我們可以從中大致了解到這個產品的一部分細節。

01 Magi 是什麼?能做什麼?

據官網介紹,Magi 是由 Peak Labs 從無到有自研的基於機器學習的資訊抽取和檢索系統,它能將任何領域的自然語言文本中的知識提取成結構化的數據,通過終身學習持續聚合和糾錯,進而為人類用戶和其他人工智慧提供可解析、可檢索、可溯源的知識體系。11 月,Peak Labs 發布了公眾版 Magi.com。

與搜索引擎不同,Magi 不僅收錄互聯網上的海量文本,還會去嘗試理解並學習這些文本中蘊含的知識和數據。此外,Magi 從零研發了一套互聯網搜索引擎,所以 Magi.com 同時提供全網規模的普通搜索結果,學習過程是在無人干預的情況下 7 x 24 小時不間斷運行。

02 AI 技術解讀

互聯網數據浩如煙海,品質參差不齊,如何將這些數據處理成機器能夠理解的數據結構時隔巨大的挑戰。Magi.com 提供了與互聯網數據交互的新方式,而 Magi 系統背後的技術平台則承載著另一半重要的意義:讓機器像人一樣能理解並充分利用互聯網中無窮無盡的知識。

那麼,Magi 到底用到了哪些 AI 技術呢?

  • 從零設計研發了整個技術堆棧,包括原創 succinct 索引結構的分散式搜索引擎
  • 使用專門設計的 Attention 網路的神經提取系統
  • 不依賴 Headless 瀏覽器的流式抓取系統
  • 支援混合處理 170 余種語言的自然語言處理管線
  • 獨一無二的訓練/預訓練數據。
  • 這個系統通過引入傳統搜索中的 query-independent 品質因素,使得優質可靠的消息源會更被重視
  • 其基於多級遷移學習的提取模型則完全摒棄了人工規則、角色標註、依存分析等限制泛化能力的環節,並且可在 zero-resource 的前提下直接應用到各種外語文本上並取得令人滿意的效果
  • 而隨著數據的積累以及來源多樣性的擴充,這個系統還能夠持續學習與調整,自動消除學習到的噪音和錯誤結果。

而季逸超本人也在 Magi 推出後在知乎上進行了更加詳細而全面的技術解讀。

來源:知乎用戶季逸超

鏈接:

https://www.zhihu.com/question/354059866/answer/881655371

1. 工作原理

▲How it works (靈魂手繪湊合看吧…)

幾年來 Magi 的產品形態改變了很多(請分開看待 Magi 系統和 Magi.com 這個搜索引擎),技術上的進步主要體現在以下幾點:

利用率和通用性:

  1. 能夠 exhaustively 提取重疊交錯的知識,且不利用 HTML 特徵。
  2. 不預設 predicate / verb,實現真正意義上的 「Open」 Information Extraction。具體來說,Magi 不再依賴於預設的規則和領域,「不帶著問題」 地去學習和理解互聯網上的文本資訊,同時儘可能找出全部資訊 (exhaustive) 而非挑選唯一最佳 (most promising)。Magi 通過一系列預訓練任務淡化了具體實體或領域相關的概念,轉而學習 「人們可能會關注內容中的哪些資訊?」。為 Magi 設計了專門的特徵表達、網路模型、訓練任務、系統平台,並投入大量精力逐漸構建了 proprietary 的專用訓練/預訓練數據

覆蓋率和實效性:

  1. 配合自家 web 搜索引擎以評估來源品質,資訊源和領域不設白名單,綜合Clarity(清晰度)、Credibility(可信度)、Catholicity(普適性)三個 Magi 權衡知識工程的規模化和準確性難題的量化標準來進行來源品質評估。
  2. 大幅提升實時性,熱點新聞發布後幾分鐘內,就可以搜到結構化知識了。

可塑性和國際化:

  1. 沒有前置 NER 和 dependency parsing 等環節,減少母文本資訊的損失。為 Magi 的提取模型設計了專用的 Attention 網路結構以及數個配套的預訓練任務。具體來說,網路結構主要解決了複雜依賴關係和搜索空間爆炸的問題,讓長文本下高效的 exhaustive 的知識提取成為可能。預訓練任務則是對上述 「環節」 問題的新嘗試,主要目標是淡化實體、predicate、領域的約束,充分利用多種不同的訓練數據,並且降低線上持續學習修正過程中模型更新的開銷。
  2. 技術棧完全 language-independent,可以實現低資源和跨語言 transfer。由於技術棧本身已經完全 language-independent,在設計預訓練任務時,會專門 「引導」 並期望模型能在較淺層對語言有足夠的抽象能力。

2. Peak Labs和創始人PeakJi

到這裡,技術部分基本上已經講完了,如果你對 Magi 的技術感興趣,可以訪問官網和季逸超的知乎,了解更多技術細節。

官網:

https://www.peak-labs.com/docs/zh/Magi/intro

現在我們來了解一下 Magi 背後的團隊——Peak Labs,以及創始人 PeakJi 。

先說這位具有傳奇色彩的創始人PeakJi。

PeakJi 真名季逸超,90 後男生,小時候在美國生活,在北大附中讀高中期間接觸 iOS並加入威鋒網 WEIP 技術組,先後參與了 wefit 輸入法的完善和各種越獄研究,高三設計並開發猛獁 1 網頁瀏覽器,大一推出猛獁 4。

雖然現在 App 應用市場已經看不到猛獁網頁瀏覽器的身影,但在當時這個瀏覽器被國際知名評測網站 App Advice評價,「猛獁4」重新定義了瀏覽器的標準,還有測試網站建議在 iPhone 上預裝這款瀏覽器,可見其影響力。這讓他在 IT 界一炮而紅,並斬獲了 Macworld 2011 特等獎。

據說,PeakJi 所有的產品都是由他獨自完成設計、美工、演算法、編碼、測試和推廣,是個十足的天才少年。

2013 年,季逸超入選福布斯創業榜30 位 30 歲以下的中國大學生創業者清單,登上《福布斯》雜誌封面。

在現實生活中,季逸超似乎是個具有奇怪幽默感的人。在知乎上「季逸超是一個什麼樣的人?他有什麼軼事?」的問題中,他腦補出一出本人被人肉並「悲劇」的大戲,並以第三者的視角告訴大家,他只是一個熱愛電腦,與程式碼世界有著不解之緣的技術宅,還自嘲是登上《福布斯》榜最窮的人?。

2012 年,在北大念書的季逸超創建 Peak Labs,並發明了 Rasgueado 輸入法。Peak Labs 由紅杉資本和真格基金共同出資組建,聚焦於資訊提取和檢索技術的研究和開發,把自然語言中的知識轉化為不可估量的價值。

目前來看,Peak Labs 的產品和技術包括神經資訊提取系統 Ireul,網頁大規模搜索引擎 Ramiel,多語言分析 pipeline Arael 和分散式檢索系統 Matarael 等,Magi 服務包括普惠版和企業版兩種。

最後,不得提一下,Magi 也有很多不足之處,這一點 Magi 官網和季逸超都坦承,Magi 確實還存在一些問題,比如消歧義、工程性,以及規模化和準確度等。

事實上也是這樣,在搜索一些簡單的問題時,有時你會發現 Magi 給不出讓人滿意的答案,甚至有點令人噴飯,而且速度更慢一些:

關於搜索慢的問題,季逸超也在微博中說明了,這是由於單次搜索的計算量比一般的網頁搜索要重很多。

另外,它不是一款搜索引擎,像搜索網址這類任務也達不到很好的效果,也無法進行圖片搜索。

Peak Labs 的官網指出,Magi 已經展示出的開放領域資訊提取能力,可以應用到企業客戶所在的細分領域內,變成一個更加強大的資訊抽取系統,讓每一個領域、每一家企業都可以輕鬆地打造屬於自己的知識圖譜,他們希望未來的 Magi 系統能夠成為「知識領域的 ImageNet」。

正如官網所說,Magi 現在還遠算不上成熟,但其特性決定了它無窮的可能性和成長空間。也許在不遠的未來,伴隨著整個行業的進步,Magi 所構建的包容萬事萬物的結構化網路將成為通向可解釋人工智慧的基石。

未來,也許 Magi 會成為打破現有搜索引擎原理的新範式,開啟全新的結構化知識搜索引擎時代,改變我們對資訊檢索和知識獲取方式的刻板印象,誰說得准呢?所以,多一點耐心,相信 Magi 或類似的研究會帶給我們更多的驚喜。