「回顧」百度智慧寫作如何通過人工智慧技術為媒體內容創作賦能?

  • 2019 年 11 月 21 日
  • 筆記

分享嘉賓:彭衛華 百度 主任研發架構師 編輯整理:馬宇峰

內容來源:百度大腦&DataFun AI Talk《智慧寫作:人工智慧為媒體內容創作賦能

出品社區:DataFun 註:文末附有百度知識圖譜部的職位資訊,感興趣的小夥伴可以關注下。

百度知識圖譜致力於構建最大最全最好的中文知識圖譜,匯聚知識,連接萬物。通過知識映射真實世界、理解世界,讓複雜的世界更簡單。今天我主要分享知識圖譜部智慧寫作方向的相關研究工作和應用實踐。

近幾年中國外的各大科技公司與媒體公司都紛紛布局智慧寫作,例如國外的美聯社,中國的新華社,技術公司BAT等等。為什麼智慧寫作如此受到關注,它能為媒體內容創作帶來什麼樣的價值,下面開始我們的分享。

背景:

隨著科技的發展,人工智慧已經進入到認知階段,AI不僅僅被認為是一種演算法、平台、解決方案,也是一種生態和生產力,可以大大推動傳統產業的進步並改造它。

從最初的運算智慧,到後期的感知智慧(人臉識別、語音識別),再到當前探索的認知智慧,有了長足的發展。然而,機器目前還無法與人類一樣理解思考,也無法無中生有創造出新的知識,所以目前我們仍處在弱人工智慧階段。儘管如此,AI已經展示出其強大的生產力,並已經涉足到我們的各個生活場景中,包括智慧搜索、智慧推薦、智慧醫療等,也包括我今天要介紹的智慧寫作。

寫作任務大概可以從「採集、構思、表述」三個階段來描述,無論是側重於權威性的機構媒體,還是擁有獨特風格的自媒體,都一直飽受創作效率的困擾。受限於主題選材、寫作過程中出現的敏感詞、錯別字等因素,創作內容的成本一直居高不下。在自媒體領域,由於消費者關注力的馬太效應,部分自媒體創作者逐利而去蹭熱點,導致中長尾內容不足。例如文章配圖,一些創作者找圖片是直接在百度圖片裡面搜索,再選擇粘貼到文章中,這樣的創作效率是極為低下的,消費者的馬太效應對整個內容的中長尾生態也影響較大,長期來看損害內容與流量的生態價值。

從內容價值的角度出發,可以簡單理解為:

1. 內容本身的價值(品質、深度等); 2. 有價值的組織形式(專題、脈絡、知識圖譜等); 3. 內容的智慧分發(個性化、場景化)。

針對這三種場景,智慧寫作均可以發揮它的作用。創作過程中,可以提升效率;組織過程中,可以自動化組織;智慧分發中,可以應用動態內容生成的技術,讓用戶對分發的內容更感興趣。

現階段,智慧寫作相比於人類,還有很大差距,人類擅長進行長文本、情感類的文章寫作,寫出高品質的有個性的文章。智慧寫作在資訊與數據的處理上更佔優勢,可以大大提升聚合、時效類文章的創作效率。

智慧寫作可以通過人機協作的方式,有效地將智慧的效率優勢與人工的創造性、深度性結合起來,降低人工繁瑣、機械的勞動,不斷補充優化內容生態。

從技術布局上來講,主要分為兩個部分,基礎技術部分與智慧寫作部分。其中基礎技術包括語言理解與生成、素材清洗與檢索、知識認知與話題挖掘,並且需要有一定的質控保證。語言部分的技術是核心,延展開非文本類數據之外,是多模理解與多模生成。智慧寫作部分主要包括自動寫作與輔助寫作,前者主要用於數據寫作、聚合寫作,後者主要體現在創意激發、素材推薦、品質評估等場景上。

自動寫作部分

自動寫作服務於內容生態,並已經在百家號、阿拉丁、地圖等多個業務場景下落地。從產出的文章類型來看,主要分為快訊類、聚合類,此外還會包括科普類、影片轉寫的一些內容。

從寫作的流程來看,首先是寫作觸發,接著文章生成,然後是品質控制,最後是文章發布。其中最開始的是寫作觸發,具體包括熱點發現、主題分析、觀點分析等,以生成滿足用戶需求的文章。此外最重要的部分是文章生成,分為下面三個部分:

1. 宏觀規劃,具體包括素材組織與篇章結構規劃; 2. 微觀規劃,具體包括辭彙選擇與句子結構規劃; 3. 表層實現,具體包括文本生成與潤色配圖等。

素材組織依賴於知識驅動產生的主題關聯,文本生成則依賴於自然語言生成,結合通識知識圖譜與行業知識圖譜,以及包含事件等因素的複雜知識圖譜,來完成文本到文本、數據到文本,以及多模到文本的文章生成。

在深入寫作關鍵技術之前,首先我們探討下知識圖譜的定義。簡單來說,知識圖譜就是知識的彙集、整理以及再加工,圖譜中的每條邊,均是基於語義的鏈接,是一個極其複雜的知識語義網路。事件圖譜與傳統知識圖譜完全不一樣,可以持續地動態地獲取客觀世界的事件,並豐富事件屬性、建立事件間關聯關係,構成以事件為基本單位的知識網路。目前百度知識圖譜數據包含億級別實體以及千億級別的事實,以專家權威、百科實體、垂類挖掘與全網屬性挖掘為組成部分,可以做到高時效性的秒級更新,在智慧寫作中扮演著核心角色,貫穿智慧寫作的全部流程。

下面簡單介紹下話題挖掘,話題挖掘是指挖掘提取出用戶有需要的、且適合機器寫作的主題。首先從微博、feed內容等資源中,通過知識圖譜提取、匹配出熱點事件與概念,接下來判斷是否適合機器寫作,過濾掉太發散、太泛的話題;生成的話題包括非個性化與個性化的話題,其中個性化話題是通過用戶畫像進行定向下發。

第二主要介紹素材組織。以財經類寫作為例,傳統做法是首先挖掘寫作主題與相關關鍵詞,通過檢索關聯素材,嵌入人工模板中,得到的文章往往零散而邏輯性不強,浮於淺層。在我們的做法中,主要通過知識圖譜來驅動,通過事件觸發,匹配財經、市場、板塊等領域素材,進一步融合理論知識與權威評論,考慮一些歸納分析等方法,得到最終的素材關聯與組織形式。

第三個關鍵技術是文本生成。文本生成的關鍵技術主要是自然語言生成(NLG)與知識圖譜(KG)。自然語言理解(NLU)與自然語言生成(NLG)是我們常用的自然語言處理(NLP)的兩個主要方向。NLG主要包含text2text、data2text、多模到文本三種形式,考慮知識圖譜作為先驗知識進行相關生成。從人工方案角度講,主要有人工規則與模板兩種。從機器學習方法上來講,深度學習方向主要包含:seq2seq、DRL、VAE、GAN等相關技術,非深度學習技術方向包括:排序、基於文法、規則/模板學習、概率圖模型等。

下面詳細介紹文本生成的相關技術,主要是text2text的形式。首先通過實體圖譜、事件圖譜、行文、評論集等數據源獲取文本集,接下來通過文本生成和摘要演算法獲取相應的文章。當然基於seq2seq的方法生成高品質的長摘要比較困難,但可以生成短句與標題。也可以通過抽取式摘要的方法,生成相關短摘要內容。可以看到seq2seq主要依賴於encoder與decoder兩個步驟,貫穿其中的是sequence的表徵,學習這種表徵的方法我們稱之為表示學習。

表徵學習在近幾年得到非常快速的演進。比較早期的word2vec模型,它可以有效地計算單詞之間的語義相似度,但由於是詞袋模型丟失了詞的依賴關聯關係;CNN模型可以局部建模詞的依賴關係,但無法解決長距離依賴問題,應運而生的是RNN模型,以及配套的LSTM、GRU方法。去年一個重大的突破就是ELMo,提出解決一詞多義的問題,突破了word2vec只有單一embedding的限制。然而基於RNN的方法其並行化做得不夠,並且各種基於RNN的改進方案均無法表現出類似於人類的注意力感知機制,後續就誕生了transformer方法,誕生了GPT模型,然而其只考慮了單向學習。最終的集大成者是BERT模型,考慮了一些巧妙的創新,融合了前面的各種改進,得到了當前最佳的表示學習模型(計算複雜度相當高)。

下面介紹目前我們在探索的摘要生成方法。其是在seq2seq+attention模型的基礎上引入pointer network機制構造出了新的文本摘要模型。這個模型既能夠從源文本中選擇複製單詞,同時還保留從固定辭彙集中生成單詞的能力,在loss上對重複出現的詞進行打壓,取得了不錯的效果。

接著介紹我們是如何從事件脈絡生成聚合類文章。針對嫦娥四號發射時間,首先從事件圖譜中檢索相關的時間點與事件,生成相應的事件脈絡。之後通過篇章規劃、自動文摘,生成相關的聚合文章,這個流程也可以用在娛樂明星的新聞生成上。

之後介紹的是data2text方法。主要還是基於模板的方法進行生成,首先通過對現有資訊中的文本組織形式學習,通過bootstrap演算法自動生成相關的模板,再加以人工修正與設置觸發條件。當有新的數據進入,則根據模板生成相應的文章。

然後介紹的是多模到文本生成方法。主要依賴於知識圖譜與影片理解技術,通過影片分析,從標題、關鍵幀、字幕等數據源,獲取相應的多模實體解析。再通過知識圖譜進行關聯,進行聯合推斷產出相關的文字。

整體說,內容生成技術主要從兩個角度考慮,多模態的理解與跨語言內容的生成。多模態包含各種數據到文本的技術,包括影片、圖片、數據等。跨語言的內容主要包含各種跨語言轉譯的生成技術。

目前自動寫作秒級生成文章,中長尾內容佔比提升2倍以上,累計發文量百萬量級,累計閱讀量十億量級,日均產出千級別文章,日均閱讀數百萬量級,覆蓋數十類領域,點展比略好於人工,閱讀完成率略差於人工文章。

輔助寫作

輔助寫作主要是指輸出智慧寫作技術,賦能內容創作者提升寫作效率與品質。已在百家號、若干媒體落地。與智慧寫作不同,主要面向於人配合完成寫作相關步驟。

輔助寫作主要作用在寫作前、寫作中、寫作後,具體地說:

1. 寫作前:話題挖掘(熱點發現、觀點提取等)、素材組織(專題分析、知識關聯等); 2. 寫作中:素材查詢(圖片關聯、觀點檢索等)、內容聯想(標題推薦、知識提示等); 3. 寫作後:自動封面、內容糾錯、智慧改寫、品質檢測。

與自動寫作不同,人工更願意創作有深度的文章。因而第一個關鍵技術即是寫作話題挖掘。通過新事件的發現、與長尾趣味話題的挖掘,提取一些話題源,並識別相關實體。接下來通過實體關注面的分析,獲取該實體的用戶關注點,併產出實體相關關係,與趣味話題。最終通過話題生成、稀缺性判斷、領域類劃分,獲取到用戶感興趣的話題,最終進行相關話題投放。可以看到熱點話題的一些具體頁面:

輔助寫作的第二個關鍵技術是智慧糾錯與品質檢測,這裡不進行技術介紹,在應用上通過各種提示提升作者的寫作體驗。

輔助寫作應用效果,在話題推薦上,基於全網挖掘行業熱點,每天發現覆蓋20+類領域的數千個熱點事件,准實時熱點發現。基於熱點事件與知識圖譜的理解、擴展能力,多角度挖掘話題,每天新增話題千量級。每天推薦話題被創作者採納率90%以上。

下面簡單介紹下智慧寫作的挑戰。具體包含如下六點:

1. 文本生成連貫性:如何輔助檢測是否通順;如何檢測是否存在語病; 2. 真實性:如何保證資訊的真實性、來源的真實性、如何保證生成過程的邏輯性; 3. 深度文章:如何生成有深度的文章,知識圖譜與認知推理足夠么; 4. 高品質:寫作全流程均需要保證,文章內容質控功能; 5. 情感:如何生成有情感、有觀點的文章,用詞遣句融入情感; 6. 輔助寫作評估:如何評估輔助寫作的功能回饋,回饋通路過長。

總結:

當前來看,智慧寫作價值主要體現在,解決媒體內容創作痛點,完善內容生態,提升內容價值。從技術布局來講,智慧寫作基礎技術主要依賴於語言、知識;通過素材、話題、質控保證智慧寫作的順利進行;智慧寫作應用技術主要體現在自動寫作與輔助寫作兩方面,前者擅長快訊類、聚合類等類型文章寫作,深度文章生成等技術仍面臨較大挑戰,後者提升內容創作者的寫作效率與品質,未來應用前景廣泛。

展望:

後續展望過程中,我們希望繼續深耕智慧寫作技術,深化影響內容產業,輻射到全行業自媒體與機構媒體。不僅是懂內容、寫內容,更重要的是考慮創作者需求、用戶需求,讓智慧寫作更自動化、更智慧化,讓智慧寫作無處不在。

作者介紹

彭衛華 百度 主任研發架構師

彭衛華,百度主任研發架構師。碩士畢業於哈爾濱工業大學,百度知識圖譜部主任研發架構師,目前負責複雜知識圖譜、行業知識圖譜、智慧寫作等知識構建與認知方向的研發工作。擅長搜索&推薦演算法、機器學習、自然語言處理等技術,擁有9年以上相關的工業界實踐經驗。