阿里的「掃地僧」 2年「抄」了20萬頁古籍

2021 年 5 月 18 日
資訊
阿里巴巴

阿里達摩院，一個正兒八經搞AI的地方。

但偏偏「掃地僧」們干起了文縐縐的工作：研究古籍。

他們將流散海外的珍貴古籍善本以數字化的形式請回故土。

第一批達20萬頁。

△宋百家詩存

當理科生干起了專業文科生的工作，會擦出怎樣的火花？

古籍為何「出海」，又如何「回來」？

關於這個故事，很精彩，也很有意義。

古籍為何外流？

1860年（清咸豐10年），五千年文明古國此刻風雨飄搖。

北有英法聯軍搗毀圓明園，逼迫中國簽下《天津條約》、《北京條約》。

南有太平軍進入杭州，藏有《四庫全書》的「南三閣」之一杭州文瀾閣，次年毀於戰亂。

閣圮而書散，無數經典，從此淹沒在歷史中。

文瀾閣遭遇「滅頂之災」後，杭州藏書家丁申、丁丙兄弟在逃難途中無意間發現文瀾閣《四庫全書》殘編。

相傳，丁式兄弟買包子時，偶爾發現包食物的紙，「皆四庫書也」，大驚。

於是他們開始緊急救書，上下打點，四處尋訪。

經歷這輪戰亂，文瀾閣本《四庫全書》的四分之一被丁氏兄弟搶救，四分之三消散飄零，不知所蹤。

直到將近100年後的1950年代，清代曹庭棟輯纂的《宋百家詩存》 （卷七），出現在美國加州大學伯克利分校東亞圖書館。

而這本《宋百家詩存》，正是丟失的文瀾閣本《四庫全書》之一。

目前有線索可查的，只能明確伯克利東亞圖書館從日本三井文庫購得這批古書。

這類古書文物到底經歷了怎樣的顛簸流離，如今已不可考。

據不完全估計，近代散居海外的中國古籍超過40萬部、400萬冊，包括甲骨簡牘、敦煌遺書、宋元善本、明清精槧、拓本輿圖、少數民族文獻等等。

如今山河無恙，但流散海外的古書典籍，卻成了中國文學、歷史研究，以及傳統文化傳承難以彌補的遺憾。

「再現」20萬頁古籍

大約兩年前，阿里巴巴聯合四川大學、美國加州大學伯克利分校，共同發起一項公益項目漢典重光，尋覓那些流散在海外的中國古籍，藉助達摩院的AI技術，用數字化的方式讓它們回歸故土。

而鮮有接觸古籍的達摩院「掃地僧」們，一開始還不知道AI錄入古書是多麼有挑戰的任務。

OCR（光學字元識別），其實是一種常用的電腦視覺技術，經常被用來識別文字，比如證件、票據、電商平台的商品圖片等。

但是，我們生活中常見的OCR，絕大部分是針對現代漢字，而且還是印刷字體，把這樣的系統直接拿來用在古書上，根本行不通。

首先，古籍文字的類別極其龐大。現代漢語常用字不過6000多個，常見印刷體，演算法能夠覆蓋到的文字基本上在2萬字以內。

但是據估計，古籍文字多達幾十萬。

為什麼古籍上面有如此多的字？

古籍上面每個字都有不同的寫法。比如一個「郷」有各種寫法。

此外，還有字體的變化。在雕版印刷古籍中，即使是同一拓片在不同季節、氣候、地點印出的書也完全不同，而那些人工抄錄的古書，更是千人千面。

每一個字形，即使表意可能相同，對於AI來說，也是一個需要重新學習記憶的新知識。

第三，古書版式複雜。除了不同於如今的從右到左，從上到下的排版，在每行字中間還常常夾有批註，這就使得常規使用的行識別方法失效。

△古籍版式複雜

最後，由於年代久遠，古書保存狀況也各有不同，在AI看來，紙張破損、污漬等等相當於大量的人為雜訊。

而達摩院，專門為古籍識別開發出了新的系統的。

主要分為兩大步，一是聚類數據生產識別，二是主動學習數據生產識別。用到了單字檢測、無監督影像聚類、少樣本分類、主動學習等一系列機器學習方法。

首先是全書檢測，把古籍正文中的每個字都摳出來，作為單獨的一張圖。

其次是聚類。

一本古籍總字數可能有10萬字,但其中有很多字是重複的，比如「之、乎、者、也」,聚類所做的事就是讓機器自動把字形筆畫一致的字歸為一類,接著再由人工進行標註。也就是說，原來要人工標註全部10萬字的書，經過聚類，只需要對全部二三千字類進行標註，一類字只標註一次。

聚類和人工標註，不僅完成了每一類文字的認字過程，還收穫更多新的訓練樣本，可以繼續餵給機器學習。

一般來說，數據越多，越有利於模型的訓練。但古籍里有很多異體字、生僻字，出現概率極低，根本無法尋覓這麼多的樣本。

所以團隊想到了讓機器自動生成樣本。使用字體遷移方法來使合成數據，機器自動為每個字合成幾個新的樣本，確保單字樣本量達到10個。這樣，就有足夠數據訓練少樣本識別模型。

得到少樣本識別模型之後，就能投入使用，把第一步全書檢測獲得的所有圖片進行重新標註。不同於上一輪聚類+人工打標，這次是識別模型的自動標註，如果識別打標的數據與前一輪聚類的結果一致，就可以認為這張圖片當前標籤是對的。如果不一致，那就讓這個字回到聚類步驟，繼續迭代。

從聚類打標到少樣本模型打標走完一輪，全書70%左右的文字可以被打上正確的標籤，餘下的30%，從頭開始再來一遍，第二輪迭代，又能解決餘下文字中的70%。

經過兩輪迭代，一本書的91%的文字可以被打上正確的標籤。

它們不僅沉澱為了機器的字典，也是更豐富的訓練數據。通過前期一本書、一本書地學習，產生的訓練數據越來越多，機器的認字能力也越來越強。

最後，就是訓練最終模型，能對100本以上的書進行批量識別的單字分類模型。這個模型一出手，對批量數據的識別準確率就高達96%。隨著模型的優化和迭代，目前系統對20萬頁古籍的整體識別準確率已經達到97.5%。今後，AI學到的數據越多，模型的進化程度也會越高。

回到模型「養成」環節，AI識別完絕大部分文字，剩下的需要人工專家補充標註。

那麼問題又來了AI怎麼知道哪一部分是識別好的，哪一部分是需要交給人類專家的呢？

這個時候，主動學習演算法出場了。通過它，機器自己就能找出那些它識別不了的文字，交給人類來做最後一步工作。

以往，人工標註通常需要「兩錄一檢」以達到99.97%的出版要求。

以一本100萬字的古籍為例，如果全靠專家錄入，每人1000字/天，需要1000天。

達摩院的古籍識別演算法，用AI替代人工，在兩個環節大幅壓縮了專家標註工作量。

在機器為主進行識別的97.5%的內容中，約有1%（1萬字左右）需要專家錄入；機器不能識別的餘下2.5%（2.5萬字）的文字，全部交給專家做後期標註。

兩部分相加，人工的工作量佔全書的3.5%（3.5萬字），還是按照一人1000字/天算，需要35天。因此，相比人工專家錄入，百萬字書籍的數字化工作量從1000天降低到了35天，效率比人工專家錄入方案提升近30倍。

阿里達摩院的AI古籍識別演算法，為中華古籍的回歸提供了另一種可行可期的思路。

不簡單的工作

2年，20萬頁，平均下來每天280頁。

再細算一下，每個小時就是11頁，還得是在不吃不喝的那種情況。

這對於用傳統方式「復現」古籍來說，簡直是mission impossible。

為什麼這麼說？

舉個「人工錄入」的例子，便一目了然。

在乾隆皇帝執政期間，便組織過一次對《四庫全書》的編撰。

《四庫全書》共包含3500種書、7.9 萬卷、3.6萬冊，總字數多達8億。

而當年參與次項目的人數則多達3800人，包括紀昀等360多位高官、學者。

但即便如此人力之下，也是耗時15年才完成。

然而量大，並不是這個工作的唯一難點。

非常直接的一個問題，便是「理科生」和「文科生」之間的碰撞。

阿里達摩院、四川大學歷史文化學院，雙方在各自的領域都堪稱是專家級別。

但之於對方的領域呢？說是小白也不足為過了。

而且AI技術、古籍文化，還都屬於上手門檻很高的那種。

為此，雙方可謂是惡補知識短板。

歷史學家、文獻學家，要去學習電腦、AI相關的基礎知識，要了解用AI技術識別古籍到底是怎樣一個過程。

而阿里達摩院的工程師們，也花費了相當多的精力，去學習歷史相關知識。

例如古籍的版本、雕版、印刷、裝幀、內容，還包括古文字、古代文化知識等等。

用四川大學歷史文化學院副院長王果教授的話說，就是：在技術研發過程中，比之前預想到的難度還要大。

為此，雙方在杭州、成都，開了不下10次的技術研討會。

整體而言，漢典重光走過的這兩年時間，道阻且長、困難重重。

但阿里達摩院和四川大學歷史文化學院，卻對此從未放棄過。

之於原因，實則這項工作背後所蘊含的意義，不僅僅是「復現」這麼簡單。

「復現」古籍，意義非凡

讓在海外「顛沛流離」的古籍回家，讓「沉眠」數百甚至上千年的古籍入世，真的有那麼重要嗎？

是的，而且非常重要。

具體而言，可以從三個方面來看。

首先是國家層面。

古籍是中華文明的「魂器」，國家圖書館副館長張志清說。

縱觀歷史上世界四大文明，能夠延續至今的，也只有中華文明。

很重要原因是，中國擁有一個連綿不絕、經典的文獻世界。

中國從古便有盛世修史和盛世整理古籍的傳統。

修史、整理文獻，表面上是修復殘破、逸散的古籍，本質上實則是補全中國文化最重要的載體，是修復中華文明生生不息的生命力，綿延中國文化不息的源泉。

「十四五」規劃和國家中長期發展規劃中，古籍的保護、整理、研究、利用，得到高度重視。

△宋百家詩存卷首

其次，是研究者、學者層面。

以這次從伯克利回歸的20萬頁古籍來講，就有很多中國少見或者是沒有的珍稀善本。

因此，當這些回歸的古籍被AI識別並數字化以後，研究人員、學者足不出戶，便可以研究在海外的、無法獲取的古籍，未來有望產生一大批重要的研究成果。

最後，是民眾層面。

或許很多人會認為古籍離普通老百姓甚是遙遠，但實則不然。

中國古籍的內容浩如煙海，擁有非常龐大且複雜的知識體系，所涉及的範圍也是極其廣泛。

從應對自然災害、流行疫病、經濟波動、政治鬥爭、外交危機、氣候變遷等等內容的經驗。

有戰爭、瘟疫、地震、洪澇災害、病蟲害等等方面的經驗總結，更貼近生活的，還包括醫療、中藥、養生、傢具、服飾、飲食文化等等。

而這些都是「老祖宗」們幾千年來的經驗總結和積累，是民族智慧的繼承。

漢典重光項目沒有停留在「回歸」海外古籍這個層面，以數字化的形式來展現，大大降低了人們學習、閱讀古籍的門檻，拉近了人們與中國文化的距離。

在發布會現場，許多研究古籍的知名教授也親臨現場，他們的眼中充滿了對古籍研究的熱情與使命感。

中央文史館館員、四川大學教授陳力說，他最大的心愿是，利用現代技術，讓古籍活起來，讓老百姓在古籍面前和祖宗對話，和傳統文化親密接觸。

再細數參與此次工作的人員，除了川大的老一輩教授、專家們，像博士生、碩士生，甚至本科生也參與到了其中。

某種程度上，這也是保護文化的一種傳承。

也正如阿里達摩院院長張建鋒表示：守護中華傳世典籍，是科技工作者和文化工作者共同的使命。

而此次「數字化回歸」的這20萬頁古籍，只是漢典重光邁出的第一步。

阿里和川大還將繼續聯手，讓「離家百年、去國萬里」的更多中國璀璨古籍，以數字化方式回歸故里。

最後，奉上此次「漢典重光」首批數字化古籍重要書目，若想體驗完整數位版，可戳文末鏈接~

漢典重光 · 古籍數字化平台：//wenyuan.aliyun.com/home

Tags: 阿里巴巴

阿里的「掃地僧」 2年「抄」了20萬頁古籍

VirMach 便宜 VPS

QNews

阿里的「掃地僧」 2年「抄」了20萬頁古籍

分享此文：

Related Posts

日本載26人觀光船遇險失聯 求救時船體出現傾斜：感受下

還買什麼GT-R！日產全新跑車Z開售：僅38.87萬

新華社三句話點評長安福特「掀裙廣告」：畫面犀利

前女友曬性虐證據 電競明星選手激怒騰訊子公司：慘遭重罰

VirMach 便宜 VPS

QNews

熱門搜尋

日本載26人觀光船遇險失聯求救時船體出現傾斜：感受下

前女友曬性虐證據電競明星選手激怒騰訊子公司：慘遭重罰