南京大學人工智慧學院教授俞揚:從應用出發多角度設計,可得更優演算法模型
- 2019 年 10 月 31 日
- 筆記

圖 | 南京大學人工智慧學院教授 俞揚
俞揚認為學會思考應用中真正面臨的問題並從多角度去解決問題,這很重要。
策劃&撰寫:Lynn
日前,「首屆中文NL2SQL挑戰賽」總決賽在南京大學落幕,南京大學人工智慧學院教授俞揚被邀請擔任評委。
對於公眾來說,NL2SQL是一個全新的技術方向,它是自然語言處理(NLP)與資料庫查詢應用相結合的一個研究方向,是NLP技術研究範疇中的小分支。因此相較於AI領域內的各大賽事,這場比賽稱不上「盛大」,但俞揚認為它對學術和產業界的價值是重大的。

圖 | 中文NL2SQL挑戰賽
「因為近年人工智慧業界的關注點多在影像(視覺)上,相對而言,工業資料庫等離散資訊的分析較為冷淡,所以在這個領域裡,像這樣與具體應用結合的比賽是有開創意義的。這一次能夠有這麼多人來參加,也能夠引起大家的關注,是一件好事。」
作為人工智慧領域知名學者兼導師,多重身份讓俞揚從這場比賽中看見了很多。在會後接受採訪時,他也談到了自己因觀賽而生出的對於技術發展的諸多思考並分享了有關人才培養、技術研究方向上的建議。
AI與應用結合緊密大勢初顯
首先,俞揚認為比賽以NL2SQL為主題,某種程度上體現了業界對技術與應用深度結合研究方向的重視,同時也是業內對技術認知日趨客觀的一種體現。
俞揚指出,受到各方面因素影響,雖是AI演算法與自然語言應用結合的關鍵技術方向,但一直以來自然語言理解(NLP)相對電腦視覺等領域沒有那麼火熱卻是事實。
回顧這一波AI演算法浪潮我們容易發現,神經網路在視覺領域的成功應用起到了關鍵帶動作用,隨後深度學習演算法滲透到了各行各業。Google Trends曾發表數據指出,受深度學習演算法影響,自2015年起,「機器學習」的搜索熱度一度超過了人工智慧本身。
而在這一波熱潮中,因視覺領域是深度學習演算法最開始發力的地方,大量產業和學界的資源湧入了電腦視覺(CV)領域。作為能夠解決傳統資料庫查詢的繁瑣問題、有著實用價值的一項技術,NL2SQL在此時被提出,也能夠吸引更多人的目光。
「從技術層面看,NL2SQL是將自然語言轉化為SQL語句的一項任務,在研究領域是一個比較新的方向。但是它不僅僅是一個技術方向,更為重要的是它可以直接對應到一些應用上面,比如財務報表資料庫,有人想知道裡面的某一方面資訊,運用這項技術,我們就可以用自然語言去提問,機器來回答,這樣會更高效便捷。」
正如俞揚提到,NL2SQL是一個技術與應用結合的產物。這場關於NL2SQL的大賽,其意義不僅僅在於對一項技術的推動,而是業內對技術與應用深度結合的重視。
從NL2SQL競賽看技術落地
具體去看,NL2SQL是如何幫助改進傳統資料庫查詢的?
俞揚介紹說,在過去如果想要知道資料庫裡面的資訊,就需要有專業程式設計師去寫一段查詢資料庫的機器語言(SQL);現在,NL2SQL可以將自然語言自動翻譯成機器語言(SQL)去查詢,然後把答案回饋給用戶。
「這大大降低了資料庫的使用門檻。」
以比賽中的案例來看,俞揚提到選手用自然語言提問「某地在某日的天氣是怎樣的」,程式可以自動將問題變成在電腦裡面可以跑出結果的機器搜索語言,並查詢到結果。
俞揚特別補充說,「類似這樣的案例都是能夠產生實際價值的,這對技術的應用和推廣有著直接積極的影響。」但同時他也指出,透過比賽可以看出NL2SQL還有很大的提升空間,比如說在演算法泛化能力這一普遍關注點上。
「從大的方向來看,傳統的語義知識是不足以支撐商用的,我們更希望能夠引入一些常識,引入一些資料庫裡面沒有出現過的東西,讓它能夠學習判斷並應用在一些沒有見過的數據處理上,提升泛化能力。」
常識在這一次比賽中被反覆提起,也是人工智慧想要變得更加「聰明」所必須要彌補的部分。不過加入常識這件事並不容易。
「人有很多常識,但我們往往不知道常識從哪裡來。可能因為我們沒有課本專門去學習常識,所以就難以界定哪些東西是在我們的常識範圍內,因此一開始數據的收集就比較困難。比如雞有幾隻腿、兔子有幾隻腿的問題,大家都知道答案,但是我們沒有在課本上學習過,甚至什麼時候獲得常識都不得而知。而當機器要解決比如雞兔同籠問題,就必須依賴這些常識知識。」
專業人才應當看得更為長遠
當然,除了對技術發展和行業的關注,作為導師,俞揚也更加關注人才培養。
此次比賽以學生給定程式的最終搜索精度為主要評定標準,這有積極意義,自然也有其局限性。

基於過往的經驗和長遠的發展角度,俞揚也特別給了學生一些自己的建議,「因為是比賽,選手們希望分越高越好,不過從長期的角度來看,比賽用的方法能夠得到90分,但想要拿到最後的10分,可能往往需要顛覆現有的方法。所以對於選手們來說,不要過於看重分數,而應該將更多注意力放在背後的原理上。」
另外俞揚也提到,比賽所用數據集和實際應用有差距,所以學生們要學會思考應用中真正面臨的問題。一方面,數據不幹凈、遠比比賽複雜的處理要求需要考慮在內;另外一方面,也要學會從不同角度去設計來滿足客戶的需求,如介面的引導幫助用戶修正問題表述,以間接提升搜索精度。
「通過其他角度來輔助設計可以幫助人工智慧模型避免一些問題,對於訓練模型的使用是有很好的幫助,這也是實際應用設計上不可忽視的一些小細節。」
最後
近年來,NLP的技術研究帶來了一些創新型研究機會,NL2SQL是其中之一。目前,Salesforce、斯坦福、耶魯等機構提出了WikiSQL、WikiTableQuestions、Spider、SParC等大規模數據集,並得到多次評測結果的提交。以WikiSQL為例,在排行榜上有多達19次的評測結果的提交。
不過基於中文數據集的NL2SQL技術還尚待發展,追一科技與南京大學電腦軟體新技術國家重點實驗室聯合舉辦了這樣一場比賽,無疑對這一技術在中國的應用起了重大推動作用,這也是俞揚十分看好它的原因之一。