大數據和人工智能是怎樣在教育行業發揮作用的?
- 2019 年 10 月 8 日
- 筆記
大數據、自然語言理解、人工智能在現今科技創新的時代已成為各行各業的熱門詞彙,教育領域當然也不例外。2018年1月,教育部將人工智能、物聯網、大數據處理正式劃入全國高中新課標。正在熱議的兩會,多位全國政協委員熱議人工智能與教育:加快培養人工智能化人才,人工智能助力個性化學習,人工智能輔助教師工作(決策、教育、教學)等。
大數據、人工智能技術如何真正服務教育領域?

《紅樓夢》作者前後同一性識別
近期,新版《紅樓夢》作者署名改動為:(前八十回)曹雪芹著,(後四十回)無名氏續,引發學界廣泛的關注與討論。紅學界關於《紅樓夢》的作者爭議一直很大,前八十回和後四十回到底是不是同一個作者?紅學研究者們經過多年的史料研究至今也沒有定論。事實上,學術界多有此類作者判別之爭議與難題,本文將利用大數據語義智能分析技術,通過分詞、語言統計、概率計算與文本相似度分析來進行《紅樓夢》前後作者同一性判別。
虛詞統計
每位作者都有自己獨特的寫作小習慣,比如使用虛詞的順序與數量會存在着差異,這就是我們研究的切入點。我們根據1987李賢平發表的《〈紅樓夢〉成書新說》一書中選擇的四十七個虛字,將《紅樓夢》120回均分為3組(第1回-第40回、第41回-第80回、第81-第120回),使用NLPIR-paser統計出文言虛詞的詞頻與概率,三組數據中部分虛詞統計結果如下:
表1 虛詞統計

KL距離
KL距離(相對熵),它衡量的是相同事件空間里的兩個概率分佈的差異情況。當兩個隨機分佈相同時,它們的相對熵為零,當兩個隨機分佈的差別增大時,它們的相對熵也會增大,所以相對熵可以用於比較文本的相似度。
表2 KL距離分析
回數KL值回數 |
1-40 |
41-80 |
81-120 |
---|---|---|---|
1-40 |
0 |
0.008 |
0.082 |
41-80 |
0.007 |
0 |
0.06 |
81-120 |
0.051 |
0.049 |
0 |
分析結果顯示:前兩組任意一組與第三組的KL值都是前兩組組內KL值的近十倍,也就是說前八十回兩組數據與第三組的差別比前兩組組內差別大的多,即前八十迴文本相似度較高,與後四十迴文本差異較大。
我們還將紅樓夢120回分別分為六組、十二組數據分別進行分析,不僅分析前八十回與後四十回的差異,還分析了前八十回與後四十回組內的差異,通過反覆的推敲得出前八十回與後四十回的寫作風格存在明顯差異。故可以大膽猜測紅樓夢前後作者並非同一人。
關於教育,我們能做的還有很多…
人工智能的教育應用場景
知識傳播
大數據不僅是一種技術,還是實實在在的硬學問,有系統的理論與方法,所以必須增加這門知識學問的傳播力度,尤其不能僅局限於理論的課堂,教學、科研、實踐必須並重地紮根於具體應用場景中才有意義。人工智能人才產教融合才能滿足市場對人工智能專業技術人才的大量需求。
教育管理
首先,教育管理工作會面臨海量文檔的管理與分析,論文類、報告類、統計類等。比如論文管理:文章分類,文檔查重、相似度分析,精準檢索等功能需求,自然語言理解正是文檔處理的專家,基於自然語言處理技術的平台完全可以成為文檔管理與分析的得力助手。其次,教育機構,尤其是高校因其高等教育屬性,公眾有特別期待,輿情管理的需求更加迫切。近期網紅教授薛兆豐北大離職事件引起熱議,我們完全可以利用大數據挖掘分析技術實現輿情管理與分析的各個功能需求:熱點發現、話題追蹤、負面信息傾向性分析、輿情搜索、自動報告等。
教、學、科研
我們在教、學、科研的過程中都會面臨許多需求,比如查找文獻,了解學術研究的熱點與趨勢,文本內容處理(分詞、翻譯、分類聚類、作者、摘要、關鍵詞的自動提取與自動摘要)等,尤其是語言類、管理類、計算機類或需要處理大量文本的專業,自然語言理解將成為一大利器。另一方面,知識的領域龐大而深奧,知識圖譜技術可以歷史文獻、動態快報、活動會議、項目課題、期刊雜誌、專家作者等多個維度整合知識體系,挖掘知識關聯關係,構建一個便於管理與分析的知識圖書館。
人工智能教育應用的核心:自然語言理解
NLPIR大數據語義智能分析平台針對大數據內容采編挖搜的綜合需求,融合了網絡精準採集、自然語言理解、文本挖掘和語義搜索的最新研究成果,先後歷時十八年,服務了全球四十萬家機構用戶,是大數據時代語義智能分析的一大利器。

NLPIR大數據語義智能分析平台十三大功能:

NLPIR大數據語義智能分析平台客戶端。歡迎大家下載使用。
NLPIR大數據語義智能分析平台白皮書: http://www.nlpir.org/NLPIR-Parser-WhitePaper.pdf (約3MB)
NLPIR大數據語義智能分析平台:
http://www.nlpir.org/NLPIR-Parser.zip (約160MB)