人才與產業數據云:來自高校科研領域的創新實踐

動圖封面

近日,星環科技在線上舉辦了2022年春季新品發布周,帶來數字底座、數字化轉型、國產替代、數據安全與流通四大專題,60餘場演講。來自金融、能源、交通、政務、高校、運營商等多個領域的客戶、合作夥伴現身說法,分享數字化轉型成功經驗。華東師範大學資訊管理系教授許鑫結合其團隊在人才與產業數據云項目的探索和經驗,帶來了《人才與產業數據云:來自高校科研領域的創新實踐》主題演講。

建立科學人才評價體系

促進產業鏈、創新鏈與人才鏈的深度融合

重視人才,發展人才是當前重要的國家戰略,國家領導人多次在重要場合發表講話強調,要深化實施人才強國戰略,發揮好人才對經濟社會發展、國家綜合國力提升的重要能效。同時,人才也是產業創新發展的重要資源要素,習近平總書記在2020年深圳經濟特區建立四十周年慶祝大會上發表重要講話,他說:「發展是第一要務,人才是第一資源,創新是第一動力。」以人才為引領可以創新產業發展形式,形成人才強磁場,放大人才對促進產業發展的能效。同時,產業的有序良性發展又可以培育和集聚人才,進而使產業成為專業人才的重要孵化地,人才與產業密不可分,兩者深度融合,螺旋上升。

由於當前的學術評價體系還不夠科學,管理體制和運行機制還不夠完善,處於有數量缺品質、有專家缺大師的狀況,因此急需建立科學權威、公正透明的科研成果評價體系,建立以創新價值、能力貢獻為導向的人才評價體系,形成並實施有利於科技人才潛心研究和創新的評價體系。具體到個體層次,人才個體的發展是實現其社會價值的前提。個體的自我實現與社會價值辯證統一,互為前提基礎,密不可分。

人才與產業數據云項目的研究思路及框架

2020年華東師範大學啟動了人才與產業數據云項目,該項目受華東師範大學「幸福之花」先導研究基金「智慧+」領域項目——「大數據視閾下基於學術共同體的人文社科學術評價與促進研究」的資助。該研究項目從多元數據融合視角評價學者個人及評估學術成果價值,構建了基於多元數據的評價指標體系和評價框架,採用定性和定量方法融合,為學術評價的理論創新和應用實踐提供實證支援。相關研究成果《A big-data-based analysis framework and its application in talents and industry research》在《Science》專刊發表。

人才與產業數據云項目是上述研究的落地,同時也是研究團隊探索新時代全面綜合人才評價方法和框架的重要場景。人才的洞察、產業發展和經濟社會發展三者是相輔相成的,人才是產業發展的重要資源和驅動力,產業是人才培養的重要孵化地,優質的人才群體和良性的產業又對經濟社會發展提供好的支撐,經濟社會發展反之則為人才成長和產業發展提供好的大環境。

目前的研究以多元數據為基石,探索人才鏈、創新鏈和產業鏈的三鏈高度協同融合,洞察人才現狀,聚焦關鍵核心技術領域,進而促進產業的高品質發展。具體而言,以科創人才大數據、科研成果大數據、重點產業大數據為基礎,主要開展如下方面的研究:人才評價和人才戰略;產業結構、產業發展和產業戰略;人才和產業數據碰撞下通過領域主題的關聯進行人才鏈、創新鏈和產業鏈的協同發展。

為了支援相關研究的開展和推進,項目團隊採集匯聚了27個學科領域、3300萬學者、6540萬篇論文、600萬組織機構等的大數據資源,以此為依託進行數據的清洗和集成,支撐人才評價指標體系的構建,進行人才精準畫像和人才群體綜合評價的計算,進而支撐創新人才評價新方法和新框架的探索。

該項目有四個核心理念:

(1)在數據上實現數據的隔離與安全,底層有大數據的存儲、管理和計算;

(2)在評價方面開發特色評價指數,形成一套分類分級的人才評價體系;

(3)將人才評價及產業分析的演算法、模型容器化,形成演算法模型市場,嘗試打造一種新的生態;

(4)生態是動態的、活的,因此項目還面向多種類型的租戶提供不同層次的應用服務,引入多類型、多層次市場主體參與到項目中來,共同去探索和實踐人才評價和產業創新方面的新方法、新框架,從而促進新生態的形成和運轉。

在數據隔離方面,主要通過存儲隔離和計算隔離兩種方式來達成數據隔離的目標,對於租戶而言,支援創建多種數據區,例如共享區、租戶區和敏感區,提供每個租戶獨立使用存儲資源,保證存儲的隔離性。租戶區存儲用戶上傳的組織內數據,敏感區存儲具有高價值的數據和敏感數據。同時,平台支援每個租戶使用獨立的HDFS服務,不直接與其他租戶共享HDFS服務。此外,通過數據沙箱、聯邦學習等技術實現隱私計算,進一步保障數據應用的安全。

研究過程中,研究團隊全面分析和提煉中國外關於評價理論和實踐的有益部分,探索並構建了一套系統性、通用性的科研評價體系,實現對評價要素和評價維度的全方位挖掘和整合。該項目研究將人才評價、科研評價視作複雜系統,認為評價工作應該逐步細化,層層剖析人才的知識、技能、經驗、能力、意願等全方位多維度資訊,構建一套全評價、服務於現實需要的新型科研評價方法及框架,即數字驅動的全評價方法論。基於大數據和人工智慧等數據智慧技術,通過激發活力和鼓勵協作作為人才評價的導向,全方位的去挖掘各種與評價有關的科學計量指標,創建基於大數據的人才全面綜合評價體系。

該項目研究中的特色評價指標體系,實現了「質+量」,「過去+當前+未來」相結合的針對於人才個體的精準畫像和全面綜合評價。從2018年7月起,國家先後出台了若干關於「破四唯」、「破五唯」的文件,這些文件的發布都在強調人才評價沒有唯一的標準,在具體開展人才評價工作時,需要根據工作具體要求構建恰當的人才評價方法。

人才與產業數據云項目希望傳遞的就是這樣一個理念,人才評價沒有唯一的標準,要構建面向需求的人才評價動態調整機制。為了達成這個目標,該項目藉助星環科技的PaaS平台,支援在線編寫演算法模型,並應用於人才數據分析,自動導出產業人才分析報告,同時還支援用戶將自己的演算法模型共享,形成演算法模型市場,創新人才評價生態環境。用戶可以從零開始自定義人才分析演算法和模型,也可以直接使用市場上共享的演算法和模型,還可以在共享的演算法模型基礎上進一步進行自定義。基於此流程構建面向需求的人才評價標準動態調整機制,創新人才評價生態。

星環科技的PaaS平台為項目的演算法模型容器化提供了基礎支撐,通過將平台的能力以服務的形式提供給租戶們,比如資料庫、中間件、文件存儲等,減少了項目的開發和維護工作量,以更快的速度和更低的成本來開發、測試、部署、更新和擴展上層應用。當前的用戶主要是機構和產業兩類租戶,通過為租戶提供可支撐大數據資源存儲和管理的經數據隔離,實現數據安全和隱私保護的數據空間,同時也向租戶共享計算資源,支撐租戶基於大數據資源進行計算分析。此外,最重要的一點,通過容器化構建演算法模型市場,可以向租戶共享人才評價的理念和方法,作為技術保障,實現了應用、數據、資源和運行的隔離。

項目的整體架構,從底層的數據採集到數據倉庫、數據分析引擎,再到面向不同需求和主體的服務門戶,通過分批建設實現項目的核心理念並落到實處,服務現實人才評價和產業創新的發展需要。

人才與產業數據云平台應用架構從下到上分為三層:底層為各租戶數據倉庫,租戶間數據隔離;中間層為指標分析挖掘的PaaS支撐平台,為租戶進行指標和數據分析挖掘提供分析引擎支撐;前端以應用門戶的方式為各租戶和人才與產業雲運營管理提供服務。

星環科技數據云平台TDC,基於雲原生技術融合數據的PaaS、分析的PaaS、應用的PaaS,實現多租戶的人才與產業數據計算分析,為保障數據隔離,為每個產業租戶、機構租戶構建私有的數據倉庫,每個租戶使用獨立的TDFS用於數據存儲。平台構建了一個用於做數據分享的租戶空間,通過細粒度的許可權控制和審批流程完成數據共享和隔離。TCOS是星環科技為大數據應用量身定做的容器作業系統,PDC平台整體基於容器化、分散式、微服務等雲原生技術,在統一的雲平台上提供全面的雲上數據服務,平台圍繞著項目、租戶、用戶等概念實現了許可權和資源的合理劃分與管理,由統一管理平台對多租戶提供服務。