基於 transformer 等模型的新冠疫苗情感極性分析:中美民眾分別如何看待?

  • 2021 年 8 月 27 日
  • AI

AI 科技評論報道

作者 | 羅傑波團隊

編輯 | 陳大鑫

中美民眾分別是如何看待新冠疫苗的呢?

這是一個需要我們認真研究的問題。

當今開發新冠疫苗,並在全球範圍內使用疫苗,成為了終結此次疫情的優先選項。然而當全世界科學家及醫學專家都在開發和測試新冠疫苗的同時,美國民眾對於是否接種疫苗產生了不同的意見。根據皮尤研究中心最近的一次調研[1],2020年5月,71%受調研的美國民眾認為如果有疫苗,他們將一定或可能進行接種。然而這一比例在2020年9月驟降至51%。該調研指出,美國民眾擔憂的是疫苗的安全、有效性,以及疫苗的批准使用進程是否合規。

疫情如此嚴重,美國民眾對疫苗的接受度反而出現這種反覆,不由得讓人想知道個究竟。同樣的,中國民眾是如何看待新冠疫苗的,也成為了我們關心的問題。

美國羅切斯特大學羅傑波教授團隊進行了兩項基於社交媒體的相關研究:

(1)基於超過一萬名推特用戶在2020年9-11月期間發布的對於疫苗態度的相關推特,使用人機耦合機器學習框架,捕捉美國民眾對於新冠疫苗的態度;

(2)基於超過五萬名微博用戶在2020年1月底到11月初期間發布的與新冠疫苗相關的14餘萬條微博,使用機器學習框架對中國民眾的情感傾向進行了統計歸納,並且根據相應的用戶組和不同話題進行分類,探討在不同子集上的情感傾向。

1

美國民眾如何看待新冠疫苗

以美國民眾為研究對象,團隊發現,對疫苗持不同態度的人群比例變化大致與疫情相關事件相對應,並且美國東南地區對疫苗的接受度相對較低。為了研究美國民眾態度的範圍和起因,本文使用多類別邏輯回歸,比較了支援、猶豫、反對這三組人的性別、年齡、社會資本、收入、宗教、政治傾向、地理位置、與疫情相關及不相關經歷的情感、以及官方統計到的郡層面疫情嚴重程度,並發現了顯著的區別。平均上於社會經濟狀況處於劣勢的人群更容易持有極化意見(支援或反對)。

對與疫情相關經歷持有最負面情感的人群,往往更可能對疫苗持反對意見。使用虛擬反事實分析,本文發現美國民眾在談及潛在疫苗時,最關注的是安全、有效性已經政治因素。另外,改善民眾與疫情相關的經歷有利於提高對疫苗的接受度。本文在社交網路層面,對美國民眾對於新冠疫苗的態度研究,有助於未來制定更為有效的疫苗接種政策與方案。

本文利用基於 transformer 的自然語言處理模型,使用人機耦合機器學習框架,捕捉人們對於新冠疫苗的態度,並將其分為三組:支援疫苗、猶豫、反對疫苗。提出三項假設:

假設一:這三組人的性別、年齡、社會資本、收入、宗教、政治傾向、地理位置有差異。

假設二:個人與疫情相關的經歷對其形成何種態度有影響。

假設三:郡層面疫情嚴重程度對其形成何種態度有影響。

人機耦合機器學習框架

簡單地說,本文先通過標註一部分推特所呈現出的對疫苗態度,然後將其作為訓練集,訓練基於transformer的自然語言處理模型,並將其用於推斷剩下推特所表現的對疫苗態度。

然而,不同於以往的研究,本文收集的推特中,絕大多數都與表達對疫苗態度無關。由於本研究真正關心的是那些對疫苗表達態度的推特,所以找出這些有關推特是首先要面對的問題。同時,在訓練時樣本不均衡,將會不僅使人為標註的過程變慢,也會抑制訓練出的分類器的表現。為解決這一問題,本文使用了機耦合機器學習框架。

本文先從 244,049 條推特中隨機抽樣2,000條不同的推特。三名研究者獨立地閱讀推特,並判斷該條推特是與表達態度不相關、支援疫苗、猶豫、反對疫苗四類中的哪一類。該條推特的類別將由三名研究者的投票結果產生。如果三人的標註的類別均不相同,那麼將由三位研究者討論,給出最終結果。

這 2,000 條標註好的推特作為訓練集C_train,用 XLNet 模型訓練,輸出為四分類,記該四分類模型為H_1。模型的表現將由另外再標註的400條推特驗證集D_validation進行驗證。由於樣本的不均衡(絕大多數為與表達態度不相關的推特,佔比84%),本文通過再訓練一個二分類模型來主動尋找與表達態度相關的推特。具體來說,本文將2,000條的四分類標籤改為二分類,與表達態度不相關的為一類,剩下的支援、猶豫、反對合併為一類。這2,000條用XLNet模型訓練,輸出為二分類,記該二分類模型為H_2。用於訓練H_1和H_2的訓練集除了標籤分別為四分類和二分類以外沒有區別。

訓練完的H_2用於在最早的244,049推特集中主動尋找與表達態度相關的推特。具體操作上,本文從244,049推特中隨機抽樣4,500條推特,使用H_2進行分類,抽取H_2認為最有可能是與表達態度相關的推特的前10%(450條)。再隨機從剩下的4,050條抽樣50條。這500條推特將由前文提到的三名研究者再度進行四分類標註,加入之前的2,000條,用於擴充訓練集C_train。值得注意的是,本文從4,050條中隨機抽樣50條目的為保證一定的多樣性。接下來,本文用2,500條訓練集重新訓練H_1,並用D_validation進行驗證。這一人機耦合過程為一輪,每一輪往C_train中擴充500條推特。

在進行五輪人機耦合標註後,最終訓練樣本包含4,500條不同的推特。與表達態度相關的推特佔比從最早的16%上升至最終的40%。這一人機耦合機器學習框架主動搜索與表達態度相關的推特,以此來均衡樣本,從而更有效地標註推特態度及構造模型。

國家及州層面民眾態度

美國民眾對於疫苗態度的佔比變化如圖所示,其佔比變化和與疫情相關的事件大致對應。總體上,57.65%支援疫苗,19.30%持猶豫態度,剩下的持反對疫苗態度。

美國民眾對疫苗態度佔比變化

州層面對疫苗態度如下圖所示。美國東南地區、俄亥俄州、印第安納州與肯塔基州對疫苗持有一個相對低的支援態度。

美國各州對疫苗態度,括弧中為該州樣本數量

本文還發現,內華達州、田納西州以及華盛頓州支援疫苗的人群佔比變化曲線與國家平均偏離最多。華盛頓州在9-11月期間,支援疫苗的人群佔比普遍比國家平均高,而內華達州支援疫苗人群佔比普遍比國家平均低。田納西州支援疫苗人群佔比變化較大。

美國平均、內華達、田納西、華盛頓州支援疫苗人數佔比

女性更可能持猶豫態度。比較猶豫和反對疫苗的人群,本文發現,女性更有可能對疫苗持猶豫態度。比較猶豫和支援疫苗的人群,本文發現,女性更有可能對疫苗持猶豫態度。

年齡越大,越支援疫苗。比較猶豫和反對疫苗的人群,本文沒有發現統計意義上年齡的顯著不同。然而在比較猶豫和支援疫苗的人群時,本文發現年齡越大的人,越有可能支援疫苗。這一發現與 Lazarus et al. (2020)的發現一致。可能的解釋是,年齡大的人群感染新冠病毒後死亡風險更高,避免感染新冠病毒的益處大於接種疫苗帶來的風險。

使用推特模式不同的人群,態度亦不同。擁有更多粉絲或更少好友或點更多贊的推特用戶更可能持極化態度(支援或反對)。

參與的小組更多的推特用戶更支援疫苗。發布推特數量更多的用戶更可能持反對態度。

收入較低的群體更可能持極化態度。比較猶豫和反對疫苗的人群,本文發現收入越低的群體,對疫苗越反對。另外一篇論文,Lazarus et al. (2020) 發現收入越高的人群越支援疫苗。本文發現收入的影響更細微。

宗教群體更可能持極化態度。比較猶豫和反對疫苗的人群,以及猶豫和支援疫苗的人群後,本文發現宗教群體亦或更反對疫苗、亦或更支援疫苗。這一發現與Larson et al. (2014)一致。

政治傾向不同,對疫苗所持態度不同。比較猶豫和反對疫苗的人群,本文發現關注川普的人群更反對疫苗,關注拜登的人群更可能持猶豫態度。比較猶豫和支援疫苗的人群,本文沒有發現關注川普的人群統計意義的顯著不同,然而本文發現關注拜登的人群更可能持猶豫態度。

非城市居民更反對疫苗。雖然所居住地理位置在三組互相比較中,並沒有統計意義不同,但本文在比較猶豫和反對疫苗兩組人群中發現非城市居民統計意義上更可能反對疫苗。

個人在疫情期間的經歷以及所在郡的疫情嚴重程度對其所持態度有影響。比較猶豫和反對疫苗人群,猶豫和支援疫苗人群中,本文發現,個人對於在疫情期間的經歷情感越積極,其對疫苗的態度越正面。比較猶豫和支援疫苗的人群,本文發現,民眾所在郡的疫情越嚴重,民眾越有可能持猶豫態度。

以上發現均驗證了本文的三項假設。

討論

通過多類別邏輯回歸,本文發現支援、猶豫、反對三組人的人群特徵顯著不同。女性更容易持猶豫態度。年齡越大,越支援疫苗。社會資本不同的人群,所持態度不同。低收入群體對疫苗的態度更極化。宗教群體對疫苗的態度更計劃。政治傾向不同也會導致對疫苗態度的不同。個人與疫情相關的經歷和所在地區的疫情嚴重程度都對其對疫苗所持態度有影響。

通過虛擬反事實分析,本文發現民眾對疫苗的態度,與政治,疫苗安全及有效性相關。去除政治因素有助於提高疫苗接受度。去除安全及有效性因素不利於提高疫苗接受度。改善個人對疫情的相關經歷有助於提高疫苗接受度。

2

中國民眾如何看待新冠疫苗

以中國民眾為研究對象,團隊發現,微博的情感變化與疫苗研發過程中的重要事件是息息相關的,且大致上相關微博以中性情感為主,正向情感要高於負向情感。

情感判別框架

本文利用 CCIR 2020[2] 所發布的人工標註的微博情感極性數據集和fastText[3]框架訓練了微博情感極性分類器,對本文所收集的新冠疫苗相關微博進行了情感極性分類,包含中性,正向和負向三種。

如論文[4]中所述fastText是一個能夠有效的進行文本分類的深度學習框架,利用已標註數據進行訓練,模型有能力對無標註的數據進行分類。以情感分類為例,fastText模型中,微博文本被處理為n-gram的特徵,這些特徵嵌入為向量且其平均值構成了隱藏層,然後通過分層式的softmax層給出情感分類的結果。通過上述的訓練過程,fastText模型能夠利用有情感極性標註的數據,通過輸入特徵與情感標註定義的目標函數,反向傳播梯度,從而使模型對未標註數據有分類的能力。通過上述的訓練與測試,本文對所收集的微博未標註數據進行了情感極性上的分類。

本文利用「情緒指數」來統計一段時間內的整體情感傾向,其計算的方法是:

(正向情感微博數-負向情感微博數)/(正向情感微博數+負向情感微博數)

整體情感傾向

新冠疫苗相關的情緒指數如圖所示,該圖以十天為單位進行了平滑。圖中標註了部分有代表性的日期以及在微博上相應的熱點討論話題。

不同用戶組的微博情感傾向

來自不同用戶組的微博子集構成了整個新冠疫苗相關微博數據集,不同子集的微博也表現出不同的情感傾向。

女性用戶的微博更可能展示出情感極性。比較男女性用戶所發微博的情感傾向,由女性用戶發出的微博更可能有正向或者負向的情感傾向。

青年用戶的微博更可能展示出情感極性。比較不同年齡段用戶所發微博的情感傾向,青年用戶所發的微博占相對更多的比例,並且這些微博更有可能展示出正向或負向情感。

粉絲少的用戶的微博更可能展示出極性情感。比較來自粉絲數量不同的用戶所發微博的情感傾向,粉絲相對較少的用戶更可能表現出情感極性,並且相對於粉絲更多的用戶組的微博更偏向負向。

不同模式交互的微博情感極性的模式有所不同。大多數的微博集中在極少交互,甚至沒有吸引到態度交互(例如點贊)、評論與轉發。這些幾乎無交互的微博的情緒指數是近似的。高交互的微博情感傾向與交互類型有關,在交互較多的微博集合上,相對而言之,轉發的情緒指數較高,評論次之,態度交互再次之。

不同話題的微博情感傾向

中美情緒指數呈現相關性。比較提到中國、美國及中美均包含的微博,除中國與中美均包含外,其情緒指數展示出很強的相關性。在數量上,三者也展現了相關性。

例如美國制裁俄羅斯研究新冠疫苗的機構的新聞相關有相當數量微博顯示了負向情感。整體而言,中國相關的微博的情緒指數相比另外兩組微博更加正向。

「價格」:大多數關於價格的微博都是中性情感,顯示出極性的情感的微部落客要討論新聞:新冠疫苗的價格是民眾可接受的

「安全」:大多數關於安全的微博都是中性的以及部分偏向正向的。正向情感的微博討論集中於陳薇院士團隊研發出重組疫苗、非人靈長類動物實驗結果公布、俄羅斯開展新冠疫苗接種以及新冠疫苗開始預約等。

「國產」:大多數關於國產的微博集中討論的國產新冠疫苗亮相及預計上市時間等新聞。

「金融」:很多金融領域的微博部落客參與了新冠疫苗相關的討論。「國葯」相關的新冠疫苗微博的數量及情緒與國葯集團的收盤價呈現了一定的相關性。

討論

本文通過統計現有微博及其相應的用戶資訊,給出了新冠疫苗相關的微博的整體情感傾向和特定用戶群體所發微博的情感傾向。通過詞雲圖可以展示更直觀的用戶討論,如下圖所示,展示了用戶關注的出現頻率比較高的一部分關鍵詞。

  1. //www.pewresearch.org/science/2020/09/17/u-s-publicnow-divided-over-whether-to-get-covid-19-vaccine/ 
  2. //www.datafountain.cn/competitions/423/datasets 
  3. //fasttext.cc 
  4. A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classification
    P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information 
  5. “Social media study of public opinions on potential COVID-19 vaccines: informing dissent, disparities, and dissemination” is available at //doi.org/10.1016/j.imed.2021.08.001

雷鋒網雷鋒網雷鋒網