lda模型小記

  • 2019 年 10 月 6 日
  • 筆記

lda模型是什麼?

lda模型是一個詞袋模型,它認為一個文檔由一組關鍵的詞構成,這些詞之間沒有先後順序,一篇文檔可以有很多個主題,文檔中的每個詞都來自於這些主題中的其中一個。它是一種主題模型,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。

這樣之後,通過中間量主題(topic)就將詞與詞,文檔與詞,文檔與文檔聯繫起來了,通過這個聯繫找到他們之間的潛在關係。lda模型又屬於聚類模型。

什麼是詞袋模型?

詞袋模型簡單的把一個文檔看做若干個詞語組成,文檔中的而每一個詞可以出現不同的次數,這樣每個詞語出現的概率就不盡相同。通過EM演算法可以求出每個詞語出現的概率。

舉個例子就是,隨機的拋一個M面的骰子(M面,每一面對應一個詞語對應詞袋中的M個詞)N次(在這N次中同一個詞語可以重複)得就可以組合到一篇文檔。

貝葉斯詞袋

在詞袋模型中,我們簡單的認為文檔中詞語出現的概率是個定數(骰子每個面的概率),但是在貝葉斯學派看來,每個詞語的出現都是獨立且隨機的,於是應該隨機的取出一個M面的骰子,然後再獨立的拋N詞得到一個文檔。這個時候就可以得到一個Dirichlet分布。

Dirichlet分布的意思就是假如我們拋一個6個面的骰子100次,得到每個面的概率分布,這算一個實驗,重複這個實驗100次,那麼這100次中6個面的分布就是Dirichlet分布,簡單來說Dirichlet分布就是分布之上的分布。

例如:1點(骰子六個面之一) 在這100次實驗(每個實驗拋100次) 是 0.15的概率為 0.12,實際我們這麼想,100次實驗中,有12次,1點在一個實驗內出現了15次,可以看作是總共拋10000次,1點出現15×12=180次。這10000次實驗,視為一個大的多項式分布,於是可以得出他們有相同的概率分布公式,這就是前面所提到的共軸分布

PLSA潛在語義分析

PLSA潛在語義分析,是找出詞語之間的關聯性,比如美國總統林肯和越獄電視劇系列中的林肯肯定不是一個人吧,但是當你在聚類的過程中將兩個林肯聚類在一起了,所以同一個詞語在不同的語境下的意思就不一樣了,所以,PLSA要做的事情就是這個怎麼做的呢?

首先取出一個K面的骰子(每個面代表一個主題,每個面的概率可以不一樣),然後這個主題又中又有T個詞可以用一個T個面的骰子來描述,然後將這個篩子拋N次,就可以得到一篇文檔。這兩個過程其實可以看做是詞袋的詞袋,第一個詞袋放的是主題相關的,第二個詞袋是放詞相關的。這樣得到的文章就有很強的內在關聯性。

PLSA

LDA模型

當提出PLSA思想之後,貝葉斯的大佬們有出現了(出現的好及時),他們又說這個這個過程也歸貝葉斯關,反正就是獨立切隨機相關balabala的,於是讓PLSA的兩個詞袋模型,變成兩個Bayes詞袋模型,就是LDA了