深入了解SVD與糾纏
- 2020 年 10 月 12 日
- AI
字幕組雙語原文:深入了解SVD與糾纏
英語原文:Understanding Entanglement With SVD
量子糾纏,你也知道,這是個充滿物理含義的短語。但你可能不知道的是,它背後的線性代數很簡單。如果你熟悉奇異值分解(SVD),那麼你就有99%的把握了。我這篇文章的目標是縮小這1%的差距。特別是,我想解釋一些叫做施密特秩的東西,希望能幫助糾纏的數學感覺不那麼… 糾結。而要做到這一點,請你暫時忘記前面的幾句話,暫時忽略這篇文章的標題。忘掉我們正在討論糾結的問題,忘掉我提到的那個詞,然後我們重新開始,我們就聊數學吧。
讓我們聊聊SVD吧。
奇異值分解
SVD可以說是線性代數中最重要、最著名的工具之一。你可能已經對它非常熟悉了,但這裡還是要快速地回顧一下。每個矩陣MM都可以分解為M=UDV† ,如下圖所示,稱為M的奇異值分解。對角矩陣D的元素為非負數,稱為奇異值,它們的數量等於M的秩,比如說k。更重要的是,U和V正好有k列,分別稱為左、右奇異值向量。
有很多種不同的方式去考慮這個問題,這具體取決於你考慮的的應用。我喜歡把奇異向量看作是為M矩陣本身固有意義的 “概念 “編碼,而把奇異值看作是表示這些概念的重要性。例如,這種觀點在深度神經網路的學習動力學研究中心自然出現。再舉一個例子,你可以想像一個矩陣,其行是按照人為索引,其列是按照電影為索引。第 ij 項可以是 0 或 1,表示人 i 是否看過電影 j。在應用環境中–例如,推薦系統–可能希望計算這個矩陣的截斷SVD。在這裡只有最大的奇異值被保留。其餘的值被視為包含很少的資訊,並被設置為零。通過這種方式,對角矩陣D在一個低維的 “特徵空間 “上運行,這為壓縮和收集數據資訊提供了一個很好的方法。
無論哪種方式,我都想將D看作是兩個世界之間的橋樑:關於U列(例如人)的資訊和關於V列(例如電影)的資訊。下面是一個非常形象非數學化的漫畫。您可以想像藍色橋的寬窄與奇異值的數量有關。奇異值數量很多?那說明這座橋很寬,很多資訊都可以經過。僅有幾個奇異值?說明這座橋很狹窄,則沒有太多資訊可以通過。
在表示SVD的張量網路圖中找到了實際的數學化圖片。在那裡,D真的是一座橋! 作為視覺提示,如果奇異值的數量很多,我們可以把藍色節點相鄰的邊畫得很粗,否則畫得很細。這又代表了U和V所描述的系統之間資訊 “流動 “的思想。
另外,如果您喜歡將矩陣視為二分圖,那麼您可能會想到下面的圖。如果我們有很多藍色節點,即大量的奇異值-那麼粉紅色和綠色節點(即人和電影)之間有很多通路。但是如果我們只有幾個藍色節點-即幾個奇異值-則粉紅色和綠色之間的路徑就更少了。
無論利用哪種方式,我們都希望將其可視化,其中奇異值的作用(即對角矩陣D的作用)是關鍵。從直觀上看,它們指示U和V存儲的資訊之間的“交互”量,並調解了這些交互是如何有助於原始矩陣M表示的資訊。
而這正是糾纏數學背後的理念。
在物理學的背景下,人們簡單地將SVD應用於一個特定的矩陣,然後觀察該矩陣的非零奇異值的數量。這就是所謂的量子態的施密特秩(下文會解釋)背後的主要思想,該整數表示存在多少糾纏。
糾纏度是通過特定矩陣的非奇異值的數量來衡量的。
那麼,是什麼讓物理學家對SVD的應用與例如建立電影推薦系統的人有所不同呢?好吧,在物理學中,你的矩陣MM大概是對一個物理系統的資訊進行編碼,並考慮到空間因素(例如,晶格中的粒子)。它的條目也可能包含複數,並且其平方和應滿足∑ij|Mij|2=1。在這種情況下,正如我在下面解釋的那樣–M 代表一個量子狀態。但是,除了術語之外,模板是大同小異的:奇異值傳達了關於兩個事務之間–無論是用戶和電影,還是兩個量子子系統之間–是如何關聯重要資訊的。
我可以就此打住,但我想再深挖一下。在下一節中,讓我用稍微專業一點的語言來重述此重點。
奇異值vs.施密特秩
首先,讓我們先回顧一下。在物理學的討論中,我們應用SVD的矩陣到底是什麼?在開始的示例中,我們將SVD應用於用戶-電影矩陣。但是現在是怎麼回事呢?
我們不是從一個矩陣開始,而是從一個單位向量開始。為此,假設ψ 是向量空間Cn⊗Cm的張量乘積中的任何單位向量。在這裡,重要的是我們的討論是在張量積中進行的。畢竟,糾纏是定義在兩個事物之間的(所以,如果有人問你:”有多少糾纏?”一個正確的回答是:”什麼之間的糾纏?”),而在量子力學中,張量積是用來組合兩個系統的數學運算。現在,如果你對 “張量積 “這個詞不熟悉,我推薦你看 “張量積,解密 “這篇文章。我想你會對這個概念的簡單程度感到驚訝!
好了,現在我們有了向量 ψ,很容易從中得到線性映射Cm→Cn。只需將ψψ的條目重塑成一個n×m的矩陣M。(說得更正式些,看一看在有限維向量空間A和B的同構A⊗B∗≅hom(B,A)下的ψ)。
用物理學的語言來說,ψ被稱為量子狀態,而MM僅僅是與其相關的矩陣。更一般地,「單位向量」和「量子狀態」這兩個術語是同義詞。這是因為任何單位向量的條目的平方都定義了概率分布,並且在物理學的背景下,這個概率分布告訴您正在研究的系統的狀態。 (這是與生俱來的規則。)
但是我跑題了,讓我們回到SVD。
我們假設矩陣 M 的奇異值分解由 UDV† 得到,這裡我gagger表示 V 的共軛轉置,因為我們允許 M 有複數項。現在我想藉助這種分解方式來以一種較為複雜的方式重新表示 M。設ui和vi分別表示U和V的第i個列,使di表示M的第i個奇異值。之後我們可以將矩陣M展開為下面的和,其中k是M的秩。
我們快到最關鍵的部分了,但讓我先介紹一個定義,然後再做最後一個外觀上的改變。
對於任何兩個向量u和v,矩陣uv†稱為其外積。這個簡單的操作也可以用張量積符號u⊗v表示,或者在物理學家的布雷克符號里用 |u⟩⟨v|表示。舉例來說,如果u=[123]⊤,v=[45]⊤,那麼它們的外積就是下面的小矩陣。
為什麼要介紹這個呢?我們回想一下上面那個MM的擴展。在uv†↔u⊗v的對應關係下,我們可以使用U和V的列顯式編寫ψ,並按MM的奇異值加權,如下所示:
在這一點上,你可能會認為我們並沒有做很多(而且實際上也沒有),然而現在我們已經為熟悉的事物賦予了新的名稱。在物理學的背景下,ψ的上述分解過程稱為Schmidt分解。原始矩陣MM的秩即整數kk被稱為施密特秩。奇異值d1,d2,…,dk稱為其施密特係數。
儘管術語是新的,但內容卻不是。這就是重點。
劃重點:如果量子態ψ的施密特秩(即奇異值的數量)嚴格大於1,則稱其為糾纏態,否則不是糾纏態。
所以,您看到與我們上面討論的聯繫了嗎?正如我們前面所強調的,奇異值可以被認為是在兩個子系統之間提供了一座 “橋樑”。它們是衡量它們之間存在多少相互作用的方法。在物理學的背景下,這種相互作用被理解為糾纏。
其結果是,大量的奇異值數量–即高施密秩或 “寬的橋樑”–對應於兩個子系統之間的大量交流。少量的奇異值–即低施密特秩或 “窄的橋樑”–對應於很少的通訊交流。在最低的極端情況下,一個奇異值對應於零糾纏,我們不妨忽略下圖中的極窄的細橋。
事實上,請注意,如果ψ的施密特秩等於1,也就是說,如果MM是一個秩為1的矩陣M=uv†M=uv†,那麼我們可以寫成ψ=u⊗vψ=u⊗v.在數學文獻中,這種形式的向量(即向量的張量乘積)有時被稱為簡單張量。為此,一些數學家將糾纏與 “簡單張量的線性組合 “相關聯。到現在為止,我希望原因大家都已經清楚了。
歸根結底是SVD。
回到應用…
今天的文章部分是受Daniela Witten熱情洋溢的Twitter話題的啟發,這些話題涉及SVD的許多奇觀和用途。我想在今天的文章中告訴你SVD的另一個用途–希望能幫助你把一個複雜的想法變得更簡單一點。當然,我在討論中省略了很多內容,但我希望這是一個有用的起點,以便進一步閱讀。
作為結尾,我以對數據科學致敬作為本文的開始。的確,人們不需要做任何關於量子的假設就可以談論SVD,但是SVD是研究量子系統的重要數學工具。而有趣的是,這兩種對話並不是正交的。比如,這裡有一篇X公司同事最近的論文:Entanglement and Tensor Networks for Supervised Image Classification。在那裡,他們測試記錄了MNIST手寫數據集中影像上下半部分之間的糾纏量(Schmidt rank)。換句話說,他們探索了標準機器學習數據集的糾纏特性。希望我今天的討論可以幫助這樣的論文變得更容易理解。
只要記住:每當你看到糾纏這個詞,請聯想到SVD!
雷鋒字幕組是一個由AI愛好者組成的翻譯團隊,匯聚五五多位志願者的力量,分享最新的海外AI資訊,交流關於人工智慧技術領域的行業轉變與技術創新的見解。
團隊成員有大數據專家,演算法工程師,影像處理工程師,產品經理,產品運營,IT諮詢人,在校師生;志願者們來自IBM,AVL,Adobe,阿里,百度等知名企業,北大,清華,港大,中科院,南卡羅萊納大學,早稻田大學等海內外高校研究所。
如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。