分析師和統計學家可以和諧相處嗎?

作者 | Cassie Kozyrkov

編譯 | VK

來源 | Towards Data Science

當你面對不確定性時,分析師會幫助你提出更好的問題,而統計學家則會給出更嚴謹的答案。看起來他們好像可以互相協作,可是只是一個美好的夢想,但是這些職業最終以某種方式落到了彼此的咽喉。讓我們看看我們是否可以理解分析和統計之間的戰爭(並提出和平條約)。

定義

由於數據科學職位可能無法準確反映人們的實際工作,所以讓我定義一下我的術語:

  • 那些關心數據以進行匯總和提取靈感的人就是我所說的分析師。
  • 我所謂的統計學家就是那些為數據驅動的決策而嚴格檢驗假設的人。
  • 擁有對應的知識並且知道怎麼做的這兩方面都應該具備
  • 那些至少缺失了一方面的就是數據騙子。那些既知道如何做又擁有ML/AI專業知識的人稱為數據科學家。這種多面手確實是罕見的。請注意,不同的組織對於如何定義數據科學角色具有不同的標準,因此最好在假設之前檢查每個人都在談論同一件事。

分析可幫助您形成假設,而統計數據可用於檢驗它們。

分析師專註於快速探索數據集的混亂情況,而統計學家則更多地關注於推斷數據之外的內容。

數據饑荒

上個世紀的數據集往往比較小,因為收集數據的工作量和存儲在20世紀小型硬碟上的成本造成了瓶頸。即使是一個像樣的數據集。

數據饑荒揮之不去的影響之一是數據專業之間的競爭。

無論你身處哪個陣營,你可能會認為另一個陣營在試圖做你的工作,而且他們做得很糟糕。

如果你在數據饑荒的黑暗時代接受了數據科學訓練,你可能會有一種令人討厭的刻板印象,這種印象源於你未能理解分析師和統計學家扮演著不同的角色。無論你身處哪個陣營,你可能會認為另一個陣營在試圖做你的工作,而且他們做得很糟糕。

雙方印象

統計學家對分析師的看法

一句話:馬虎。與統計學家不同,大多數分析師沒有經過嚴格的思考,可以準確地思考哪些結論在不確定性下是有效的,但這沒關係……只要他們不嘗試根據數據得出結論即可。相反,分析師的最高美德是速度,就是儘快找出其數據集中的內容。

在數據中亂竄的想法使許多統計學家誤以為是。最近,我不願意參加這樣的談話:統計學家(不是我!)反對開發更快的分析工具,因為「這會引起濫用。」是的。一種笨的方法,可以踩踏整個分析事業的有效性。

他認為這樣的工具對統計學家不利是正確的,但原因是工作是不同。不幸的是,包括他在內的大多數人都不了解這種區別。

如果您無法拆分數據,並且在弄清楚要問的問題之前先查看了所有數據,那麼您就在進行分析,而不是統計。那不一定是一件壞事。分析是重要且有用的-這就是我們如何產生靈感以找出應遵循的方向。當分析師試圖以更嚴格的方式出售靈感時,麻煩就開始了。

遵循一條黃金法則:在出手之前先做決定,或者堅持描述眼前的情況。

如果您沒有遵循一個黃金法則:在出手之前先做決定,否則,請堅持描述您的數據集。真正的統計學家會對你所謂的「洞見」嗤之以鼻,不要超越它。請不要把自己太當回事,也不要要求別人這麼做。

事實上,如果我們把每個人都當作是在做描述性分析,那麼在我們的數據推理中,我們都會是最安全的。

除非你告訴我,你的理論讓你在出手之前先做決定,否則我就會認為,你給我看的東西只存在於你發現它的地方。人們會在各種各樣的事物中發現模式——尤其是當他們被激勵著去儘可能多的抱著希望去思考的時候——所以你不會給我留下深刻的印象,除非你在看到模式之前就能預測它的存在。除非你能保證(並證明——數據訪問日誌,有人知道嗎?)你的假設先於你的數據,否則你告訴我的任何事情都應該被視為「好像,應該,你的意見」這種不確定詞語。

如果你想在數據分析領域有所突破,你必須遵循一個特定的過程。僅僅因為你的軟體吐出一個p值並不意味著真正的統計推斷髮生了。你必須以一種能夠解開你所做事情的哲學正確性的方式來構建環境和收集數據。方程是不夠的,它們不能把一個破碎的過程變成一個可信的概括。讓我們小心地使用我們的語言,稱每件事為「靈感」或「分析」,直到有其他證明。

分析師對統計學家的看法

一句話:迂腐。與分析師不同的是,大多數統計學家都沒有接受過幫助你了解哪些兔子洞值得去挖的全面和淺層掃描的訓練。對一個分析師來說,你的普通統計學家可能看起來像皇家時間浪費者

許多統計學家喜歡把事情做好,即使這些事情一開始並不總是值得去做。這讓人想起了一個嚴厲的五歲小孩,他把沙堡當成了神聖的地方,並對著想要加入沙堡樂趣的四歲小孩大喊大叫。(這種自以為高人一等的態度也無濟於事)

生活中的許多決定根本不值得去努力,如果我們對每件事都採取仔細的統計方法,我們就不會完成很多事情。如果你把所有的注意力都放在第一件事情上,你確定你沒有錯過更有價值的時間利用嗎?

當統計學家在對探索性數據進行不嚴謹的研究時大聲表示反對時,他們在有商業頭腦的人看來是可笑的

我常常在想,這種「為了嚴謹而嚴謹」的現象,是不是修數學課的結果呢?幼兒園的「如果薩利在一塊田裡有20隻兔子……」這個問題如果一直堅持到研究生院,在研究生院它需要一個三重積分才能得正確答案。

在這麼多隻兔子之後,誰能責怪統計學家把一切都看得太嚴肅了呢?這些課程實際上要求你為愚蠢的問題提供複雜的答案嗎?那麼,你對一個在這十年間成長起來的勞動力有什麼期望呢?僱傭大量的數學/統計崇拜者可以讓你避免一些問題,但也會讓你暴露在其他人面前,包括那些不小心建造每一個沙堡的人。

把我隨意的因果推論放在一邊,如果你有一個願意全身心投入到嚴謹工作中的隊友,那麼希望這種嚴謹是值得追求的。如果你的隊友不知道該去哪個兔子洞,他們需要有人為他們指出正確的方向。

在分析師的幫助下,統計學家們不再需要在黑暗中摸索前進,在他們的頭腦中構建一個宇宙來找出如何提問。相反,他們可以讓分析師激發他們的假設和假設。

那麼,為什麼統計學家不高興有分析師幫助他們識別什麼是值得做的,為什麼分析師不高興把檢驗我們的結論不是胡說八道?為什麼對立和缺乏尊重?

協作

在糟糕的過去,數據集太小而無法拆分,因此您必須在使用它們進行分析和統計之間進行選擇。這意味著兩組將不得不爭奪每個數據集。

在採用現代數據科學方法的組織中,分析人員(靈感/探索)和統計學家(嚴格/測試)之間的緊密合作是這種文化的一部分。

由於硬體的改進和存儲成本的降低,如今許多努力都突破了一個數據集的上限,從而迎來了數據豐富的時代。

將您的數據分為一個探索性數據集,每個人都可以從中挖掘靈感;一個測試數據集,以後將由專家用來嚴格確認探索階段發現的任何「見解」。

現在,分析師和統計人員可以收到他們自己的原始數據集,從而使勘探專家可以與測試專家協調工作,每個小組都盡自己最大的努力。

假設的生成和檢驗之間有效協作的代價是數據量。

分析師可以將其作為指導性的冥想,以找出值得追求的目標,而當他們縮小了企業最關心的範圍時,剩下的部分將使統計學家可以嚴格檢查分析師的直覺是否值得採取行動。

歡迎來到數據豐富的現代時代!

儘管今天的典型數據集比上個世紀的數據要大得多(並且更容易共享/訪問),但由於初始數據收集非常費力或昂貴,因此有些用例被困在一個數據集時代。我的職業生涯中有一個例子是fMRI數據 -即使在今天,掃描單個人腦也非常昂貴,因此具有數十次掃描的神經科學數據集仍然被認為令人印象深刻。這是天真地假設所有數據都是大數據的原因之一。在某些主題中,資訊根本是稀缺的,而從事那些主題的人則面臨著一個數據集饑荒的現實。

如果這聽起來像您的環境,請思考兩方的優缺點,以及你自己本身所需要的跟哪一方可以融洽。