百度SEO算法技術的局限性,怎麼做才能有收益
- 2022 年 5 月 7 日
- 筆記
不知道大家有沒有發現,我們使用百度的頻率在減少,就算有時遇到一些問題,需要用百度來尋找答案,也會經常遇到搜索不到答案的情況。到底是出了什麼問題?難道網絡上的資源不夠豐富了?浩如煙海的互聯網,居然搜索不出來想要的答案?
究其原因,是百度的機器算法造成了現在的困局。這一切要從百度發展的早期說起。
在互聯網早期階段,所有人都剛剛對互聯網進行探索,一個網頁瀏覽器,就打開了這個世界的大門。互聯網的早期階段,就是以瀏覽器作為窗口的。很多人通過建網站,在互聯網上提供資源,供千萬人瀏覽。隨着網站越來越多,信息源成爆髮式增長,有的人就會想,怎樣才能從這海量的信息中,獲取自己想要的結果?於是,搜索引擎誕生了。國外的代表是谷歌,國內的老大就是百度。搜索引擎這個壞傢伙,通過網絡爬蟲,抓取互聯網上所有的頁面和資源,然後建立索引數據庫,供用戶搜索查詢。所以,大家只要在搜索引擎網站輸入一個關鍵詞進行搜索,互聯網上所有被索引進數據庫的頁面的相關鏈接,就都會顯示出來,這樣就極大的提高了獲取信息的效率。隨着建網站的人越來越多,搜索引擎里能查找到的信息也就越來越豐富,大家每天都會遇到各種各種的問題,無論你遇到什麼問題,幾乎都可以在搜索引擎里找到答案。所以,就有了那一句經典的廣告詞「百度一下,你就知道」,的確如此。
表面上看,好像是百度把所有的互聯網信息都囊括了,百度就是互聯網的窗口,百度就是互聯網信息的全部。
但是事實真的如此嗎?在那個年代,確實如此。百度幾乎是一切互聯網流量的來源。但是,當我們從某個上帝視角去俯視這個模式,就會發現一個小小的問題,就是百度似乎匯聚了整個互聯網的信息,但是這些信息,其實並不屬於百度。歸根結底,百度只是把海量的信息,做了一個索引,一個匯總,就像一本書的目錄一樣,但是這些具體信息的內容,都是在各自的獨立網站上的。而這些網站,本質上並不受百度控制。從另一個角度講,這些網站和百度只是合作關係,因為有一個協議,叫做robots協議。也就是在你網站的根目錄,會有一個robots.txt的文本文件,搜索引擎就是根據這個文本文件中的描述,來選擇獲取哪些內容和屏蔽哪些內容。
那麼問題來了,既然網站的內容不受百度的控制,百度只是對信息做了一個索引,那麼百度是怎麼判斷出信息的質量以及這個信息是否對用戶有幫助的?說的通俗一點,當我們在百度搜索框中搜索一個關鍵詞時,會出現很多條記錄,通常排在前面的就是質量最好最相關的。百度把它認為所有相關的信息,按照關聯度或信息質量進行排序,並呈現在我們面前,它是怎麼知道這些信息的質量和關聯度的?以及對用戶是有幫助的?
這裡就涉及到了一個百度賴以生存的排名算法。百度畢竟不是人,只是機器,它將信息爬取並匯總起來,然後通過極其複雜參照量極多的算法,對信息進行排序,質量好的網站會排在前面,質量差的網站會排在後面,就是我們常說的百度排名。看到這裡,有的人會提出一個問題,百度這樣的排名算法,嚴謹嗎?能百分之百準確嗎?問到重點了。這就是百度十幾年來一切問題的根源了。答案顯然是:不能。正如前面所說,百度不是人,算法只是機器的指令,不可能做到百分之百的精準,所以它不夠嚴謹,也不一定正確。我們可以把百度和目前流行的內容平台,微信公眾號和抖音,做一個對比。微信公眾號里,所有的文章,都是在微信平台上發佈的,都會受到微信的監控和管制。抖音也是如此,所有的視頻,都是完全在它的平台上,而不是只做一個索引。所以,這兩個平台對內容有百分之百的管控能力。怎麼判斷某個內容質量的呢?很簡單,不用依賴機器算法來分析,因為用戶會自動幫你投票。比如,如果某個內容質量高,完整觀看的人就會多,點贊的人就會多,收藏的人就會多,評論和轉發的人就會多,反覆觀看的人數就會多,而用戶的這些動作,微信和抖音都是能監控到的,所以他們的排名算法會極其精準,好內容都是用戶自己選出來的,而且也應該是用戶自己選出來的。反觀百度,它的所有內容都是其他網站上的,某個文章有沒有被人完整觀看,有多少人點贊,多少人收藏了,有多少人轉發了,它能監控到嗎?監控不到。百度所能做的,只能通過一些外部的變量來判斷內容的好壞,而用戶的真實行為,它是獲取不到的。
所以百度無法像微信和抖音那樣,直擊內容。
這就好比是判斷一個人是否有錢,微信和抖音可以直擊本質,可以直接查看這個人的銀行卡餘額,而百度,只能是通過這個人開的什麼車,帶的是什麼手錶,住的是什麼房子,來判斷這個人是否有錢。所以,這裡就有誤差了。開的車可能是借的,手錶可能是假的,房子也許是租的,這個人看上去有錢,實際上可能是負債纍纍。所以通過外部變量來判斷事物的本質,都是有很大的誤差的。因為所有外部的變量都可以偽裝,只有銀行卡餘額才是本質,是偽裝不了的,但是百度卻查看不到。
所以,做微信和抖音的人,都在研究什麼?怎麼寫好的文章吸引大家點贊轉發,做一個爆款的視頻有哪些技巧和方法。究其本質,都是在研究如何做好內容。
但是,做百度排名的人呢,幾乎沒有人討論如何做好內容,而是想着如何討好(騙過)百度這個機器算法。因為漸漸的,大家都知道,就算內容做的再好,百度也不一定會給你排名。而相反,有些內容即使很爛,但是外部變量偽裝的很好的,百度卻能給與很高的排名。
目前所有的seo技術,不管是黑帽seo和白帽seo,這些所謂的技術,本質上都是在偽裝外部變量,在百度看來,都屬於作弊。因為作為平台方,肯定是希望內容越好排名越好,這樣用戶才會被內容吸引,越來越依賴平台,從而形成一個正向循環。正常的情況是,內容越好,圍繞它周邊的外部變量就會自然的變好,就像是一個人越有錢,開的車應該就越好。但是偏偏就是有人沒有錢也開好車。seo的很多技術,就是在不增加內容質量的情況下,只是單純的讓外部變量變得更好,從而達到欺騙百度算法,獲取排名的目的。
下面我們來列舉一些百度作為判斷依據的重要的外部變量,以及所謂的seo是如何應對的。
1. 內容原創:不管是什麼平台,內容質量都是最重要的,內容的原創度越高,質量就會相應的越好。但是你到seo的社區里,就會發現站長們都是怎麼對待原創的?都在討論採集和偽原創,沒有人去認認真真的寫高質量的原創內容。因為百度判斷原創的方法很簡單,就是如果之前沒有收錄過這篇文章,就會被認為是原創,哪怕是用軟件工具生成的一篇狗屁不通的文章,也是如此。而且,就算你寫出高質量的原創,百度也判斷不出來是高質量的還是低質量的,因此也不會給你權重和流量,那麼誰還會費力不討好呢。更何況很多封閉的自媒體平台,本身就是屏蔽百度的,比如,今日頭條,公眾號,企鵝號,大魚號等,直接把這些平台上的文章搬到自己的網站上,百度就會認為是原創,就會收錄。所以沒有人為了百度,去認真地做原創,都是偽原創和採集內容。
2. 外鏈數量:關於外鏈數量決定網站的質量,百度最初的想法應該是認為:外鏈的數量越多,說明網站內容被轉載和引用的次數就越多,也就側面說明了網站質量好對用戶有幫助。只可惜外鏈這個外部變量,太容易被修改了。於是誕生了大量的買賣外鏈的平台,seo的人員,有錢的直接買外鏈,不想買的自己到處發外鏈,或者和其他人鏈接互換。甭管是什麼網站,文章好不好不重要,重要的是我留下了一條鏈接,就達到目的了。所以,你看網上誕生了大量的無效的垃圾內容,很多人只是為了留下一條鏈接,就會故意製造一些沒有營養的內容。百度也很難判斷這條留下的鏈接,是真正有意義的被留下了,還是通過上述手段被故意留下的。
3. 建站時長:這個更可笑,因為互聯網上有很多個人做的網站,幾個月不掙錢或者玩夠了,就關閉了。所以你會發現,以前收藏過的很多網站,慢慢的很多都打不開了,那麼像這些做一段時間就關閉的網站,肯定不是百度心中的優秀的站點。所以,百度就認為,一個網站,建站時間越長,越說明這個網站是用心做的,不會隨便關閉,百度才會給與流量。針對這一點,很多人就直接買老域名,來走捷徑。老域名就是別人以前做了好幾年的網站,然後別人不做了,你直接花錢把這個域名買過來,重新做一個網站。哪怕你重新做的網站和之前的網站,內容完全不一樣,也沒關係。由於建站時間久,權重極高,百度便會給予很快的收錄和很好的排名。
當然,所謂的外部變量,遠遠不止上面說的這幾個,實際情況會更加複雜,但是無論多複雜,機器也沒有人聰明,尤其是中國人。窺一斑知全貌,從上述情況可以看出,站長們根本不需要做好內容,只需要讓外部變量看起來漂亮,讓機器算法認為是優質的網站或內容,就足夠了。
無論怎樣,機器是笨拙的,尤其是百度的機器算法,由於無法直擊內容,所以更是漏洞百出。下面通過兩個具體的實際例子,來說明機器算法的局限性。
1. 大家可以看一下這個網站,景德鎮信息網:
這個網站很神奇,你會發現,它的所有內容都是採集的,它的網址後面,加上任意一串數字,再接上.html,都會有一個網頁內容,顯然這個網站背後,並不是一個用心維護好內容的兢兢業業的站長,而是一個可以完全自動化生成內容的程序。這樣的網站應該屬於垃圾網站,因為本質上,它沒有自己產生優質內容,解答不了網民用戶的疑問。但是百度呢?它看到的和我們不一樣。因為它只是一個機器算法,它看到的是一個擁有豐富內容的網站,所以收錄了很多頁面,並給與了不錯的權重和排名,甚至還給了一個官網標識。
2.還有一個朋友的網站,叫「八圖片」,主要是提供一個二維碼加密的技術,很多站長用這項技術來賺錢,比如,給一些虛擬資源加密然後自動化的出售。所以有一段時間,朋友把網站的關鍵詞設置成了和網zhuan相關的。但是大家都知道,網zhuan是一個很危險的詞語。我記得央視315節目也曾經曝光過,互聯網的網zhuan項目,大部分都是騙錢的或者違法的。所以,這個關鍵詞也順利成章的被百度列入了黑名單,八圖片這個網站那段時間也被百度K掉了。雖然後來通過申訴恢復了,但是由此可以看出,百度這個機器一刀切的做法。因為百度只是機器算法,它畢竟不是人,它分不清哪些項目是真的,哪些是假的。所以,既然判定不了,又這麼危險,就乾脆認為全部都是違法的。
由此可見,百度的機器算法,很難判斷出真正的好內容,漸漸的導致了百度里的內容,劣幣驅逐了良幣,好的內容都轉移到了很多其他並不對百度開放的內容平台里,比如,微信公眾號,抖音等。
並且還有一個原因,就是其他的內容平台,比如公眾號,抖音等,真的很好用,不僅使用門檻低(不像建網站,又需要有域名,又需要有主機,又要懂一點建站技術,門檻較高),而且由於是自家平台,所以只需要全心全意的做好內容就行了。不需要用什麼技巧去討好機器算法,只需要討好用戶,而討好用戶恰恰纔是做內容的初衷和本質。只要內容好,新人也有機會流量暴增而一夜成名。而如果是做網站,新人則很難出頭,首先網站結構要先符合百度的優化方案,然後百度對於新網站的考察期就是三個月,這樣就導致新網站很難起量,很多人堅持不了那麼久,短期內沒有成果就很容易放棄。
百度的問題,不僅是上面所說的好內容轉移到其他平台的問題,還有就是,互聯網上本身就優秀的存量網站,也在變的越來越稀少。由於政策的原因,由於人們習慣的轉變,或者由於廣告的摧殘,導致很多曾經很優秀的網站,也在銷聲匿跡,逐漸淡出人們的視野。比如,博客站,在互聯網早期誕生了很多,但是現在能叫的出名的,真是屈指可數,盧鬆鬆博客是為數不多的能一直堅持到現在的高質量博客了。還有論壇,曾經也是風極一時,不說其他的領域,就說站長論壇,以前真的是風起雲湧,遍地開花。而現在呢,也就只有一個4414站長論壇了。
優秀的網站越來越少,而能生產出好內容的作者,又不一定要做網站,因為有更好的平台可以選擇,這就導致了百度的內容逐漸荒蕪,也就造成了文章開始提出的問題,在百度里居然搜索不出想要的答案了。
面對這些問題,百度也想過自救,既然沒有好網站和好內容,乾脆就自己生產內容,於是推出了熊掌號,百家號這類自媒體平台,想讓用戶把好的內容留在自家陣地上。可惜的是,你百度本身的初衷就是一個搜索引擎,就是建立一個索引目錄,你現在又想做目錄,又想做內容,真是有點本末倒置了。最後大家也都看到了,這些自救的辦法,結果上都是差強人意。
總之,互聯網發展了,商業邏輯變了。以前大家探索互聯網,為了尋找答案,只能通過百度進行搜索。所以,你有好的內容,如果想被發現,就只能做網站,然後費勁巴拉的去討好百度這個機器。但是現在,我可以做公眾號,做小紅書,做抖音,可以不用做網站了,我可以全心全意的做好內容,用戶就會被我的內容所吸引,平台也會給與流量,不是非依靠百度不可了。漸漸的,你會發現,用戶的搜索習慣,也在悄然發生改變。現在搜索一個什麼時事熱點,很多人就直接在微信或者抖音里搜索了,因為結果更精準,信息更及時。這是百度最不希望看到的,卻又無力改變的。
那麼百度如何才能走出困局呢?筆者認為,最重要的還是應該把精力多用在提高機器算法的精確度上,而不是千方百計花樣百出的去搞商業化。簡單來說,就是要讓機器算法越來越像真人,逐漸降低誤判率,能接近谷歌的技術水平。當然百度這麼多年來,也一直是這麼做的,一直在不斷的提高和優化,但是目前來看,水平還遠遠不夠。不知道大家有沒有同樣感受,當我搜索一個問題時,尤其是專業方面的問題,百度經常是找不到任何有用的答案的,但是用谷歌搜索就能找到一兩條有用的結果。而正是這一兩條結果,就能把我的問題解決。所以百度的機器檢索技術和谷歌還是有很大的差距。其次,現在國家不是要求互聯互通嗎?不能再搞內容封閉。這對百度來說,真的是一個巨大的機會,相當於之前流失的優質內容,很多又會重新回到百度的懷抱。比如現在快手和抖音,已經對百度開放了,百度也已經抓取了成千上萬的抖音和快手的內容。相信不久以後,淘寶,微信等優質內容,也都可以被百度抓取到。
希望百度可以抓住這次優質內容又重新回歸的機會,努力提高算法的精準度,準確識別垃圾內容和優質內容,不要再讓用戶失望,只有這樣才能重新站回到互聯網的頂級入口的位置,真正的做到,「百度一下,你就知道」。任重而道遠……