­

【發點感慨】我的cnblogs的文章被爬到了別的網站,閱讀量比在cnblogs上還要高

  • 2022 年 2 月 11 日
  • 筆記

近期我寫了挺多VictoriaMetrics的文章,在搜索相關文章的時候發現,我的文章被別的網站爬去了:

寫寫技術文章就是無償分享給別人看的,越多人看到越多人受益,這一點沒毛病。
但是:

  • 爬了別人的文章,是不是應該註明一下作者和原文鏈接?
  • 爬過去的內容,最好是完整的易於閱讀的。有幾篇文章丟了圖片,有幾篇丟了鏈接,有的鋪滿了各種廣告……
  • 某個網站,大量爬取免費的文章,仗著自己的內容多、SEO做得好,就可以靠著搜索流量,通過別人創作的內容來加入廣告變現……挺無恥的!

這個問題挺難搞的:
1.首先,cnblogs這樣的網站要做好SEO優化,並要能夠相比第三方網站的爬蟲,更早被主流搜索引擎爬到;
2.搜索引擎應該要保護原創作者:

  • 能夠識別兩個URL的內容是相同的
  • 識別出最早的發布源,將真正的原創排在前面
  • 如果某個網站總是出現大量重複文章,則應該懲罰性的排名靠後
    3.cnblogs這樣的網站要做好運營:
  • 通過某種機制,發現惡意的爬取網站。例如,在文章中隱藏某個特殊字元串,這個字元串全網唯一,通過搜索這個字元串發現偷盜者
  • 屏蔽偷竊網站的爬蟲
  • 採用法律手段主動出擊

以上都是挺大的工作,對於創作者個人,我覺得可以這樣:

  • 文章中手動加上作者和出處的聲明。就算文章被爬,也能夠「宣誓」自己的原創地位;
  • 放棄開放性,選個封閉的圈子。例如微信公眾號、頭條等。搜索引擎搜不到,但是能防止這種沒良心的爬取。

鼓勵分享,反對偷竊!