【發點感慨】我的cnblogs的文章被爬到了別的網站,閱讀量比在cnblogs上還要高
- 2022 年 2 月 11 日
- 筆記
近期我寫了挺多VictoriaMetrics的文章,在搜索相關文章的時候發現,我的文章被別的網站爬去了:
寫寫技術文章就是無償分享給別人看的,越多人看到越多人受益,這一點沒毛病。
但是:
- 爬了別人的文章,是不是應該註明一下作者和原文鏈接?
- 爬過去的內容,最好是完整的易於閱讀的。有幾篇文章丟了圖片,有幾篇丟了鏈接,有的鋪滿了各種廣告……
- 某個網站,大量爬取免費的文章,仗著自己的內容多、SEO做得好,就可以靠著搜索流量,通過別人創作的內容來加入廣告變現……挺無恥的!
這個問題挺難搞的:
1.首先,cnblogs這樣的網站要做好SEO優化,並要能夠相比第三方網站的爬蟲,更早被主流搜索引擎爬到;
2.搜索引擎應該要保護原創作者:
- 能夠識別兩個URL的內容是相同的
- 識別出最早的發布源,將真正的原創排在前面
- 如果某個網站總是出現大量重複文章,則應該懲罰性的排名靠後
3.cnblogs這樣的網站要做好運營: - 通過某種機制,發現惡意的爬取網站。例如,在文章中隱藏某個特殊字元串,這個字元串全網唯一,通過搜索這個字元串發現偷盜者
- 屏蔽偷竊網站的爬蟲
- 採用法律手段主動出擊
以上都是挺大的工作,對於創作者個人,我覺得可以這樣:
- 文章中手動加上作者和出處的聲明。就算文章被爬,也能夠「宣誓」自己的原創地位;
- 放棄開放性,選個封閉的圈子。例如微信公眾號、頭條等。搜索引擎搜不到,但是能防止這種沒良心的爬取。
鼓勵分享,反對偷竊!