平時在瀏覽百度的時候很少發現有今日頭條的內容信息,淘寶的產品信息,阿里大魚自媒體信息。為什么呢?原因就是因為這些網站都對百度搜索引擎設置了Robots協議,禁止讓百度搜索引擎抓取,通過接下來的閱讀,讓你快速完成以下三個目標。第一個:對Robots協議有一定的了解;第二個:可以很好的讀懂淘寶Robots紅色標注協議的意思;第三個:能夠看懂淘寶對待googlebot(谷歌機器人)和baiduspider(百度蜘蛛)有什么不同
本節內容通過以下六個點來講解:
1. Robots定義
2. 為什么要研究Robots
3. Robots常用語法
4. 個別Robots指令示例
5. Robots在工作中常見應用場景
6. Robots怎么做
以下為明細明細:
1. 關于定義:Robots指令是搜索引擎來到網站第一個訪問的文件,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍,網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
2. 為什么要研究Robots:更好的告訴搜索引擎哪些頁面可以抓取,哪些頁面不可以抓取,對一些沒有必要抓取的頁面進行第一時間屏蔽
3. 常用語法:Robots常用的語法為以下幾種:
(1)User-agent:代表搜索引擎名稱
(2)Disallow釋義:不允許訪問
(3)Allow釋義:允許訪問
(4)* :匹配任意字符內容
(5)$ :行結束符,通常為頁面使用,欄目通常使用“/”(示例:Disallow:/.htm$ )
4. 個別指令示例:有個別指令需要特殊說明,可以有助于大家更好地認識Robots,內容如下:
(1)Disallow: 不允許
(2)Disallow:/ 根目錄下面所有文件都不允許抓取
(3)Disallow:/a a開頭的目錄文件不允許抓取
(4)Disallow:/a/ 不允許抓取a文件夾
(5)Disallow:/chanpin/
(6)Disallow:/*?* 不允許抓取動態url
5. Robots在工作中常見應用場景:有些同學可能會問Robots在工作中到底怎么用呢?我們經常碰到的三種使用場景如下:
(1)新網站沒有正式上線,屏蔽搜索引擎
(2)有些欄目不想讓搜索引擎爬行抓取(不重要的欄目)
(3)動態URL屏蔽
6. Robots怎么做:
(1)新建Robots.txt文檔
(2)撰寫Robots協議規則要求
(3)上傳到網站空間根目錄(可以去百度搜索資源平臺,進行檢測訪問權限是否生效)
>>本文地址:http://www.jecan.cn/zhuanye/2020/48580.html
聲明:本站稿件版權均屬中公教育優就業所有,未經許可不得擅自轉載。
1 您的年齡
2 您的學歷
3 您更想做哪個方向的工作?