找回密码
 立即注册

QQ登录

只需一步,快速开始

热门经验分享: 护肤 减肥 化妆 美发 育儿 恋爱 理财 职场 旅行 运动 养生 购物 生活 运势 游戏 手机 电脑 小吃 美食 宠物 装修 西点
当前位置: 经验分享网 > 游戏/数码 > 互联网 > 禁止搜索引擎收录的方法

禁止搜索引擎收录的方法

时间:2014-5-17 10:34 点击:1243次
仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

1. 什么是robots.txt文件? 

    搜 索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫 做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中 声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。                
    请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。            

2. robots.txt文件放在哪里? 

    robots.txt 文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在 http://www.abc.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的 范围。

网站 URL
相应的 robots.txt的 URL
http://www.w3.org/
http://www.w3.org/robots.txt
http://www.w3.org:80/
http://www.w3.org:80/robots.txt
http://www.w3.org:1234/
http://www.w3.org:1234/robots.txt
http://w3.org/
http://w3.org/robots.txt


3. 我在robots.txt中设置了禁止百度收录我网站的内容,为何还出现在百度搜索结果中?

    如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。


4. 禁止搜索引擎跟踪网页的链接,而只对网页建索引

    如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的<HEAD> 部分:
<meta name="robots" content="nofollow">
    如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:
<a href="signin.php" rel="nofollow">signin</a>
    要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的<HEAD> 部分:
<meta name="Baiduspider" content="nofollow"> 


5. 禁止搜索引擎在搜索结果中显示网页快照,而只对网页建索引

    要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的<HEAD>部分:
<meta name="robots" content="noarchive">
    要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:
<meta name="Baiduspider" content="noarchive">
注:此标记只是禁止百度显示该网页的快照,百度会继续为网页建索引,并在搜索结果中显示网页摘要。 


6. 我想禁止百度图片搜索收录某些图片,该如何设置? 

    禁止Baiduspider抓取网站上所有图片、禁止或允许Baiduspider抓取网站上的某种特定格式的图片文件可以通过设置robots实现,请参考“robots.txt文件用法举例”中的例10、11、12。


7. robots.txt文件的格式 

"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
"<field>:<optional space><value><optionalspace>"
    在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:


User-agent:

    该 项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会 受 到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有 效, 在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加 入"User- agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User- agent:SomeBot"后面的 Disallow和Allow行的限制。


Disallow:

    该 项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会 被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、 /help /index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不 能访问 /help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至 少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。


Allow:

    该 项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头 的 URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、 /hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与 Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

使用"*"and"$":
Baiduspider支持使用通配符"*"和"$"来模糊匹配url。
"$" 匹配行结束符。
"*" 匹配0或多个任意字符。

注:我们会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,我们会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。           

 

8. URL匹配举例

Allow或Disallow的值
URL
匹配结果
/tmp
/tmp
yes
/tmp
/tmp.html
yes
/tmp
/tmp/a.html
yes
/tmp
/tmphoho
no



/Hello*
/Hello.html
yes
/He*lo
/Hello,lolo
yes
/Heap*lo
/Hello,lolo
no
html$
/tmpa.html
yes
/a.html$
/a.html
yes
htm$
/a.html
no


9. robots.txt文件用法举例

例1. 禁止所有搜索引擎访问网站的任何部分
下载该robots.txt文件
User-agent: *
Disallow: /
例2. 允许所有的robot访问
(或者也可以建一个空文件 "/robots.txt")
User-agent: *
Allow: / 
例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Allow: /

User-agent: *
Disallow: / 
例5. 仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider
Allow: /

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: / 

例6. 禁止spider访问特定目录 
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/ 
例8. 使用"*"限制访问url
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 
User-agent: *
Disallow: /cgi-bin/*.htm 
例9. 使用"$"限制访问url
仅允许访问以".htm"为后缀的URL。
User-agent: *
Allow: /*.htm$
Disallow: /
例10. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
例11. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
例12. 仅允许Baiduspider抓取网页和.gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
例13. 仅禁止Baiduspider抓取.jpg格式图片
User-agent: Baiduspider
Disallow: /*.jpg$

10. robots.txt文件参考资料

经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。
------分隔线----------------------------
相关经验
家常土豆煎饼的详细作法 教你4个简单的瘦脸瑜伽动作 绿色美食榆钱饼 怎样搭配男士领带 椒盐藕夹的做法 玫瑰花茶功效有哪些 给婴儿喝水也是学问 海藻面膜的功效有哪些 怎样才能把口才练好 在销售中如何做到有效聆听电话 怎样才能瘦腿?快速瘦腿的方法 如何挑选浴室镜?帮您打造完美生活 如何在网上订特价机票 如何与第一次见面的人有效沟通 如何管理好自己的情绪? 如何辨别飞利浦灯珠的真假? 如何识别水晶手镯的真伪 为儿童如何挑选自行车 中华烟真假怎样辨别 派克笔真假如何辨别 如何保存香水?香水储存的正确方法 香奈儿蔚蓝男士淡香水真假鉴别 如何使用香水?正确使用香水的方法 鉴别娇兰幻彩流星粉球真假的方法 MAC魅可真假如何辨别 如何鉴别Dior(迪奥)粉底液的真假? 眼部如何进行保养 需要配合按摩手法 欧莱雅眼霜的真假鉴别 ZA卸妆油真假怎么鉴别【图】 怎么看雅漾喷雾真假【图】 怎样鉴别茱莉蔻玫瑰花卉水 橄榄油怎么美容?教您美容小知识 伊丽莎白雅顿面霜真伪如何鉴别 丝瓜水面膜怎么做?教你制作的方法 怎样去黑头最有效?教你去除黑头的妙招 睡眠面膜怎么用?教您使用的小技巧 女性如何保养脚部皮肤 花酿真假如何鉴别及真伪查询【组图】 夏士莲雪花膏真假怎样鉴别 韩伊olive橄榄怎样辨别真假 高夫防晒霜怎样辨别真假 在家美容 如何选择洁面/洗脸仪器 蝶翠诗橄榄皂如何鉴别真伪?【组图】 怎样辨别kanebo佳丽宝的真假 关于SEO的建议 网站改版及301设置说明 百度spider介绍 阻止个人信息在搜索引擎中出现 site语法查询说明 百度搜索引擎基础知识 建站指南:百度认为什么样的网站更有抓取和收录价值 未建好页面应返回503状态码,防止被删除 百度Site App服务 公务员省考考前必读手册:必带物品 《攻城掠地》武将选择详解-《攻城掠地》武将选择顺序 攻城掠地剧本玉玺争夺战攻略 攻城掠地三英战吕布地狱篇5星通关攻略 攻城掠地三英战吕布攻略 攻城掠地单骑救主地狱五星攻略 如何用小方法摆脱失眠 肾病患者如何正确求医 大学生如何理财 怎么找出空调故障 仙侠道R44破甲流推荐配置介绍 仙侠道器灵升级所需碎片数据 TP-Link 无线路由器设置图文教程 怎么设置TP-Link无线路由器图解 ... 手机号码被泄露该如何处理? 飞机和地铁为什么不欢迎充电宝? 如何戒掉手机瘾 栗建华大夫谈肾病的中医中药治疗方法 苹果值得其他企业借鉴的四点经验 你的销售流程有用吗 孕前男女双方都要检查些啥 一个HR的真实求职面试经历 汽车销售顾问面试经验 常用搜索引擎高级命令——SEO常用搜索引擎命令 网站排名优化的原理是什么 关键词分类和部署 网站排名优化的原理是什么 过敏性紫癜肾炎吃什么好? 紫癜性肾炎病人吃什么好 如何预防紫癜性肾炎 紫癜性肾炎会给病人带来哪些危害 紫癜性肾炎患者的饮食 ThinkPHP3.2.3新特性之:数据库设置 更年期心情不好怎么办 面试的时候该怎么谈工资 羊年祝福语大全_2015羊年春节祝福语_祝福短信 2015年羊年祝福短信_羊年祝福短信 羊年对联_羊年俏皮话_关于羊年的短句 “您需要添加对方为好友+才能给对方发送会话消息”QQ解决办法 ... 中医对麻风病的认识 一个域名下安装两套科讯CMS的解决方法 2015年TOEFL刷分技巧大揭秘 考生必备:走出托福听力困境的七大秘诀 不同被套需要有不同的洗法 揭秘如何在半个月内托福成绩提高十分以上 使用托福机经的基本策略 托福口语考试满分技巧 托福考试考场应试技巧 天猫魔盒2安装软件看电视直播方法 彻底弄懂css中单位px和em,rem的区别 PHPCMS页面标题中SEO标题用横线"-"隔开的修改方法 KindEditor编辑器自动过滤首行缩进和全角空格的解决方法 phpcms发布内容时阅读数随机显示 phpcms V9 新版本如何设置TAG标签关键词伪静态 phpcms 修改后台内容管理列表数量的方法 htaccess详解及.htaccess参数说明-NC 忽略路径大小写问题 如何使植物短期内不会缺水 PHPCMS V9搜索结果页分页伪静态方法
推荐内容

QQ|Archiver|手机版|小黑屋|经验分享网 ( 冀ICP备09032767号 )

GMT+8, 2019-12-13 21:38 , Processed in 0.164913 second(s), 20 queries .

Powered by 经验分享网 X3.4

© 2011-2014 http://www.ijingyan.cn