找回密码
 立即注册

QQ登录

只需一步,快速开始

热门经验分享: 护肤 减肥 化妆 美发 育儿 恋爱 理财 职场 旅行 运动 养生 购物 生活 运势 游戏 手机 电脑 小吃 美食 宠物 装修 西点
当前位置: 经验分享网 > 游戏/数码 > 互联网 > 百度spider介绍

百度spider介绍

时间:2014-5-17 10:25 点击:1093次
对于您网站上新产生的或者持续更新的页面,Baiduspider会持续抓取。此外,您也可以检查网站访问日志中Baiduspider的访问是否正常,以防止有人恶意冒充Baiduspider来频繁抓取您的网站。 ...
  1. 什么是Baiduspider

  Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。

  2. Baiduspider的user-agent是什么?

  百度各个产品使用不同的user-agent:

产品名称

对应user-agent

无线搜索

Baiduspider

图片搜索

Baiduspider-image

视频搜索

Baiduspider-video

新闻搜索

Baiduspider-news

百度搜藏

Baiduspider-favo

百度联盟

Baiduspider-cpro

商务搜索

Baiduspider-ads

网页以及其他搜索

Baiduspider


  3. Baiduspider对一个网站服务器造成的访问压力如何?

  为了达到对目标资源较好的检索效果,Baiduspider需要对您的网站保持一定量的抓取。我们尽量不给网站带来不合理的负担,并会根据服务器承 受能力,网站质量,网站更新等综合因素来进行调整。如果您觉得baiduspider的访问行为有任何不合理的情况,您可以反馈至反馈中心。

  4. 为什么Baiduspider不停的抓取我的网站?

  对于您网站上新产生的或者持续更新的页面,Baiduspider会持续抓取。此外,您也可以检查网站访问日志中Baiduspider的访问是否正常,以防止有人恶意冒充Baiduspider来频繁抓取您的网站。 如果您发现Baiduspider非正常抓取您的网站,请通过反馈中心反馈给我们,并请尽量给出Baiduspider对贵站的访问日志,以便于我们跟踪处理。

  5. 如何判断是否冒充Baiduspider的抓取?

  建议您使用DNS反查方式来确定抓取来源的ip是否属于百度,根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

  5.1 在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

  $ host 123.125.66.120

  120.66.125.123.in-addr.arpa domain name pointer

  baiduspider-123-125-66-120.crawl.baidu.com.

  host 119.63.195.254

  254.195.63.119.in-addr.arpa domain name pointer

  BaiduMobaider-119-63-195-254.crawl.baidu.jp.

  5.2 在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

  5.3 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

  6. 我不想我的网站被Baiduspider访问,我该怎么做?

  Baiduspider遵守互联网robots协议。您可以利用robots.txt文件完全禁止Baiduspider访问您的网站,或者禁止 Baiduspider访问您网站上的部分文件。 注意:禁止Baiduspider访问您的网站,将使您的网站上的网页,在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。关于 robots.txt的写作方法,请参看我们的介绍:robots.txt写作方法

  您可以根据各产品不同的user-agent设置不同的抓取规则,如果您想完全禁止百度所有的产品收录,可以直接对Baiduspider设置禁止抓取。

  以下robots实现禁止所有来自百度的抓取:

  User-agent: Baiduspider

  Disallow: /

  以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录:

  User-agent: Baiduspider

  Disallow: /

  User-agent: Baiduspider-image

  Allow: /image/

  请注意:Baiduspider-cpro抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果Baiduspider-cpro给您造成了困扰,请联系union1@baidu.com。

  Baiduspider-ads抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果Baiduspider-ads给您造成了困扰,请联系您的客户服务专员。

  7. 为什么我的网站已经加了robots.txt,还能在百度搜索出来?

  因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。

  如果您的拒绝被收录需求非常急迫,也可以通过反馈中心反馈请求处理。

  8. 我希望我的网站内容被百度索引但不被保存快照,我该怎么做?

  Baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。

  和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。

  9. Baiduspider抓取造成的带宽堵塞?

  Baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充Baiduspider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞,请尽快和我们联系。您可以将信息反馈至反馈中心,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。
经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。
------分隔线----------------------------
相关经验
家常土豆煎饼的详细作法 教你4个简单的瘦脸瑜伽动作 绿色美食榆钱饼 怎样搭配男士领带 椒盐藕夹的做法 玫瑰花茶功效有哪些 给婴儿喝水也是学问 海藻面膜的功效有哪些 怎样才能把口才练好 在销售中如何做到有效聆听电话 怎样才能瘦腿?快速瘦腿的方法 如何挑选浴室镜?帮您打造完美生活 如何在网上订特价机票 如何与第一次见面的人有效沟通 如何管理好自己的情绪? 如何辨别飞利浦灯珠的真假? 如何识别水晶手镯的真伪 为儿童如何挑选自行车 中华烟真假怎样辨别 派克笔真假如何辨别 如何保存香水?香水储存的正确方法 香奈儿蔚蓝男士淡香水真假鉴别 如何使用香水?正确使用香水的方法 鉴别娇兰幻彩流星粉球真假的方法 MAC魅可真假如何辨别 如何鉴别Dior(迪奥)粉底液的真假? 眼部如何进行保养 需要配合按摩手法 欧莱雅眼霜的真假鉴别 ZA卸妆油真假怎么鉴别【图】 怎么看雅漾喷雾真假【图】 怎样鉴别茱莉蔻玫瑰花卉水 橄榄油怎么美容?教您美容小知识 伊丽莎白雅顿面霜真伪如何鉴别 丝瓜水面膜怎么做?教你制作的方法 怎样去黑头最有效?教你去除黑头的妙招 睡眠面膜怎么用?教您使用的小技巧 女性如何保养脚部皮肤 花酿真假如何鉴别及真伪查询【组图】 夏士莲雪花膏真假怎样鉴别 韩伊olive橄榄怎样辨别真假 高夫防晒霜怎样辨别真假 在家美容 如何选择洁面/洗脸仪器 蝶翠诗橄榄皂如何鉴别真伪?【组图】 怎样辨别kanebo佳丽宝的真假 怎样鉴别劳力士手表真假 如何选购棒球帽?棒球帽怎样搭配服装 怎样鉴别真假皮鞋 时尚达人 优质皮女包如何选购 关于SEO的建议 网站改版及301设置说明 阻止个人信息在搜索引擎中出现 site语法查询说明 百度搜索引擎基础知识 禁止搜索引擎收录的方法 建站指南:百度认为什么样的网站更有抓取和收录价值 未建好页面应返回503状态码,防止被删除 百度Site App服务 公务员省考考前必读手册:必带物品 《攻城掠地》武将选择详解-《攻城掠地》武将选择顺序 攻城掠地剧本玉玺争夺战攻略 攻城掠地三英战吕布地狱篇5星通关攻略 攻城掠地三英战吕布攻略 攻城掠地单骑救主地狱五星攻略 如何用小方法摆脱失眠 肾病患者如何正确求医 大学生如何理财 怎么找出空调故障 仙侠道R44破甲流推荐配置介绍 仙侠道器灵升级所需碎片数据 TP-Link 无线路由器设置图文教程 怎么设置TP-Link无线路由器图解 ... 手机号码被泄露该如何处理? 飞机和地铁为什么不欢迎充电宝? 如何戒掉手机瘾 栗建华大夫谈肾病的中医中药治疗方法 苹果值得其他企业借鉴的四点经验 你的销售流程有用吗 孕前男女双方都要检查些啥 一个HR的真实求职面试经历 汽车销售顾问面试经验 常用搜索引擎高级命令——SEO常用搜索引擎命令 网站排名优化的原理是什么 关键词分类和部署 网站排名优化的原理是什么 过敏性紫癜肾炎吃什么好? 紫癜性肾炎病人吃什么好 如何预防紫癜性肾炎 紫癜性肾炎会给病人带来哪些危害 紫癜性肾炎患者的饮食 ThinkPHP3.2.3新特性之:数据库设置 更年期心情不好怎么办 面试的时候该怎么谈工资 羊年祝福语大全_2015羊年春节祝福语_祝福短信 2015年羊年祝福短信_羊年祝福短信 羊年对联_羊年俏皮话_关于羊年的短句 “您需要添加对方为好友+才能给对方发送会话消息”QQ解决办法 ... 中医对麻风病的认识 一个域名下安装两套科讯CMS的解决方法 2015年TOEFL刷分技巧大揭秘 考生必备:走出托福听力困境的七大秘诀 不同被套需要有不同的洗法 天猫魔盒2安装软件看电视直播方法 彻底弄懂css中单位px和em,rem的区别 PHPCMS页面标题中SEO标题用横线"-"隔开的修改方法 KindEditor编辑器自动过滤首行缩进和全角空格的解决方法 phpcms发布内容时阅读数随机显示 phpcms V9 新版本如何设置TAG标签关键词伪静态 phpcms 修改后台内容管理列表数量的方法 htaccess详解及.htaccess参数说明-NC 忽略路径大小写问题 如何使植物短期内不会缺水 PHPCMS V9搜索结果页分页伪静态方法
推荐内容

QQ|Archiver|手机版|小黑屋|经验分享网 ( 冀ICP备09032767号 )

GMT+8, 2019-12-13 21:38 , Processed in 0.204347 second(s), 20 queries .

Powered by 经验分享网 X3.4

© 2011-2014 http://www.ijingyan.cn