主营业务:网站制作 网站优化 小程序制作 石家庄网站制作网站建设有限公司欢迎您!
石家庄闪云网络科技有限公司
客服热线15383239821
如何让自己的网站更有质量?

怎么使用robots.txt控制搜索引擎抓取文章

发布时间:2010/7/20 22:49:04

搜索引擎数据库中的所有网页,都是由Robot程序自动抓取收录的。但我们网站上总会有部分私密性数据不希望被搜索引擎抓取,这时候,就需要robots.txt。

  robots.txt 是一个标准文档,意在阻止搜索引擎的Spider(蜘蛛)从您的 Web 服务器下载某些或全部信息,控制Spider的搜索范围。robots.txt的设置很简单,只要用记事本或其他文本编辑器,依照自己的网站需求,设定一系列选项,然后将其上传到网站根目录即可。robots.txt的设置如下:

User-agent: 搜索引擎的spider代号
Disallow: 输入数据夹或文件名的路径

  如设定所有的spider都能够搜索及抓取整个网站。

User-agent: *
Disallow:

  如拒绝Google搜索及抓取整个网站,但允许其它的

User-agent: Googlebot
Disallow:

  如拒绝所有的Spider

User-agent: *
Disallow: /

  如拒绝所有的Spider搜索及抓取protect目录及seo目录下abc.html文件

User-agent: *
Disallow: /protect/
Disallow: /seo/abc.html

  如拒绝google搜索及抓取protect目录及seo目录下abc.html文件,但允许其他的

User-agent: Googlebot
Disallow: /protect/
Disallow: /seo/abc.html

  很简单吧?另有一点请记住,搜索引擎不会立即对robots.txt 文件所作的更改作出反应,必须等到搜索引擎下一次读取该文件。这段时间,依搜索引擎及具体网站情况,从几小时到几天不等。

下一篇: js字符串截取

相关新闻推荐

在线客服 : 服务热线:15383239821 电子邮箱: 27535611@qq.com

公司地址:石家庄市新华区九中街江西大厦4062

备案号:冀ICP备2022000585号-4