在企业网站优化和网站建设中，如何禁止某些网页被收录

当前位置：网站首页 >> 建站知识 >> 网站优化知识与技巧 >>

在企业网站优化和网站建设中，如何禁止某些网页被收录

来源：郑州凯讯网站发布人：郑州凯讯公司发布日期：2014-06-07

在企业网站优化和网站建设中，有时候我们网站上的有些网页的内容处于保密或其他原因，并不想让搜索引擎收录这些网页。如果我们不采取措施，那么搜索引擎在抓取网页的时候，是能够抓取到这些网页的。所以，如果我们不想让搜索引擎收录这些网页，那么我们就必须采取一些技术措施，才能实现。那么，有哪些手段可以禁止网站内的网页不让搜索引擎收录呢？下面郑州网站优化整理了几种方法，可以供各位站长们参考。

方法一、在robots.txt文件里增加禁止抓取的语句。robots.txt是一个搜索引擎领域的共同遵守的协议规范。搜索引擎在爬行和抓取网页时，需要首先检查网站根目录下是否有存在robots.txt文件，如果存在这个文件，那么搜素引擎将会根据robots.txt文件里设定的抓取范围进行爬行和抓取，当然，如果不存在这个文件，那么等于默认抓取所有的内容。在这个文件中我们可以设置限制搜索引擎抓取的范围。您可以在您的网站中创建一个robots.txt，在文件中设置网站上不想被搜索引擎收录的部分。如果想让搜索引擎收录网站上所有内容，那就不需要建立robots.txt文件。只有当网站内存在不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。允许抓取和禁止抓取的命令字是Allow和Disallow，具体使用方法各位可以参考相关技术资料。

方法二、阻止搜索引擎爬行网页上的超级链接。一般地，搜索引擎抓取网页时根据网页上的链接来爬行和抓取的，因此，如果我们不想让搜索引擎抓取某一个或者某一些页面，那么我们就可以在入口链接的网页上面进行一些设置。我们可以在网页上的的<HEAD> 部分设置如下语句：<meta name="robots" content="nofollow">，“nofollow”的含义是“不要跟踪”的意思，当在网页上设置上这样一行之后，搜索引擎一般就不会再跟踪网页上的链接了，也就不会收录链接的目标网页了。

方法三、阻止搜索引擎在搜索结果中显示网页的快照。如果我们能防止在搜索结果中不然该网页的快照出现，那么也基本上可以防止搜索引擎的收录了。要做到这一点，我们可以在网页上的<HEAD>部分增加以下语句，即可防止在搜索引擎爬行和抓取后，不生成网页快照：<meta name="robots" content="noarchive">。

上面的几个禁止搜索引擎收录网页的方法中，效果最好的应该是第一种，那就是robots协议的方法。郑州网站优化提醒您：要想真正禁止搜索引擎的收录，坦白的说，最好的办法是不把网页上传到网站里了，这样可以绝对禁止网页被收录。据说，即便是将禁止收录的语句添加在robots文件里，有些搜索引擎也同样会去抓取网页，这就等于违背了行业内的robots协议规则。但是由于这一规则并非强制性的，而是业内约定的，因此并没有严格的限制，只能靠各个搜索引擎是否遵守了。一般的比较大的搜索引擎都会遵守这一协议的，所以我们可以按照robots协议的规定设置即可。一般的网站优化公司，也都是按照robots协议的规则建立文件，并按照用户的要求设置禁止项。但是，笔者建议您，如果是非常重要的资料，不建议传到网站上去，这样更保险一些。