在企业网站优化和网站建设中,有时候我们网站上的有些网页的内容处于保密或其他原因,并不想让搜索引擎收录这些网页。如果我们不采取措施,那么搜索引擎在抓取网页的时候,是能够抓取到这些网页的。所以,如果我们不想让搜索引擎收录这些网页,那么我们就必须采取一些技术措施,才能实现。那么,有哪些手段可以禁止网站内的网页不让搜索引擎收录呢?下面郑州网站优化整理了几种方法,可以供各位站长们参考。
方法一、在robots.txt文件里增加禁止抓取的语句。robots.txt是一个搜索引擎领域的共同遵守的协议规范。搜索引擎在爬行和抓取网页时,需要首先检查网站根目录下是否有存在robots.txt文件,如果存在这个文件,那么搜素引擎将会根据robots.txt文件里设定的抓取范围进行爬行和抓取,当然,如果不存在这个文件,那么等于默认抓取所有的内容。在这个文件中我们可以设置限制搜索引擎抓取的范围。您可以在您的网站中创建一个robots.txt,在文件中设置网站上不想被搜索引擎收录的部分。如果想让搜索引擎收录网站上所有内容,那就不需要建立robots.txt文件。只有当网站内存在不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。允许抓取和禁止抓取的命令字是Allow和Disallow,具体使用方法各位可以参考相关技术资料。
方法二、阻止搜索引擎爬行网页上的超级链接。一般地,搜索引擎抓取网页时根据网页上的链接来爬行和抓取的,因此,如果我们不想让搜索引擎抓取某一个或者某一些页面,那么我们就可以在入口链接的网页上面进行一些设置。我们可以在网页上的的<HEAD> 部分设置如下语句:<meta name="robots" content="nofollow">,“nofollow”的含义是“不要跟踪”的意思,当在网页上设置上这样一行之后,搜索引擎一般就不会再跟踪网页上的链接了,也就不会收录链接的目标网页了。
方法三、阻止搜索引擎在搜索结果中显示网页的快照。如果我们能防止在搜索结果中不然该网页的快照出现,那么也基本上可以防止搜索引擎的收录了。要做到这一点,我们可以在网页上的<HEAD>部分增加以下语句,即可防止在搜索引擎爬行和抓取后,不生成网页快照:<meta name="robots" content="noarchive">。
上面的几个禁止搜索引擎收录网页的方法中,效果最好的应该是第一种,那就是robots协议的方法。郑州网站优化提醒您:要想真正禁止搜索引擎的收录,坦白的说,最好的办法是不把网页上传到网站里了,这样可以绝对禁止网页被收录。据说,即便是将禁止收录的语句添加在robots文件里,有些搜索引擎也同样会去抓取网页,这就等于违背了行业内的robots协议规则。但是由于这一规则并非强制性的,而是业内约定的,因此并没有严格的限制,只能靠各个搜索引擎是否遵守了。一般的比较大的搜索引擎都会遵守这一协议的,所以我们可以按照robots协议的规定设置即可。一般的网站优化公司,也都是按照robots协议的规则建立文件,并按照用户的要求设置禁止项。但是,笔者建议您,如果是非常重要的资料,不建议传到网站上去,这样更保险一些。