学习seo必修内容
来源:企宣科技郑州建网站的公司频道 作者:郑州seo李逍遥 日期:2010年11月23日 访问次数:
大家都知道搜索引擎是使用机器人程序自动访问互联网上的网页并获取网页信息
那么搜索引擎访问网站的第一步就是检查网站的robots.txt文件,通过robots.txt来指定机器人在网站上的抓取范围(就是不想被搜索引擎抓取的和要收录的内容)。所以在学习SEO中学会robots使用是非常有必要的.郑州网站建设公司分享:
第一,robots.txt应该要放在网站的根目录上而且文件名必须全部小写,机器人访问网站首先会检测http://域名/robots.txt,来确定访问权限的那范围.由于机器人第一步访问的文件是robots所以不管你是否需要屏蔽机器人抓去,都要添加一个robots.txt.
第二,一般robots要屏蔽的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等.禁止抓取这些文件可以大大减少机器人的工作压力,提高机器人对网站的友好度.所以呢.蜘蛛要靠养的,你对他好.他自己也会对你好
第三,关于robots书写的内容
robots里的基本函数:User-agent和 Disallow。文件里面至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。
详细说明:
如果你想要所有搜索引擎抓取你网站上的所有内容就直接在robots文件里写
User-agent: *
Disallow:
或者直接空建一个robots.txt的空文件
说明:User-agent:后面为搜索引擎的机器人程序名称,*则表示所有的搜索引擎机器人程序;Disallow:后面为不允许访问的文件目录。
以下是常见的搜索引擎spider程序
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛:slurp
如果要禁止所有搜索引擎抓取网站所有内容则在robots里写
User-agent: *
Disallow: /
如果要禁止所有搜索引擎抓取网站内的某些部分内容则在robots写上
User-agent: *
Disallow: /123/
Disallow: /abc/
如果是单禁止某个搜索引擎的访问则在robots写
User-agent: googlebot
Disallow: /
同理如果你要只允许某个搜索引擎访问禁止其他搜索引擎的话则在robots里写
User-agent: googlebot
Disallow:
User-agent: *
Disallow: /
一般网站所要禁止抓取的内容如下: [仅供参考]
Disallow: /admin/ 后台管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 图片
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /lang/ 编码文件
Disallow: /script/ 脚本文件
其他说明
Disallow: .jpg$
屏蔽网站带JPG的图片文件,也可以防止搜索引擎抓起后被盗链
屏蔽admin目录防止出现不必要的死链,并且可以有效的保护网站安全,不少低级黑客就是通过搜索默认后台登陆,以达到入侵网站的目标
在robots.txt里还可以添加上sitemap网站地图提供给搜索引擎直接访问的内容让搜索引擎更快到找到目标提高收录
Sitemap: http://域名/sitemap.xml
在英语中robot是机器人的意思,robots就很容易了解到他的作用.所以学会robots对seo的帮助还是非常大的.
企宣科技为您提供专业的网站建设和网站推广,网站优化排名服务,让您投入的每一分钱都获得超值的回报!咨询建站QQ:企宣技术
企宣业务
咨询热线:15038068810
