搜索引擎的工作原理包括网页搜索、信息预处理和建立索引三个过程。
细化分为:抓取-抓取-处理抓取信息-建立索引-呈现排名
一:爬行
爬取的目的:建立一个要爬取的列表
谷歌爬虫:ddos百度爬虫:蜘蛛
1。发现:
新网站
被动等待:设置Robots.txt文件,放在服务器上等待爬虫过来爬。(谷歌几周,百度一个月到几个月。)
主动爬虫:写带链接的软文,花钱上高质量高权重的网站,利用高权重的博客,在高质量的论坛发外链。
新内容
可以把首页放在首页,否则尽量放在顶栏(总结:尽量放在权重高的位置)
横幅图片不如幻灯片,幻灯片不如文字。(概要:文字优先,图片写alt属性)
2、爬虫分析:
查看:网站日志分析。站长的工具可以在日志文件中查看:查看抓取频率。太高的话,服务器会崩溃。
问题及解决方法:网站访问量突然为0
先上网站查一下有没有被处罚
分析日志爬虫并记录IP(蜘蛛,用户)
统计代码有问题
3。爬行策略:
深度优先:一楼栏目到最后(1-1000万页)
广度优先:同行专栏单独收集(100万页)
混合:混合使用两者(5000-1亿页)
4。爬虫抢障碍物:
txt文件设置不正确。服务器本身的问题(频繁出现动态IP,服务器不稳定)就是URL太长,搜索引擎爬虫懒得直接抓取。陷阱
二:抢
1。网页本身必须符合W3C标准
头信息:状态码:200(正常访问),404(死链),301(永久重定向),302(小心临时重定向),403(禁止访问),5xx(数据库问题)。编码:建议使用utf-8。gb2312在国外打开是乱码。
2。TDK关键词:
标题:努力走到前面。我们希望爬虫在进入某个页面时能看到我们的主要内容。
长度:25个汉字足够写33篇汉字的文章。两个英文字符算作一个单词
位置:关键字位置在 之前
次数:不要重复太多(栏目可以强调关键词,最重要的放在最前面)
可读性:考虑用户体验
独创性:蜘蛛喜欢新鲜的东西
关键词:首页5-7个,一级栏目5-6个,二级栏目4-5个,列表页3-4个,专题2-3个。说明:(栏目必须围绕关键词写)
作用:提高点击率
密度:3-8%
长度:80个汉字
原创:有利于包容
可读性:用户体验考虑事项
行动号召:活动和促销等页面
3。公共部分:
搜索引擎不会抓取重复的部分(爬虫更喜欢新鲜原创的东西,重复的内容不利于抓取)
4。导航:
一级导航,二级导航,左侧导航,SEO导航(标签),面包屑导航(不要用JS实现),
5。广告:
横幅图片不如幻灯片,幻灯片不如文字(总结:文字优先,图片写alt属性)。文字有利于爬虫抓取。
6。正文:
关键词:次数适当,密度3-8%适中,位置高(可通过金华站长工具找到)
lt;H1 gt;标签:唯一性,整个页面第一重要。包括关键字,关键字越多越好
lt;H2 gt;其他属性可以在 中添加
lt;altgt;属性:只能用于lt;imggt;,意在告诉蜘蛛图片的解释 lt;alt gt属性:只能用于< img gt,意在告诉蜘蛛图片的解释
lt;title gt属性:在链接中添加描述性文字,可以为用户提供更清晰的含义。锚文本:(凡事讲究相关性)锚文本一定要有相关关键词,而且要面对面相关
III:处理抓取结果(预处理)
爬行后,爬虫将其压缩成数据包,返回给数据库
相关性:由于百度算法的上下文分析+语义分析,网站上不能出现无关内容,否则会丢弃搜索引擎的权威性:各种奖项,在线评价,申请百度客服增加信任度。
注:权威性不足的影响:对于同一篇文章,由于信任度的高低,有可能文章本身被转载发表了,而自己的却在别人的网站后面。
去重:一个链接不能有多个页面,同一个关键词不能指向不同的链接,不同的链接和同一个关键词不能出现在同一个页面,
四:建立索引
搜索引擎的索引是逆向建立的
主页网址76分
一级栏目网址80分
二级栏目网址96分
专题页面网址70分
产品网址68分
百度分词:从前到后,从后到前,统计,第三步。在处理捕获的结果时,爬虫将捕获的内容压缩成数据包,并将它们返回给数据库。这时,搜索引擎的索引数据库就建成了。当用户搜索一个词(长尾词或短尾词)时,搜索引擎会根据百度分词规则,首先显示搜索词与索引数据库完全一致的词。
原文链接来源:http://www.longseo.com/seojichu/600.html