搜索引擎的工作原理—SEO原创秘笈(二)
2018-10-22 来源:SEO研究协会网
搜索引擎的工作原理-SEO原创秘笈(二)
接下来的课程中,广州新川教育的专业SEO老师,庞洪老师将为大家解答关于搜索引擎的工作的问题,众所周知,SEO也叫做搜索引擎优化,也就是要让我们的网页尽量符合搜索引擎的工作习惯,尽量去迎合它的过程。我们必须先搞清楚搜索引擎的工作原理,然后才能迎合它的工作。
那么搜索引擎的工作原理是什么呢,它是如何工作的呢?我们分如下八步来给大家讲解搜索引擎的工作原理:
1、当搜索引擎蜘蛛进入到一个网站(如果是一个单个的网页则不要管这一步)后,第一时间是查找网站根目录下的robots.txt文件,这个文件是向蜘蛛表明哪些网页它可以去,哪些网页是不需要它去收录的文件,它将严格依照这个文件的规定。然后它会查找这个网站下的网站地图,即sitemap文件,看看如何去收录这个网站,那当然,你的网站中如果没有这两个文件,对搜索引擎将是不利的(如何制作这两个文件,在我们后面的SEO优化课程里将会有详细的讲解)。
2、当搜索引擎进入到网页后,会先查找网页的title和H1标签和keywords和description标签,所以我们要保证这四个标签的关键词的高度统一;
3、提取文字:
搜索引擎的抓取是以文字内容为基础的,所以,从优化的角度出发,动画网站,Javascript 的代码,图片内容是不能被引擎抓取的,对优化网站是不利的。“提取文字”是指搜索引擎先从HTML 文件中去掉标签,程序,提取出可以用于页面排名处理的文字内容。
4、分析、确定关键词(中文分词):
对于西文的网站而言,搜索引擎判断一个词的方法非常简单,有空格就会产生一个词,所以,搜索引擎在判断西文网站的关键词时比较简单,这个词出现机会越大就越有可能是关键词。
中文分词是中文搜索引擎特有的步骤,搜索引擎在处理数据时都是以词为基础的,英文等语言单词与单词之间有空格,可以直接分词,而中文词与词之间没有任何分隔符,一个句子中的所有字和词是连在一起的,搜索引擎要先分辨哪几个字是一个词,哪些字本来就是一个词,比如“减肥方法”可能被分为“减肥”和“方法”两个词。
当搜索引擎发现title、keywords、description、H等标签中出现的词与正文中大量出现的词相同或者相近时,它会认为这个词就是这个页面的关键词。
5、去停止词:
如的,地,得,啊,哈,呀之类的词,这类词是任何网页都不可能将之作为关键词的词,就叫停止词,搜索引擎在将网页收录进数据库之前会去掉这些词。
6、消除噪声:
噪声是指网页上对页面主题没有贡献的内容,比如版权声明文字,导航条,广告等,这些都属于噪声,对页面排名不利,它对于主题只能起分散作用。消噪的基本方法是根据html 标签对页面分块,区分出页头,导航,正文,页脚,广告等区域,在网站上大量重复出现的区块往往是噪声,所以这些地方大家最好不要放置关键词。以免给搜索引擎造成误会,因为它会认为,这些地方出现的词不应该是关键词。所以大家会经常看到某些网页的最下方,有人会故意放置很多的关键词,这是不但无益而且有害的。
7、去重:
同一文章经常出现在不同网页上,搜索引擎不喜欢这样重复性的内容,喜欢原创。所以,有些人为了页面的更新度,会将人家的文章进行复制,然后加入一些简单的内容进行所谓的伪原创,这是不能逃过引擎的去重算法。 每个网站有着不同的权重,这也导致不同的页面也有不同的权重,用来衡量网站权重最有效的概念是PR值。简单来说,权重的概念可以这样理解,如果一个有影响力的人(权重高)说一件事,相信的人会很多,而一个不为人知的小人物(权重低)说了同一件事,人们会认为可信度不高。
当相同或者相似度很高的文章出现在不同的网站上,权重高的网页会排名靠前,反之权重低的网页排名靠后甚至根本不收录,这就是去重的概念。
8、索引: 经过文字提取,确定关键词,消噪,去重后,搜索引擎得到的就是独特的能反映页面主体内容的,以词为单位的内容。接下来搜索引擎索引程序会进行如下的操作:
1).提取关键词:按照分词程序分好的词,把页面转换为一个关键词组成的集合;
2).记录每一个关键词在页面上的出现频率、出现次数、格式(比如关键词是否出现在标题、黑体、H 标签、锚文字等标签中)、位置(比如是否在页面第一段文字)等,这样,每一个页面都可以记录为一连串关键词的集合。当用户在搜索引擎中输入关键词与本页匹配时,引擎会根据它的算法为你的页面进行排名处理,然后显示在搜索引擎中。
以上八步,就是搜索引擎的工作原理,也就是搜索引擎抓取网页的整个过程。我们做网站SEO优化,就是要最大程度去迎合搜索引擎的工作的过程,当我们明白搜索引擎的工作原理后,就可以有的放矢地做SEO工作。
本文仅代表作者个人观点,不代表SEO研究协会网官方发声,对观点有疑义请先联系作者本人进行修改,若内容非法请联系平台管理员,邮箱cxb5918@163.com。更多相关资讯,请到SEO研究协会网www.west.cn学习互联网营销技术请到巨推学院www.jutuiedu.com。
标签: seo 代码 互联网 排名 数据库 搜索 搜索引擎 搜索引擎优化 学习互联网 中文搜索引擎
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。
最新资讯
热门推荐