网站筹备详细过程及上线一天google收录心得

2019-03-11 10:01:41来源: 一起非主流,www.17feizl.com 阅读 ()

新老客户大回馈,云服务器低至5折

最近一直在想做个网站充实一下业余的时间,毕竟每天上下班后的时间都很无聊,由于女朋友属于非主流脑残人群,因此为了迎合她的喜好,就打算搞一个非主流文化的站点。

先期的工作可以大致分为以下几个步骤:

1、CMS系统的选择

一直在drupal和dedecms之间犹豫,但最后还是选择了本土的dedecms,毕竟本土化做的好,而且相较之下,drupal虽然功能异常强大,但是对于我的应用来说,它实在是太复杂了。于是本地搭建了WAMP环境,装上了dedecms,对系统的操作进行了初步的熟悉,并且对网站的栏目进行了划分。

2、采集器的选择

说实在的,作为个人站长,我实在没有太多的时间和精力去搞非主流素材的原创,于是考虑使用数据采集,试过了dedecms的采集功能,使用起来不是很方面,而且是基于web界面,在我网速不佳的情况下,页面竟然会僵死。现在的采集软件较几年前应该是强大很多了,于是我相信一定有更强大的采集软件,GG上一搜,果然有一款称为火车采集的软件。于是下载,熟悉。说句题外话,这个软件写的其实真不咋的,内存消耗极大,并且很多UI、UE的设计简直莫名其妙。不过好在,耍起来,基本功能都能满足,并且稳定性、抓取速度明显强于dedecms。在完全熟悉了它之后,就开始针对已划分的栏目进行对应的采集了。

3、域名的注册及空间的租用

网上查了很多相关域名,都被注册掉了,最后选择了www.17feizl.com这个域名,意为”一起非主流“,也算是搭一点边界吧。空间租的是10G、mysql1G的那种,独立IP,速度还行。只是不能防盗链,这对于一个以图片为主的网站而言,不太理想。

4、ICP备案

我选择的这家IDC还算是比较正规的,因此管理比较严格,如果没有ICP备案号,是不允许域名绑定的,于是让IDC代为进行备案,因为众所周知,备案的周期是惊人的缓慢。我已经做好等待3周的准备了。而这3周的时间,我可以用来同步进行dedecms模板的修改及程序的调整。但是没想到的是,我申请的ICP在提交2天之后就审核通过了。总结了一下,代我备案的IDC在ICP那里信誉度高,可能我以个人站长身份报备,周期就会长了。这里还有一个小心得,就是我报备的那个身份证号,之前是注册过,但是15位的,这次我报备的时候输入的是18位的,一样审核通过了。

5、模板修改

由于ICP迅速的通过审核,让我的计划有点打乱,于是我加班加点地进行dedecms模板的修改,难度倒是没有什么,比较多的是一些css的调整。其中有一个自由列表功能,有点让我莫名,因为dede官网对于它的介绍也是非常模糊,论坛里也有大量的人在问这个功能到底怎么用。通过反复的摸索研究,终于对其理解了。其实自由列表在一定程度上,可以替代文章列表页和智能标签,因为它能套用不同风格的列表模板,这是列表页所不具备的,但智能标签可以实现。只是智能标签又不能做分页。dede的开发人员还真没想清楚。。。搞得这么复杂。。。,具体怎么用自由列表,这里就不多阐述,提一个小心得,当自由列表替代一个栏目的列表页时,在每次生成栏目文章静态页之后,要去更新一下自由列表,否则没有效果。并且切记不要再去更新栏目静态页,否则自由列表也会没有效果。

6、抓取数据的处理

dede的文章摘要比较奇怪,是自动摘录文章的前N个字,这对于我需要自定义摘要而言,有点画蛇添足。另外,一些抓取的文章中的图片的alt也需要替换,于是自己写了个外挂,可以检查各个栏目文章的keywords、description,并且可以进行修正。还能够批量检测、修正文章中图片的alt等等。而对于dede的程序也做了一些hack,每次添加文章的摘要和关键字都是根据预先写的好程序自动生成的。

7、伪原创:对于图片文章,我的做法是修改文章标题,基本上改的面目全非,但不会脱离图片的主题。对于图文混和的文章,改标题、添加原创首尾段文字,中间的文字对于语义比较容易转换的,也尽量做了调整,尽量将两篇文章的相似度降低。

8、部署

我不提倡网站一上线,就一股脑把所有抓取的数据都生成出来。首先,蜘蛛看你瞬间出现的庞大数据量,很容易判定站点为垃圾站,其次,刚上线的网站,弄那么多,给谁看呢?我的做法是,上线时,生成了百篇左右的文章,其余在后台全部设为”待审核“,这样在生成静态的时候,不会一起生成出来。然后每天就在后台里,从那些待审核的文章中,挑个二三十篇进行更新,这样蜘蛛看来,更像是网站的自然更新,而其实这些数据早一个星期前就准备好了,咔咔~但前提是,这些数据一定要经过伪原创处理,否则……但是,我又发现一个问题,即如果数据的抓取时间是8月5日,更新时间为8月9日,文件目录命名是以年月日这种方式的话,9日更新的文件,是会保存在5日那个文件夹内,这样不太美观,也不清楚对SEO是否会有影响。于是还是狠下心,读了一下dede的源码,将源码修改为每次修改完文章后,sortdate、senddate都取当前时间戳,这样就可以保证发布到当前日期的文件夹,并且文章发布日期也正确。我是archives和arctiny两个表都同步更新。只更新archives表有什么后果我也没有试过。

9、上线:向各大搜索引擎提交了网站,其中GG和百度提交了2次。然后半夜在一个论坛回复了一个帖子,后面跟了域名及超链,就去睡了。白天醒来,发现没什么动静,于是就到网易、搜狐、新浪的博客里发了个日志,日志里大量提到了网站名称和超链。到了下午,观察log,终于发现google的蜘蛛来了。但百度还没有来,于是去了百度知道回复了一个提问,并且针对提问,给了一个一起非主流站内链接给提问者参考,还在贴吧跟贴带了域名和超链。到了下午,百度蜘蛛来了,并且又去GG站长管理工具验证了网站并且申请了GG Adsense。网上吃好饭,打开GG,发现已经被GG收录了,虽然只是首页,但总算也是收录了。其中我在GG中输入我的某些文章的标题,还能搜到那片文章所在的列表页地址。这个不知道算不算收录,我也不是非常清楚。但百度依然没有动静。再观察log,竟然发现了大量的404,我查了半天也不知道这些404蜘蛛是哪里找到的,后来花了1个小时,终于被我查到原因了:在网站正式生成静态之前,我曾经一口气生成过全部静态页作为测试之用,后来全部被我删除了,我以为这样就干净了,却没想到,我忘记删除或更新sitemap和rss文件,这两个文件里面,存在之前生成的大量链接!当我更新了这两个文件之后,蜘蛛的爬行也顺畅多了,出现了很多200,但404依旧夹杂其中,应该是之前的网站索引已经被完全被抓取导致蜘蛛还在继续爬行那些404页面。我很胸闷……只能怪自己太粗心,没有注意到这个细节。所以以此为戒,希望各位站长朋友务必要注意这两个文件。。。

关于GG快速收录,不乏运气因素,但总结下来,这几方面也也值得思索:博客日志的外链作用还是有一定效果的,而GG站长管理工具和GG adsense都是google自家的产品,相信其也有一定的权重。而百度,就真的是看造化了。

好了,洋洋洒洒地谈了这么多,并不是要具体讨论如何选择cms、如何选购域名空间、如何使用采集器、如何修改dede,如何做seo……而是将我的建站过程与大家分享,在这个过程中,可以看到一些操作步骤是可以提前,又有一些是可以并行,还可以看到建站过程中可能会遇到的问题及陷阱。本文无非是起到抛砖引玉的作用。希望帮助那些新手站长理理建站的头绪,更清楚自己哪一步该做什么以及哪些必须要做,哪些避免去做。

欢迎大家访问我文中提到的这个新建站点:一起非主流 www.17feizl.com

本文为原创文章,欢迎转载,尊重原创内容,转载请注明出处:www.17feizl.com

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:国内特色UChome社区 别具特色的发展之路

下一篇:Google Analytics进阶运用之事件跟踪