无语博客

花儿死翘翘


您的位置: 首页 无语分享 正文

分析采集站(一)

今天来分析一个采集站。www.myexception.cn

先来看一下它的爱站流量

这两天有所下降。显示的百度来量只有2480~3564。

28号以前是10000+

不过这个数值只是一个参考而已。有个朋友的站,查爱站只有100~200的百度来量。但实际IP数接近20000。

 

首页:http://www.myexception.cn/

栏目页:http://www.myexception.cn/web-develop/

内容页:http://www.myexception.cn/web-develop/1742163.html

 

 

先来看首页,首页很简洁。除了一张广告图片。没有任何图片。

全首页皆列表。指向栏目页及某些热门的内页。

备案地方指向工信部的链接加了nofollow ,防止导出权重。

<a href="http://www.miitbeian.gov.cn/" rel="nofollow">粤ICP备11033556号-1</a>

 

网站标题:软件开发,程序错误,exception - 我的异常网

网站描述:Exception软件开发中经常遇到的程序错误我的异常网提供权威的软件开发程序错误解决方案,欢迎您的到来。

网站关键词:Exception,异常,Java Exception

 

网站描述里把标题里出现的词全都给写上去了。

 

网页底部加了标题的锚文本。

<a target="_blank" href="http://www.myexception.cn/">软件开发</a>

<a target="_blank" href="http://www.myexception.cn/">程序错误</a>

<a target="_blank" href="http://www.myexception.cn/">异常</a>

<a target="_blank" href="http://www.myexception.cn/">Exception</a>

这个是全站通用的。

 

 

栏目页:

标题:web开发 - 我的异常网(栏目标题 - 网站名称 )

关键词:web开发(栏目标题)

描述:我的异常网之Web开发栏目提供权威的web开发相关的BUG、异常、错误问题解决方案,欢迎您的到来。(我的异常网之[栏目名称]栏目提供权威的[栏目名称]相关的BUG、异常、错误问题解决方案,欢迎您的到来。)

每个栏目页的描述都一样。除了把关键部分替换为栏目名称。

 

上部有个面包屑导航。

也就是“当前位置: 我的异常网 » Web开发 » 列表”这个。

 

底部和首页一样。加了标题的锚文本。

 

右侧看到的这些图片列表。在源码里没有体现。也就是它是一个增加用户体验的东西。对搜索引擎没有任何作用。

 

但是话又说回来。没有这些图片列表。搜索引擎在爬取这个页面的时候。就少爬取一些代码。可增加爬取速度,减少爬取难度。

 

栏目页分为了两部分。上部分是该栏目下的所有文章列表。20个分为一页。每个列表项显示标题,还有文章的前100多字。

 

下半部分。是所有栏目页的列表。也就是首页的上半部分。

 

这个对于此网站来说,相当于它的导航了。因为栏目太多,只能以此方式来显示。

 

而只有在首页它才放在上面。在栏目页和内容页都是放在下面的。

 

内容页:

标题:iframe嵌入jsp,该如何解决 - Web开发(文章标题 - 栏目名称)

关键词:iframe嵌入,jsp,该如何解决 (对文章标题进行分词。然后将结果用作关键词)

描述:(截取文章内容前N字作描述内容。但是似乎他没做处理的。从描述里的引号就能看出。)

 

顶部搜索及一些栏目列表就不说了。

和栏目页一样,有个面包屑导航。

 

然后是文章的标题及内容。标题放在 <h1></h1> 标签内。

 

下面的“相关解决方案”是一些相关文章的列表。

 

再下方,和栏目页一样。放的是此栏目内热门或者最新的一些文章链接。

 

最底部。就不用说了。栏目的列表及完全一样的底部信息。

 

右侧的图片列表,依旧是使用JS之类的引用的。在源码里没有显示。

 

以上是对这个网站的客观展现,下面谈谈自己的主观看法。不代表一定正确,有错误还请大神们不吝赐教。

 

使用了全站静态。

这里简要说一下三种方式的优缺点。

动态网页:占少量硬盘,耗主机资源一般,显示速度中等。

伪静态:占少量硬盘,耗主机资源高,显示速度略慢。

静态网页:占大量硬盘,耗主机资源低,显示速度略快。

 

这个只是在软件硬件完全一样的情况下才能这么比较的。否则一个用国外空间的静态页,打开速度怎么也比不上国内的伪静态页。

 

不过对于这个站来说,要说是静态页。其实也还有一些疑惑的地方。因为内容太多,如果生成一页内容就要生成一次栏目页的话。似乎对机器负担挺大呀。

 

莫非是伪静态?

 

页面简洁:

除了内容,就是链接。基本上没有其它多余的东西出现。比如图片之类的(除了文章内含图片的)

 

像右侧的图片文章列表,都使用JS加载。这样让页面不至于太难看。而又不影响搜索引擎的抓取。

 

导航位置的摆放

在上一篇文章我有提到过我有做失败的采集站。(详见:采集站要怎么做?

 

当时那个站的首页,就是一般的CMS这样的。上面是导航,然后下面是各个栏目的最新文章列表。

 

栏目页,内容页的导航都是在上面。而当时我的栏目达到30多个。

 

所以一查看网页源码。前面一大部分都是导航。

 

他这个的首页和导航都比较好。

 

首页就是顶部一个导航,然后下面有少量的文章列表。

 

然后栏目页和内容页的导航都在下面部分。

 

搜索引擎来了,先看到上面的数据(栏目列表,和文章内容)。然后才是下面的导航。能让它尽快得到高质量的东西。

 

总的来说,给我的感觉就是速度

 

以最快的速度展现相对高质量的内容给搜索引引擎。

 

让搜索引擎能花最少的时间抓取完整个网页。

 

无语博客,期待与您交流。


本文地址:https://www.wuyublog.com/wuyufenxiang/5.html,来源于【无语博客】,欢迎转载,转载请注明出处。
  • 评论列表:
发表评论: