- 注册时间
- 2012-10-22
- 最后登录
- 2017-3-8
- 阅读权限
- 90
- 积分
- 31948
- 精华
- 0
- 帖子
- 1795
 
TA的每日心情 | 开心 2017-3-8 16:33 |
---|
签到天数: 882 天 连续签到: 3 天 [LV.10]以坛为家III
|
很多网站都懒得去做这个指标,“我看看site的数据不就行了!”,事实上没有这个指标,很多工作就无从下手。从数据中找出问题,利用数据指导解决方案,分析数据验证工作成果。 最近看了《深入浅出数据分析》这个本,觉得不错,把数据分析的方法讲得很生动,建议有兴趣的从事数据分析的同学可以买本看看。
通过本文开始的有关收录的两个因素,我们需要检查一下,网页是否被爬虫爬行过,网页的质量是不是过关。
1. 关于爬虫的情况,我们需要分析日志,才能确定。于是我们从日志中拆分一系列数据看看页面是否真的被爬行过。
2. 由于页面质量似乎是一个很难衡量的值,于是我们可以用相同模板下的:
已被爬行的页面数量/已被爬行并且被收录页面数量来评估该模板页面质量对收录的影响大小。如果被爬的页面都被收录了,那至少说明这套页面的内容搜索引擎还算认可。
|
|