天天看点

对网络日志分析的几个方面

1、关键字排行分析

    在搜索过程中,用户跟搜索引擎的交互都是通过输入的主题或者关键词来进行的,因此通过分析用户的査询主题对了解用户的兴趣非常有效,但还是充分表明有很多重复的查询请求,如果能提高这些词的查询质量就能使整体检索的质量提高很多,可以考虑引入缓存机制和建立动态的索引机制。

2、URL排行分析

    用户提交查询关键词后,搜索引擎根据关键词返回相应的查询结果,用户浏览该返回结果后会根据自己的查询意图选择并点击,用户旳点击是对搜索结果的一个反馈,也是对结果排序是否合理的暗示。

3、用户搜索统计

   搜索日志中用户搜索的统计,即不同用户的搜索量统计。

4、时间段统计

   我们很容易看出一天时内,何时是访问高峰期或低谷期,因此可以选择合适的时间做一些更换服务器等维护工作。

5、日搜索量统计

    搜索日志中的日搜索量统计,即不同日期的用户的搜索量

6、相关关键字分析

    我们以文本聚类过程为思路,将排名靠前的搜索关键字和排名靠前的中的文本内容都进行分词后作为实验的语料库,利用word2vec这个工具对相关关键词进行分析。

    具体过程如下:首先利用网络爬虫将排名靠前的前的网页爬取并保存下来,这些数据是包含《html》标签的,我们取其中的content内容,也就是标签《content》中的值,再用分词工具对获取到的内容进行分词,其中Ansj是一个基于ICTCLAS中科院的中文分词算法的java版本的中文分词工具,其准确率较其他的开源分词工具更高。

    接下来将分词后的语料库作为Word2vec的输入文件,通过计算词语间的余弦距离将距离较近的关键词作为相关关键词,为将来用户的搜索提供提示。

继续阅读