SolrQuery挖掘--单维度聚合分析单维度聚合分析单维度聚合关键问题单维度聚合实现样例

2021-11-06 14:30:51

<a></a>

单维度聚合分析应该是各种分析统计中最为简单、直接。

对于主动搜索、被动搜索一体的应用场景，有登录和无登陆等统一兼顾。并且提供接口服务，按需返回维度信息，并且可以复用。

无疑采取搜索引擎，依赖搜索引擎的facet统计功能，最为直接、快捷、有效、低沉本。前提是对搜索引擎比较熟悉，否则光一个

搜索引擎就折腾死人了。

单维度分析意义主要在掌握数据属性、用户属性、热点发现。

例如：某个产品上某个用户一段时间搜索词聚合，然后对聚合词语义分析，将可以分析出该用户的某些历史偏好、行为特征、消费

倾向、社区角色等。

例如：一段时间内产品上用户在搜什么，那些是热点词，是否与运营活动相关，是否是产品的重点词范畴等。

例如：将关键词、时间、产品倒排起来，那么就可以知道任何时间段内，具体产品活跃的关键词分布，间接知晓产品的“语义集合”

例如：将关键词、用户、时间倒排起来，那么很容易知晓那些词偏女性、那些词偏男性、那些词中性，用户那个时候搜的多、是那些词

例如：将关键词、排序、翻页、命中倒排起来，那么很容易发现点击热点、超时分析等。

。。。。

太多了

大家都关注结果去了，没有人喜欢过程，尤其是周期性、长期的过程。在淘宝上成交量、客单价为主题的大环境，任何和交易不相关

、任何不能直接影响交易、任何只是提升用户细微体验等等工作，都是一个“弱势”需求，甚至等于不是需求。

所以，技术即使实现，也不见得有人会关注、有人去用。kpi中不会因为用户体验而打分，kpi中不会因为改善排序效果而肯定。

因为本身这些不好评估效果，特别是短期内的效果。更本质的可能是这些“无关交易”！

既然是单维度聚合，那么维度的选择就非常重要了。这个需要不是技术一方面说的算，更多的依赖业务。

而往往习惯了运营为主、人肉、经验为主的淘宝居多业务，对交易之位的属性关注度明显的不在意。

也甚至出现，计算出来的结果会在白名单、黑名单过滤下，面目全非。

通常基本的维度不可少：时间、业务、人、关键词等。也即时间、地点、人物、事件。

输入就是线上日志，输出就是格式化文档或者倒排索引结构。

在输入和输出之间就是转换。转换的过程其实非常麻烦的问题，只看一端只觉得问题很easy！

麻烦之处：

(1)提取规则

日志总是有许多莫名其妙的格式、内容、乱码。很难有一个100%的规则，满足所有请求日志。

即使有，也很难很容易的扩展到其他应用。例如solr 日志格式是有规律的，但是用户内容不一定有规律。

基于文本标签提取，自然会遇到内容的标签问题。提取完毕之后，schema结构具体应用是不一样的。

(2)提取速度

越精细越耗时，并且java string对象处理起来比较方便，却速度上远远低于char，而char处理不是很方便。

对应solr query log 还是建议采取char为主、stringbuidler为核心变量。

(3)适应性

一开始都是追求100%解析通过，实际总有那么一些内容，搅合常规处理方法。为了适应这些非常规的请求，

往往会将之前的处理规则打破或者添加更多条件，然后整体性能突然下降。建议：能处理的快速处理，不能处理的

单独输入到一个文本，对于这些非常规的特殊处理。

对于终搜 solr 日志

输入 2012-08-09 14:50:33,396 info [org.apache.solr.core.solrcore] - [search4product-0]

webapp=null path=/select params={q=+supplier_id%

3a649289&amp;sort=weight1+desc&amp;rows=30&amp;start=0&amp;facet=true

&amp;facet.field=cat_path&amp;hl.usephrasehighlighter=false&amp;echoparams=explicit&amp;hl=true

&amp;hl.fl=title&amp;hl.requirefieldmatch=true&amp;hl.simple.pre=<em>

&amp;hl.simple.post=</em>&amp;hl.snippets=3&amp;hl.fragsize=2000&amp;timeallowed=2500}

hits=1762 status=0 qtime=123

解码

2012-08-09 14:50:33,396 info [org.apache.solr.core.solrcore] - [search4product-0]

webapp=null path=/select params={q=+supplier_id:649289&amp;sort=weight1

desc&amp;rows=30&amp;start=0&amp;facet=true&amp;facet.field=cat_path&amp;hl.usephrasehighlighter=false

&amp;echoparams=explicit&amp;hl=true&amp;hl.fl=title&amp;hl.requirefieldmatch=true&amp;hl.simple.pre=<em>

提取输出 2012-08-09t14:50:33z#&amp;search4product-0#&amp;supplier_id:649289#&amp;sort:weight1 desc#&amp;hits:1762#&amp;qtime:123

构建solr document

SolrQuery挖掘--单维度聚合分析单维度聚合分析单维度聚合关键问题单维度聚合实现样例

继续阅读

B端仪表盘控制台页面通常采用数据可视化的方式，将企业的业务数据以图表、表格等形式展示出来，让管理人员或数据分析人员能够直

云会计少年的工作，简单开始。三五软件建战困难，一键建账，支持第三方财务软件在线导入，操作简单，一分钟快速上手。发票管理难

老板们，你们要找的门店线上商城小程序它来了！[给力]思迅微商店小程序[给力]线下门店，线上也开，帮你做大门店生意！[中国

餐饮美食是每一个人每天都离不开的必选项，而往往好的点餐体验才更容易给客户带来深刻的印象，对于实体餐饮商家来说有一个自己独

B端界面的数据报表需要满足数据可视化、实时更新、定制化、数据安全、多维度分析和导出功能等特点，以提供优质的数据分析服务。

ElasticSearch（ES）倒排索引原理

下方进我的商品橱窗看看真便宜。今晚8点，淘宝天猫618正式开卖。记者从淘宝天猫处获悉，从首页展示到搜索推荐提升，从榜单推

es的几个骚操作

技术解密｜阿里云多媒体 AI 团队是凭借什么拿下 CVPR2021 5冠1亚的？顶级挑战赛战绩显赫四大挑战的关键技术探索基于视频理解技术打造多媒体 AI 云产品

算法专家解读 | 开放搜索教育搜题能力和实践

企业上云的智能指挥官——混合云管理平台

招标助手！全新的商情服务解决方案，让您在招投标市场游刃有余！快来看看这款应用有哪些厉害的功能吧！招标信息实时推送，最新动

一个优秀的B端系统仪表盘应该具备数据可视化、实时监控、个性化配置、多维度分析、异常报警、用户权限管理、响应式设计、数据导

快手搜索推荐算法的原理。在快手搜索中，除了热门推荐外，还有一个庞大的流量池。这个流量池不仅限于头部作者，普通作者的作品也

当前音乐推荐系统研究中的挑战和愿景摘要1. 介绍2. 重大的挑战3. 未来方向和愿景

MovieTaster-使用Item2Vec做电影推荐 MovieTaster-使用Item2Vec做电影推荐