论如何制作一款基于网络评论的美食推荐系统?
一、前言
近几年,随着人们的生活质量逐渐提高,人们对美食的要求也越来越高,不但要让消费者的口味得到满足,服务和价格也要符合顾客的期望与要求。
尽管现在的互联网已经很流行了,每个人都可以在网上分享自己的就餐经历,但是要想迅速、准确地了解一家餐馆还是很难的。
本文根据对食品的即时需求,设计了一种以网上点评为基础的食品推荐系统,为各个餐厅提供简介和点评。这样,即使是在一个不熟悉的地方,也能很好的防止“踩雷”。
二、系统设计
本研究所研制的系统主要功能有:网页检索机器人、多文本自动摘要技术(MDS)、云计算技术等。该机器人利用百度等搜索引擎搜索网页的相关信息,在不同的页面中寻找相关的食物评论,并提取出相应的爬行数据,并进行分析,将相关的信息保存为博客 Corpus。
最后,使用多文字的自动摘要技术,从 Corpus网站上提取美食的评论,并制作成摘要,供使用者参考,使用者可以透过本系统的界面查询,整个系统的处理过程如下。
三、网页内容
撷取机器人网页内容撷取机器人主要包括模糊搜寻机制、网页爬虫(HTML Crawler)、网页解析器(HTML Parser),以下分述了各个功能描述。
Fuzzy搜索机制:模糊搜索机制提供了模糊操作和判定,并建立了与搜索有关的关键字字库,最后通过百度的搜索来主动搜索。
网页爬虫:网页爬虫将百度搜索后的结果(如各页面的内容)进行搜索,跟踪相关链接页面并暂时保存 HTML内容。
网页解析器:对冲 Web爬行器获取的网页进行 HTML标记解析,获取关键信息,并能有效地消除特定字符(例如单引号和双引号),避免数据库隐藏攻击,从而实现对多个文本的自动摘要的推理。
特征选择:主要采用两个特性:主语单词和注释单词,来计算单词和单词。
数据预处理:是对网页内容提取机器人所处理的 HTML进行提取,然后按顺序定义文档号和声明号,以便计算每个语句的权重和汇总。
重分类程序:其关键是对声明和声明的相似性进行再计算,并且设置设定用于筛选的阈值,提取重要的并且相互之间的相似性不会过高的语句,会根据设置的压缩比,抽取出来。
输出概要:根据数据,从重新排序器中抽取的语句的次序“理”的论文编号、声明(“主题)编号和原始文本启动注释文件的映射,获得多注释的自动总结并将最终的成果输出,供用户快速阅读。
四、多文本自动摘要技术
采用多文字摘要技术,可以对每一家美食网站的点评进行即时总结,降低信息的消耗,并抽取关键的评论,让用户能快速浏览到曾经吃过这家餐馆或美食消费者的观点与经验。
多文字自动摘要技术主要是参照 MEAD组件进行系统实践,将与网页 Corpus有关的食物评价输入到自动摘要模块中,因为大量的数据需要高效、快捷的并行操作,所以该模块被应用到 Hadoop平台上,并且使用 MapReduce进行操作,该方法包括:预处理、特征选择、分类、分类、再排序、输出摘要等。
五、云计算技术
云计算技术中的 Web内容非常复杂,在对 Web数据进行分析时,会产生大量的数据和数据。基于执行效率的考量,本文将在 Hadoop平台上进行并行处理,并在 Hadoop平台上进行操作,对每一条评论的句子进行单独的处理,以便迅速计算出每条语句的得分,并获取最关键的语句,以便为用户提供决策依据。
六、系统实施
此项研究所设计的系统,可供普通大众使用,用户可透过手机连接,并可向各餐厅提供简介及点评。
这样,即使是在不熟悉的地方,也可以让人们迅速地选择最佳的就餐场所,从而避免“踩到地雷”。
用户可以看到各个餐厅的简介、美食的评价。本研究透过网页内容收集机器人,收集有关美食评语,并利用多文字摘要技术,为消费者的饮食决策提供参考。
七、结论
综上所述笔者认为:本文针对消费者在餐厅的选择需求,开发了一套以美食为基础的系统。并运用人工智能与资讯搜索技术,由“传媒”转向“智媒”。
收集并统计有关饭店资讯的建议结合饭店简介与评论,让使用者迅速了解这家餐馆,并判断其是否适合做为就餐场所。
将来可以把这个系统模式运用到各个行业,比如旅游行业的评论摘要和推荐信息。
参考文献:
Hui-Fei Lin,Chi-Hua Chen,J.M. An Intelligent Embedded Marketing Service System Based on TV Apps: Design and Implementation through Product Placement in Idol Dramas [J]. Expert Systems with Applications,2013(10): 4127-4136.