现在回头看看你读过的那本入门级搜索引擎书,其中涉及许多从当时的角度写的第一人称陈述,不要介意。这几天第一次读梁斌老师的《走进搜索引擎》这本书,这本书写得很基础,语言也很好理解,书的内容也不难理解,都是同类型的白话。对于那些没有基础的人来说,不得不说这是一本很好的入门书。到目前为止,这本书已经被读了好几遍。第一章介绍了搜索引擎的基本背景知识,并通过介绍搜索引擎的历史来回顾搜索引擎的发展。现在外面是雷鸣般的,你可以记录下大学里的美好一天,第二章关于搜索引擎,还有搜索引擎,主要系统划分和架构知识点。这很容易理解。语言简洁明了,搜索引擎由哪些部分组成,每个部分扮演什么角色,在搜索引擎中扮演什么功能等等。第三章介绍搜索引擎下载系统的背景知识、设计原理和技术,以及网络图书馆的设计等。第四章介绍了PageRank等分析系统子模块的计算原理和实现细节,这些子模块用于提取信息,检查网页,中文分词。第五章介绍了全文检索、文档编号、前表和反转表的基本概念,并全面介绍了搜索引擎核心的索引技术。第6章介绍查询系统的两个主要功能模块。第7章通过回答搜索引擎的常见问题,介绍了搜索引擎系统之间的关系,并展望了搜索引擎未来的发展,对于本书的总结或完成本书对我们的读者有一些建议。
以下是基于每章内容对本书知识的详细总结。经过近一个月的学习,互联网上也是搜索引擎或信息检索的大量信息,因此对这方面的认识也增加了很多,包括阅读一些论文和一些书籍,搜索引擎的基本原理有一定的了解,搜索引擎是信息检索的典型应用, 可以说,信息检索是一个领域,搜索引擎也是一个很大的方向,这涉及到太多的知识或方向。上面已经详细描述了之前看到的大多数信息检索书籍。这本梁斌的书可以说是我的入门书,主要是书中的语言简明扼要,通俗易懂,毕竟我读的时候导师向我推荐的那本书太难了,涉及到的很多细节都不是很理解。现在从刘婷的搜索引擎练习书中找到自己的想法,毕竟时间过得很快,很快就会打开问题,那么面对的是毕业设计和小论文的发表。直到现在还没有想法,没办法,整天读论文也是有目的地寻找自己感兴趣的方法或知识点。在下面的具体描述下,第一章介绍了我们公认的三种搜索引擎服务:目录搜索引擎,全文搜索引擎,元搜索引擎。关于目录搜索引擎,我的理解是更多的是人工干预,成本也比较大,早期的雅虎网站是目录搜索引擎,当然也有优势,查询速度比较快,准确率也比较高,毕竟网站帮你分类很好,用户想找什么类型的信息, 通过网站的导航来搜索自己的信息,困难在于手动更新相当缓慢。关于全文搜索引擎,典型的是谷歌、百度等大型搜索引擎,谷歌Pagerank和百度超链分析方法是基于全文搜索,这样大量的搜索信息,更新起来比较及时,不需要人工干预,当然也有缺点,就是用户需要从大量信息中选择自己的信息, 并且可能会出现一些主题漂移或其他缺点。
最后是元搜索引擎,这种搜索引擎也是一个重要的品类,也是一个非常特殊的品类。这种搜索引擎没有自己的数据,它是通过用户的查询同时发送给多个搜索引擎,然后由多个搜索引擎发送的结果通过自己的算法来处理后排反馈给用户,其优点是返回了大量信息, 缺点是不能充分利用原有搜索引擎的功能,用户需要做更多的筛选,这里涉及到一个数据融合的过程,也就是说,当收到很多搜索引擎返回的结果时,必须对排序过程进行相关的排序,这里的排序是按照一定的算法进行的, 很多研究者正在研究这类算法的效率、实用性、鲁棒性等问题,关于数据融合,吴小姐有那位导师最后给我的那本书,我还没有来翻译,最近或者毕业前应该尝试自己翻译,自己的要求就会开始翻译,整本书的翻译可能需要很长时间, 反正可能边学边翻译,所以里面不会有困难,可能有一些专业的话需要看互联网上看的特殊信息,我大概前几天就读过那本书,觉得涉及的公式很多,就是实践环节中的数据量比较大, 通过实验或知识点进行更多验证。
关于搜索引擎发展的历史只是他们自己的理解,从第一个搜索引擎开始理解,其实就是各大搜索引擎门户的开始,如何开始这样的相关问题。第一章还介绍了国内比较有名的搜索引擎,对国内几个比较知名的搜索引擎还是不错的,至少搜索结果都满意了,百度的出价排名有点不寻常,这也是可以理解的,现在自从学习搜索引擎每次检索自己的信息都会不自觉地观察那个搜索引擎的质量, 搜索引擎准确率高,这种感觉好,有利于以后搜索引擎信息的评估。
第二章从搜索引擎架构的详细说明开始,搜索引擎的哪些部分,每个部分是如何工作的,什么角色扮演。简而言之,搜索引擎由四个系统组成:下载,分析,索引和查询系统。我了解到,下载系统通过网络抓取到互联网上抓取了大量的网页信息,这里来谈谈网络抓取算法,一般用什么样的算法进行网抓,哪些要保证抓取的效率,速度一定要快,然后如何抓取更多的页面, 当然,这里涉及的页面也是有用的网页,没有使用的页面抓取下来或没有使用。现在有一个lucene爬行动物算法改进的想法,直接修改源代码,由大师兄弟自己动手编写的网络爬虫本书,有时间看,但以上设计到知识点比较复杂。一般我读过的论文或书中介绍的方法都是,根据地图的深度优先或宽度第一的原则进行网络爬行。一般来说,很多爬行动物同时爬行,现在都是分布式网络爬行动物一起工作,这么高效率,在网络爬行器工作中也会涉及相关算法,即网络爬行算法,选择好的网络爬行算法可以更好的抓取速度更快,爬虫下来,通过分析网页中的关键词, 这里通过分析系统完成工作。分析过程中还会涉及很多知识点,即如何使页面被切开,根据什么样的标准进行切片,页面上的一般信息是标题、标题、副标题信息中涉及的信息是有用的信息,在下一个索引中会用到这里的信息,然后将关键信息进行分类,汇总到搜索引擎数据库中, 即,内部的索引库。分析完成后,建立相关索引,到索引库方便以后查询,最后,用户提交自己的查询关键字,然后搜索引擎通过查询索引库将结果反馈给用户。以上只是一个一般的过程,实际查询比较复杂,每个系统都有自己的算法,用自己的原理实现也将在后面的章节中介绍。
第三章开始讲解下载系统,从网络爬虫开始,读了几篇关于网络爬虫的论文,大部分代码不是很理解,原理是理解,这感觉还是要慢慢学,有点积累。网络爬虫按照一定的算法或规定来抓取网络上的信息资源,在爬行动物的原则上我的理解是,爬行动物就像我们设置的程序一样,首先访问网站不会打扰别人,这当然说有些拟人化,这其实和别人差不多,你去别人家里获取信息, 当然,尽量不要打扰主站,所以我们应该遵循一些原则,在另一边服务器忙的时候不抓取web资源,访问资源也是允许访问的,不是未经授权的web资源,这些准则都是一些最低限度的尊重。所以你可以看到,互联网上有一个针对网络爬虫的ROBOTS协议,它规定了本网站的哪些内容是允许你访问的,哪些内容是不允许抓取的,什么时候可以来收集信息,什么时候不能来抓取。也就是说,相当于礼貌,这在现实生活中非常重要,当然在网络上也很重要。
还有关于互联网的,本身就是一个弓形,页面上有很多链接,所有链接都指向自己的反向链接,有自己的出发链接到其他页面称为转发链接,我们都知道一个网页有很多链接指向它的点,即页面很重要, 没有多少页面指向它以表明该页面不是很重要。网络爬虫当然会抓取重要的页面,所以如何过滤掉那些不重要的页面是我们设计师的关键问题。我们知道互联网呈现了弓的结构,所以我们尽量让我们的爬行动物从弓的左侧开始攀爬,这样我们就可以穿越整个互联网,收集到越来越有用的信息,以保证收集到的信息更加全面。
网页一般分为目录型网页和权威网页,基于目录的网页主要是为用户准备的,帮助用户了解网站的信息,通过目录型网页我们可以链接到权威网页,权威网页一般在中间的弓形或右边,这类网页的反向链接较多,因此这类网页的重要性通常被认为比较高。爬行动物的爬行原理或称为爬行策略大概可以分为两种,第一种是深度优先策略,第二种是宽度优先策略,从我读过的论文来看,宽度优先策略相对高效,这具体还需要考虑所使用的环境或领域,在不同的地方或范围使用不同的爬行策略。当然,在抓取时也要注意不能重复抓取同一页,否则爬行动物的效率会变得很低,但是如何保证爬行动物不会重复抓取同一页,这涉及到几种方法,我觉得最好有MD5签名方法,给每个页面不同的签名, 这样我们就可以识别出那些页面都是一样的,这里当然是每个页面唯一要计算的URL签名,因为每个页面只有URL是唯一的。这里涉及的计算也是研究人员随着时间的推移而学到的,一些研究结果几十年的人可能只是一个公式。
这里的签名函数还涉及哈希函数,使用我们所知道的哈希表来完成相关的转换工作。下面我们来看看抓网的优先策略,我们先抓取什么样的网页,当然,一般意义上的重要网页需要我们及时优先抓取,重要性的衡量标准很多,比如链接欢迎度、链接重要性、平均链接深度等等。这里可以自己定义,定义更多,这是很权威的,更多的是比较公正的,当相应的量计算非常大的时候。链接欢迎的定义是由反向链接的数量和质量决定的,数量越多,质量越好,当然,我们认为链接的欢迎度是比较高的,至于链接的重要性和受欢迎程度是相似的,连接页面的质量或链接重要性的权威性也越高。而平均链接深度是由宽度优先策略规则保证的,这就涉及到一个页面重新进入的问题,什么样的页面需要我们的抓取工具返回进行重新抓取,我们的新闻页面需要我们的抓取工具根据无限期的时间来抓取,因为这种页面更新相对较快,只有频繁的抓取才能保证信息的有效性和时间新。常规页面更新频率符合 Poisson 分布。这就是概率论中的知识。网上抓取的时候我们的爬行动物也应该注意礼貌问题,一般的网站都有相应的ROBOTS协议,用来约束抓取活动,什么样的页面可以抓取,什么样的页面你不能抓取,有我的网站里面可以进来,哪里你不能进来。特别是,桌面搜索引擎,用户计算机内的文件,该文件夹是可访问的,哪些文件夹不能自由访问。这些已经写在ROBOTS协议中。所以还有时间抓取网站,这应该尊重网站管理员,询问,访问不能导致另一边的服务器停机。
我们来谈谈网络库,它是爬行动物在抓取页面后在索引库中构建的Web数据库。众所周知,爬行动物抓取的页面必须及时保存到我们的磁盘中,然后将其编入索引以供将来用户查询。看到很多关于爬行动物爬行速度的论文,当然,在现实生活中,我们的搜索引擎必须保证用户查询结果的高效、快速返回,只有这样用户才会愿意使用这样的搜索引擎。那么在搜索引擎的四个系统中,读写问题也是影响速度的关键问题,如何提高读写速度来提高我们搜索引擎的效率,难免会出现这样的问题,更新问题,如何更新,以何种方式更新才能达到最快的速度, 以满足用户的需求。本书讲了三种方法:日志结构、基于哈希的结构,一种是哈希日志,看名字救援能区分哈希日志肯定是最好的,其实哈希日志就是讲哈希结构和日志结构结合的优点,更方便提高速度,方便用户使用。我们讨论了数据结构类中的哈希表,并且我们知道对哈希函数的生成或计算有了更好的理解。这里是与找一个散列函数相关的,当然也涉及操作系统内部的文件读写和磁盘读写的问题,具体细分的很多东西,之前总觉得所学的知识是没什么用的,比如操作系统,感觉完全是纯粹的理论,虽然最终课程设计时实现了部分算法, 但仍然觉得实际生活没有多大用处,但现在看来不一样了,但是我们还没有涉足过这块或这个领域。在文件存储件内部也有数据结构的B-tree的使用,当研究仔细检查数据结构时,现在看来是好的、有用的地方。至少阅读这些文章或书籍不会感到那么难。
最后,回顾一下搜索引擎下载系统,总结三点,抓全,抓得快,成本低,是我们搜索引擎的一般原则,现在大型商用搜索引擎要考虑的更多。有动态Web支持,定向抓取,静态Web抓取,开发的第三代搜索引擎涉及智能搜索引擎,即更加面向用户,更加人性化的东西。
接下来我们将开始学习的第四章,第四章是一个大章,涉及很多知识,第四章是关于分析系统的,下载系统将下载的网页进行分析,以方便以后建立索引。
搜索引擎四大系统中的第二个系统是分析系统,主要涉及信息提取、页面减重、中文分词和分页排名算法计算。下面按照每章的具体内容详细总结我自己的想法。
在我们谈论信息提取之前,说html语言,我们都知道html语言是一种专门的编程语言,用于在www服务器上创建文件,在我们的网页上有一个文本可以帮助用户更好地理解超链接的方向,我们称之为锚文本,锚文本通常以图片和文本的形式出现, 超链接文本就是我们所说的锚文本。锚文本的作用是方便用户查询,网页上的数据就是我们通常所说的半结构化数据。这与普通文本文件不同。它包含一些与纯文本不同的数据信息。上面的锚文本知识也只是要理解,关于搜索引擎的组成起着很小的作用,基本上每本关于搜索引擎的书或者每篇论文都会提到这部分内容。关于网页的信息提取和结构化处理,顾名思义,信息提取是从我们的爬行动物从网上抓取的网页中提取有价值的信息,所以关键问题是我们如何有效地提取其中包含的有价值信息,供我们使用,供用户使用。首先,页面结构的目标是5,包括锚文本,标题,正文标题,正文,正文链接。网页的这五个属性对于我们的信息检索至关重要。具体描述这五个部分没有说,看看就明白了。
一般来说,当我们使用原始网页时,我们遵循两步法,首先建立html标签树,然后通过投票识别正文中的文本,然后根据深度优先方法组织文本。这部分看起来不太舒服,我的理解是这样的:就是把页面标题或锚文本的正文部分提取出来,也就是刚才说的五个属性,一个接一个地从页面中提取出来,然后标识为页面的摘要,相当于摘要的功能,当然, 本身不能称为摘要。它只是用来说明此页面上的信息,此页面所说的内容。想对我们的用户说些什么。建立标签树的过程使用堆栈的存储结构在我们已经学到的数据结构中,这是比较容易理解的,我们都知道网页中的html符号都是成对的,所以给我们的堆栈非常方便的存储,我们知道堆栈是先进的,正是利用堆栈的这个特性, 我们可以处理并建立正确的标签。方便我们以后处理。下一步是通过投票获取我们的文本。
一般网页出现三种类型的文本块:主体文本块、目录文本块、图片文本块。就像我们现实生活中的投票一样,大多数人认为这是身体部位,所以出错的概率相对较低。具体的方法我简单来说,就是我们先设定,如果一个文本块是多少分,越长的分数就会相应越高,然后根据文本块出现在页面位置的左边或者右边或者中间或者哪里,根据不同的位置给出不同的分数。最后,计算每个文本块的分数,从最高到最低排列,然后选择得分最高的文本,我们认为它是正文。
接下来,我们来谈谈页面,一般人不会关心互联网,那个页面是原创的,有些类似的页面我们通常不会太关注,原因很简单,只要我们能满足我们查询的需求,不管是不是原来的网页和我们的用户关系真的不是很大。但对于搜索引擎来说不一样,页面相同或相似,这意味着我们的搜索引擎必须重复一次,一个页面就好了,如果页面很多那么我们的搜索引擎就无法处理,这样既浪费时间又处理得很慢,真的很麻烦。所以我们的方法排除了同一个页面,最好保留最原始的页面。关于重新检查页面的方法,我说,是判断过程分为几个部分,实际上,四种情况,两种页面内容和格式是相同的,两页内容相同但格式不同,两页有一些重要内容是相同的,格式是相同的,两页的重要内容是相同的,但格式不同。目前,我们正在考虑这四种情况。这里有一种IMITCH方法,就是从网页中提取高频词,然后对几个网页进行高频词比较,即提取那些能尽可能表示页面主要内容的词来比较特征词。另一个是 stringle 算法,前面提到的方法几乎就是提取多个特征词来显示与 iatch 算法的区别,我们是用这两种方法来检查页面的。当然,其中涉及一些公式,我不会在这里列出它们。综上所述,我想简单总结一下,即总结一下,页面检查必须采取的三个步骤是特征词提取,相似度计算评估相似,其次是消除重复网页,网络搜索工作在分析系统中是不可或缺的一部分,其中涉及效率的问题也更为重要, 如何节省时间,节省空间,降低查询成本。这些都是我们的研究生现在应该考虑的问题。
经过我们的网页复查工作,还有中文分部的工作,这项工作也很重要,但也比较复杂。目前,国内外的研究人员也在绞尽脑汁地思考各种处理分化的方法,首先介绍什么是汉语分化,汉语不像英语那样有明显的分化符号,汉语就没有,而汉语涉及各种分化问题,汉语含糊不清实。相应的处理复杂度上升了,我们现在一般都有的方法就是通过字典来处理分词,歧义有好几个,有交叉、组合、混合。这里的人脸可以有三种基本的分词方法,分别是最大正向匹配、最大负匹配、双方同时匹配。那么还有一个依靠统计原理进行分词,用户输入中文搜索词很多,我们只能通过日常生活中的人们经常使用一些词来推测,我读过一些关于分词的论文,这里提到的两种方法大多,这里也是考虑研究, 想想我们可以用来进行高效分产的更好方法。
最后一点是对pagerank算法的研究,这部分我之前也研究过,对于算法的各种改进算法,其实原来最原始的算法有很多缺点,我们后期的读者也在这个基础上提出了自己很多改进算法,效果也很好, 这篇文章也有很多东西需要研究和探索。
下面是总结和介绍第五章,索引系统存储了大量的网页,我们知道索引系统必须提供给用户少于第二级的检索时间,所以快速检索,快速存储,存储是我们的最低要求。当涉及到索引时,索引也是信息,或称为信息的信息,或描述信息的信息。就像每本书中的索引一样,索引可以帮助我们更快地阅读参考书目并找到我们想要的信息。此处使用了四种类型:倒排索引、倒排表、临时反转文件和最后倒排文件。对于这四个的定义,让我从倒排索引开始,这是一个抽象的概念,不像最后四个,倒排索引的三种不同表示形式。最后三个都是关于存储的,临时大小和最终大小之间略有不同。其余的几乎是一样的。全文搜索现在是搜索引擎的主要搜索方法,全文搜索是信息检索领域的一场革命,它细化了信息检索的粒度,让我们能够更好地查询到我们想要的信息。提供了多视角、全方位的全新信息检索体验,所以现在主流搜索引擎都在用这种信息检索方式。
当然,全文搜索也有相关的问题,比如搜索结果的顺序不合理,现在只能搜索标题,造成这些问题的原因是我们没有考虑到文档的内容。顾名思义,全文检索是对整个文档或网页内容的搜索,现在我们只是检索其中的一些信息,例如标题或摘要或其他内容。因此,全文搜索的本质概括为两个:文档的全文参与索引,搜索结果可以提供搜索词在文档中出现的位置信息。这既考虑了文本内容的一致性,也考虑了位置信息的相关性,这可以满足我们用户的搜索需求。在搜索过程中我们的用户输入几个关键词,然后我们的搜索引擎根据这些关键词进行全文搜索,最后把结果整理回给我们的用户咨询。关于文档的编号,让我总结一下我自己的理解,即每个文档在网络上都应该是唯一的,有自己唯一的编号,所以我们给每个文档一个编号,就像我们的学生使用的学校编号一样,一个被我们的爬行动物抓取然后给出相应编号的网页。文件编号和我们日常生活中的数字的不同之处在于,它们不需要被赋予意义,这就是为什么我们要求提供这份文件的编号,以及为什么我们将该编号赋予该文档。这个数字也是为了方便我们后续操作。当然,这种变化不是随便给出的,也是为了满足相应的条件,每个文档在其相对生命周期中只能有一个编号,任意两个不同的文档都不能是同一个编号。为了便于计算,我们的文档数量越短越好,方便使用计算机存储,浪费的空间更少。下面对倒排指数的计算具体存储方面不作归纳,每种计算方法都不同,有其简单方便的一面,也有其数据结构的基本参考。用于创建索引的索引列表类似于 C + 中的索引列表,在数学上,与函数引用一样,操作系统中磁盘的计划或存储基于此。总的来说,第五章设计到知识点还是比较多的,相对来说,还有很多比较困难的地方我没有吃过,还要多看几篇文章,慢慢消化,再进一步把方法中涉及的部分写出来。现在还读几本书,或者更多的入门书,读完每一次收获都是不一样的。
第6章是最后一步,搜索引擎的最终目标是然后用户输入自己的查询关键字,然后我们的搜索引擎通过关键字进行搜索。在搜索引擎的四个系统中,第四个系统称为查询系统,查询系统直接面向我们的用户,在收到我们用户的查询请求后,通过搜索、排序和汇总计算工作,将计算结果组织成搜索结果页面返回给我们的用户。而我们的搜索引擎必须保证整个查询过程必须快,并且必须能够向用户提供返回的结果,以使用户满意。如果只是将结果快速返回给我们的用户,则无法保证对结果感到满意,这当然是不够的。在查询系统中涉及的概念是信息熵,信息熵是信息的量化过程,本科数据结构引入了哈弗曼码,该码通过计算不同词语的频率来构建霍夫曼树或哈弗曼码,通常高频词汇编码比较短,低频词汇编码比较较长, 但是直观的东西还是无法解释很多事情,下面的例子来说明信息熵的概念,我们在生活中有很多例子,其中双方同意遇到几个类似的问题,在不考虑信息安全的前提下,如何保证对方已经收到你的信息, 一般你发短信给你的好朋友,只有他回复了你的短信,你可以肯定他收到了你给他的信息,但是你怎么知道你收到了他给你的信息,这是一个无限循环的问题,对于我们的留言编码有很多种,对于上面的问题不能很好回答。
在我们的数学中,或者在计算机网络中我们已经学会了沟通,包含的信息越多,那么我们的信息就越有价值,概率论就分为很多种情况,当然,对沟通的需求消耗也比较大。信息熵只是解释了概率与信息的关系,即变量的不确定性越大,那么熵值越大,需要的信息量就越大,从中我们知道信息熵是一个重要的概念。下面我想介绍一下搜索和查询的区别,本章的约定有一个前提,其实查询对应一个搜索,用户端的查询就是搜索引擎对应的搜索。也就是说,查询的结果是搜索引擎搜索页面,当然查询词和搜索词也是不同的,普通用户向查询系统提交的词称为查询词,然后当我们的查询词提交到我们的搜索系统时就变成了搜索词。最后的概念是自动文本摘要,顾名思义,即从文本中提取的可以表示摘要的全文含义,用户只需要浏览摘要就可以大致了解文本的主要内容,用户只需要查看自己的查询词和摘要在文档中的相关性,就可以知道文档是否是自己想要的文档。
本章的第二部分涉及几种搜索模型,这些模型在开始时在许多书籍中都有介绍。这部分涉及很多公式,能理解的很少,很多已经成型,从最简单的布尔模型,并不是说模型就是布尔模型,在这两种情况下,也比较简单,不需要太多了解很多情况,很多搜索引擎首先使用布尔模型,然后使用向量空间模型进一步查询关联, 和用户查询相似性。至于如何生成搜索结果页面,我在这里没有详细介绍,现在有一些我不明白的东西,所以等我理解足够深入,以充分理解这部分知识。好好写完,再写出来,说实话老师要我写这篇双周报告,其实我写出来我也知道不给你看,就是给我看,大论文写作涉及几十万字之后,还要自己完成。通常时间的积累可以反映出价值,也许我平时写的语气也有点口语化。我后来试着改变它,写得像我自己的总结,也要按照论文的写作规范来写。我会注意这种方法的训练。以上各部分的总结都是肤浅的,后续我还会继续写得更深一点,因为每个概念都必须理解,只有这样才能更好的打下基础,才能有方便的后续开发。这个总结我已经读了不下5遍,每次读完感觉还行,虽然写得不是很好,但毕竟是我几个月的总结和思考结果都介绍过了,然后会继续巩固结果,继续阅读更多的论文和好书, 只有不断提高自己的知识,或者号召去拓展自己的知识,才能更好地面对更大的挑战。我相信自己的能力,别人能做到,我也能做到!!!正如史先生所说,现在什么都不懂,那么必须懂最后,欺骗自己是没有意思的,大学奋斗了四年,只有今天的成绩,我还是会努力为将来打好基础,准备福,再做好学术研究,我喜欢这种工作。