013 推荐系统架构初探

作者: 互联网资讯  发布:2019-12-13

所谓智能分发,即利用人工智能进行个性化推荐的技术,也称之为智能推荐,推荐系统。

想象一下,站在推荐引擎面前的你被抽离出一个数字的躯体。你找到一面镜子,却惊诧的发现自己的身体被无数数据所填充,许是:科技10%、篮球4%、热火队2.3%、历史1%、自然0.3%。你仔细观察,甚至发现了很多连你自己都没有注意到的细节:虽然热爱旅游,但你喜欢博物馆远多过自然景观。当然,你也会发现自己的身体上仍然有一团团的迷雾,那是尚未被系统所发掘的兴趣点。

图片 1

专门为你适配的内容如一群萤火虫般朝你涌来,你伸手点击了一条内容将它点亮。就在点击的那一瞬间、你身上的迷雾有一丝散去了,同时显示出了新的兴趣点:“极限运动:0.01%”,那些原本就存在的密密麻麻的数字也有一些发生了变化:有的权重上升、有的权重下降。每一次选择与反馈,你都在进化着自己的数字躯体。

思考三个问题:国内外推荐系统最好的产品是什么?什么是用户画像?什么是服务、内容、产品画像?怎么利用机器准确匹配用户与服务、产品和内容?

现在,你生出了双翅、原地飞翔了起来,能够从高处俯瞰整个推荐系统。你看到了一个又一个数字拟态的人,在不同的信息流中畅游。每个人身边围绕着许许多多的信息光点、又同其他人之间有着若隐若现的连接。一个个信息被阅读的点亮、被忽略的变暗。每一个被点亮的光点就像被延续了生命一样,得以被分裂成更多光点、顺着人和人之间的连接,飞舞到更多的人身边。此起彼伏的光点明灭,共同照亮了整座系统,让它仿佛有生命一般慢慢扩张。

以下是正文:

图片 2

接上篇:服务核心所需的能力规划| 保险公司互联网平台建设系列,每一个版本的演化都离不开横向支撑体系的场景创新和纵向深度拓展体系的场景创新。

图片制作:https://wordart.com/create

综述

这个过程听起来或许科幻,但用来描绘推荐系统,怕是再恰当不过了。
推荐是一个协作与进化的过程:

在V1.0版本,我们会集中分享四个典型的场景,横向为创新型金融产品“续期宝” 、创新型增值服务“在线智能问诊”两个非常经典的场景;纵深方面,会集中分享创新型服务“智能分发”、创新型服务“场景智能串接”两个场景。场景的分享无法穷尽,更无法解决所有企业所有的问题,仅做引子。

  • 对于内容而言,每一个用户既是消费者又是决策者,被认可的内容得以进一步扩散,不被认可的内容被纠偏、不至于影响更多的人。
  • 对于用户而言,每一次行为反馈都在不断完善自己的用户画像;而系统的兴趣探索行为,也在进一步给这幅画像补充了更多维度。

图片 3

大致了解推荐系统的架构,能够帮助我们认知到:信息是如何匹配给用户的,而用户的选择又是如何影响后续的信息分发的。

所谓智能分发,即利用人工智能进行个性化推荐的技术,也称之为智能推荐,推荐系统。

作为一个工程问题,推荐系统的架构与搜索系统的架构具有一定的相似度:都做的是信息与用户意图之间的匹配。

国内智能推荐做的比较好的企业目前只有两个,而且这两家企业从一开始,几乎所有的业务都是建立在智能推荐这一基础条件下的,一家是信息分发领域的字节跳动公司,代表产品有今日头条、抖音,另一家企业就是老牌互联网公司阿里,代表产品是淘宝、天猫、聚划算等等。

搜索系统是将海量内容与用户表意明确的查询相关联,推荐系统则是将海量内容与用户没有明确表达的偏好相关联。

国外,各大视频网站都堪称推荐系统的佼佼者,典型的代表就是YouTube和Netflix,这两家公司依靠推荐系统,侵占了全球4/7的流量。研究推荐系统,这两家公司肯定是绕不过去的。

如果我们将推荐问题极度简化:用户只有一个爱好“NBA”时,那么推荐引擎给用户的结果就可以近似搜索引擎在“NBA”这个搜索词下的结果。

全文包括推荐系统架构初探、推荐起点是人与物的画像、推荐算法、应用场景、在效率和精准度上人是彻头彻尾的输家五部分内容。

那么,一个简化的搜索架构是什么?

01 推荐系统架构初探,本质还是数据智能

图片 4

从工程师的角度来看,推荐系统的底层架构,即推荐系统架构,与搜索系统架构具有一定的相似度:二者实现的都是信息与用户意图之间的匹配。搜索系统是将海量内容与用户表达的意思通过关键词查询关联,推荐系统则是将海量内容与用户没有明确表达的偏好相互关联。前者需要用户交付确定性内容,后者需要通过规则判断用户确定性需要。

离线部分,专注在内容的搜集和处理上。

也就是说,只要了解了搜索系统的架构,基本上就很容易理解推荐系统的架构。通常,工程师把搜索系统划分为离线和在线两部分。

搜索引擎的爬虫系统会从海量网站上抓取原始内容,针对搜索体系的不同要求建立索引体系。在上图中,为了新内容能够更好的被用户看到,就专门建立了时效性索引数据用于存储几个小时之内的新内容。这是一个基于关键词的倒排索引,每一个关键词对应一长串提及该关键字的文章。比如,“教育”这个词命中文章1、2、3;“NBA”命中了另外一批文章1、2、4。

其中,离线部分专注于内容的搜集和处理。搜索引擎的爬虫系统会从海量网站上抓取原始内容,并针对搜索系统的不同要求建立不同的索引体系。比如:我们假设新内容是有时效性消费价值的,那么,为了让新内容能够被更好地检索,就可以建立专门的时效性索引用于存储几小时之内发布的内容。

在线部分,负责响应用户的搜索,完成文章的筛选、排序并最终返回给用户。

图片 5

用户输入一个搜索词“NBA”,这个词汇会首先经过搜索词的处理(会经过分词、搜索词变换等步骤),例如“NBA”和“美职篮”是同义词,那么在两个词都可以应用在索引的查询。

索引是一个基于关键词的序列,每一个关键词对应一长串提及该关键词的内容。比如:“教育”这个词命中内容1、2、3,“NBA”命中了另外一批内容1、2、4。

经历完搜索词处理后,进入召回环节。系统会通过多种召回方式,从索引数据里获得候选集合。在图中,就分别查询了全量的索引数据和时效性索引数据,获得了8篇文章的集合。

在线部分负责响应用户的搜索请求,完成内容的筛选和排序,并最终把结果返回给用户。

在召回的候选集之上,会进行排序的步骤,通过进一步计算获得最终结果反馈给用户,如图中的文章10和文章1。

当用户输入搜索词后,系统会首先对搜索词进行分词、变换、扩充、纠错等处理过程,以便更好地理解用户的搜索意图。如上图所示,用户只输入“NBA”一个关键词,系统发现“NBA”和“美职篮”是同义词,就会将其扩充,以便两个词都可以应用在索引的查询上。

用户的点击反馈也会影响排序环节的模型。在上图中,用户在展示给他的两篇文章中只点击了文章10,这一特征会被模型记录以统计文章10和文章1在搜索词 “NBA”下的表现情况。

如果用户输入了“NB2S”,系统认为输入有误,就会将其纠正为“NBA2S”,并首先返回相应结果。

借由搜索系统为参考,可以更好的理解推荐系统。

经历完搜索词处理后,将进入召回环节。系统通过多种方式从不同的索引数据里获得候选集合。在上图中,就进行了一个“2×2”的过程,两个搜索“NBA”与“美职篮”分别查询了全量的索引数据和时效性索引数据,一共获得了8篇内容的集合。

图片 6

召回得到的候选集合会继续进入排序环节,通过更精细的计算模型对每一篇候选内容进行分值计算,从而获得最终结果(如上图中的文章10和文章1)。

离线部分,同样需要通过各种方式来获取待推荐的内容(用户提交、协议同步、数据库导入等)。并依据推荐引擎处理的不同维度对这些内容进行索引处理,如话题、类目、实体词等。在上图中展示了两个维度:分类维度和实体词维度。

在展示给用户之前,搜索结果还需要经过规则干预这一环节。规则通常服务于特定的产品目的,对计算产出的内容进行最终的调整。假如我们有这样一条“官方网站保护规则:确保所有品牌名搜索词都可以优先返回官网”,那么规则层就会在文章10和文章1之前,强行插入NBA官方网站返回给用户。

在线部分,其理亦然:量化用户的请求,完成文章的筛选和排序。
推荐与搜索最大的差异,在于用户表意的不明确性,故而,需要尽可能的完善用户的长期画像(对哪些类目、实体词、话题感兴趣)和短期场景(时间、地点),以此获得用户的意图,从而进行意图和内容的匹配。

在结果展示给用户之后,用户的点击反馈会影响到排序环节的模型。在下图中,用户在展示给他的两篇内容中只点击了文章10,这一行为会被模型记录为统计文章10和文章1在搜索词“NBA”下的表现情况。如果在“NBA”的搜索结果中,更多人点击了文章10,那么文章10在后续计算中的权重会升高,从而获得更靠前的展现位置。

  • 当用户打开内容推荐软件时,提交给系统的信息如:时间、地理位置、网络环境、手机设备型号、登陆用户ID等。
  • 基于用户ID,推荐系统会取出用户的画像数据(User Profile)。在分类维度,用户对体育和科技的内容感兴趣;在实体词维度,对于NBA感兴趣。
  • 根据用户的画像信息,发起不同的召回过程(类目查询和实体词查询),获取各种类型的内容构成候选集合。
  • 按照特定预估目标(如点击导向、互动导向)对候选集统一排序,并反馈给用户。

以搜索系统为参考基础,我们可以更好地理解推荐系统的工作方式。推荐系统的离线部分同样需要通过各种方式来获取待推荐的内容(如用户提交、协议同步、数据库导入等)。对内容平台来说,其内容的结构化要远胜于推荐引擎爬虫抓取的内容。之后,离线系统依据推荐引擎对信息的不同理解维度对这些内容进行索引化处理,如话题、类目、实体词等。

值得注意的是:对于推荐系统而言,用户的行为不仅具有针对内容价值评估的群体投票意义(如:某篇关于NBA的文章,偏好NBA的用户都不点击,那么其在“NBA”这个实体词下应该权重降低)同样具有针对自身画像的个体进化意义(如:用户总是点击有关于热火队的NBA文章,那么这个用户的画像中会补充“热火”这个实体词,影响后续他自己的推荐内容流。)

下图中展示了两个维度:分类维度和实体词维度。

在线部分,其理亦然:量化用户的请求,完成内容的筛选和排序。

推荐与搜索最大的差异在于用户表意是否明确。因此,推荐系统需要尽可能地完善用户的长期画像(对哪些类目、实体词、话题感兴趣)和短期场景,这样才能够在用户每一次请求时更好地揣摩用户当下的意图,以进行后续的内容匹配。

当用户打开内容推荐应用时,提交给系统的信息包括时间、地理位置、网络环境、手机设备型号、登录用户ID等。基于用户ID,推荐系统会从数据库中取出用户的画像数据(User Profile)。

如下图所示的推荐系统支持分类和实体词两个维度的用户画像:在分类维度,用户对体育和科技内容感兴趣;在实体词维度,用户对NBA感兴趣。基于体育、科技、NBA,推荐系统会进行下一步的内容召回和排序操作。

图片 7

召回和排序操作与搜索系统比较相似,系统基于类目查询和实体词查询分别获得候选内容集合。排序模块按照特定预估目标(如点击导向、互动导向、停留时长导向等)对候选集统一排序,并经过规则层的处理后最终反馈给用户。

值得注意的是,在推荐系统中,用户的行为不仅像在搜索系统中那样具有针对内容价值的群体评估意义,而且还具有针对自身画像的个体进化意义。

在群体评估意义层面,每一个读者就像是一名陪审团成员,通过自己的行为来决定某篇内容的好坏。比如:某篇关于NBA的内容,如果连偏好NBA的用户都不怎么点击,那么这篇内容在“NBA”这个实体词下的权重自然应该降低,这一部分的应用与搜索场景比较类似。

在个体进化意义层面,用户的阅读反馈行为在持续改进着自身的画像。比如:用户是热火队的粉丝,那么在行为层他就会更多地点击与热火队相关的NBA内容,系统捕捉到这一信息后,就会在他的画像中补充“热火”这个实体词,从而影响后续的推荐内容流。

当然,搜索和推荐的区别,在于前者是人找信息,后者是信息找人。这也是为什么百度向信息流转的时候,可以迅速获得超过4成的市场份额,因为底层预备的技术能力是OK的,具体做什么前端的业务展示,并不复杂。

02 推荐起点是人与物的画像

在了解了推荐系统的架构后,我们做的还有三个步骤:要更好的理解待推荐的内容。这个内容可能是一篇文章,也可能是一个服务,或者一款产品,甚至只是一堆待加工的原材料。要更好的了解要推荐给的人。这是一个动态理解的过程,基础是对用户进行画像,也就是我们前面讲的360°用户视图。匹配,即推荐算法,即高效、精准的完成内容与人之间的对接。

  1. 内容画像:要更好的理解待推荐的内容

想要把内容准确的推荐给需要的人,首先要让系统充分的理解内容的特点,内容刻画最简单的方式就是我们常说的“打标签”。标签是人对三维事物、二维事物的一维化理解,抽象出事物更具有表意性、更为显著的特点。在不同的应用场景下,要对标签全集进行有针对性地投射,有倾向性地选用不同的标签以换取信息匹配的效率最大化。

通过更系统化的分类方式,可以完整地呈现出一个内容的特点。这涉及到标签和分类的关系。

一般情况下采用的分类都是树状的,是自上而下依次划分的。在分类体系里,每个节点都有严格的父类继承关系,在兄弟节点层都具有可以被完全枚举的属性值。例如:将人类属性基于性别划分为男女,就能够覆盖全部人类属性,其实,要是研究过淘宝的人,都知道淘宝的性别标签有18个。由于树状的层次结构性较好,所以在内容的分类查找领域,有很多应用。

应用的分类必须考虑分类权威性和信息完备性问题,避免因为子节点覆盖不全或分类错误导致的认知问题。

如果标签是网状的,更强调表达属性关系而非集成关系,只有权重大小之分,不强调包含于被包含关系。这就使得相对于分类而言,标签的灵活性更强。在权威性方面,标签是弱化的,每个用户都可以参与进来为自己的喜好贴标签,也可以为自己喜好的内容贴标签,从而借助规模效应实现对信息表意完备性的覆盖。

由于网状结构包含树状结构,故而标签可以被应用于分类的场景,在设计系统时,可以先基于产品场景快速覆盖主要标签,在结合标签集合的使用频次、专家建议等因素逐步将部分入口收敛到树状的分类体系中来。

最后,值得一提的是,标签是怎么产出的?答案就是PGC和UGC,即专家系统产出和用户产出。很多金融公司的产品App,到目前为止都没有开放UGC的功能,从某种意义上说,用户、内容的画像都不可能有机会完备。

  1. 用户画像:要更好的了解要推荐给的人。

与内容画像相对应的,是用户的画像。用户画像是产生动态的超级360°视图,具体可参考这篇文章:企业数字化转型:外部驱动力之客户篇。用户画像也是给目标用户贴标签的过程,通过标签来描述一个用户的特征集合。

通常,用户画像主要应用场景包括:精准营销、行业研究、产品效率优化、个性化服务等等,实际上所有围绕个人用户的产品,都是典型的用户画像需求方。

本文由金沙澳门官网dkk发布于互联网资讯,转载请注明出处:013 推荐系统架构初探

关键词: