分享
基于有线电视用户收视行为数据的个性化电视节目推荐研究_姜明璋.pdf
下载文档

ID:2719690

大小:2.23MB

页数:6页

格式:PDF

时间:2023-09-17

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 有线电视 用户 收视 行为 数据 个性化 电视节目 推荐 研究 姜明璋
广播与电视技术 2023年 第50卷 第3期69CATV 有线网络 传输覆盖基于有线电视用户收视行为数据的 个性化电视节目推荐研究【摘 要】本文以歌华有线的探索与实践为例,对基于用户收视行为数据的个性化电视节目推荐技术进行研究。基于个性化推荐算法,通过用户的收视行为提取收视特征建立项目-标签模型,使用户得到符合个性化需求及个人兴趣的推荐结果。【关键词】标签,数字电视,个性节目推荐【中图分类号】TP391.3 【文献标识码】B 【DOI编码】10.16171/ki.rtbe.20230003013【本文献信息】姜明璋,张城瑞.基于有线电视用户收视行为数据的个性化电视节目推荐研究J.广播与电视技术,2023,Vol.50(3).Research on the Personalized TV Program Recommendation Based on CATV Users Viewing Behavior DataJiang Mingzhang1,Zhang Chengrui2(Xiamen University,Fujian 361005,China)1(Beijing Gehua CATV Network Co.,Ltd.,Beijing 100007,China)2Abstract This article takes exploration and practice of Gehua Cable as an example to study the personalized TV program recommendation technology based on the data of user viewing behavior data.Based on the personalized recommendation algorithm,the item tag model is established by extracting the viewing characteristics from the users viewing behavior,and the recommendation results that meet the personalized needs and personal interests are obtained for the user and presented in the form of recommendation pages.Keywords Tag,Digital television,Personalized program recommendation姜明璋1,张城瑞2(厦门大学,福建 361005)1(北京歌华有线电视网络股份有限公司,北京 100007)20 引言随着互联网技术的发展和普及,海量的用户数据充斥着网络,成为市场上一种重要的资源。可以说,谁掌握并利用好了数据,谁就掌握了市场。而智能推荐系统便是对这些数据最好的应用之一,并且已经被字节跳动、京东等多家互联网企业所采用。系统通过对用户数据收集和分析,建立用户的偏好模型,从而将特定的商品或者视频等信息内容精准推荐给用户,实现供需资源的高效配置,同时也极大提升了用户满意度,从而使企业获得较好的社会效益和经济效益,极大地提升了企业的知名度。目前智能推荐最主要的算法是协同过滤以及基于标签的推荐算法。协同过滤算法主要是通过计算用户或产品之间的相似度来将其划入特定的具有相似特性的群体当中,从而进行内容的推荐。而基于标签的推荐算法则是以标签的形式来表示物品或用户的特性,然后将两者通过一定的关系联系起来并进行推荐;也可以展现标签列表,让用户点击自己感兴趣的标签,然后依此个性化推荐。智能推荐已在视频网站以及网络购物等方面广泛应用,但在有线电视等大屏端的应用还处于较为初级的阶段。电视交互已经运行数年,但仍引起了业内外的广泛诟病,电视收视体验改革之声层出不穷。尽管在电视直播及点播服务中,广播与电视技术 2023年 第50卷 第3期70有线网络 CATV传输覆盖用户能够根据自己的喜好自由选择频道及影视节目进行观阅,但电视服务相对缺乏个性化设置。面对如此之多的频道及点播影片选择,他们也可能会感到无所适从,难以下决定。最终,这些选择会使他们厌烦,从而转向更具有个性化的视频网站。为了在市场上争得一席之地,有线电视与互联网、新媒体之间的融合便是关键之举,让新的技术手段和业务形态逐渐融入到电视媒体中。随着有线数字电视用户尤其是交互用户数量的不断增长,广电行业积累了庞大的用户信息和使用行为数据,具备了发展大数据产业和服务的基础。以上两点为广电行业的智能推荐提供了必要性和可行性。电视节目的个性化、智能化推荐将会在日后成为较为热门的研究方向,相关的算法改进以及功能创新都将成为值得研究的课题。本文以歌华有线的探索与实践为例,对智能推荐电视服务进行研究。概况来说,主要是在收集用户收视数据的基础上,提炼分析用户的收视习惯,并建立用户-标签模型,结合协同过滤算法,为用户进行节目的精准推荐,并在此基础上进行测试评估,最终在电视大屏端形成“千人千面”的用户推荐页面。1 歌华有线智能推荐技术平台介绍歌华有线智能推荐系统最初创建于 2014 年,以北京市超过 500 万高清交互机顶盒用户为基础,以 Hadoop 等较为成熟的大数据平台技术为支撑,通过数据实时回传、实时分析,实现用户标签化、用户分群画像等功能。而后,歌华云平台的建成,使智能推荐系统在交互层面又有了进一步的应用,在歌华电视院线、免费专区、综艺、电视剧专区、广告等应用栏目进行试点。通过对用户的收视数据进行收集与分析,根据用户行为特征、节目特征,进行关联性分析、资源排序,实现节目关联推荐功能。至 2020 年,随着歌华云平台的进一步完善,北京市内的智能终端数量也极大增加,同时又由于近年来视频网站的传播普及,为了进一步实现精准推送,歌华与优酷等以视频为主营业务的互联网企业间也深入展开合作,并实现数据共享。为满足进一步融合、聚合第三方视频 APP 类内容数据及互联网 SP 运营数据需求,同时也为提升智能推荐系统数据处理能力,歌华有线系统进行了升级,在数据层、算法层、服务层同步进行升级改造。在数据层提升原有大数据平台的数据加工能力,增强实时数仓建设,采用“OLTP+OLAP”双引擎提升支撑交易事务与海量数据复杂分析的混合场景,保证高时效、高并发的数据消费能力;算法层采用自研算法与集成互联网成熟算法相结合的模式,自研算法从基于大数据计算的算法,升级引入 AI 智能算法模型训练,提升推荐品质;服务层增强推荐数据自主管控、人工干预、加密数值还原,以及服务访问管控能力。同时,新系统采用混合云模式部署,可充分利用公有云数据平台、计算平台、算法平台的优势,与歌华数据归集系统及各业务系统数据相结合进行,使推荐结果更符合实际需求。歌华有线智能推荐技术平台架构如图 1 所示。图1 歌华有线智能推荐技术平台架构广播与电视技术 2023年 第50卷 第3期71CATV 有线网络 传输覆盖由图可见,新系统的数据处理更为科学,其主要功能有数据采集与集成、数据计算与算法训练和推荐引擎三大模块。对于数据采集与集成方面,智能推荐系统会收集全部节目以及用户数据、用户点播数据、购买数据以及用户观看直播数据,并将这些数据进行整合,从而为之后的运营分析和用户特征分析奠定基础。在数据集成与采集之后便是数据计算与算法训练阶段。首先,系统会将收集到的用户数据进行治理以及清洗,以此来达到数据规范化的目的,并根据不同的输出形式建立模型。在此之后,系统会对预处理好的数据进行挖掘以及分析,从而使得数据的表达更为直观,为之后的步骤作铺垫。最后是机器学习和算法训练阶段,系统通过数据字典、规范数据流等方式,对用户的收视行为进一步分析,得出用户的收视习惯,为关联性推荐提供参考依据。图 2 为歌华有线大数据计算能力平台:最后一个模块是推荐引擎,在获取用户数据并建立模型后,系统便会对用户进行关联性推荐。关联推荐结合了内容关联、人工推荐、用户行为推荐以及热门推荐等方式。此外,由于同语音平台的关联,该系统也支持语音进行片源检索。2 基于用户收视行为数据的个性化电视节目 推荐的研究歌华有线智能推荐主要用如下三个步骤实现:召回、精排以及重排。其中召回主要是在海量片源中快速选取出一系列与目标相关节目,而精排则是在召回的基础上对所选取的样本进行进一步筛选,缩小推荐范围。而最后的重排则是对精排的结果进行修饰与修正。下面,本文将逐一介绍推荐系统工作的三个步骤以及其对应的算法。2.1 召回过程内容中的层次编号规则:若想在海量的数据中直接寻找完全贴合用户喜好的对象,其难度犹如大海捞针。因此最好的做法是在海量数据中广撒网,寻找到数千条符合用户需求的对象。而应用到电视的智能推荐系统中,就是从节目库中搜寻出数千个符合用户口味的节目。虽然说最终选取的样本量仍对于推荐界面来说较多,但这种算法最大的优点是效率高。相较于直接从总节目库中选取数十个对象,这种较为粗放的方式速度更快。目前,推荐系统应用较多的算法是协同过滤。其大致思图2 歌华有线大数据计算能力平台广播与电视技术 2023年 第50卷 第3期72有线网络 CATV传输覆盖路是先收集用户或者物品的信息,而这些信息大多会被制作成反映用户或者物品某种特性的标签。之后再比较用户之间或者物品之间的相似度,最后输出召回结果。这种方法的缺点是误差较大,因而需要后续精排等步骤对结果进行优化。按照选取用户或者物品作为比较对象,协同过滤算法可分为ICF(基于物品的协同过滤)算法以及 UCF(基于用户的协同过滤)算法。而歌华有线智能推荐系统主要使用的是 ICF算法。下面将介绍 ICF 算法的主要内容。1首先,电视的智能终端会收集用户收看节目的信息,选出其最常观看的节目。之后根据这些节目的特质进行标签设计。通常来说,为了能相对来说更精确地推荐节目,一个节目通常会被打上数个标签,这就使得之后比较两个节目的相似度时能拥有更多的比较维度,使结果相对更准确。而这些被打上标签的节目便可以被视作多维向量。2而后便是用节目库中其他节目与用户日常观看的节目进行相似度比较。其方法主要使通过计算两个代表节目的向量之间夹角的余弦。其计算公式如下3(x,y)2222|i iiix yxyTxyxy=1()1xg xe-=+01()ni iiy xsigmoid ww x=+0i iww xni+12/MMR(Q,C,R)argmax,(1)ma()x(),jiiijDSDR Ssim Q dsimd d=-其中,第一个等号后的 x 与 y 是表示节目的两个向量,x 代表用户所收看节目的向量,y 代表节目库中节目的向量。而第二个等号后的 x,y 则是代表节目标签的向量参数。余弦数值越大,则代表两向量间夹角越小,也就说明两个节目间相似度越高。最后,推荐系统将与用户观看节目相似度高的节目作为结果进行输出。但由于结果的样本量较大,精度不高,因此还需进行接下来的精排步骤。2.2 精排过程精排会将召回的候选集中元素进一步打分,分数越高的节目代表该节目越贴合用户的喜好。精排中主要运用的是 LR(逻辑回归)算法。LR 算法的核心思想是将物品特征进行监督分类。而其分类主要运用的方法为 sigmoid 变换。Sigmoid 函数公式如下1()1xg xe-=+01()ni iiy xsigmoid ww x=+0i iww xni+12/MMR(Q,C,R)argmax,(1)ma()x(),jiiijDSDR Ssim Q dsimd d=-Sigmoid 函数自变量取值范围为(,+),因变量的取值范围为(0,1)。函数对于给定的输入变量,会根据选择的参数计算输出变量等于 1 的可能性,也就是其输出表示概率,都是 0 到 1 之间。首先,它会为节目特征向量的每一个参数赋予一个权值wi,再将每个参数与权值的乘积求和,最后进行 sigmoid 变换,得到打分结果。其计算公式及原理示意图如图 3:当括

此文档下载收益归作者所有

下载文档
收起
展开