来源 | 张大本事(ID:BenshiZhang)
引言:我们终于走出信息匮乏的年代,开始了信息过载的烦恼。
从纸媒、电视传媒开始,内容产业搭载着互联网的发展快车,跨过了网络门户、论坛等形式,在移动互联网的普及下,终于迎来爆发式的发展。
而随着内容产业的飞速发展,我们对内容的加工处理方式也逐渐升级变化。
早年报纸、电视的制作门槛较高,从作品的创作完成到对外宣发除了要经过必要的技术处理,还要保证一道道地人工审校,在此前提下内容质量得以保障,但效率着实过低。
随着网络普及,新闻门户网站开始建设人工编辑团队,编辑们甄别最具影响的新闻热点在网站上实时更新,而论坛、贴吧也出现了“站长”、“吧主”等角色,除了维护这一虚拟社区的建设,亦要对相关的内容言论做审核处理。
有观点把微信公众平台的上线认为是新媒体的元年,亦有人认为今日头条等资讯个性化推荐产品的成功是内容产业的井喷。无论如何,内容的创作的门槛已经不复存在。
在鱼龙混杂、良莠不齐的内容环境中,社会对内容平台处理内容的期望与要求,亦越来越高。
0 1 什么是内容中台?中台的概念,早期由美军的作战体系演化,航母舰群作为中台指挥、策应、补给,特种部队作为前台决策、作战、打击。
以腾讯内容产品为例,经过最新的架构调整,微信、QQ和QQ空间形成用户平台;以腾讯新闻、微信公众平台、微信看一看、QQ看点、快报、浏览器等综合信息流产品,腾讯视频、微视等视频影音产品,共同形成内容产品矩阵;而企鹅号定位为内容中台。
0 2 为什么要建设内容中台?“大中台,小前台”的概念由阿里带火,旨在建设一个反应更加敏捷高效的组织,为各业务线提供通用高效的处理能力。
腾讯盛传的“赛马机制”,即为鼓励内部竞争,业务部门自主立项,公司不作干预,谁的效率更高跑得更快,便更有机会拿到公司在这一业务的最终口径,随之而来的才是整个公司的资源倾斜。微信、王者荣耀等都是“赛马机制”的果实。
“赛马机制”在鼓励内部竞争创新的同时,亦产生了过量消耗,各个事业群之间很难实现资源共享,相互扶持与协同落地艰难。
“中台”的建设便是拥有复杂业务线的企业通过提炼各业务线的共性需求,将需求打造成组件化的资源提供给前台各业务部门使用。如此可以使产品在更新迭代、创新拓展的过程中研发更灵活、业务更敏捷,最大程度地避免“重复造轮子”的摸索。
0 3 内容中台可以做什么?中台的设计没有固定标准,本质根据企业对自身架构的期待与投入。
内容平台在消息系统、数据仓库、计算框架、存储系统等基础架构层建设的基础上,把业务层相关的算法能力,服务能力,业务能力高度集成,有效组织 ,动态规划,即为内容中台。
除去业内传统的内容开放平台,部分手机厂商及浏览器产品,在建设信息流产品时更多定位是内容聚合平台,此类场景中,内容中台的优势作用尤为突显。
以手机厂商浏览器信息流为例,CP通过API接口提供内容,存储、理解、推荐都可以通过中台调度,业务线轻装上阵,在不用过多人力投入的情况下,便能快速上线,抢占先机。
0 4 什么是内容理解?内容理解顾名思义,是对内容的理解工作。
内容行业根据创作者类型将内容做了不同划分。PGC(Professionally Generated Content)指专业生产内容、专家生产内容。UGC(User Generated Content)指用户原创内容。
理解实践中,我们会把围绕一篇内容产生的所有表征和语义做最全面的理解工作,不论PGC还是UGC,不管是图文还是视频,无关正文还是评论,都是理解工作的重点。
0 5 为什么要做内容理解?和谐文明、健康积极、规范有序的网络环境,是各家内容平台建设发展的前提。
而内容生产者创作水平、传播目的各不相同,内容消费者认知能力、接受程度无法把握,直接带来的影响是,有大量违法违规、低质垃圾、广告诱导、令人反感等严重影响用户体验的内容混入,难以甄别。
为了将上述低质内容有效剔除,除了最低效的人工审核,人工智能的配合成为内容处理的新的依赖。通过机器建模与审核团队的配合,保证内容平台安全、优质、高效。
即理解维度足够全,理解粒度足够细,内容处理更可控,内容推荐更精准。
0 6 如何对内容进行理解并应用?广义的内容理解,根据其不同应用目的,我把它分为工程能力、内容安全、低质内容、优质内容、与特征理解。
0 1工程能力(以视觉处理为例)人脸识别
“细数那些陪伴我们长大的女神们”,此标题中没有提及具体姓名,正文中若仅为图片则该篇内容推荐可用信息过少。
通过人脸识别能力预测后,模型会给出预测结果与置信度,业务取一定置信的阈值后,便可在无姓名提及的前提下,通过图片实现对内容的深度理解。
影视识别
影视截取片段中,创作者大多不会直接描述人物及影剧名,而是以细节详情作为标题,如“一个响指,整个宇宙真的消失了一半”,单从标题无法预测其为《复仇者联盟》的视频片段,影响分发准确。
通过影视识别能力预测后,模型会给出预测出的相关tag,业务根据tag能预测分类,实现更准确的分发。
OCR识别
在内容平台对内容质量越来越高要求的同时,随之而来的便是黑产针对平台规则的对抗,出于营销、导流、推广等目的,部分创作者会将文字内容以图片的形式呈现以规避平台打击。
通过OCR识别能力,图片中掺杂的文字信息可以准确提取,用于理解和打击。
0 2内容安全(以涉政内容为例)内容安全是内容平台的底线,也是内容产品的生命线。
实践中发现,相对于有实名注册的PGC账号来说,UGC评论的敏感内容风险更高,因此在保证资讯内容安全的同时,评论详情也要做重点监管。
我们把涉政分拆为两个维度,即涉政敏感(不可发表的言论)和涉及政治(涉及政治相关)做区分处理,敏感部分通常按照规则强校验,这里考验的是策略产品的政治意识。涉及政治的内容召回用以重点监管评论环境,保障内容安全的同时,评论健康积极。
0 3低质内容(以标题党为例)标题党的理解是个相对来说偏向主观的工作,受用户的教育经历、表达习惯、接受程度等多方面因素影响,很难达成一个定义的标准。
经过大量的阅读与总结,我把常见的标题党类型提炼为以下多种。
在大家对震惊体的抵制背景下,我们能总结出一批准确率极高的关键词,把此类关键词、正则做基础过滤,解决掉这些浅显易分辨的标题党。
而基于规则的过滤是无法满足内容平台对标题质量的要求的,这时NLP的价值便发挥出来。
为了保证不同标注人员的执行标准相对一致,我穷举了以下常见的标题党特征。
低质对抗中,在平台可控的范围内,我们本着“宁可误伤不可漏过”的原则,理解低质内容时抱着“不为正常即嫌疑”的心理,对低质内容从严对待。
在以上“正则+语料”的训练模式下,bert模型对标题党的理解可以达到90%的准确率和85%以上的召回率,配合人审机制,平台标题党内容相对可控。
0 4优质内容(以热点内容为例)我们在使用一个资讯产品时,除了希望在百无聊赖的时候有内容用于消遣,更多希望在此产品获取到新鲜资讯用以了解时事、紧跟社会。而对内容平台来说,热点内容的精准捕捉,便是突显产品优势的一个重要维度。
0 5特征理解(以内容分类为例)特征理解是深度学习的广泛运用之一,是对文本按其内容进行分类。
资讯行业一般会对内容作300-500个分类,包括一级分类(如游戏)、二级分类(如手游、端游等)、三级分类(如MOBA、PUBG等),部分平台会将三级分类分得更细(如王者荣耀、绝地求生等)。
三级分类的精细理解,一定程度已经类似一个tag的使用,辅助用户的历史行为和画像,在推荐时往往能产生更好的阅读表现。(如手机厂商的信息流产品,可以采集到设备上的app安装,对一个安装了“王者荣耀”的用户,推荐王者荣耀相关的资讯内容是一个可行的探索)
对分类的预测是做成互斥的二分类模型,还是多分类模型,是需要特别去考虑的。二分类模型应用时推荐置信度更高,但召回相对离散,即被预测为“古装剧”的内容,不会被“动作片”召回;而多分类模型便可将“妻子的浪漫旅行”预测为“综艺”和“旅行”两个分类,推荐场景便增加了更多可能。
以上介绍仅为各个理解维度的一些项目示例,根据内容类型,我将常见的一些理解工作简单概括如下。
实际应用过程中,多个模型互为配合互相依赖,才能发挥最大的管控能力。
0 7 业内开放的处理能力内容理解也是巨头厂商智能云服务重点抢占的市场之一,除了BAT之外,网易易盾、金山云、科大讯飞等企业在此业务亦有大量投入和较优表现。
但各家云服务在理解内容时,成型的服务无法与业务线的标准完全对齐,而定制化服务收费不菲。内容平台发展到一定体量之时,没有自己的核心理解能力完全依赖付费业务,也非长久之计。
一个深度、精准、高效理解内容的中台,是内容平台之间竞争对抗的前提,在信息过载的行业时代,读懂内容才能把握先机,角逐未来。
|| 推荐阅读 ||
星标我,每天多一点智慧