十次方首页 | 在线客服 |

浪潮服务器咨询:0755-26922157

| 帮助中心 | 关于我们

专注于超强算力浪潮服务器销售

当前位置: 十次方首页 IT新闻 行业动态 从8亿篇部落文大数据炼金,更要靠AI打造一条龙服务

从8亿篇部落文大数据炼金,更要靠AI打造一条龙服务

16年前,正值网际网路兴起的高峰,痞客邦刊出了第一篇部落格文章。16年后的今天,累积了8.1亿篇文章,涵盖食、衣、住、行各类生活议题,每天还不断产生2亿笔用户行为资料。Pixnet研发中心副总经理黄凯泽笑说,如此庞大的数据,就是最大优势,「我们要用这个优势,成为台湾食衣住行最具权威的向导。」


从8亿篇部落文大数据炼金,更要靠AI打造一条龙服务


十年酝酿数据炼金,一年转亏为盈


诞生于2003年的痞客邦,是Pixnet优像数位媒体旗下最成功的服务之一,更是台湾最老牌、最受欢迎的社群网站,不仅坐拥上亿篇吃喝玩乐部落客文章,这个数量每天还在增加中。根据国际流量排名网站Alexa,痞客邦造访流量仅次于Google和YouTube,是台湾第叁名。


人气如此旺盛的痞客邦,虽然替Pixnet带来响亮名声,却没办法交出亮眼的成绩单。好几年来,公司营收并不理想,而自痞客邦上线以来,内部也一直酝酿着,要利用大数据分析来开发新服务的想法,但一直没有采取行动,迟迟犹豫是否要从部落格平台营运商,转型为大数据分析公司。


直到6年前,公司面临极大的营运压力,Pixnet执行长周守珍却毅然决然决定,要投入数据人力、成立资料团队,来发展大数据分析平台。「当时,大家内心很忐忑,」黄凯泽解释:「因为发展新服务,不只是人员、业务的调整,而是要投资一大笔钱来重整IT基础架构,根本不知道能不能回本。」


即便如此,团队还是如火如荼地执行了。这个大数据平台的目标很简单,就是锁定痞客邦网站访客和部落格文章,分析这两者的特征,挖掘出访客兴趣、找出社群趋势,来进行加值服务,比如推荐文章、广告或商品等。


数据分析系统建置之初,黄凯泽表示,团队先以痞客邦部落格分类机制为基础,人工定义了138个指标(Index),比如年纪、性别、兴趣等,再进一步以自然语言处理(NLP)方法,将部落格文章自动分类到相对应的指标,同时也针对访客行为特征来分类,再推荐文章给拥有同指标的访客。


「但是,兴趣会随着潮流快速改变,指标失准的速度越来越快,甚至不到2个月就不适用了。」黄凯泽指出,这个现象,让团队不得不放弃人为定义指标的方法,改采关系网路分析(SNA),透过算法来计算访客本身以及与文章互动的参数,将拥有相似行为、兴趣的访客群聚在一起,形成独特的兴趣群,并根据群的链结,自动产生该群的兴趣名称,比如美白、馒头、生酮饮食等。「慢慢地我们不需要人为介入,纯粹以数据看数据,不必每3个月就校正一次,」他说。除了用更精准的方法来挖掘社群趋势,团队还透过10种算法来推荐内容。


在应用层面上,大数据分析平台从兴趣挖掘出发,用来推荐部落格文章之外,还能根据特定受众,衍生出广告推荐、商品推荐、市场趋势分析等应用。「数据分析平台上线隔年,企业营收就由负转正。」


Pixnet也在接下来几年,陆续推出独立的社群商务服务、广告行销服务平台,以痞客邦经年累月的巨量资料为基础,瞄准精准行销市场,量身打造出口碑调查、消费者行为剖析、广告投递、行销建议等服务,行销操作的细致程度,远胜于传统只靠网站曝光度的效果。


如果痞客邦的巨量资料是石油,那么这套大数据平台,就是Pixnet的数据石油炼金术。


重整IT储存架构,积极上云抢攻即时分析


为进行大量资料分析,Pixnet在资料储存架构上也有自己的设计。黄凯泽指出,起初,团队将资料分别储存于AWS Redshift云端资料仓储,以及本地端机房的储存系统。其中,Redshift存放了超过百亿笔的使用者浏览记录(Log)等分析性资料,而本地机房则是储存网站资料的元资料(Metadata)。


当时采取这个设计的考量是,研发团队希望将主要资料和较常更新的资料存放于本地端资料仓储,而需要后续分析的资料,则转移到Redshift上。


不过,随着时间推进,越来越多业务讲求即时分析、即时行销,这让塬本Pixnet的储存架构,越来越难满足速度的要求。「以前,大数据分析平台以分析离线资料为主,」黄凯泽表示,这些作业通常从半夜2点开始,分析前一天的网站浏览资料,早上产出深度分析报告,作为当天内容推荐的参考。


但是,「现在要进行即时内容推荐,不可能花一天来分析。」他强调, Pixnet的目标是,即便单日高达2亿笔访客浏览资料,也要在20秒内完成每位访客的贴标、分类,然后精准推荐内容。


于是,近几年,团队重新调整了储存架构,将资料储存分为3部分,分别储存在Google云端平台(GCP)、本地端储存系统,以及Google的BigQuery数据分析仓储,要借重云端大数据平台的内建功能,来缩短架设基础架构时间和资料分析时间。


在资料配置上,塬本网站的元资料、部落格文章及图片等,仍旧存放于自家内部机房。至于塬本存放于Redshift的分析性资料,现在搬迁到了GCP。黄凯泽表示,BigQuery提供的数据分析工具,可以让资料分析、模型训练等作业更便利,再加上内建完善的基础架构,团队不需要重新建置,就能快速使用。


不只如此,就连在查询(Query)速度上,也有显着的差异。他举例,假设团队要从过去1个月(相当于60亿笔)的访客浏览记录中,查询特定资料,透过MySQL资料库须花上整整1个月才查得到;但透过BigQuery,「几10秒就完成了,」再再突显速度的差异性。


虽然BigQuery带来即时分析所需的快速与便利,但也所费不赀。黄凯泽话锋一转指出,传统机器虽然慢,但容易计算使用的资源成本。相比之下,云端服务虽然快,却难以衡量运算资源,导致团队在使用初期,产生了极大成本。


后来,他发现,云端费用与资料储存位置有关,经过1、2个月尝试,黄凯泽制定出一套资料储存机制,根据资料特性来分别梳理,再储存至对应的位置,才逐渐降低了使用成本。


专职资料分析团队,不只懂数据还要让数据说话


有了储存架构的调整,Pixnet发展大数据的另一关键,就是新设的资料分析团队。这个团队由12人组成,隶属于研发中心,下设3个小组,分别是资料工程小组、算法小组、资料分析小组。


就工作职掌来说,资料工程小组负责后端作业,包括架构处理、资料梳理等,负责将痞客邦一天产生的上亿笔资料,进行梳理、存放至对应的资料仓储中,打好资料分析的基础。


接着,就轮到算法小组出场。这个小组的目标,是要利用这些处理过的资料,来设计、开发模型。


再来,就是黄凯泽今年初指定成立的资料分析小组。「这个组很特别,因为小组成员兼具数据背景,以及业务领域背景,来负责对外沟通。」他解释,Pixnet许多业务,是以研发团队的大数据分析成果为基础,需要懂数据的人来解释才有效果。但过去,对外沟通由后端资料工程师负责,「他们对机器、架构等工程领域较为熟悉,对数据解读较不拿手,」因此与其他部门沟通时,常显得力不从心。黄凯泽坦言,这也是他上任后遇到的最大困难。


后来,为改善这个问题,他设立了一个「角色超然」的资料分析师小组,做为桥樑,来与内部业务部门沟通,必要时也会向外部客户解说,「以对方听得懂的语言,来解释数据分析的结果。」


不只如此,为更进一步强化沟通效果,资料分析小组还采用了开源视觉化工具Gephi,将社群兴趣资料的分析结果,以画面和影片方式呈现,将资料视觉化,让听众更容易理解。


举例来说,资料分析团队曾探索对美食感兴趣的目标受众,当时,资料分析师就利用Gephi,从痞客邦整体的社群兴趣星云中,锁定出对食谱非常有兴趣的社群星群。这些社群同样由密密麻麻的小点凝聚而成,群中的每一点,代表一位使用者,点上显示着年龄和最显着的兴趣,只要与其他点拥有共同兴趣,就会产生连结;要是点与点颜色相同,就表示强大的连结力。


这个方法,有助于锁定内容投递的对象。因为,「同一个产品需求,来自许多受众,」黄凯泽解释,比如从痞客邦的食谱族群中,还能延伸出美食、减肥、生酮饮食族群,甚至是癌症,要是投递相关内容,就可锁定这些族群。


对Pixnet来说,资料视觉化之后,不只可以彰显示资料分析的价值,更能让数据自己来说话。


多方探索AI可能性,目标要成为食衣住行权威向导


不只在大数据分析上下功夫,这几年,研发中心也在探索AI的各种可能。比如去年,研发团队打造一款美食语音问答机器人,爬梳站内15万篇餐厅美食文章,利用国产的中研院自动断词工具CKIP,以及Google语音辨识系统,整理出2,500家餐厅名称、400多万个句子、3千多个关键字,以及7万多个食物名称,并用这些资料和迁移学习,来训练聊天机器人AI模型。这款聊天机器人的准确率达92%,团队也持续优化中。


另外,研发中心也聚焦另一个AI领域:电脑视觉。黄凯泽指出,痞客邦不只有巨量文字资料,还有数十亿张的影像。于是,团队利用站内大量美食图片,来训练AI模型,学习辨识餐厅环境和菜单。虽然仍处于研究阶段,黄凯泽透露,模型已能准确辨识餐厅内外部,以及特定料理,比如义大利餐点等。


之后,Pixnet还考虑运用这个模型,设计一套自动选图工具,可以在进行内容推荐时,不只能自动选出符合叙述的照片,还要能挑出部落格中,人气最高的图片作为代表。


Pixnet从6年前跨入大数据分析事业至今,黄凯泽揭露,未来还要往一条龙服务商迈进。他指出,痞客邦拥有大量美食、旅游、美妆和3C等内容,每天吸引许多访客浏览;在他看来,「每一次浏览,都代表使用者的潜在需求,」比如查看自由行文章的访客,可能计画出国,对住宿、机票等就可能感兴趣。


瞄准这一点,研发中心正强化即时推荐算法,不只要快速推荐精准的内容,还要包办使用者搜寻、浏览、评比的需求,甚至要在痞客邦站上,直接提供消费、订位功能,打造一站式服务,「要成为台湾最具权威的生活百科向导。」


如果您需要了解如何租服务器,请进入十次方首页https://www.10cifang.com/

十次方专注于浪潮服务器销售,正品保证,稳定可靠,超强算力,快速部署!

客服热线:0755-26922157 微信:18123621760

本文链接: https://www.10cifang.com/news/3578.html
IDC预测2020台湾科技趋势:企业若不拥抱K8s,将被多云环境淘汰

相关文章


0评论

文章点评

深圳-浪潮服务器独家分销商

最新文章

热门文章

热门标签

评论回复