微博关注者数量在计算中的作用

简介:

郑昀 20101011

    一个微博用户的关注者数量(在Twitter中称为Followers),有几种用途:

一、对于Google来说,由于一个用户关注另一个用户,相当于一个页面指向另一个页面,所以PageRank的算法大致可照搬。

    "One user following another in social media is analogous to one page linking to another on the Web. Both are a form of recommendation," Singhal tells Technology Review. "As high-quality pages link to another page on the Web, the quality of the linked-to page goes up. Likewise, in social media, as established users follow another user, the quality of the followed user goes up as well."

    当决定哪一条微博消息(Tweet)要显示在搜索结果中前列时,Google不单单关注followers的数量,还关注这些followers的价值。

 

二、在热门消息榜类型的应用里,却要反其道而行之,要削减followers多的用户权重。

    对于微博客来说,如果要做一个热门消息实时榜单,有一个问题绕不过去,那就是对人气特别旺的帐号如何处理?在做Twitter锐推榜时,很多人提出这个问题,能不能让那些followers数量巨大的人少上榜,更有人建议让上榜阈值与该用户的followers数挂钩,比如成反比,followers越多,上榜越困难。

    由于followers数与微博消息的价值之间没有明确的关联,所以不适合简单粗暴地成反比。

    在针对国内微博网站,如新浪微博,制作热门转发消息实时榜单(t.rtmeme.com)时,我采用如下简单的规则,来减少名人上榜几率。

 

加入关注者数量的考量

    一条消息是否能够上榜,当然取决于它的转发数和评论数,但是名人关注者多(粉丝多),理所当然地有更大几率被转发,然而名人的消息未必有什么价值。t.rtmeme.com虽然一直在阻止明星推上榜,但名人或者说人气比较旺的用户,却很难遏制。

    所以需要在t.rtmeme.com上榜公式中引入关注者数量这个参数。

    一般来说,在新浪微博中,1K个关注者意味着转发数可能是个位数的,10K个关注者时转发数可能平均达到两位数,所以可以近似一个转发比率1:1K。

    那么一个关注者数为88万的名人@冯小刚 ,他的转发因子是880(即期望平均转发数是880次);此时,如果他有一条消息被转发了1000次,那么1000/880=1.14,这个数字代表转发数是否超过预期。

    下面再多举些例子:

关注者数为31352的@作业本 ,转发因子是31;他的某消息转发数是544,那么544/31=17.5,就说明该消息价值明显优于冯小刚的那条。

关注者数为1,894,927的@李开复 ,转发因子是1894;某消息转发数是5351,那么5351/1984=2.69,也还在水准之上。

关注者数为1,981,311的@任志强 ,他某条被转发了85次的消息转发水准度就是85/1981=0.04,就很不值得上榜(如果不考虑这个因子,那么凭借转发数多评论数多,它肯定可以上榜)。

关注者数为917,734的@头条新闻 ,他某条转发了320次的消息,水准度是320/917=0.34,相当一般的消息,可入可不入榜。

关注者数为434,135的@新浪娱乐 ,某条转发了99次的消息,水准度是99/434=0.22,所以说很多新浪自己维护的帐号,所发的消息大多不值得上榜。

 转发水准度

    因此设置一个转发水准度的阈值,比如要求每条上榜消息的转发水准度大于0.5,就能避免大明星、名人、人气王们随随便便发条消息就能上榜。

[完]

目录
相关文章
|
5月前
|
存储 运维 监控
函数计算产品使用问题之如何获取最适合的并发绘图数量
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
算法 前端开发
前端算法-独一无二的出现次数
前端算法-独一无二的出现次数
随机ID生成的几种 方式整理(现阶段基础)
随机ID生成的几种 方式整理(现阶段基础)
390 1
应用torchinfo计算网络的参数量
应用torchinfo计算网络的参数量
181 0
|
Serverless
函数计算的典型用户场景
函数计算的典型用户场景自制脑图
132 0
函数计算的典型用户场景
|
C语言 C++
【C/C++教学】浅谈交换两个数的不同实现方法
【C/C++教学】浅谈交换两个数的不同实现方法
175 0
【C/C++教学】浅谈交换两个数的不同实现方法
|
存储 架构师 数据库
粉丝关系链,10亿数据,如何设计?
关系链主要分为两类,弱好友关系与强好友关系,两类都有典型的互联网产品应用。
3153 0
粉丝关系链,10亿数据,如何设计?
|
分布式计算 算法 Hadoop
Giraph源码分析(八)—— 统计每个SuperStep中参与计算的顶点数目
科研中,需要分析在每次迭代过程中参与计算的顶点数目,来进一步优化系统。比如,在SSSP的compute()方法最后一行,都会把当前顶点voteToHalt,即变为InActive状态。所以每次迭代完成后,所有顶点都是InActive状态。
比阅读量和粉丝数更重要的是用户ARPU值
对于多数内容创业者而言,一个公众号的粉丝数和阅读量是有上限/瓶颈的。在这种情况下,得尽可能挖掘一个公众号的商业价值,这时候就得注重一个目标,叫做ARPU值。在新媒体运营行业,我们还没有见过谁对它有清晰的解释和定义。
2187 0