-只说  sayonly.com                 english | other         如何发掘到需要的内容?
 
Dongchunpeng说我在" 如何发掘到需要的内容?"中提了一个巨大的话题,是最活跃的网络服务共同干好的一件事情。跟zhanbin探讨的时候也没有想到, 只觉得是一个互联网用户的基本需求而已。如果把它上升到现在网络服务共同干好的一件事情的话,确实如Dongchunpeng说到的那样:"综合起来看,只有那些底层技术、表层技术、理论和商业运营能力都过硬的创业者和企业,才会从残酷的竞争中脱颖而出。争得市场的一席之地。 "(via here

不过我这里并没有打算谈实施的事情,因为具体问题,就会纠缠不清,就像 郑昀在那篇文章后面提到的那些具体问题,我们都能列出来100多种答案,信不信?郑昀是安blog在CSDN的高人,就过滤算法方面有很多的文章,大家可以过去看看。我只想谈些基本的想法,帮助大家(/自己)整理一下思路。

回来看,既然可以说明了发掘内容的方式,那么发掘出来内容的粒度,就是一个值得考虑的问题。del.icio.us收藏以一篇 网页为单位,其实大多数是单篇文章。偶尔也看到全站进行收藏的,例如www.sina.com.cn,收藏一个blog的,例如 www.sayonly.com(去翻翻,肯定有),虽然单个网页并不等同于单篇文章,但是收藏的决大多数还是单篇文章。

单篇文章的组合,就是多篇文章(废话!)。一个主题,一个blog,一个Rss feed,如果发掘出你喜欢阅读的blog,这也是一个问题。如果继续往下,那么多个blog或RSS feed也可以组合成一个专辑,或者叫做订阅列表,也许对用户更有意思,更具备分享价值。用音乐来类比,有单首歌,有针对同一个主题的音乐,也有音乐专辑。

发掘粒度影响发掘内容之后的行为,例如针对单篇文章,毕竟单篇文章的生命力有限,相对评论和讨论的话题居多,而且,单篇文章太多,更难于形成SN方式的过滤。从这个角度看,豆瓣原来放弃"我上"转成"9点"的一个可能原因就是,相对来讲,feed这个粒度,相对于音乐/书的数量,还是太多了,音乐/书可能是几十万这个级别,但是feed可能就是几千万,很难形成集中/有用的评论。

发掘粒度取决于用户的使用习惯,对文章来说,就是阅读习惯。

 

 
 
        ( 订阅RSS频道:文儿 feed.sayonly.com    收藏  tag.sayonly.com


6条评论

  1. hi,基于抓虾的按人订阅的模式,我看到了sayonly的这篇高论,这就是人们阅读的一种方式。

    这种方式是自然的,是因为我们经常会听某位老师的系列讲座,纵论天下,跨越几千年;会把某位作家的所有作品通读,这就是按人订阅的原型。

    当然,并不是唯一的一种。

    我们最通常的模式,实际上是按主题订阅。

    也就是我们看电视看杂志看报纸的时候,看到某一个新闻事件或者视角,觉得蛮有趣的,于是展开阅读,并且第二天如果有后续报道,我们也会优先阅读。

    这就是主题阅读方式。

    发掘内容的粒度,需要仿生学。模仿用户行为,抓虾、GoogleReader、Bloglines模仿按人阅读。

    那么按主题阅读呢?

  2. 2:

    继续刚才的话头。

    人们还有一种天然的阅读方式。我的朋友了解我,他的小圈子在阅读的书籍,也会优先推荐给我阅读。这可能就是sayonly说的“SN阅读方式”。

    现在有两种路径可以做到这一点。

    第一种,豆瓣式。

    第二种,机器硬算。

    我们这个团队做过试验,可以针对你sayonly的博客专门给你推荐博文,也就是基于你的博客所有文章获取你的信息,从而推荐你可能感兴趣的文章。

    但是,机器两年之内干不过人。所以,我至今没想明白,怎么把人的发散性跳跃性和机器的严谨计算结合。

  3. 3:

    继续。

    假定发掘粒度这个词,sayonly指三种含义:

    发掘出你可能感兴趣阅读的人;

    发掘出你可能感兴趣的主题【可能你知道这个主题,也可能你还不知道它的存在,比如新热点,比如久远的主题】

    发掘出你可能感兴趣阅读的文章。

    那么,针对发掘出你可能感兴趣的主题,以及发掘你可能感兴趣阅读的文章,我们做了一个小小的有趣的尝试:http://www.onejoo.com/。

    从页面上看玩聚(OneJoo)似乎不成熟,但它的背后揉合了以下技术:

    a.玩聚的热点都是机器自动发现的,每天定时经过了大规模文本挖掘计算得到的当天的互联网热点;机器每天都在算。

    b.玩聚的每一个专题的文章也绝大多数来自于机器的聚类计算或者从热点导过来的。

    c.对于每一个专题,机器都会每天计算后续追踪报道,根据语义。http://www.onejoo.com/TopicMix.asp?iden=1&topicid=836,这个页面比较清晰地显示了“李宇春抢刘翔风头”的后续追踪到的每日博客评论。

    玩聚用到的技术:

    热点新发现计算;

    时间脉络计算;

    聚类计算;

    爬虫,在酷讯大打嘴仗的今天如果爬虫现在还算做技术活儿的话。

    这其实就是按主题阅读的雏形。

    我们正在筹划着另外一种按主题阅读的表现形式,希望能够更好地挖掘到内容,特别是长尾用户真正个性化的需求。

  4. 这个………

  5. 内容重要的是发现

  6. 热点发现技术能否说的详细点啊

发表评论

评论也有版权!

无觅相关文章插件