[答网友问]传播以及抽样

郑昀 20110306

汇总回应瞬间网友对互联网信息监测的问。

 

对此社区化信息挖掘、互联网海量信息挖掘,抽样大凡被迫的,但其依旧是一个好点子。

1.为什么被迫抽样?

   
即使是指向Twitter,做信息监控为是抽样。
    也就是说,但凡是没有权力调用FireHose API(即Streaming
API,参考郑昀的篇章:http://www.cnblogs.com/zhengyun_ustc/archive/2010/06/22/streaming.html
),拿不交整个数量,一定是抽样。
    从统计学角度,抽样到早晚量级,是得分包整个热门的。

   
互联网热点追踪,本身便未可能得全面覆盖,毕竟你企业同时未是Google,即使是Google,它也监控无了Facebook。
   
而且做互联网数据挖掘,也非欲抓取到有数据。参考郑昀的稿子:http://www.cnblogs.com/zhengyun_ustc/archive/2009/08/31/1556966.html

 

2.微量数目上也可做特征提取

    关于数据抽样这上面,可以参考郑昀的文章:
http://www.cnblogs.com/zhengyun_ustc/archive/2009/10/27/1590805.html
内部有段话:

于语义的社会风气里,可以接近地说:万事万物都是特征提取。

若而找到特征,事情虽好惩治。

假设你寻找不交明确的特点,那么哪些的机器智能也无法精确地赞助您。

大多数下,唯一的辛苦在于,你所认为的特征,实际上不是特点。。。

   
如果您莫成为新浪微博之法定合作伙伴(不仅仅是用得审批的开发者),那么搜索接口你是调用受限的,但起码1、2分钟调用一涂鸦是可以的,所以一旦您无是坏柜的口,一定用不顶微博转发行为的90%数,你只能以10%数目达做文章。

 

   
根据传播学原理,热点追踪只需要以传诵节点上做阻止即可。这也就算是游玩聚SR的筹划原理,参考郑昀的篇章:http://www.cnblogs.com/zhengyun_ustc/archive/2011/02/05/aboutidea.html
,不需全网抓到手论坛、博客、微博的帖子,只需要以收藏、网摘、RSS阅读器、Twitter等传播节点上追踪大家分享、推荐、收藏、转载的链接和文字即可。

 

追捕新浪微博或者国内微博的人头,基本都是几乎条腿走路:

  • 一如既往长达腿,调用官方API,保证抓取频率不越对方限制;
  • 亚长腿,通过模拟登录,对寻找微博的网页进行翻页,也准保抓取频率不要过强。

何以是两条腿走路为?

  • 率先,因为国内微博的微博搜索html样式变化了好勤,那么调用API就好包随时都产生多少以搜捕,不见面来遗漏;
  • 老二,双向保障,由于新浪微博针对登录用户搜索次数也产生限量(主要是对用户名的,而无是查封公IP地址),所以新浪微博模拟登录通过搜索页抓取微博信息,频率不能够顶抢,那么两条腿走路,就足以不择手段多地抓取到数码。

 

关于特征抽取,你得找以下重点词配搭:
二元组+语义
三元组+语义

3.处理数量的老路

套路一:
数据抓取–>信息抽取–>数据清洗–>元数据提取(分词、提取标签、提取实体、信息指纹、分类等)–>元数据入库(如MySQL)(原始数据好摒弃)–>统计(包括层次聚类、针对实体的情义倾向分析等)–>展现。
套路二:
数量抓取–>信息抽取–>数据清洗–>信息指纹提取–>数据存入NoSQL
DB中(如MongoDB)->做map/reduce–>NLP后续处理–>统计–>展现。

 

4.是语义还是统计学?

   
由于我们耍聚网的主创者之一是统计学科班出身,所以我们着力还是自从统计角度出发考虑特征提取。包括情感倾向分析(Setiment
Analysis,简称SA),也都是活动统计路,虽然我们呢会盘算否定句、否定的否定、疑问句等常见句式,但后来己渐渐看我们举行的不是语义应用,只能算得自然语言处理应用或数挖掘利用。我们常说之所谓“机器智能”,哪怕是“机器上”,也只是当词频啦、权重啦、TF/IDF啦、重复次数啦、各种影响因子啦等地方做做文章,距离机器理解文章内容还远的特别啊远之十分。

 

郑昀 北京报道

 

送图一律NoSQL朵:

NoSQL 1

 

我的新星推特:

1、

史杂志及言语周润发同学在由无线艺员培训班毕业后,每天收拾干净利落就将近在柜电梯处,见人哪怕咨询早安,很快有些监制就起了解这个年轻人是孰了。周润发有天然又出劲头,从龙套演员到剧集主演只所以了少于年。

2、

才理解知乎( http://www.zhihu.com/ )是用 Python
开发的。实时的信息提醒应是因此friendfeed出品的Tornado。但前台到底是故Pylons还是Django开发的也罢?

3、

meme是常用描述流行基因的乐章。在互联网及就此它们多半是借助挖掘流行趋势监测大规模传播。所以较早的techmeme、rssmeme,中期的tweetmeme、srmeme、rtmeme,都属memeTracker应用。我2006年描绘篇介绍了:http://is.gd/nuGAdC

网站地图xml地图