Tag Archives: 百度指数

百度指数的提取

最近一个多月,我一直在想做一个题目,百度指数和股价的关系。前几天刚刚把程序弄好,可以把指数提取出来的时候,在The Journal of Finance上面的 Forthcoming Article Abstract,找到了这篇In Search of Attention。 几乎是和我一样的想法,但是做的工作显然比我能做的更多,更好。顿时自己的心凉了半截,继续做下去的冲动都没了。不过今天和导师交流了一下,说你数据都弄好了,不在做做实在是有点可惜,那么我就当练手,抱着学习面板分析的态度继续搞下去吧。 不过虽然我这个题目已经被人做掉了,但是百度指数(反应了别人百度某关键词的次数)和社会科学的关系,还有许多其他课题可以做,因为他其实反应的是老百姓的注意力。通常我们很难将其量化,用这个代理变量,我觉得可以做不少分析。国外已经开始用社交网络的数据分析了,我们这边见到文献的倒是不多。不过国内外被广泛认可的东西我就没有见到了,刚刚那篇文章还在预发表嘛。很多以前的理论,因为没有数据,很难做分析,现在用这种搜索数据,或者社交网络数据,可以做的东西就很多了。 如果百度指数开发api,能做的东西就更多了。自己也有点像利用微博和社交网络开发的api,做一些数据的提取分析,我觉得这个也很有意思,虽然国外已经开始不少人在开始做,国内似乎见过一些公司在做这个,好像杜子健就是一个。 好了,闲话不提,说说百度指数的提取吧。我用的是matlab的图像处理,提取图像的曲线。效果如下: 原图(百度指数页面点击生成图片): 提取后的的效果: 上图绿色的就是提取后数据绘制的线条,和原来的线条基本是重合的。我把提取后的数据和原始数据做了一个比较,最大的误差在3%左右,还是可以让人满意的。 本来想把matlab程序也在这里提供了,发现自己居然再这个空间上面不能在建立独立页面了,那就算了吧。

Posted in 学术研究 | Tagged , , | 34 Comments