百度指数的提取

最近一个多月,我一直在想做一个题目,百度指数和股价的关系。前几天刚刚把程序弄好,可以把指数提取出来的时候,在The Journal of Finance上面的 Forthcoming Article Abstract,找到了这篇In Search of Attention

几乎是和我一样的想法,但是做的工作显然比我能做的更多,更好。顿时自己的心凉了半截,继续做下去的冲动都没了。不过今天和导师交流了一下,说你数据都弄好了,不在做做实在是有点可惜,那么我就当练手,抱着学习面板分析的态度继续搞下去吧。

不过虽然我这个题目已经被人做掉了,但是百度指数(反应了别人百度某关键词的次数)和社会科学的关系,还有许多其他课题可以做,因为他其实反应的是老百姓的注意力。通常我们很难将其量化,用这个代理变量,我觉得可以做不少分析。国外已经开始用社交网络的数据分析了,我们这边见到文献的倒是不多。不过国内外被广泛认可的东西我就没有见到了,刚刚那篇文章还在预发表嘛。很多以前的理论,因为没有数据,很难做分析,现在用这种搜索数据,或者社交网络数据,可以做的东西就很多了。

如果百度指数开发api,能做的东西就更多了。自己也有点像利用微博和社交网络开发的api,做一些数据的提取分析,我觉得这个也很有意思,虽然国外已经开始不少人在开始做,国内似乎见过一些公司在做这个,好像杜子健就是一个。

好了,闲话不提,说说百度指数的提取吧。我用的是matlab的图像处理,提取图像的曲线。效果如下:

原图(百度指数页面点击生成图片):

提取后的的效果:

上图绿色的就是提取后数据绘制的线条,和原来的线条基本是重合的。我把提取后的数据和原始数据做了一个比较,最大的误差在3%左右,还是可以让人满意的。

本来想把matlab程序也在这里提供了,发现自己居然再这个空间上面不能在建立独立页面了,那就算了吧。

This entry was posted in 学术研究 and tagged , , . Bookmark the permalink.

34 Responses to 百度指数的提取

  1. Ray says:

    博主,求matlab代码,谢谢~我的邮箱是rayxu731@gmail.com

  2. rio says:

    赞一个,我是一个学习模式识别的学生,新手,想学习学习,求指导,求代码,408466884@qq.com

  3. rio says:

    话说这个没有别的方法么,只能通过图像处理这么极端方法?有没有别的工具可用啊?而且话说是怎么得到原始图像的?

  4. 楼主给我源代码啊 eter naluve@qq.com,谢谢

  5. Pingback: 百度指数批量导出、抓取工具

  6. 可道 says:

    现在确实大致分为两种方法,一个是破解加密方式,一个是OCR识别。网上好像有一个可以免费查询并导出关键词的文章,具体见:http://www.keytao.net/archives/1220.html

  7. irisjiayou says:

    博主,求代码~2408784022@qq.com

  8. irisjiayou says:

    博主,求代码~2408784022@qq.com

  9. ZORA says:

    博主,求源代码,拜托拜托了~我的邮箱是547933154@qq.com,万分感谢!

  10. simm13 says:

    这个技术比较弱,抓取数据有误差,如需准确值抓取,联系:18223519

  11. 飞翔小鸥 says:

    求代码709981470@qq.com

  12. JT。 says:

    我是做数据分析的学生,对这个很感兴趣,希望能参考您的代码,谢谢!329691572@qq.com

  13. 不错,值得收藏分享!

  14. 过来支持一下 值得收藏分享

  15. 内涵段子 says:

    不错不错,来看看。。

  16. 博主,求matlab代码!!158795299@qq.com 谢谢啦!!

  17. 张也弛 says:

    博主同求代码!!458903188@qq.com 谢谢啦!!

  18. 希望博主能够分享一下代码,邮箱pauluslee@126.com,谢谢

  19. 天才少年 says:

    分享一份代码呗谢谢了。1561461366@qq.com

  20. 颜渊 says:

    博主好,求一份代码谢谢啦,786661940@qq.com

  21. 哈哈 says:

    博主,毕业论文急需,求代码:315025597@qq.com

  22. 研究论文急需,希望博主能够提供源码,非常感谢!email:sd1900@163.com

  23. songgeb says:

    提供免费百度指数抓取服务
    http://www.jianshu.com/p/361c97b4428a

  24. Thomas says:

    博主可以分享一下Matlab的代码吗?

  25. Thomas says:

    我的邮箱是Thomas.hu@outlook.com

  26. Anonymous says:

    我的邮箱是 315762135@qq.com

Leave a Reply

Your email address will not be published. Required fields are marked *