最近一个多月,我一直在想做一个题目,百度指数和股价的关系。前几天刚刚把程序弄好,可以把指数提取出来的时候,在The Journal of Finance上面的 Forthcoming Article Abstract,找到了这篇In Search of Attention。
几乎是和我一样的想法,但是做的工作显然比我能做的更多,更好。顿时自己的心凉了半截,继续做下去的冲动都没了。不过今天和导师交流了一下,说你数据都弄好了,不在做做实在是有点可惜,那么我就当练手,抱着学习面板分析的态度继续搞下去吧。
不过虽然我这个题目已经被人做掉了,但是百度指数(反应了别人百度某关键词的次数)和社会科学的关系,还有许多其他课题可以做,因为他其实反应的是老百姓的注意力。通常我们很难将其量化,用这个代理变量,我觉得可以做不少分析。国外已经开始用社交网络的数据分析了,我们这边见到文献的倒是不多。不过国内外被广泛认可的东西我就没有见到了,刚刚那篇文章还在预发表嘛。很多以前的理论,因为没有数据,很难做分析,现在用这种搜索数据,或者社交网络数据,可以做的东西就很多了。
如果百度指数开发api,能做的东西就更多了。自己也有点像利用微博和社交网络开发的api,做一些数据的提取分析,我觉得这个也很有意思,虽然国外已经开始不少人在开始做,国内似乎见过一些公司在做这个,好像杜子健就是一个。
好了,闲话不提,说说百度指数的提取吧。我用的是matlab的图像处理,提取图像的曲线。效果如下:
原图(百度指数页面点击生成图片):
提取后的的效果:
上图绿色的就是提取后数据绘制的线条,和原来的线条基本是重合的。我把提取后的数据和原始数据做了一个比较,最大的误差在3%左右,还是可以让人满意的。
本来想把matlab程序也在这里提供了,发现自己居然再这个空间上面不能在建立独立页面了,那就算了吧。
博主,求matlab代码,谢谢~我的邮箱是rayxu731@gmail.com
请问你有获得代码么
赞一个,我是一个学习模式识别的学生,新手,想学习学习,求指导,求代码,408466884@qq.com
话说这个没有别的方法么,只能通过图像处理这么极端方法?有没有别的工具可用啊?而且话说是怎么得到原始图像的?
楼主给我源代码啊 eter naluve@qq.com,谢谢
请问你有获得源代码吗?
Pingback: 百度指数批量导出、抓取工具
现在确实大致分为两种方法,一个是破解加密方式,一个是OCR识别。网上好像有一个可以免费查询并导出关键词的文章,具体见:http://www.keytao.net/archives/1220.html
博主,求代码~2408784022@qq.com
博主,求代码~2408784022@qq.com
博主,求源代码,拜托拜托了~我的邮箱是547933154@qq.com,万分感谢!
这个技术比较弱,抓取数据有误差,如需准确值抓取,联系:18223519
求代码709981470@qq.com
我是做数据分析的学生,对这个很感兴趣,希望能参考您的代码,谢谢!329691572@qq.com
不错,值得收藏分享!
过来支持一下 值得收藏分享
不错不错,来看看。。
http://www.jianshu.com/p/361c97b4428a
博主,求matlab代码!!158795299@qq.com 谢谢啦!!
博主同求代码!!458903188@qq.com 谢谢啦!!
希望博主能够分享一下代码,邮箱pauluslee@126.com,谢谢
分享一份代码呗谢谢了。1561461366@qq.com
过来瞅瞅!
博主好,求一份代码谢谢啦,786661940@qq.com
博主,毕业论文急需,求代码:315025597@qq.com
研究论文急需,希望博主能够提供源码,非常感谢!email:sd1900@163.com
提供免费百度指数抓取服务
http://www.jianshu.com/p/361c97b4428a
415765439@qq.com,求代码
博主可以分享一下Matlab的代码吗?
http://laofish.com/archives/803
我的邮箱是Thomas.hu@outlook.com
我的邮箱是 315762135@qq.com
我的邮箱是 315762135@qq.com