Category Archives: 学术研究

百度指数及其他

不知道博客还能维持多久,反正写是写的不多了,偶尔发点朋友圈点评下新闻就不得了了,最近也花了点时间申请个公众号,反正折腾着好玩。 我在 12 年那篇文章,脚注说我可以提供自己当时使用的代码,后面不断受到各种邮件求代码和数据,不过因为邮箱是 gmail,我半年才会看一次。 我自己是无所谓,其实代码很简单,原理也在这个博客里面一篇文章里面说了,只要稍微懂点技术,自己就可以写出来,花不了多少时间。 我也在这里把核心函数贴出来,算是做个回应: function curveData=filterP(picName) % 专心做一个曲线过滤的小程序 % 用这个把数据搞出来,存起来 %clear; 函数,不能用 clear %curveData 完全应该就是函数曲线的数据 %searchIndex 这个是对应的搜索量数据 %picName 数据图片名称 %indScale 数据图片刻度 % picName=input('name of the stock?','s'); % indScale=input('scale='); % 因为这是是函数调用,在调用的时候,参数已经赋值进去了,所以不必有这一句了 I = imread(picName,'jpg'); [row,col,c] = size(I);% 理论上有这一句,下面的通用性讲大大增强 … Continue reading

Posted in 学术研究 | Leave a comment

Eviews 编程的几点经验

前几天在折腾数据,还是去年用matlab从百度指数的网页上抠下来的,具体有博文http://laofish.com/archives/362,不表。 从我开始打算搞这个主题,目前见证了两片working paper 的发表,还有好几篇待审,包括前几天看到得一篇投到《经济研究》上的,还见证了ZF从一篇练习到慢慢完善发表的全过程。只恨自己没恒心,早搞定发出来,搞到现在,所谓新想法早就成了明日黄花。也不得不感慨,学术届也TMD竞争激烈啊。 闲话休提,因为自己matlab技术不够,又不想自己钻研,所以又用起了被自己鄙视的Eviews,主要是因为自己常用的计量手段都内置了,实在是方便。 关于Eviews编程的教程,http://forums.eviews.com/viewtopic.php?f=5&t=1638,这篇帖子介绍的很好,不过时针对Eviews 7,有些函数Eviews 6还没有,我这里挑几个我遇到的问题和解决的经验说说。 1 注释,注释是用’,就是英文状态下的单引号,后面一行会被注释掉 2 获取回归结果的方式,首先直接获取公式对象的各种属性,如“eq1.@coefs(2)” 是获取公式eq1的系数向量中的第一个系数,具体的对象属性名称,可以在Eviews users guide里面对应章节获取。 2 有些回归结果并没有直接提供,如回归结果的pvalue,其实这个是我最看重的变量,因为这个计量经济学不就是看一个显著性,解释到底什么因什么是果的东西嘛,因为Eviews 的equation 对象不提供pvalue属性,这里就要用一个函数计算一下,使用方法!pval = @tdist(!tstat, !df),tdist就是t分布的分布函数,具体内置的各种函数可以在Eviews command ref 这个pdf内的Operator and Function Listing章节获取。 3 还有些结果,无法通过上述两种方式获取,那么还有一个办法,只要他提供结果,就可以通过freeze,获取一个表,这个表格每一个单元格的内容都是可以获取的。由于表格内容都是字符串,所以都可以函数转化一下获取,如“@val(tab1(9,4))”。 4 最后,获取的变量要存储和显示,可以存储到矩阵和向量对象里面去,不过我最喜欢用的还是表格,table,使用方法很简单,如 result_granger_nan_tvol(!i,2*!k)=!granger_2,()内是制定存储变量!granger_2的结果到哪一个单元格当中去。 -EOF

Posted in 学术研究, 技术相关 | Tagged , | Leave a comment

百度指数的提取

最近一个多月,我一直在想做一个题目,百度指数和股价的关系。前几天刚刚把程序弄好,可以把指数提取出来的时候,在The Journal of Finance上面的 Forthcoming Article Abstract,找到了这篇In Search of Attention。 几乎是和我一样的想法,但是做的工作显然比我能做的更多,更好。顿时自己的心凉了半截,继续做下去的冲动都没了。不过今天和导师交流了一下,说你数据都弄好了,不在做做实在是有点可惜,那么我就当练手,抱着学习面板分析的态度继续搞下去吧。 不过虽然我这个题目已经被人做掉了,但是百度指数(反应了别人百度某关键词的次数)和社会科学的关系,还有许多其他课题可以做,因为他其实反应的是老百姓的注意力。通常我们很难将其量化,用这个代理变量,我觉得可以做不少分析。国外已经开始用社交网络的数据分析了,我们这边见到文献的倒是不多。不过国内外被广泛认可的东西我就没有见到了,刚刚那篇文章还在预发表嘛。很多以前的理论,因为没有数据,很难做分析,现在用这种搜索数据,或者社交网络数据,可以做的东西就很多了。 如果百度指数开发api,能做的东西就更多了。自己也有点像利用微博和社交网络开发的api,做一些数据的提取分析,我觉得这个也很有意思,虽然国外已经开始不少人在开始做,国内似乎见过一些公司在做这个,好像杜子健就是一个。 好了,闲话不提,说说百度指数的提取吧。我用的是matlab的图像处理,提取图像的曲线。效果如下: 原图(百度指数页面点击生成图片): 提取后的的效果: 上图绿色的就是提取后数据绘制的线条,和原来的线条基本是重合的。我把提取后的数据和原始数据做了一个比较,最大的误差在3%左右,还是可以让人满意的。 本来想把matlab程序也在这里提供了,发现自己居然再这个空间上面不能在建立独立页面了,那就算了吧。

Posted in 学术研究 | Tagged , , | 34 Comments