Category Archives: 学术研究

百度指数及其他

Posted on March 25, 2016 by laofish

不知道博客还能维持多久，反正写是写的不多了，偶尔发点朋友圈点评下新闻就不得了了，最近也花了点时间申请个公众号，反正折腾着好玩。我在 12 年那篇文章，脚注说我可以提供自己当时使用的代码，后面不断受到各种邮件求代码和数据，不过因为邮箱是 gmail，我半年才会看一次。我自己是无所谓，其实代码很简单，原理也在这个博客里面一篇文章里面说了，只要稍微懂点技术，自己就可以写出来，花不了多少时间。我也在这里把核心函数贴出来，算是做个回应： function curveData=filterP(picName) % 专心做一个曲线过滤的小程序 % 用这个把数据搞出来，存起来 %clear; 函数，不能用 clear %curveData 完全应该就是函数曲线的数据 %searchIndex 这个是对应的搜索量数据 %picName 数据图片名称 %indScale 数据图片刻度 % picName=input('name of the stock?','s'); % indScale=input('scale='); % 因为这是是函数调用，在调用的时候，参数已经赋值进去了，所以不必有这一句了 I = imread(picName,'jpg'); [row,col,c] = size(I);% 理论上有这一句，下面的通用性讲大大增强 … Continue reading →

Posted in 学术研究 | Leave a comment

Eviews 编程的几点经验

Posted on October 23, 2011 by laofish

前几天在折腾数据，还是去年用matlab从百度指数的网页上抠下来的，具体有博文http://laofish.com/archives/362，不表。从我开始打算搞这个主题，目前见证了两片working paper 的发表，还有好几篇待审，包括前几天看到得一篇投到《经济研究》上的，还见证了ZF从一篇练习到慢慢完善发表的全过程。只恨自己没恒心，早搞定发出来，搞到现在，所谓新想法早就成了明日黄花。也不得不感慨，学术届也TMD竞争激烈啊。闲话休提，因为自己matlab技术不够，又不想自己钻研，所以又用起了被自己鄙视的Eviews，主要是因为自己常用的计量手段都内置了，实在是方便。关于Eviews编程的教程，http://forums.eviews.com/viewtopic.php?f=5&t=1638，这篇帖子介绍的很好，不过时针对Eviews 7，有些函数Eviews 6还没有，我这里挑几个我遇到的问题和解决的经验说说。 1 注释，注释是用’，就是英文状态下的单引号，后面一行会被注释掉 2 获取回归结果的方式，首先直接获取公式对象的各种属性，如“eq1.@coefs(2)” 是获取公式eq1的系数向量中的第一个系数，具体的对象属性名称，可以在Eviews users guide里面对应章节获取。 2 有些回归结果并没有直接提供，如回归结果的pvalue，其实这个是我最看重的变量，因为这个计量经济学不就是看一个显著性，解释到底什么因什么是果的东西嘛，因为Eviews 的equation 对象不提供pvalue属性，这里就要用一个函数计算一下，使用方法!pval = @tdist(!tstat, !df)，tdist就是t分布的分布函数，具体内置的各种函数可以在Eviews command ref 这个pdf内的Operator and Function Listing章节获取。 3 还有些结果，无法通过上述两种方式获取，那么还有一个办法，只要他提供结果，就可以通过freeze，获取一个表，这个表格每一个单元格的内容都是可以获取的。由于表格内容都是字符串，所以都可以函数转化一下获取，如“@val(tab1(9,4))”。 4 最后，获取的变量要存储和显示，可以存储到矩阵和向量对象里面去，不过我最喜欢用的还是表格，table,使用方法很简单，如 result_granger_nan_tvol(!i,2*!k)=!granger_2，()内是制定存储变量!granger_2的结果到哪一个单元格当中去。 -EOF

Posted in 学术研究, 技术相关 | Tagged Eviws, 编程 | Leave a comment

百度指数的提取

Posted on April 26, 2011 by laofish

最近一个多月，我一直在想做一个题目，百度指数和股价的关系。前几天刚刚把程序弄好，可以把指数提取出来的时候，在The Journal of Finance上面的 Forthcoming Article Abstract，找到了这篇In Search of Attention。几乎是和我一样的想法，但是做的工作显然比我能做的更多，更好。顿时自己的心凉了半截，继续做下去的冲动都没了。不过今天和导师交流了一下，说你数据都弄好了，不在做做实在是有点可惜，那么我就当练手，抱着学习面板分析的态度继续搞下去吧。不过虽然我这个题目已经被人做掉了，但是百度指数（反应了别人百度某关键词的次数）和社会科学的关系，还有许多其他课题可以做，因为他其实反应的是老百姓的注意力。通常我们很难将其量化，用这个代理变量，我觉得可以做不少分析。国外已经开始用社交网络的数据分析了，我们这边见到文献的倒是不多。不过国内外被广泛认可的东西我就没有见到了，刚刚那篇文章还在预发表嘛。很多以前的理论，因为没有数据，很难做分析，现在用这种搜索数据，或者社交网络数据，可以做的东西就很多了。如果百度指数开发api，能做的东西就更多了。自己也有点像利用微博和社交网络开发的api，做一些数据的提取分析，我觉得这个也很有意思，虽然国外已经开始不少人在开始做，国内似乎见过一些公司在做这个，好像杜子健就是一个。好了，闲话不提，说说百度指数的提取吧。我用的是matlab的图像处理，提取图像的曲线。效果如下：原图（百度指数页面点击生成图片）：提取后的的效果：上图绿色的就是提取后数据绘制的线条，和原来的线条基本是重合的。我把提取后的数据和原始数据做了一个比较，最大的误差在3%左右，还是可以让人满意的。本来想把matlab程序也在这里提供了，发现自己居然再这个空间上面不能在建立独立页面了，那就算了吧。

Posted in 学术研究 | Tagged baidu index, 学术, 百度指数 | 34 Comments

Category Archives: 学术研究

百度指数及其他

Eviews 编程的几点经验

百度指数的提取

Recent Posts

Recent Comments

Archives

Categories

Meta