如何进行科研选题

 

参考:https://sspai.com/post/57019

1. 问题导向

很多时候选一个好的topic要比选一个好的算法模型更为重要(从某一程度上来说),一般来说,选择topic要符合以下几点:

  • 新、难、热、实用至少占其一;
  • 不要选择已经完全成熟的topic
  • 不要选择和自己专业知识完全不相关的topic
  • 交叉学科是一个可以考虑的选择,很多时候

合作者和导师对于选题极为重要,他们可以为你排掉很多坑,避免选错题、入错行

2. 文献导向

https://cdn.sspai.com/2019/10/16/8bbae8367cbe0bfbd05a06874fff180c.jpg?imageView2/2/w/1120/q/90/interlace/1/ignore-error/1

很多老师会让学生从这里着手,去发现别人研究局限,然后通过突破这些局限,替别人把展望变成现实,从而做出属于自己的原创性研究。这个方式好不好?理论上是好的。论文结尾放这么一个部分,本意就是给后来人提供合适的路标和前进方向。

然而,现实往往是复杂的。许多经验丰富的研究者对此心知肚明,却因为各种原因不愿意或者没有合适的办法告诉你。这就是科研的潜规则吧。

现实世界中,那些「限制」、「展望」其实不是实在的路标,而是研究者们望洋兴叹的产物。他们就如同「笑傲江湖」里面的魔教长老一样,手持利斧开山数百丈。所不同的是他们并没有累死,而是停下来,告诉你「嗯,往这个方向走是没错的」。

能解决的问题,原先的研究者肯定早已解决完了。谁会把容易解决的问题留着?积攒这些问题和存款不同,不会给你带来任何复利。

更何况,审稿人哪里会对容易解决的遗留问题「高抬贵手」?肯定会穷追猛打,让作者反复磨合,真正解决了它们才肯善罢甘休。

被审稿人和编辑放过的「未解决」问题,要么是非常难以攻克的问题,实在不便强人所难;要么是工作量很大的问题,完全可以自成一体,再写一篇文章。放心,当你有幸在期刊上读到正式发表论文的时候,后一篇文章原作者早已写完了。

这里有 2 个考虑:

  • 好的文献绝不会给你留下容易解决的好线索;
  • 你的思路会跟着这些走在「主流」上的大牛走,于是彻底钻到一个死胡同里面去。对于本来可以轻易发现的新线索,你会自动忽略它们。

这时候可能你会发现数十年前这个问题就有人做过了。不过不要沮丧,这不是大问题。

这恰恰证明你的独立科研能力已经达到了(至少在当时)可以发表优秀期刊的水平。对于研究的初学者来说,这是一种非常积极的反馈。下面用你的经验去追寻新的问题和模型。如果你的模型和原作者有细微的区别,那就更好了。从这些差别中,可能会做出极其有价值的发现。

另外一位学者,佐治亚理工的吴东军教授(D.J. Wu)提的办法就更有意思了。他的办法属于典型的看热闹不嫌事儿大——让经典文献 PK!

文献都不是生物,怎么 PK?其实许多文献确实在打架。例如一篇文献 A 提出某观点。可能一段时间以后另一篇文献 B 用坚实的证据把该观点驳斥得体无完肤。

人们就倾向于新的文献 B 观点,奉为圭臬。但是文献 A 当初是怎么从审稿人的手底下滑过去的?它想必是有合理和可取之处的。吴老师于是就从这样的文献间冲突出发,用更为全面的模型考虑在哪一种情况下,A 的论点依然会成立。从而对经典文献给予(有条件的)支持。

由于文献 A 和 B 冲突的公案,他所作的研究意义和价值已经不言自明。因此这是一种非常聪明而有效的文献利用方法。

发现、理解,而且还恰好能重新诠释经典文献冲突,听起来很美妙。然而,并非所有人都有这样的运气和毅力的。所以,为了发现问题,你还需要有其他的手段。例如本次暑期学校的主题——「数据」。

34. 方法导向

To the one with a hammer, everything looks like a nail.

翻译过来,就是「当你手里拿着一把锤子的时候,看啥都像钉子」。

如果你仅仅把论文当成是方法论课程的实践作业,那你很可能也会这么想,并且这么做。可是方法运用得再高妙,如果与你的研究问题不匹配,也是枉然。

更何况许多人对方法只是一知半解。他们真正学会的只是鼓捣出一堆来源可疑的数据,然后扔到统计软件的绞肉机里面,等着漂亮的结果从另一端奔涌出来。

天上真的能掉馅饼吗?不,你只会看到这样的结果。

没错,垃圾进,垃圾出。因为你的逻辑可能是这样的一个三段论:

  • 大前提:狗都有 4 条腿
  • 小前提:我家的猫有 4 条腿
  • 结论:我家的猫是一条狗

你们可能觉得自己学过的东西更高级一些,不会犯这些毛病。例如学了爬虫,你就可以随心所欲找自己需要的研究数据了。根本无需去伪造数据,或者担心别人填写你的问卷的时候胡乱应付;学了 R,你就可以做出非常漂亮的回归分析结果和图表,甚至能处理时间序列;学了机器学习,你就可以让机器替你干脏活儿累活儿,帮你快速分析出决策树、做出词云,甚至是做文本情感分析与主题发现……

但是,即便这样,也请你记住——不管多么时髦和高级的工具,也不应该成为你论文选题的起点。把高中数学老师教给你的那一套「分析法思考,综合法证明」的小聪明暂时收起来。否则一叶障目,你就会丧失自己的起点。迷茫的结果就是做出了一大堆劳动成果,却没有解决任何值得解决的问题。

选用了某种方法时,一定要问自己几个问题:

  • 为什么要使用到这种方法?是因为自己熟悉吗?是因为别人不熟悉吗?
  • 这个问题是否适合这种方法?有没有其他方法可以更好处理该问题,即便这个方法你并不熟悉?
  • 你能获取到这种方法需要的数据吗?这些数据通过该方法的处理,能否产生你需要的形式?
  • 选题、做题都是有机会成本的。把时间花费在值得的事物上。切记。

研究要有目的。最重要目的是要解决一个具体或抽象的问题,而且这个问题还应该有价值和意义。我这样说,不是让你停止学习研究方法。恰恰相反,方法不仅要学,还一定要多学。但是学过之后,要放弃「一定要应用某一方法」来做研究和写论文的执念。

Anindya Ghose 说,只有你掌握的方法足够多了,工具箱里面有各种各样不同工具的时候,你才不会偏执于某一种方法,而是根据问题去筛选合适的解决途径。

高斯(Anindya Ghose),印度裔美国学者。图片来自 thinkers50.com

方法导向看来对论文选题不合适。怎么办呢?很多人会抢答说「问题导向」啊。说的没错,但是仅仅说「问题导向」其实缺乏可操作性。问题从哪里来,该怎样寻找?

通过和一流学者的交流,以及文献的阅读,我梳理出问题来源的以下常见类别:

  1. 文献;
  2. 数据;
  3. 实践;
  4. 协同;
  5. 系统。

下面我来当个导游,带你在不同的问题来源中游览一番。希望聪明的你可以掌握它们,并且找到适合自己的问题寻找途径。

做研究、写论文需要读文献,这是常识。许多研究者会建议你从文献发现问题。这也是一种公认的传统智慧。

被戏称为「洋八股」的文献研究,实际上是学者们跨越时空的对话。这种特殊的对话体例,不仅要求作者去梳理相关的历史文献脉络,还得在论文末尾标出来文章的限制和未来需要做的研究,即所谓「展望」。

5. 数据导向

如果你手里有好的独特数据,可以尝试从中获得选题。

有位作者展示的是利用 Foursquare 数据对用户行为做预测的研究。我对该文章感兴趣,是因为我做隐私保护研究,很好奇用户的隐私是不是丝毫剩不下了。然而其他听众的兴趣点就在于独特的大规模数据获取。他们从教室一直追问到了路上,问论文作者是如何收集这些数据的。

这位论文作者一下子有些紧张,讳莫如深。似乎害怕这份宝贵的数据很快就要被别人轻易夺走了一般。这种担心不无道理。大数据时代,数据是不缺的。但是真正有价值的数据,如同沙里淘金一般。

专属的数据不是所有人都能搞到的。有位来自业界的老师,讲解如何和国家税务总局合作,利用发票数据来监控产能过剩问题。方法其实非常简单,只需要筛选出合适的特征就可以——他最后选择的是钢铁和煤炭。他们通过这种方式,不仅给全国企业画像,而且还通过某些指标特征,发现了其他有趣的结果。因为过于有趣,所以在修正的模型里面剔除掉了。

你可能觉得很不服气——这样的问题你也有能力处理啊!问题是,你从哪里搞到如此大规模的专属数据呢?这个问题咱们后面会谈及。

如果专属数据难以获取,你可以退而求其次,找开放数据。开放数据中,也有非常适合研究的类别,而且规模庞大。例如 Google 的 Correlate 和 Trends 数据,以及 Twitter 的 Firehose 开放数据等。

https://cdn.sspai.com/2019/10/16/b6388ec1bdfd09875d83d17181afb9ae.png?imageView2/2/w/1120/q/90/interlace/1/ignore-error/1

但是请注意,如果你利用开放数据做研究,速度是非常重要的。这是个竞争激烈的领域,慢了就什么都落不下了。

哈工大管理学院的叶院长,提到了自己研究里面曾经用过的百度数据。当时和 Google 的相应搜索数据进行比对研究,效果非常好。后来他们团队兴冲冲拿给百度的人看过。对方没说什么,回去就把数据下载的接口给关闭了。

好在高价值开放数据,也不都是「不小心」流出来的结果。

例如 Kaggle 上面总是有非常规整的数据集,可供你使用。如果你用得好,还能获得价值不菲的奖金。

https://cdn.sspai.com/2019/10/16/2b0134cca80dc8ab41b4ff6751bec69f.png?imageView2/2/w/1120/q/90/interlace/1/ignore-error/1

paper with code也是一个很好的网站,上面是基于github发布的各种论文源码,从上面的数据集的leaderboard中,可以从SOTA方法一直往下看,每篇论文也会被进行详细分类

Papers with Code - The latest in machine learning

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/f33fdc66-7691-4fa7-9908-f74ac1542f73/Untitled.png

6. 实践导向

Hal Varian 教授认为不应该从文献里面找问题,而应该把时间花在看似不相干的报纸和杂志阅读上。他推荐的报刊杂志包括:《纽约时报》、《华尔街日报》、《经济学人》。

他认为,对经济学研究者来说,读这些东西远远比看论文重要。因为它们会提到经济学家感兴趣的实际问题,可是分析过程有时漏洞百出。别人可能一笑置之,但是 Hal Varian 教授显然不会轻易放过这么好的选题机会。

其实,这就像是在讨论区里面和别人争论。如果你翻来覆去只会说一些大家都知道的内容,没有人会觉得感兴趣。而如果你你能够不断从外界获得新的灵感、信息和见识,那讲出来的内容就可以更轻易地抓住别人的注意力。

除了这些报刊杂志之外,学者们还提到了两个很好的实践问题来源。

第一个就是业界咨询工作。许多好的学者,例如 Anindya Ghose 和 Paul Pavlou 等,都是两条腿走路。一条腿在学术界攀登,另一条在企业界做咨询。

咨询,是一定要解决问题的。所以,不用你找,问题自己就找上门来。

在大数据时代,做咨询必然要接触到许多企业数据。例如 Ghose 拿到了好几家知名的企业做数字广告的效果数据。这些数据不仅数量庞大,而且结构化完整、真实性高,是让你的研究获得竞争优势的重要源泉。

与企业合作,是一种双赢之道。在这个社会上,一定要学会互惠合作。不要尝试做伸手党。

许多老师和研究生都觉得,拿数据是一件非常困难的事情——那些大公司根本就不愿意分享数据给你。没错,但是你没有看到硬币的另一面。他们其实特别乐意分享数据,只要你的分析能力比他们还高,能给他们更有价值的洞见。

包括中国移动在内的许多中国大型国有企业都对 Ghose 这样的顶级学者敞开大门、张开双臂,热烈欢迎。

同样的数据,在不擅于分析的人手中,一文不值;到了会分析的人那里,就可以挖掘出不菲的价值。这是个「数(据)中自有黄金屋」的年代。企业解决了实际问题,获得了经济回报;你完成了研究,发表了高水平论文。这便是双赢之道。

可是你作为一个初级研究者,还远远没有那样的积累。大企业还是会把你拒之门外,怎么办呢?

从小处做起,深入进去,帮中小企业解决具体的问题。

我在 MSU 访学的时候,讲授管理信息系统课的 Kizzier 教授,就把学生撒出去到 main street 上挨个儿敲门,帮助企业发现目前系统存在哪些不足,并且想方设法加以改进。学生上课的时候分享这些案例,可以充分体现出「实践出真知」的意义。

获取实践问题的另一种方式是读案例

前面提到的佐治亚理工吴教授,就让自己的学生去读哈佛案例库,从里面寻找问题。一个企业案例,能进入哈佛的案例库是非常不容易的。经过层层筛选的经典案例往往代表了业界实践中非常典型的问题。

清华大学宁向东教授讲,他在哈佛读经理培训班的时候,根本就没有教材。每天接触的全都是案例。在哈佛商学院教授派珀看来,「商业世界只有问题,没有理论」。通过读案例,可以让学生找到「想问题的感觉」。

所以你看,一个这么经典而庞大的问题库,与实践结合紧密,理论却缺位。这难道不刚好是研究者们的好机会吗?

然而,据吴教授说,他的博士生里面,愿意听他话的,寥寥无几。有个叫黄涛的听了他的话,真的跑去读案例,于是成了他最为得意的学生。发展得非常好。

看来,听老师的话,有时候也是对的。是吧?