读秘技十四:东来顺,引用西太后
2010年,我导师王珏跟我说起王飞跃老师想找我讨论智能交通相关的事情。我约了下王老师的时间,刚好他在王府井附近开会,又是吃饭的时间,就约在东来顺边吃边聊。他跟我谈了他一段时间来对大数据的思考,认为大数据的核心与本质应该是数据驱动(data-driven),想从交通开始树立这个理念,建议我以数据驱动的智能交通为题,写篇并加展望。
我听了后,也觉得不错、有意义,只是觉得题目太大,有点无人下手的感觉。王老师便建议,从视觉这个我相对熟悉的领域开始着手。为实现这一目标,我有选择的下载了ieee transactions on intelligent transportation systems (简称为ieee tits)这个期刊及相关方向的期刊和会议上、至2010年的近十年发表的论文,逐篇阅读分析、归纳总结。在阅读文献的过程中,我也顺便把自己原来对智能交通的理解进行了拓展,对这一方向的认识也逐渐加深,慢慢形成了自己的判断并提炼出自己的一些观点,比如归纳出文献中存在的若干研究分支和不同的研究角度以及各种潜在的应用等。大概花了约10个月的时间,我才写出了这篇文章的初稿。再加上后期几位朋友的加入及反复讨论,对本可涵盖的范围做了扩展,对语言做了进一步的润色和提升,大约总共一年多的时间,这篇名为“data-driven intelligent transportation systems: a survey”的文章才最终于2011年在ieee tits上发表[1]。比较有趣的是,自2012年开始,随着中深度学习的兴起,利用大数据能帮助提升预测性能这一技巧被越来越多的科研工作者认识到,数据驱动也因此开始成为了各行各业运用智能计算的主要方式。
图1截图来自ieeexplore数字图书馆,链接:https://ieeexplore.ieee.org/document/5959985/authors#authors
时间如梭,不知不觉已经2020年了。前两天上ieee凯发天生赢家一触即发官网上看了下这篇文章的下载量和引用数,还不错,分别是14350次和487次,当然学术google上的引用数还要高个300次。我截图分享给王老师看了下,他也觉得挺开心,调侃说这文章是“东来顺,引用西太后”(释:西太后意指“高高在上”。另外,当年西太后住地恰好在东来顺的西边、紫禁城的最后面)。
一、“相关工作”写法
科技论文中,需要有一节“related work”,即相关工作。它的目的是帮助读者了解在作者研究的问题上,同行的研究者们的进展情况。这一节放的位置有两种。一是紧跟“介绍”节,另一种是放在“提出的方法”节之后。前者方便快速了解,后者不容易干扰读者尽快了解作者的贡献。怎么放置,看个人的喜好。
而对于刚从事科研工作的学生或非专业科学爱好者来说,“相关工作”方面有可能存在一个误区,即认为自己做了一个全新的研究成果,完全不需要考虑讨论相关工作。这有两种可能性,一是确实是新的。但这种情况极少,毕竟多数人都是要靠站在巨人的肩膀上成功的。另一种是文献看少了,或自己没有利用合适的关键词去检索相关文献,导致误以为自己做的工作是前无古人的。后者的后果,就是文章会白写了,实验得重做,因为有经验的评审会以“缺乏与现有方法的对比”为理由来拒稿。
既然有已经发表过的相关论文,那么就需要围绕自己在论文中做的研究点稍微详细地展开介绍。这里,平时注意查找和阅读相关文献是必不可少的一项工作。一般来说,可以在学术谷歌或相似的搜索引擎通过搜索关键词来查找相关的文献,也可以根据看过的论文后提供的参考文献按图索骥的去查找。需要注意的是,要尽量不要引述大家没听说过的期刊或会议的文章,因为有可能拉低待提交论文的档次。但要尽量引用待提交论文所在的期刊或会议的文章,这样能增强评审对论文相关性的认可。比如,很多会议在评审阶段就有一项“是否与本会议相关”的选项。
完成“相关工作”的文献收集后,就需要按拟投稿会议或期刊的要求来阐述这一节的内容。理想情况下,如果论文的研究成果是通过有机融合两个不同方向的思想而成的话,则宜将相关工作宜分成两部分分别阐述。每个部分都可以再按范畴来进一步细分。与《读研秘技》上一节所述的相比,这里对每组方法的优势与不足的总结应该更详细,文献引用也应适当增加。而在逻辑上,仍然应该想好本论文的中心思想是什么,内容一定要切题,从各个侧面突出论文的贡献。比如先前的方法虽然速度快,但精度低;或者缺乏收敛率证明;没有唯一解等,如果本文的贡献是解决了这些问题的话,就可以在逻辑上让评审和读者相信本文工作是有意义的。另外,也要注意不要偷懒,尽量不要对介绍部分出现过的文献介绍采用拷贝粘贴的复用方式,最好变换下句式和表达方式,以免被认为是词汇量匮乏。
二、论文的意义
除了“相关工作”需要在论文中简要外,还有一种情况需要更全面的,那就是论文本身就是篇,如我一开始提到的那篇。值得注意的是,论文的写法、意义存在显著的不同。
写篇技术论文,一般有一两个、两三个创新点就行了,往往是从局部着手,但性论文需要有更强的全局操盘能力,在论文的阅读上要广得多、量也要多一些。因此,他需要作者在性内容的相关领域有足够的背景知识积累和时间沉淀。有的时候,可能需要多个单位来交叉互补式的合作,才能形成一篇有质量的。
也很难写,因为论文的长度比技术性论文通常要多不少,以ieee transactions系列的期刊为例,技术论文一般的长度限制是10页,而则可以到15页。要做到全局逻辑通顺、条理清晰,小同行大同行都能看明白,并不容易且耗时。有些性文章,可能还得做完整的、相同实验环境下的方法比较,则需要投入更多的时间和成本。不过,对于生来说,写其实是一个很好的锻炼机会。虽然开始花的时间会多一些,但对做研究却可能起到事半功倍的效果。因为通过它可以把自己要研究的方向理清楚,形成好的逻辑思维,并能更好地思考如何去找创新点。它也有助于愿意从事科研工作的生产生持续性的研究成果。比如我读期间,曾就流形学习的一个特殊情况,一维流形或主曲线,即穿过数据分布的中间的曲线,写过一篇[2]。在2003年来复旦工作后,我在此方向上还继续形成了多个有一定创新性的成果。
作为一篇好的文章,它应当能把该方向的各个分支、进展、前沿、不足讲清楚。最好能给出一个结构图,来归纳和细分此研究的方向,这样读者就能够在不看论文细节的情况下对此的内容有一个大致的印象。如图2所示,它是针对高维数据回归、或现在领域更流行的说法“因果推断”问题,如何减少“因”中特征维数而不影响对“果”的推断的一个归纳总结图[3]。
图2:实值多变量维数约简算法分类,缩写均为相应的算法,详情请参考文献[3]
另外,更重要的是,应该在文中向读者传递一些前瞻性的思考或insight,给有兴趣在此方向做研究的读者建议参考的路线,以及避免踩不必要的坑。如果前瞻性做得足够好,有可能五至十年后再回看这篇文章,里面提及的潜在研究方向仍然是有价值的。那么,这样的文章就很意义了。
当然,我们也经常能看到像记流水帐似的。这要么是只是做了简单的文献收集,要么就是没有意识到的价值,纯粹只是为了发论文而写的。需要注意的是,在写文章前,还需要检查下,是否有同样或相似内容的已经在其它刊物发表了。如果有的话,那需要在写的内容和侧重点上拉开与之前的差异,并在介绍部分澄清这一差异。
总之,相关工作的“”大致上反映了作者对其研究方向认识的全面程度和深度,尽管有时候评审会忽略这一节,但也要小心有些评审会从这一节中发现作者在认识上或知识储备上存在的漏洞,以至于看低论文的实际贡献。而在写上,我建议要写就写完整、认真一些,尤其是前瞻性和insight需要挑出来,要让读者看到作者的思考,而不是简单的罗列和记流水帐。这样,才会有更多的同行愿意去仔细研读此文章,甚至跟着中的建议去做进一步的研究。
张军平
2020年1月15日
参考文献:
1. junping zhang, fei-yue wang, kunfeng wang, wei-hua lin, xin xu, cheng chen. data-driven intelligent transportation systems: a survey. ieee transactions on intelligent transportation systems, 12(4):1624-1639, 2011.
2.张军平,王珏.主曲线研究:.计算机学报,26(2): 137-148, 2003.
3.单洪明,张军平.实值多变量维数约简:.自动化学报,44(22): 193-215, 2018.