文献检索及信息筛选
文献检索及信息筛选
信息爆炸的今天,每天都有无数的paper,thesis发表。如何从堆积如山的信息中快速获取与自己研究最为相关的内容,成为科学研究中非常重要的一环。快速获取有效信息有助于我们了解本领域当前研究状况,使得我们可以根据情况调整自己的研究方法和方向,从而使得我们少做很多无用功,少走很多不必要的弯路,甚至让我们站在研究领域的最前沿。因此,这就要求我们本身必须具备一些基本的信息查询及信息筛选能力。本文就结合我科研及逛论坛时碰到的问题具体谈谈信息查询和信息筛选。本文中将引用一些我在emuch上碰到的一些具体事例,此举并无它意,敬请各位当事人不必计较。
一、文献检索
现今,科学研究中的信息传递方式主要为paper形式。虽然也有一些会议、学位论文或者专利,但是鉴于会议内容的简略,学位论文的公开度及专利的保密等种种原因,这几种信息传递方式显得并不那么重要。那么如何获取与我们最相关的paper呢?学会下面的几点最基本的检索知识基本上就可以满足我们的需求了。
a) 关键词的确定
在如何查之前我们首先要确定的是查什么,关键词无疑是最好的方法。什么样的词可以是关键词呢?术语是关键词,比如我的方向是宏基因组学,那么metagenomic就是我的关键词;靶标是关键词,比如我想筛选脂肪酶,那么lipase也是我的关键词;方法是关键词,比如我想用功能筛选的方法,那么functional-based screening也是我的关键词。确定关键词是最基本的一步,也是最简单的一步。
b) 目的信息的检索
关于目的信息的检索,群里面高手很多,在这儿我就只做一些简单的介绍 (仅对于生命科学相关领域的研究)。即便是最菜的菜鸟也应该掌握以下几个检索工具及检索方法:
几个最为常用的检索工具
Google及Googlescholar
这个可以说是最基本的。如果你搜英文文献还在百度里面搜,会被耻笑的,我都鄙视你。呵呵,开玩笑的。google在技术方面的强大是百度几十年都赶不上的,同时检索结果相对来说也比较客观。这里啰嗦一些里面的几个必备常识,advanced search,每页显示10-100项,高级设置里面可以选择是否让检索结果下面出现导入某种文献管理工具 ( 如EndNote)。
Sciencedirect,springer,wiley,pubmed
这几个数据库基本上就是我们最经常查询的数据库了,同时也是各个高校及单位买的最多的数据库。这几个数据库基本上涵盖了生命科学领域的所有分支,我们在googlescholar检索到的很大一部分结果都会归属于这几个数据库。其检索方法与前面所述无太大差异。同时如果用文献管理工具的话,这几个数据库也都提供了导入链接,大同小异,不赘述。
Nature,science,PNAS,JBC
这几个数据库需要特别拉出来,不为别的,就因为它们的两个共同点:其一,牛;其二,涵盖面广。
Annual Reviews,nature reviews, current opinion, Trends 系列
单看词义就知道,这些系列是综述性文章的根据地。国外杂志和国内杂志的一点最大区别就是,国外杂志的综述大多是约稿的,本领域的大牛所著的。国内的大多杂志的综述版块则为很多有文章要求的研究生的按时毕业提供了有力保障。这个系列也都是涵盖非常广泛的,尤其适合于刚从事科研的新手。通过它们可以快速了解本领域的研究进展及动向,同时也可以根据其后面所引的参考文献顺藤摸瓜。
BMC,PLoS,oxford,cambridge journal系列
这几个系列虽然不如前面的那些那个更为常用,但是其涵盖领域也非常全面,其中不乏有很多好杂志。比如 PloS biology,nuclear acid research,bioinformatics 等等很多。
Wiki百科
最后不得不提一下wiki百科,虽然有些内容更新比较慢,且涵盖面可能不太全,但是大多时候它会让你搜有所获甚至大吃一惊的。
检索方法
关键词,还是关键词
这里不得不提我在emuch上碰到的一些例子。其中之一是关于乳酸菌转化的,关于这个话题我碰到并答过不下4次,可是依旧有人问。我觉得可能很多虫友在发帖前自己很少主动去搜寻有用信息。但是最主要的原因我觉得可能还是不会找关键词。拿这个来说,我第一次回答问题的时候也不知道怎么做,但是我可以迅速确定关键词:乳酸菌,lactic acid bacteria;转化,无非是两个 transformation/ electroporation;这两个就足够了,当然还可以加上一个——感受态细胞 competent cell。用前面提到的最简单的google来搜,很多东西就出来了。
布尔逻辑词
这个我想学过计算机文化基础的人都知道。如果忘了,我想文献检索课上应该也会讲一些。AND OR ANDNOT,这几个可以解决很多检索的问题的,可以实现不同的限定。比如在google搜索栏同时输入 lactic acid bacteria和 transformation。
顺藤摸瓜
找到一篇综述文章或者研究文章,根据后面的参考文献,你可以找出很多很重要的文献。这个的关系就是NCBI上的Blast与PSI-Blast的关系,可能这么比有点不恰当。比如,某次emuch上的某位虫友问“什么是m gene”,这个问题很专,我就在google里面以 m gene 作为关键词搜索了下,找到一篇禽流感的什么文章。根据我了解的病毒蛋白的一些诡异的命名方式,我觉得应该是禽流感病毒上的某个结构或者非结构基因。果然文章的Introduction里面提起了m gene 名称的来源。在后面找这篇参考文献,然后找全文就OK了。
其他的一些google检索方式
“key word”+ file formt比如 ppt, PDF, doc,MP3,swf。
“index of /”+“keyword”+ file formt
等等,有兴趣的虫友可以自己去搜一些这方面的资料,坛子里很多。
二、文献获取
检索到结果之后接下来就应该谈到文献全文的获取了。但是,在获取之前应该先判定这个文章和你的研究到底有多大的相关性,对你有没有帮助。如果有帮助,OK通过种种方式去获取全文。如果没有帮助或者可能帮助可能很小,就没有必要去费劲周折下全文了,即便下载下来意义也不大。
那么究竟该如何判定文章的重要性呢?大致不外乎有以下个判定标准:一,标题。标题是一篇文章的浓缩,发过文章的人都知道自己在标题上花费了多少心思。自己辛辛苦苦那么多工作,最终要浓缩到那几十个甚至几个字中。所以,最直接的就是看标题。二,摘要。大多数国外期刊都是提供免费摘要的,这也给你提供了一个判定是否有必要获取全文的依据。有些时候我们查文献并不是为了一了解作者的思路意图及结果,我们单纯想查某种方法。这个时候标题就不一定能够反映出来,但是摘要却可以。三,作者。这个方法不适用于刚入门的科研新手。当你看过很多这个领域的文献之后,哪怕不那么细心你也会发现谁是这个领域的牛人。当你看到有牛人的名字出现在某篇文章的通讯作者位置的时候就要仔细留意一下了。比如前些天坛子里面的某个虫友问他要做metagenomic了,需要做些什么准备。我就推荐他Handerlsman 和 Delong的文章。因为这两个人是这个领域的顶级大牛,前者是metagenomic 术语的提出者,是威斯康辛大学的,后者则在用metagenomic分析microorgnisms biodiversity 方面做了很多开创性的工作,麻省理工的。四,被引次数。大多数情况下,被引次越数多的文章其越有阅读价值。啰嗦了这么多无非是想让我们在下载文章之前对文章做一个要全文有没有用的预判。如果有用,那么我们就要去找全文了。
a) 本校的数据库
随着中国整体科研水平的提高,很多高校或研究机构购买的数据库也越来越多。所以得到文献标题之后就可以看是发在哪个杂志上的,该杂志属于哪个数据库,然后看本单位有没有购买该数据库的期刊。这个不多解释。
b) 代理
这个比较适合于对检索知识及技能有更进一步了解掌握的虫友。利用某些工具,用验证字符串可以扫到一些数据库的代理。比如常用的sciencedirect,springer,wiley,nature等都可以扫得。除了代理还有其他的一些获取权限的形式,如EZ,vpn。这个有兴趣的朋友可以自己去找,我也只是半瓶子醋。
c) 网上求助
如果既没有免费数据库可用,也没有代理,那么你可以选择网上求助的方式获得文献。在一些论坛上求助时需要一些虚拟币,比如小木虫;好些论坛上并不需要虚拟币,我就不举例子了,想必大家多少都知道那么几个。
d) 写email给通讯作者
如果由于你要找的文献比较古老或者期刊来源比较诡异,那么这时候你的文献通过上述的三个方法可能都获得不了。这个时候不妨给文章的通讯作者发个email,国外的同行一般是很乐意给你的。不过,当文章很古老的时候,你就要事先准备接受该通讯作者可能已经驾鹤西去这样一种情况。
e) 最容易忽视的一个
很多时候很容易忽略一个最简单的方式,而这个方式则再度体现出了google的强大。Googlescholar出来的结果不妨在google网页搜索里面加个PDF再搜索一次,有时候会有意外惊喜。我在文献互助版应助过的一些文献直接就可以通过该方式获得全文。
F) 一些免费的数据库
国外的好多期刊是非常非常nice的,不但发文章不要版面费,下文章还不掏钱。对于这些期刊应该牢记在自己的收藏夹里面。比如science注册之后97年到一年之前的研究型文章都是免费的,关于这个我曾经做过一个图解教程。再比如PNAS及JBC一年之前的文章也都是免费的。 Oxford 及 Cambridge下属的好些期刊也都是。再比如美国微生物学会下属的那些AEM等期刊。BMC及PLoS下属的一些是全部免费的。Pubmed有些文章在SD等数据库本身并不免费的时候是免费的。
信息爆炸的今天,每天都有无数的paper,thesis发表。如何从堆积如山的信息中快速获取与自己研究最为相关的内容,成为科学研究中非常重要的一环。快速获取有效信息有助于我们了解本领域当前研究状况,使得我们可以根据情况调整自己的研究方法和方向,从而使得我们少做很多无用功,少走很多不必要的弯路,甚至让我们站在研究领域的最前沿。因此,这就要求我们本身必须具备一些基本的信息查询及信息筛选能力。本文就结合我科研及逛论坛时碰到的问题具体谈谈信息查询和信息筛选。本文中将引用一些我在emuch上碰到的一些具体事例,此举并无它意,敬请各位当事人不必计较。
一、文献检索
现今,科学研究中的信息传递方式主要为paper形式。虽然也有一些会议、学位论文或者专利,但是鉴于会议内容的简略,学位论文的公开度及专利的保密等种种原因,这几种信息传递方式显得并不那么重要。那么如何获取与我们最相关的paper呢?学会下面的几点最基本的检索知识基本上就可以满足我们的需求了。
a) 关键词的确定
在如何查之前我们首先要确定的是查什么,关键词无疑是最好的方法。什么样的词可以是关键词呢?术语是关键词,比如我的方向是宏基因组学,那么metagenomic就是我的关键词;靶标是关键词,比如我想筛选脂肪酶,那么lipase也是我的关键词;方法是关键词,比如我想用功能筛选的方法,那么functional-based screening也是我的关键词。确定关键词是最基本的一步,也是最简单的一步。
b) 目的信息的检索
关于目的信息的检索,群里面高手很多,在这儿我就只做一些简单的介绍 (仅对于生命科学相关领域的研究)。即便是最菜的菜鸟也应该掌握以下几个检索工具及检索方法:
几个最为常用的检索工具
Google及Googlescholar
这个可以说是最基本的。如果你搜英文文献还在百度里面搜,会被耻笑的,我都鄙视你。呵呵,开玩笑的。google在技术方面的强大是百度几十年都赶不上的,同时检索结果相对来说也比较客观。这里啰嗦一些里面的几个必备常识,advanced search,每页显示10-100项,高级设置里面可以选择是否让检索结果下面出现导入某种文献管理工具 ( 如EndNote)。
Sciencedirect,springer,wiley,pubmed
这几个数据库基本上就是我们最经常查询的数据库了,同时也是各个高校及单位买的最多的数据库。这几个数据库基本上涵盖了生命科学领域的所有分支,我们在googlescholar检索到的很大一部分结果都会归属于这几个数据库。其检索方法与前面所述无太大差异。同时如果用文献管理工具的话,这几个数据库也都提供了导入链接,大同小异,不赘述。
Nature,science,PNAS,JBC
这几个数据库需要特别拉出来,不为别的,就因为它们的两个共同点:其一,牛;其二,涵盖面广。
Annual Reviews,nature reviews, current opinion, Trends 系列
单看词义就知道,这些系列是综述性文章的根据地。国外杂志和国内杂志的一点最大区别就是,国外杂志的综述大多是约稿的,本领域的大牛所著的。国内的大多杂志的综述版块则为很多有文章要求的研究生的按时毕业提供了有力保障。这个系列也都是涵盖非常广泛的,尤其适合于刚从事科研的新手。通过它们可以快速了解本领域的研究进展及动向,同时也可以根据其后面所引的参考文献顺藤摸瓜。
BMC,PLoS,oxford,cambridge journal系列
这几个系列虽然不如前面的那些那个更为常用,但是其涵盖领域也非常全面,其中不乏有很多好杂志。比如 PloS biology,nuclear acid research,bioinformatics 等等很多。
Wiki百科
最后不得不提一下wiki百科,虽然有些内容更新比较慢,且涵盖面可能不太全,但是大多时候它会让你搜有所获甚至大吃一惊的。
检索方法
关键词,还是关键词
这里不得不提我在emuch上碰到的一些例子。其中之一是关于乳酸菌转化的,关于这个话题我碰到并答过不下4次,可是依旧有人问。我觉得可能很多虫友在发帖前自己很少主动去搜寻有用信息。但是最主要的原因我觉得可能还是不会找关键词。拿这个来说,我第一次回答问题的时候也不知道怎么做,但是我可以迅速确定关键词:乳酸菌,lactic acid bacteria;转化,无非是两个 transformation/ electroporation;这两个就足够了,当然还可以加上一个——感受态细胞 competent cell。用前面提到的最简单的google来搜,很多东西就出来了。
布尔逻辑词
这个我想学过计算机文化基础的人都知道。如果忘了,我想文献检索课上应该也会讲一些。AND OR ANDNOT,这几个可以解决很多检索的问题的,可以实现不同的限定。比如在google搜索栏同时输入 lactic acid bacteria和 transformation。
顺藤摸瓜
找到一篇综述文章或者研究文章,根据后面的参考文献,你可以找出很多很重要的文献。这个的关系就是NCBI上的Blast与PSI-Blast的关系,可能这么比有点不恰当。比如,某次emuch上的某位虫友问“什么是m gene”,这个问题很专,我就在google里面以 m gene 作为关键词搜索了下,找到一篇禽流感的什么文章。根据我了解的病毒蛋白的一些诡异的命名方式,我觉得应该是禽流感病毒上的某个结构或者非结构基因。果然文章的Introduction里面提起了m gene 名称的来源。在后面找这篇参考文献,然后找全文就OK了。
其他的一些google检索方式
“key word”+ file formt比如 ppt, PDF, doc,MP3,swf。
“index of /”+“keyword”+ file formt
等等,有兴趣的虫友可以自己去搜一些这方面的资料,坛子里很多。
二、文献获取
检索到结果之后接下来就应该谈到文献全文的获取了。但是,在获取之前应该先判定这个文章和你的研究到底有多大的相关性,对你有没有帮助。如果有帮助,OK通过种种方式去获取全文。如果没有帮助或者可能帮助可能很小,就没有必要去费劲周折下全文了,即便下载下来意义也不大。
那么究竟该如何判定文章的重要性呢?大致不外乎有以下个判定标准:一,标题。标题是一篇文章的浓缩,发过文章的人都知道自己在标题上花费了多少心思。自己辛辛苦苦那么多工作,最终要浓缩到那几十个甚至几个字中。所以,最直接的就是看标题。二,摘要。大多数国外期刊都是提供免费摘要的,这也给你提供了一个判定是否有必要获取全文的依据。有些时候我们查文献并不是为了一了解作者的思路意图及结果,我们单纯想查某种方法。这个时候标题就不一定能够反映出来,但是摘要却可以。三,作者。这个方法不适用于刚入门的科研新手。当你看过很多这个领域的文献之后,哪怕不那么细心你也会发现谁是这个领域的牛人。当你看到有牛人的名字出现在某篇文章的通讯作者位置的时候就要仔细留意一下了。比如前些天坛子里面的某个虫友问他要做metagenomic了,需要做些什么准备。我就推荐他Handerlsman 和 Delong的文章。因为这两个人是这个领域的顶级大牛,前者是metagenomic 术语的提出者,是威斯康辛大学的,后者则在用metagenomic分析microorgnisms biodiversity 方面做了很多开创性的工作,麻省理工的。四,被引次数。大多数情况下,被引次越数多的文章其越有阅读价值。啰嗦了这么多无非是想让我们在下载文章之前对文章做一个要全文有没有用的预判。如果有用,那么我们就要去找全文了。
a) 本校的数据库
随着中国整体科研水平的提高,很多高校或研究机构购买的数据库也越来越多。所以得到文献标题之后就可以看是发在哪个杂志上的,该杂志属于哪个数据库,然后看本单位有没有购买该数据库的期刊。这个不多解释。
b) 代理
这个比较适合于对检索知识及技能有更进一步了解掌握的虫友。利用某些工具,用验证字符串可以扫到一些数据库的代理。比如常用的sciencedirect,springer,wiley,nature等都可以扫得。除了代理还有其他的一些获取权限的形式,如EZ,vpn。这个有兴趣的朋友可以自己去找,我也只是半瓶子醋。
c) 网上求助
如果既没有免费数据库可用,也没有代理,那么你可以选择网上求助的方式获得文献。在一些论坛上求助时需要一些虚拟币,比如小木虫;好些论坛上并不需要虚拟币,我就不举例子了,想必大家多少都知道那么几个。
d) 写email给通讯作者
如果由于你要找的文献比较古老或者期刊来源比较诡异,那么这时候你的文献通过上述的三个方法可能都获得不了。这个时候不妨给文章的通讯作者发个email,国外的同行一般是很乐意给你的。不过,当文章很古老的时候,你就要事先准备接受该通讯作者可能已经驾鹤西去这样一种情况。
e) 最容易忽视的一个
很多时候很容易忽略一个最简单的方式,而这个方式则再度体现出了google的强大。Googlescholar出来的结果不妨在google网页搜索里面加个PDF再搜索一次,有时候会有意外惊喜。我在文献互助版应助过的一些文献直接就可以通过该方式获得全文。
F) 一些免费的数据库
国外的好多期刊是非常非常nice的,不但发文章不要版面费,下文章还不掏钱。对于这些期刊应该牢记在自己的收藏夹里面。比如science注册之后97年到一年之前的研究型文章都是免费的,关于这个我曾经做过一个图解教程。再比如PNAS及JBC一年之前的文章也都是免费的。 Oxford 及 Cambridge下属的好些期刊也都是。再比如美国微生物学会下属的那些AEM等期刊。BMC及PLoS下属的一些是全部免费的。Pubmed有些文章在SD等数据库本身并不免费的时候是免费的。