软科学,硬科学
【本文为Massimo Pigliucci著作Nonsense on Stilts:How to Tell Science from Bunk第一章。】
“这些年来,科学家倾向于坚持一个礼貌的虚构:所有科学都是平等的。除了那些误入歧途的对手提出的论点正在遭受我们的反驳的时间外,我们发言时都说得好像每一位科学家的研究领域和研究方法都同其他科学家的一样好,或许还更好一点。当我们为得到政府补助而互相推荐的时候,这种说法让我们所有人保持着友好热情。”这一番关于科学事业性质的坦诚评论是一个从内部进行观察的在职科学家说的。这番评论更加引人瞩目的地方在于,它不是在充满烟味的房间里闭门说的,而是印在了世界最重要的科学性期刊之一——《科学》杂志上,发表的时间是1964年,也是我出生的年份,作者是芝加哥大学的生物物理学家约翰·R·普莱特(John R. Platt)。从此以后,科学家之间关于什么是“硬科学”的要素,什么是“软科学”的要素(硬科学通常等同于好的、可靠的科学,“软科学”则暗示这门科学被认为是并不那么好的科学)的争论就再也没有沉寂过。这件事情让我们从第一眼看上去就能发现对科学本身的性质进行描述有多么的复杂,多么的有争议性。
有一件事情让普莱特感到气馁:有些科学领域取得了明显而快速的进步,而另一些科学领域则不停地在混日子,看起来似乎没有能够完成很多重要的东西。正如普莱特在同样这篇文章里所说:“我们怀着虔敬之心谈论到……一个个小的研究就可以往科学殿堂上又加一块砖,但大多数这样的砖却躺在砖场里。”普莱特(和其他许多人)认为,物理学、化学和分子生物学是硬科学,是科学应该有的典范模式;而生态学、进化生物学及其他一些领域(如心理学和社会学)则是软科学;工作在软科学领域里的人的最高志向,被假定为是要让自己的学科像物理学一样硬。普莱特的这篇文章是一篇经典,每一个对科学性质感兴趣的人都应该读,他在指出问题的方面是正确的;但是对于问题根源的诊断,他不太正确,给出的可能治愈问题的处方就更不正确了。 不过,普莱特对其他人所称的软科学的批评,却给了我们一个极佳的出发点去探索这样一个思想:事实上科学的种类可能不止一个,“科学”是一个包含多个种类的范畴。这个思想将会让大多数公众感到吃惊,甚至可能会被相当多科学家拒绝。此外我们的讨论还可以接着开启另一种可能性:有可能通过某种方式来确认出某组标准,这组标准不仅可以划分硬科学和软科学,而且还可以划分尚不是那么科学的学科(也许永远也成不了科学)和其他一些明明白白是伪科学的学科。波普尔(Popper)原创的划界问题首次确认出来这样一个复杂的思想景观,我们在探索这个思想景观的过程中完成这本书的前三章的任务。
●强推理和做科学的正确方式(或有这种方式吗?)
正如我们刚才看到,普莱特是从强调这个事实开始而攻击软科学的:有的学科似乎取得了快速的、令人瞩目的进步,而另外一些学科却倾向于原地兜圈子,或者最好的情况也是前进速度缓慢、方向不明朗。在我们检查造成这种情况的原因以及针对这一点能够做什么事情之前,我们要问一个更加具有根本性的问题:普莱特认为这里有一个可以开启这个讨论的问题,这样认为对不对?对科学史进行一个粗略的回顾,似乎可以明显看出普莱特至少对了一部分:有一些科学是比其他科学进步得更显著。然而,相比于简简单单的一线分隔硬软学科,局面似乎更加复杂:比如说,粒子物理学和分子生物学在20世纪确实取得了引人瞩目的进步;但同样不假的是物理学自身在某些问题上也经历了长期的停滞,比如说在引力问题上,从牛顿到爱因斯坦之间就有长期的停滞。这种进步得慢的事情在将来可能还会发生,即使对于科学之“王后”也是如此:比如所有关于大统一理论(物理学家一直试图调和他们两大最成功理论即广义相对论和量子力学之间的不一致)的讨论进行了将近一个世纪,但仍然没获得成功。
有机体生物学(organismal biology,如生态学和进化生物学)常被视为半软科学,但却经历了巨大进步的时期——最明显的是十九世纪后半期在达尔文手中,以及在20世纪30年代和40年代这样一些更近的时代。此外,现在在经验/实证(empirical)※ 进化生物学和理论进化生物学领域里,都有一些激动人心的工作,对于我们在认识有机体如何进化、如何适应环境的的问题上有可能带来又一个大的飞跃。另一方面,分子生物学这个被普莱特称赞为非常成功的、按照物理和化学模式来搞的硬科学,如果不是退回到更“软”的、用更杂乱的方式来研究主题的方式上,那就可能正走向它的所能取得成果的极限:的确,1953年发现DNA结构是科学上一个空前的里程碑,但同样明显的是,人们议论纷纷的人类全套基因组测序工作几乎没为生物学家提供实实在在的答案,反而导致“一大堆的砖躺在砖场里”(普莱特的原话)。我们对于人类(以及其他生物)基因组的事情知道得更多,但是我们所知的这些事情有许多都是一堆复杂的混乱细节,很难从中提炼出基因组如何运转和进化的清晰图景。【※注:Empirical本意是“通过感官得到信息”,哲学上常用“经验”二字翻译,科学文献里经常写成“实证”,这两个汉语词都是一方面没有完全涵盖Empirical之意,另一方面又超出了Empirical之意。】
总而言之,看来我们确实可以提出一个论点:不同的科学学科在前进步伐上的差异很显著,而同样不假的是,某一个具体的科学的进步也可能断断续续,有时候经历稳步快速的进步,有时候又停滞而到不了任何地方,不论是在经验/实证方面(缺乏新的发现)还是在理论方面(缺乏新的理论洞见)。
如果我们同意科学的性质遵循我们上面所描述的内容,那么下一步我们就要问为什么会是这样。普莱特只是简要地提及了若干种可能性,提了之后未加讨论就直接不予考虑了,但是我们却需要关注一下这些,然后再去讨论他的主要论点。关于某种科学为什么用“软”的方式来搞,一些备选假说包括:主题的易处理性,或者被吸引到这个学科里的人所受教育的质量,或者研究合同的规模。比如换句话说:粒子物理学可能比生态学更成功,那是因为粒子物理学做起来更简单(更有易处理性),或者生态学家倾向于比物理学家更笨,或者物理学家比生态学家得到更多的钱来资助研究。
第二种说法很有冒犯性(至少对生态学家而言),但更重要的是完全没有数据来支持这种说法。而且我们也很难看出可以用什么方式来测量吸引到不同科学学科中的人员的所谓不同“教育程度”。现在所有的科学家在各自的学科里都拥有PhD,以及长达数年的做博士后研究和发论文经历。很难设想出一种可靠的定量测量方法,来测量他们各自学术课程的相对难度,而论述说吸引到某一些学科里的科学家,比认为另外一些研究领域更有趣的科学家更加聪明,则近乎荒谬了。这就好比是试图用“爵士音乐家比古典音乐训练出来的音乐家更加有天赋”来解释充满动力的20世纪爵士乐和沉稳的交响(古典)音乐之间有差异,没法这样论证。
另一个被普莱特确认出来,但很快又不予考虑的因素可能反而有一定分量,这个显而易见的因素就是金钱:毫无疑问,至少从二战以来,物理学获得了最多的公共科学研究资助,这个趋势在最近一些年头(也许在冷战结束之后,这并不令人吃惊)出现了一些转折。低估金钱在科学领域内(或其他领域内)造成的差异,将会是愚蠢的:更多的资金不仅意味着物理学家可以建造和维护更大型的研究设备(想一想大型天文望远镜或亚原子物理学的粒子加速器),然而可能也同等重要的是:更多的资金可以吸引薪酬更高的研究生和博士后研究员,这些都是学术研究的有生力量。当然,我们要再一次提醒金钱不是万能的:我们的社会在治愈癌症方面投入了大量的金钱去资助,但是我们甚至都没有靠近消灭癌症这个目标——如果这个目标还有可能实现的话。
不同的科学学科招募年轻天才的能力有差异,部分还涉及到一个难以估计的因素,普莱特几乎没有考虑这个,这就是“酷的因素”。虽然对科学感兴趣几乎不会让你在高中甚至大学里受欢迎,但在“科学怪人”里面,我们非常心知肚明的是(如果有事实证实的话),搞物理学(特别是搞粒子物理学),相比于搞地质学、搞生态学,(或者大家几乎都想不到这里来的:)搞任何一种社会科学(一些学界人士认为这个词是个形名矛盾),要更加的“酷”。这种“酷”的因素可能源自于一系列原因,其中最重要的就是刚刚提到的那个事实:投入到物理学中的金钱比其他研究领域更多,甚至包括一些标志性人物造成的社会影响,像爱因斯坦那种(你上次听到某人被赞扬为是“达尔文一般的人物”是什么时候?)。
普莱特还提到了又一个理由,但是也没有加以分析,这就是不同科学学科的主题的相对复杂性。在我看来有个事实不足为道:粒子物理学研究着整个宇宙里最简单的客体——原子及其组成部分;而在与之相对的另外一个端点,则是生物学研究着人类所知的最复杂事物——由数以亿计细胞组成的有机体,以及性质受到千百万变项所影响的生态系统。在这两个端点之间有一系列的科学,其研究对象从相对简单(如化学)到稍微更复杂一点(如天文学、地质学),它们大体上构成一个连续谱,对应着大众所观察到的硬软科学之区别。也就是说,我们事实上可以合情合理地提出一个论点:可以说物理学之所以成功,是因为它的研究对象简单。当然,这绝不是试图淡化物理学和化学引人瞩目的进步,而只是把问题放到一个更加合理的视角里来看:如果你研究现象的简单,又有许多金钱投入,又能吸引最聪明的人加入(因为他们认为你所从事的工作很“酷”),那么不取得引人瞩目的进步才是让人惊讶的事情。
关于主题的简单性和成功率之间的关系,也许最令人信服的一个支持证据来自分子生物学,特别是它近年来从一门更像化学的学科转化成了一门更像生物学的学科这件事情。普莱特的文章是1964年写的,仅仅写在詹姆斯·沃森(James Watson),弗朗西斯·克里克(Francis Crick)和罗莎琳德·弗兰克林(Rosalind Franklin)发现DNA双螺旋结构11年之后。随后其他发现又以惊人的速度出现,包括(从化学的角度)显示了DNA如何自我复制,如何展露其遗传密码,从多个方面阐明了细胞内发生的非常精密的分子作用机制等等。但是到了20世纪90年代,分子生物学开始进入了新的阶段即基因组学阶段,高产出量的仪器倒腾着数量惊人的数据,以至于不得不用统计的方法来处理(而统计方法是“软”科学的标志性特征)。比如,虽然很早就有人呼吁资助人类基因组计划,还提出了非常乐观的断言,说科学家很快就能够知道如何创造人类,如何治愈癌症等等,但事实上我们还离这些目标远得很。即使在分子生物学家那里也已经开始认识到取得又快又稳进步的黄金时代可能已经结束了,我们现在面临着难以处理的巨量数据,都是关于活的有机体的生物化学和生理学的数据,难以理出头绪。换句话说,我们正在见证一门硬科学变成软科学。
虽然我上面详细阐述了一系列保留意见,不过我们还是回到普莱特的主要论点上:硬软科学的差别在于方法问题,特别是在于他所称的“强推理”(strong inference)的问题。“推理”这个通称名词指是我们从对于某个主题里的某个具体问题所获证据出发,得到无论哪一种(试探性)的结论的过程。比如,如果我们要调查一起犯zuì,我们可以通过分析指纹、武器、动机、环境等因素,推理出是谁杀了人。推理可能强也可能弱,强弱之别取决于证据在多大程度上指向某一个特定结论而非其他结论,也取决于的备选解答的可能数量(如果有太多相互竞争的假说,那么仅靠证据还不足以分出这些假说的优劣,这时就陷入了哲学家所称的数据对于理论的亚决定(underdetermination)状态。)普莱特所说的“强推理”是指下面这种程序:
1. 提出一系列备选假说;
2. 设定一系列“判决性”实验来检验假说;最理想的情况是:如果某一个特定假说事实上是错的,那么每一次实验都能够排除掉这样的假说;
3. 执行实验,确保尽可能达到非此即彼的效果(减少实验结果在解释上的模糊性);
4. 排除掉未能通过第(3)步的假说,然后回到第(1)步,直到你最后得到一个胜出的假说。
或者,正如夏洛克·福尔摩斯在《四签名》(The Sign of Four)里所说的:“当你排除不可能选项后,剩下的选项不管概率多么小,也必定是真的。”听起来就那么简单。但为什么物理学家能做到,而生态学家或心理学家却不懂这个简单的程序呢?
强推理的吸引力在于,这是一种极有逻辑的行事方式:普莱特想到的是一个逻辑判定树,就是类似于许多计算机程序所执行的那种东西,其中每一次实验都告诉我们其中一个树枝(一个假说)要被抛弃掉,直到我们得到正确的解。对于普莱特而言,硬科学之所以搞得好,是因为硬科学研究者都精通强推理,总是忙于修剪他们的逻辑树枝;相反,由于一些悖谬的原因,软科学家顽固地拒绝运用这种成功的实践,结果就是让自己的职业生涯浪费在把知识之砖撒在砖场里,而不是拿它去建造宏伟的思想殿堂。不过这个图景似乎包含着某种显而易见的错误:很难想象受过职业训练的科学家都意识不到自己在以完全错误的方式从事自己的事业,而且这个解决方案甚至简单得连中学生都能很容易地理解和执行。这到底是怎么回事?
普莱特自己给出了一个成功运用强推理的例子,我们审视这个例子可以得到一些答案线索。例如在分子生物学里,普莱特提到了遗传物质DNA的双螺旋结构的发现。沃森、克里克、弗兰克林及其他研究这个主题的人(比如两度获得诺贝尔奖的莱纳斯·鲍林(Linus Pauling),非常接近于在终点线前打败沃森-克里克团队)面对的是一些数量有限,非此即彼的备选项:要么DNA是双股(沃森和克里克的观点,最后也确实是这样),要么是三股(鲍林给出的错误结论)。甚至这样一个简单的选择,实际上也没有任何“判决性的实验”来解决;相反,沃森和克里克从一系列的来源里(主要是弗兰克林的晶体学分析)得到了定量数据,最终判定双螺旋模型才是对的。普莱特的文章给出的另一个例子来自高能物理学,处理的是基本粒子是否总在一个叫做“宇称”的特定量上守恒的问题。答案是要么守恒,要么不守恒,没有其他可能性,然后一系列数量较少的实验很快就给出了解答:宇称并不总是守恒。证毕。这些硬科学的成功案例有一个共同点,就是它们确实可适用于简单明了的逻辑分析:选项有限,并且互斥。正如逻辑树在经典的亚里士多德逻辑(对命题的赋值只有真假两种)那里用得很好,强推理用在某些类型的科学问题上也用得很常好。
然而,任何逻辑学家(以及大多数有常识的人)都很清楚地知道亚里士多德逻辑应用的领域非常有限,因为许多有趣的问题并不容许那种简简单单的是/不是的回答。因此现代逻辑才发展起了多种额外的方法(比如模态逻辑)来处理更加微妙的情形,而这些情形显然也是现实世界里的典型问题。与此类似,所谓的软科学基本上也关注复杂的问题,需要更精致但却更加不“非此即彼”的方法;这些方法令人满意程度或许不及强推理,因为它们给出的是概率性的答案,而不是定量的答案(但却比强推理更加现实可行)。然而,还有第二种方式来研究硬软科学差别问题,这种方式本质上说更具经验性/实证性:即我们不去讨论和比较这两者所采用的方法,而是去看看它们给出的结果,比如说,是不是物理学在给出可靠结果这件事情上比心理学更加始终如一?这件事正是两位社会科学家拉里·黑吉斯(Larry Hedges)和乔治·霍华德(George Howard)在20世纪80年代晚期和90年代早期做的工作。
●硬科学对阵软科学:用数据作证
人们会认为科学家从本质上说更倾向于事实而不是思辨,所以对于硬软科学的差别讨论得多、拿证据少,这让人非常惊讶。但这种局面有一个例外,那就是拉里·黑吉斯(当时在芝加哥大学教育系工作)在1987年发表的一项研究。黑吉斯首先思考了一件简单的事情:如果物理学(硬科学里的王后)比心理学(软科学里的灰姑娘)“表现得”好得多,那么我们就应该拿出手里的数据来显示物理学的实验结果比心理学的实验结果“更好”。不过“更好”是在哪方面更好呢?
黑基斯认为,这两类科学之间的差别应该体现在研究结果的“积累性”(cumulativeness)上:如物理学本该前进得更稳步、更快速。这是一个很重要的标准,因为缺乏进步,也就是说,研究成果没有随着时间而积累,是伪科学的一个标志性特征。比如有个和生物学有关的“智能设计”的思想(本书后面的章节会详细讨论),威廉·佩利(William Paley)于1802年严肃认真地对其进行了阐释,但自此以后就没有取得任何进步。拿它对比一下自达尔文1859年发表《物种起源》以来进化生物学的耀眼进步,我们有了一幅清楚的科学和伪科学差异对比图。
不过黑吉斯倒是很快就认识到,科学中的积累性可能有两种非常不同(如果它们相互关联的话)的意思:一方面,我们可以检查理论积累性,也就是说,通过理论说明世界的存在方式的能力有多么强,来检查科学领域里的进步。比如,当天文学抛弃了托勒密的地球中心系统,代之以哥白尼的太阳中心系统后,就取得了巨大飞跃式进步。然后,在意识到行星以椭圆而非正圆(哥白尼就错误地假定为正圆)运转时,在发现太阳只是银河系数以亿计的恒星之一时,最终又让银河系也成为数以亿计的星系之一时,天文学也取得了小一些但是也很显著的进步。不过判断理论积累性不是一件简单的事,因为这牵涉到一定程度的主观性,更关键的是它需要历史久远视角。心理学是一门相对较新的科学,把心理学理论基础同物理学或天文学理论基础进行对比是非常不公平的,因为物理学或天文学有更久远的历史。
那又怎么办呢?黑吉斯选取了一项更加便于处理的进步测量法,就是把关注点放在经验/实证积累性上。这里的思想是:如果物理学、心理学或任何其他科学成功地描述世界实际存在情况,那么至少不同渠道发表出来的经验/实证结果(即通过观察和实验而获得结果)应当相互一致。简单地说,如果地球真的是圆的,直径真的是约12700千米,那么用不同的测量方法来测量地球的形状和大小,会得出基本相同的结果。如果其中一些测量的结果是3000千米,另外一些测量的结果达到100 000千米,那么我们的测量方式就存在一些严重的问题。我们再一次看到在这点上拿伪科学来比较是明显的:比如有一些神创论者相信地球年龄只有6000年,而另一些神创论者接受地质学给出的40多亿年的数据(允许有些误差)。这两个数据间差了六个数量级,实在惊人,这就暴露出神创论者真不知道地球有多大年龄,从而这又是另一个表明神创论不是科学的指示器。
接下来,黑吉斯就开始筛查粒子物理学(物理学研究的精华之精华)的文献;同时又筛查一系列心理学领域的文献(包括性别差异研究、学生教学评价、去种族隔离化项目(racial desegregation programs)的效果以及其他一些研究,选出这些研究意在提供一个从半硬心理学(如性别差异)到要多软有多软的研究(如去种族隔离化研究)的一个序列。黑吉斯采用标准的统计学工具,列表和对比了若干年内发表在若干种专业期刊上的各类研究的结果。结果令人震惊:看起来心理学研究结果的可重复性(从而推定就是心理学的经验/实证积累性)并不亚于(甚至更好于)粒子物理学研究结果的可重复性。正如黑吉斯所说:“令人吃惊的是物理科学的研究结果并不明显地比社会科学的研究结果具有更加显著的一致性。那种认为‘物理学实验给出的结果非常一致’的想法完全没有数据支持。”
不仅如此,结果还发现:物理学的研究结果反倒比我们预想的更不可靠。比如,黑吉斯比较了估计两种基本粒子——电子和质子——质量的两项实验的过程中所采集到的数据。电子和质子是最著名的基本粒子,也是研究得最多的基本粒子,我们本该期待不同实验的结果高度一致。然而不是啊:在若干年时间内(从20世纪60年代早期到70年代中期)进行的一系列实验,清楚地显示出各实验这些估计值相互间并不一致,它们所谓的置信区间经常不重合,意味着它们结果在统计上显著地互不相同。
当然,像这样的数据并不应该被解释为物理学家不知道什么是电子和质子的质量。首先,我们现在有了更多的实验,这些实验的结果更加具有一致性。此外,黑吉斯所报道的这些估计值显示出的巨大差别,也不大会让任何人认真地怀疑起核物理学的一些基本方面。但是这里的要点仍然还在:即使科学的王后,有的时候也会在若干年的时间里出一些状况,而软科学的典型代表心理学的实际上却展现出了结果一致性,这种一致性的程度引人瞩目,让人惊异。所以我们是不是应该总结说:当我们看看这些数据时,硬软科学之间的差别消失了呢?另一位社会科学家,具体地说是心理学家乔治·霍华德(George Howard)却说不要这么快下结论。
霍华德1993年在《理论与哲学心理学》(科学期刊起这个标题挺有意思的)上发表了一篇文章《当心理学看起来像“软”科学的时候,是有很好理由的》,文章的主旨是要凸显黑吉斯的结论所具有的现实意义:对于物理学和心理学而言,虽然测量的可靠性大体相同,但是它们的解释力和预言力却有差异,在这一点上,物理学毫无疑问更加优越。让我们尝试去理解一下他这个观点是什么意思,因为这可以给我们带来一些关键性的洞见,让我们理解硬科学和软科学的区别是什么,以及随后理解科学和伪科学的区别是什么。
对一个量值进行估计,以及对围绕着这个量值而产生的的起伏进行解释(在统计学上它们分别称为均值和方差),这两者之间存在着重要区别。比如,我们的兴趣是发现布鲁克林居民的平均身高,那么跑出去测量每一个布鲁克林居民的身高,是没法实施的,所以我们就需要抽样:我们随机叫住一些人,测量他们的身高,然后记录下测量结果。如果我们做的测量足够多,并且我们对于人们的抽样是真正随机的(所以构成对居民总体的一个代表),那么我们就可以对布鲁克林居民的平均身高做出一个可靠的估计。所谓“可靠”,我指的是黑吉斯在谈到经验积累性时所说的那个意思:如果我们重复“实验”,也就是说,我们再第二次,第三次……出去到布鲁克林,重复抽样的程序,那么我们对于布鲁克林居民平均身高所获得的估计值会非常近似。正如黑吉斯所说,在这一点上硬科学和软科学是等价的:物理学家能够前后一致地对他们的量值做出相似的估计,同样,心理学家也可以,可以想见其他科学家仍然可以。
但是现在,我们叫物理学家去解释一下围绕着他们的估计值(比如电子的质量)的起伏。毕竟正如我们所看到的,不可能每个实验都给出相同的结果;甚至是在同一个实验里,当每次进行测量时,也不可能得到完全相同的估计值。正是在这里,物理学家给出的回答将会非常不同于心理学家给出的回答:物理学家会说,围绕着电子质量均值的方差完全是实验误差造成的。换句话说,对于这一次估计值和那一次估计值之间的差别,唯一可能的原因就是人工制造的仪器不完美,还有实验条件的微小起伏就有可能改变实验结果。而社会科学家却会说,实验或测量的误差只是导致这种起伏的原因之一:的确,很有可能实验者在进行实验、记录结果时会出错,但是更重要的是我们所探索那种属性(身高)在人类之间就有自然的起伏。和电子不一样,人有各不相同的尺寸和形状,而这种性质的起伏又进一步取决于一系列的因素,包括人们的遗传组合和成长时期的饮食情况。此外,还有性别差异,当然还有儿童比成年人矮。所有这些差别,而不仅仅是实验误差,都说明了(或者按统计学术语,都解释了)我们所观察到的起伏。
按照霍华德的观点,数据明确表明,对于样本里出现的起伏,物理学家(或至少是粒子物理学家)常常能够说明90%或更多(事实上接近100%),这确实是一个相当令人满意的结果。相反,社会科学家(以及有机体生物学家)面临的一个非常典型的情况是,他们会触碰到一个解释力方面的“天花板”,如果他们非常幸运的话,大约也只能解释样本里的起伏的25%—35%;也就是说,对于实验中导致的起伏因素,在运气好的时候,软科学家通常也只能说明不到四分之一至三分之一。起伏的剩下部分是未知的因素造成的,一直不在研究者目力所及的范围内。这个事实确定无疑地造成了软科学的研究结果比硬科学的研究结果更“软”。
那么显而易见的问题是:为什么软科学的解释力比硬科学更低(技术统计意义下的解释力)这件事情成为了一件典型的事情?尽管如此,软科学仍然比伪科学做得好,伪科学的解释力等于零或趋近于零,但是硬软科学之间的差别还是令人吃惊的,需要得到解释。霍华德提供了一个解释,但我认为这个解释只是半对:他说软科学的表现更差,是因为软科学家所研究的现象牵涉到的原因数量多得多。我们刚才已经看过了,普莱特在谈到这个问题时,过早地拒绝让它构成一个解释。不过霍华德同时又挑选出了一个特定的原因,认为这个原因与其他无论硬软的科学里所遇到的任何原因都所不同,这就是人的能动性(human agency)。他认为心理学家有必要把人类有“自由意志”这一点考虑进去,人们在进行决策的时候会实践自由意志,并且自由意志会严重妨碍统计学对起伏的标准解释。
对自由意志这个观点的讨论将远超本章的范围(实际上也超出了本书的范围)。我们只需要这句话就够了:自由意志这个标签指称的是人脑在有意识或下意识的情况下参与的复杂决策过程。没有理由认为自由意志构成一种独特的因果性解释,我们就把自由意志当成是潜藏在任何一种复杂的自然过程(无论是否与人类有关)底下的相互作用着的诸多原因中之一种,这样做似乎更加合理。从这个角度看的话,[心理学和进化生物学在解释力上没有什么差异]的理由,从本质上说与人类因素没有什么关系,而是由于这两门学科处理的是复杂的多层次因果性,这一点就不像粒子物理学。
让我们总结一下到此为止讨论了什么。普莱特论述说,强推理非常有效(当可以运用强推理的时候),这是对的,但他又总结说,软科学从业者没有能力或不愿意运用强推理,才导致软科学变软,这点不对。黑吉斯的文章表明,我们关于物理学结果比心理学结果具有更高水平的可靠性的感觉,实际上并没有得到经验/实证证据支持。但是霍华德提醒我们,物理学解释自己结果的能力比心理学强得多,尽管他把人的能动性单独拿出来,用其解释两门学科的解释力差异,我认为这是没有必要的。 下面,我们将转向关于同样这个问题的另一个观点,这个观点提出时间更近,也更细致。我们马上要了解到,不仅有好的理由(而不是某些科学家懒惰)解释硬科学和软科学的结果在质量方面的不同,而且这些理由同所有科学中最神秘莫测的概念——因果性本身的性质有关。
●因果非对称性,预言未来与解释过去的差别
“[历史性的假说]永远不能被实验检验,所以都是非科学的……任何科学都不可能是历史性的。”说上面那句荒唐话的人不是别人,而是世界上最富盛名的科学杂志《自然》的编辑亨利·吉(Henry Gee)。如果亨利·吉是对的,那么大部分的进化生物学、地质学、还有整个古生物学包括人类古生物学、天文学等等,都要从科学课堂上驱逐;纽约的美国自然史博物馆的所有展馆(比如人类进化展馆)都要关门;《自然》杂志自己发表的许多论文都将因为是非科学文章的而要撤稿。幸运的是,亨利·吉明显错了,所以我们没有必要全面修正开展科学研究的方式和把研究成果呈现给大众的方式。
不过,亨利·吉的评论却给哲学家卡罗尔·克利兰德(Carol Cleland)一次机会,让她撰写了一篇关于科学方法的评述,这篇评论是我读过的最清晰易懂的文章之一,我将在本节利用她这篇文章,进一步探索一个观点,即科学可能多于一种,科学方法可能也多于一种。
首先,让我们从关于“做科学”是什么意思的误解出发提一个结论(很不幸,这种误解在科学家那里也是非常普遍的):做科学不是必须要做实验。这个说法虽然乍一看很奇怪,不合直觉,但反思片刻就会发现确实是这样:天文学家不做实验,但是我们认为天文学牢牢地留在科学阵营中,而不是加入了人文学科行列或伪科学行列。为什么?因为天文学家在从事两项基本的活动,这两项活动一起构成了一门科学的特征:系统性的观察以及建构和检验假说。例如,20世纪天文学(或更准确地说是天文学的分支宇宙学)取得了一项惊人的成就,证明了宇宙确实有一个开端——一次“大爆炸”,它开启了一系列过程,导致了今天这个我们所知的世界。但是如何检验这个观点?在宇宙学家赫尔曼·邦迪(Hermann Bondi)、托马斯·戈尔德(Thomas Gold)、弗雷德·霍伊尔(Fred Hoyle)实际上已于1948年提出了另外一个“恒稳态宇宙理论”的情况下,我们如何知道宇宙并非一直存在?有一个支持大爆炸而不支持恒稳态宇宙学的关键性证据在1964年由阿尔诺·彭齐亚斯(Arno Penzias)和罗伯特·威尔逊(Robert Wilson)发现,两人都是在贝尔实验室工作的射电天文学家。彭齐亚斯和威尔逊发现宇宙弥漫着一种低水平的背景辐射,特征温度是3开尔文(绝对零度以上3度,或-454华氏度)。这种背景辐射正是大爆炸理论所预言的我们应该观察到事情,它是初始爆炸的产物,正好是大爆炸理论所预言的值:彭齐亚斯和威尔逊发现了一切“冒烟的手枪”(smoking guns)※ 之母,后来因此而获得了诺贝尔奖。还有其他若干支持大爆炸理论的间接证据,所有这些证据都指向同一个结论:我们的宴会从略少于140亿年前的某刻的一次爆炸开始。而且,按照克利兰德的观点,发现一个明确无误的“冒烟的手枪”,就是让天文学之类的历史性科学成为科学家族的真正成员的理由之一。历史性科学的研究者不需要因为不做实验而感到抱歉。【※注:“冒烟的手枪”据说出自水门事件调查中的引语,意指证明某事情发生过的板上钉钉的证据,可能至今尚未成为英语里普遍采用的习语。】
再举个著名的例子:6500万年前一颗大陨星撞击地球,导致恐龙灭绝(或最后促成恐龙灭绝,因为当时恐龙已在走下坡路)的理论,这个事件在白垩纪和第三纪※ 之间划出了一条分界线(K-T分界线)。在1980年之前,大撞击理论就已经以多种形式存在过一些时候了,同时还有其他关于恐龙灭绝的解释与之并存。在1980年,由一对父子(物理学家路易斯·阿尔瓦雷斯(Luis Alvarez)和地质学家沃尔特·阿尔瓦雷斯(Walter Alvarez))带队的一组研究人员在岩石里发现了一层罕见的铱层,时间断定在K-T分界线。这个发现是非常重要的,基于两个理由:首先,这个铱层便于布全世界,所以不可能是局部的地质事件造成的;第二,更为显著的是,在地球上铱是一种非常罕见的物质,但是在某种类型的陨石里却非常丰富。这个发现以引人入胜的方式证实了6500万年前确实有一个大的天体撞击了地球,于是强烈支持了这个理论:有一场宇宙级灾难,不仅对恐龙灭绝要至少要负部分责任,而且对当时大多数在地球上生存的生命形态的灭绝也至少要负部分责任。而且还有个问题是:按照路易斯和沃尔特·阿尔瓦雷斯的计算,撞击应该形成一个直径约250千米的撞击坑:这个撞击坑在哪里呢?1990年,在位于墨西哥尤卡坦半岛沿海地带的希克苏鲁伯(Chicxulub)发现了这个撞击坑,这又是一个“冒烟的手枪”。这个新发现的撞击石坑不仅尺寸正确,而且地质学家还可以从它的形状确定陨星撞击的角度;这个撞击是一次足以导致巨大海啸的撞击,而海啸会对海岸造成毁灭性的影响。不出所料,一旦科学家知道寻找什么、在哪寻找,他们就发现了足够的证据证明海啸在这个地区产生了影响,时间也刚刚回溯到K-T分界线时期。如果我们还跟随亨利·吉的訁论,认为这不是好科学,那么我就不知道什么才算是好科学了。【※注:第三纪已被拆分为古近纪和新近纪。白垩纪之后是古近纪,K-T分界线改称K-Pg分界线。】
这些例子以及与之类似的例子都很容易找到,从中我们可以提出两个关键的要点:第一,好科学不是必须要做实验的,只要聪明地利用观察证据,也可以获得好科学;第二,做科学的方式不只一种,这取决于问题的性质以及这个科学领域内采用的最典型方法。
在科学的性质,在历史性科学和非历史性科学区别(大体上说而非准确地说,就是所谓软科学和硬科学的区别)的争论上,克利兰德还做出了又一个突出的贡献。她把关注焦点放在了科学哲学里所称的“超决定的非对称性”(asymmetry of overdetermination)上,这个深奥的术语指示着一个非常重要的概念,需要我们探索它,搞懂它。它的基本思想是很简单的:对于科学研究而言,现在同过去的关系非常不同于现在同未来的关系。这里的意思是,试图理解过去的科学家(如天文学家、古生物学家和进化生物学家)会看到他们所处理的问题类型,非常不同于面向未来的、以预言未来事件(包括预言实验结果)为主要工作的科学家(如物理学家、化学家,更不用说包括大气科学家了)所处理的问题类型。
让我们用几个克利兰德举的日常生活中的例子来理解超决定的非对称性是什么意思,这样一来它同现实中的科学实践的关系就凸显出来了。我们经常从电影、电视剧和犯zuì小说里听说“没有完美的犯zuì这种东西”。有一些坚实的理由从背后支撑这个直觉:当人在犯zuì时,不论犯zuì者多么小心翼翼,总会有一系列的“痕迹”让一个敏锐的调查者将发生的事情充分地重构出来,找出犯zuì者。会存在指纹、头发、皮肤碎屑或血液,会有涉及犯zuì者做过某件事的信用卡交易,也许还会有电话账单,这些都同犯zuì有联系;会有目击者,即使不是目击犯zuì本身,也会目击犯zuì者为犯zuì而采取的行动,等等。要回过去抹掉一件发生过的事情的所有历史痕迹,是极其困难的,而侦探只需要抓住这些痕迹中的少数几个就可以破案。当然,这并不意味着每一起案件都得到侦破,因为作为人类的调查者是会犯错误的,还因为历史痕迹会随着时间流逝而衰退弱化:时间越流逝,就越难以凑足线索找到发生的事情(这就是为什么所谓的悬案更加难以破解)。这里的要点是:基于少数一些线索重构犯zuì是可行的,而且在某些情况下明显还很容易。但另一方面,预言一起犯zuì什么时候发生,以什么方式发生,却几近不可能。这是因为同样这些数量巨大的变项(在犯zuì发生后正是它们使得破案成为可能)必须要以一个特定的顺序发挥作用,才能让犯zuì实际发生:某个人要先有一个动机,然后计划行动细节,然后着手安排恰当的条件,然后才实际实施犯zuì。如果这其中的任何一环中止或出了问题,犯zuì就没机会发生了。
克利兰德举的另一个例子把上面这个要点说得更加清晰:想一想房屋发生火灾。一旦火灾发生了,我们很容易看出它确实是发生了,甚至还很有可能推断出引发火灾的原因,这也是因为线索或者痕迹的数量非常多。现在假设消防部门认定火灾是由电路短路引起的,那么在这个个例里,从技术上说如此认定是对的,但是事实上导致火灾的原因数量却非常多:包括电路要实际存在,房子是木头建造的而不是砖头建造的,喷淋系统未能开启并浇灭火焰,当时房子里没有可以手动灭火或尽早呼救的人等等。这些因素里的任何一项都可能使得火灾没有发生过,或至少使得房屋没被烧毁。所以我们再一次看到,在事实发生后弄清发生了什么,相对比较容易;但预言什么时候会发生什么,则可能很困难。
现在我们已经知道了关于因果性超决定的非对称性([现在→过去] 还是 [现在→未来])的一些情形,我们现在就能更好地理解为什么古生物学家可以找到(如果条件合适的话)某些事件(如导致K-T分界线的陨星)的“冒烟的手枪”。但是任何科学家,不管是哪个学科的,要预言这样一种撞击是否、何时以及何地会再度发生,则是一件非常困难的任务。既然是这样,有的科学(如粒子物理学)又如何可能从自己的实验得到的结果为起点,对未来的事件给出非常精确的预言呢?答案是:在大多数情况下,让预言得以可能的那种类型的实验(如量子力学的实验),都是在高度控制的条件下、在实验室里非常特殊的条件下进行的。在这样的条件下,实验结果所依赖的原因要素本来就已经很少了,科学家几乎能完全控制这些要素。的确,即使是在这样一些理想的条件下,物理学家和化学家常常还是要重复多次做实验,小心地控制着诸如实验设备的精确规格、或者甚至包括正在进行测量之时实验室物体的布局摆放之类的变项。尽管这些都做好了,从前面的叙述里我们还是知道针对同一个基本物理性质(如质子的质量),不同的实验室仍然会得到非常不同的估计。
克利兰德的分析让有一件事情非常清楚了:并不是硬科学比软科学“更好”,而是硬科学和软科学的不同是由不同种类的问题塑造出来的,每一种科学都有其自身的方法,以及随之而来的局限性。历史性科学有一个优势,那就是发生在过去的事件的一些甚为微小痕迹都足以用来检验一个假说,特别当发现了“冒烟的手枪”的时候。另一方面,到了预言未来事件的时候,历史性科学的表现就非常差了,因为即使是数量较少的原因在发挥作用,也会使得产生出的可能结果的数量剧增。至于实验科学,当以高的精确度测量某些量值的时候,或者当它在受控实验下对系统的行为做出预言的时候,确实都表现得非常好。但是,一旦变项数量增加,精确度就迅速下降,特别是当我们走出实验室环境,走进现实世界的时候,现实世界里的情形轻而易举就会变得纷繁复杂,我们很难甚至几乎不可能将其中的条件标准化。
根据到现在为止的叙述,我认为得出下面的结论是公正的:科学是一个由相互有差异的学科组成的集合,各学科在自然世界里开展研究的方式各不相同。所有科学的共同特征是:能够通过系统收集经验/实证数据来提出假说和验证假说。假说如何提出?科学家用什么方式来验证假说?我们能从不同科学中期待多大程度的成功?在这些方面,不仅这门科学与那门科学有不同,而且在这个问题上与在那个问题上也有不同。不过,这里的各不相同并不表现出随机的样式,而是取决于两个因素,这两个因素我们在本章中已用很长篇幅来讨论了:一方面,我们有一个从完全历史性的科学(古人类学、天文学)到部分历史性的科学(进化生物学、地质学)直到本质上是非历史性的科学(物理学、化学)的连续谱。一门学科越是具有历史性,它在方法论上就越是要利用好“冒烟的手枪”方法,我们已经看到了,这种方法在恐龙灭绝的问题上或宇宙开端的问题上适用得非常好。而一门科学越是具有非历史性,它就越能对它所研究的对象的行为做出高度可靠的预言,虽然这些预言基本上受限于实验室那种高度受控的条件。
另一方面,我们还有第二个连续谱,从研究简单的、高度易处理的系统的科学(如物理、化学,这些科学可以适用于强推理方法);直到处理极其复杂的对象的科学(进化生物学、心理学),这些科学必须应用统计处理方式,其解释现象和预言现象的能力大为有限。所有的这些差异都和脑力劳动本身的质量无关,更和参与研究的科学家的智力或聪慧程度无关。我们马上就要接着思考一个更加棘手的主题:有一系列的学科明显带领我们偏离了主流科学,它们中的有一些看起来很像是科学,然而在经验/实证可检测性方面却引起了一些严重的问题。在这之后,我们将进一步离开科学本身,较为深入地研究真正的伪科学。