 |
|
王梓坤 |
王梓坤教授:中科院院士,在北师大、汕头大学,南开大学任教,曾任北师大校长。王梓坤教授于1958年在苏联获数学力学系副博士学位,1988年在澳大利亚获名誉科学博士学位。主要的研究方向是概率论,对科学方法和科普写作亦很有研究,著作甚丰。七十年代,他的著作《科学发现纵横谈》出版,苏步青教授曾为此书作序。一九九七年,此书重版时,作者又增加了一些新的内容。
本文共分三部分:一、 背景 二、若干数学方法问题
三、基因突变问题:
生命信息遗传中的若干数学问题
我的研究方向是概率论,我对生命和遗传问题感兴趣,是因为大约是在十五年前,那时生命科学研究的热潮还没有到来。我想了解一下生命遗传中突变的问题,因为癌症和突变有关。因为一些遗传学中的一些基本知识,是不便请教专家的,只能是自己看书,因此,在这方面有在座的行家,还请指教。
一、 背景:
讲这个题目就要搞清DNA和基因的情况。我们知道,我们的身体有一百万亿个细胞,细胞里面有细胞核,就像鸡蛋中的蛋黄一样。细胞核里有染色体,人类的染色体有23对,一方面来自父亲,一方面来自母亲。染色体上面有什么呢?有两个东西,一是蛋白质,一是DNA(即脱氧核糖核酸)。DNA是染色体里面的一部分,也就是说,DNA在染色体里面、染色体在细胞核里面、细胞核在细胞里面。今天我谈的问题主要是和DNA及蛋白质有关系。蛋白质又是什么东西呢?蛋白质是由二十来种氨基酸构成的。这二十多种氨基酸串联成一个大的蛋白质分子。DNA中有磷酸,糖等,我们主要是讲它的碱基,碱基有A、G、C、 T、四种,它们分别为:A、腺嘌呤;G、鸟嘌呤;C、胞嘧啶; T、胸腺嘧啶。这是很重要的,我们的文章就作在这里。它们是四个“字母”,就像英文中的二十六个字母,这四个“字母”的排列不同,就组成了一本“遣传密码书”。也就是说,遗传密码就由存在于DNA中的这四个字母排列而成的。而蛋白质是由二十种氨基酸构成的,也像是二十个字母构成的一部书。
我们再说一下基因,基因是DNA里的一部分。DNA的排列是一大串,可能有几千万个字母,很长。它是一段一段的,有的有意义,有的没有意义。基因是DNA上面有生物功能的一些片断。基因在DNA上面,但是DNA并不完全等于基因。根据最近的发现,我们每个人约有三万到四万个基因。过去说,每个人有十万个基因,现在的发现比过去少了许多。不过,这个问题现在还知道的不是很清楚。我们每个人身上有多少遗传密码呢?大约有三十亿个A、G、C、 T。人和人之间基因基本是一样的,只有千分之一的不同,但是这千分之一就决定了人和人的不同。有的人性格比较开放,有的人性格比较内向。有人发现美国作家海明威的父,兄都是自杀身亡的,海明威也是自杀的,因此,就有人说他的家族有“自杀的基因”,当然“自杀基因”这个说法不准确,可能是他们的性格比较抑郁,不开朗的原因。有生物功能的基因虽然只占DNA中的百分之三到五,但是就在这百分之三到五有生物功能基因的研究中,却涌现出了许多科研成果。有十几位诺贝尔奖的获得者都是在这个领域里取得的。目前那百分之九十五的基因还说不清楚,有人说是“废品DNA”,很多生物学家不同意这种说法,因为大自然是比较“经济”的,不会造这么多废品,可能是我们还没有认识它们。
DNA到底是什么样子?到了一九五三年,科学家才发现了DNA分子的双螺旋结构。它就像一个旋转的楼梯,两边有把手,中间有楼梯。而最早提出遗传密码的时间是1943年。当时一个物理学家叫许丁戈尔(音),他写了一本书,叫做《生命是什么》,提出了遗传密码这个概念。表现了他的科学洞察力,因为他自己并不是一个生物学家。当时他提出遗传密码在“晶体”里面,现在我们知道这个“晶体”实际上就是DNA。
我们说过,蛋白质是由二十种氨基酸构成的,这二十种氨基酸一一排列成长链,形成多肽链。不同的排列构成不同的蛋白质,于是我们得到两个序列,一个是四个字母组成的碱基的多肽链,一个是二十个氨基酸构成的多肽链。我们今天讲的数学问题,就是这两个序列的问题。第二个序列是由第一个序列决定的。也就是说,碱基组成的这个序列,决定了氨基酸构成的第二个序列。第一个序列是四个字母组成的,第二个序列是二十个字母组成的。那么四个字母怎么对应二十个字母的呢?它不是一一对应,而是第一个序列的一个字母,对应第二序列的三个字母,是三对一。如GAA,GAG对应的是谷氨酸;AAA,AAG对应的是赖氨酸。生物学家费了很大功夫,才找到了这个对应关系,人们就把它叫做“遗传密码字典”。它使我们感受到生物虽然非常复杂,可它们都是四种碱基核,二十种氨基酸组成的。不管美国总统还是小小的蚂蚁,都是由这四种碱基核苷酸和二十种氨基酸组成的,而且用的都是同一套“遗传密码字典”。它可以看成是一种遗传通信,是长辈对后辈的遗传,这和现代通讯惊人的相似:它可以复制、传录、编码等等。过去认为数学家的抽象能力很强,看来生物学家的抽象能力也很强。
我们生下来,我们的父母就给了我们这部四个字,三十亿个碱基对组成的一部天书。当然,要是两个字就更好了,因为计算机编码是两个字。三十亿个碱基对是什么概念呢?如果一部红楼梦算一百万字的话,就相当于三千部《红楼楼》。不管我们愿意不愿意,我们一生下来就带着这一部相当于三千部《红楼梦》的天书。这部“天书”,没有段落,没有标点符号,外行人看起来非常枯燥无味。但是科学家看来却有无穷的奥妙,等待着去解读。
遗传密码是三个,这个“三联体理论”是理论物理学家加莫夫音于一九五四年提出来的,后来是经过试验证明了这一点。做这个实验的科学家得到了诺贝尔奖。但是加莫夫没有得到,加音莫夫还是宇宙大爆炸理论的最早提出者。后来,证明了宇宙大爆炸的人如彭加勒等得到了诺贝尔奖,加莫夫还是没有得奖。不知道诺贝尔奖是怎么评的,要是三个人分享就比较有道理吧。
我们再来看看遗传是怎么通过排列次序来表达出来的,我们说是三十亿个碱基对,不要说是三十亿,就说是一千个吧。第一次字母有四个选择,第四个字母也有四种选择,就有四的一千次方,也就是10的602次方,有人计算宇宙的全体原子数为10的73次方。当然,我对这个数字有保留,不知道它是怎么得出来的,但至少是说明它很大。可是遗传的排列方式比它还要多,达到10的602次方,这个信息量实在是太大了。
那么DNA有多重呢?如果我们把人身上的DNA拿出来称一称,那实在太轻了,即使把全世界60亿人的DNA都拿出来称,结果也只相当于一颗米粒的重量。
如果问染色体有多长呢?我们身上有一百万亿个细胞,每个细胞有23对染色体,如果接起来,相当于地球到太阳的来回600多转。它这么轻,又这么长,真让人惊叹。
因为我们每个人身上都带了一部“天书”,所以首先要做的第一步,要把这30亿字的书解读出来,这就是“人类基因组计划”。1987年美国在15年内投入30亿美元来做这件事,这是第一步,这个计划基本快完成了。二十世纪有三大计划:“曼哈顿计划”、“阿婆罗计划|”、“人类基因组计划”。接着就是要读懂它,比如,为什么中国人是黑头发,美国人是金头发,这个工作更难,要找出它的时空关系是怎么排列的,为什么这样排列决定了这个人是双眼皮,那个人是单眼皮。这可要困难多了。
页首
|