说到蛋白质大家肯定都不会感觉到陌生,毕竟小到我们的头发,大到我们的肌肉都是蛋白质所组成的,我们每天也在不断摄取蛋白质,比如说吃鸡蛋还有鸡腿等,所以蛋白质的科学研究也是不断进行的,这时候人们就会感到困惑目前实现了高度准确的蛋白质结构预测了吗?其实目前还没有实现了高度准确的蛋白质结构预测,只是有一个大体的外观模型,但是具体高度准确的数据就没了,毕竟这个需要很多科技的结合探索,我们来具体分析一下吧。
首先一个很简单的道理,模型是我们可以通过一些原理还有观察得到的,现在对于蛋白质的模型也就是三明治的模型,这也是大家所公认的,而里面具体的数据大小还有各种位置等都是不确定的,也就是说不能做出高度准确的蛋白质结构预测,毕竟里面很多成分是我们现在的科学还观察不到的,科学的进步真的是需要很漫长的时间,不是大家所想的我们的科学已经非常发达,研究这些都是很简单的事情。
确实我们人类是地球上最高级的生物,靠的就是我们聪明的大脑,进行不断的科学科技探索,才达到这个层次,但是我们的科学探索真正对比地球微观的存在,这就很难说了,很多方面都还在探索,甚至是推测,没有具体的数据。
很简单的例子,我们以前就研究了很多数学的公式,但是即便是到今天也没有证明出来,最多也就是用了一些猜想来证明,这些猜想其实也没有证明出来,但是依旧可以正常使用,完全可以看出来很多东西,科学的探索是需要漫长时间的进步才可以有所答案,包括蛋白质的研究也是。
alphafold在蛋白质结构预测领域的成功,我觉得不在于它能准确预测领域结构,而在于AI能在生物科学上运用。
已知蛋白质有四级结构,用通俗的话来说,就是第一级是一块积木,第二级是用积木拼成一个平面,第三级是用平面组成一个个三维模型,第四级则就是通个一个个三维模型相互形成,相互组合具有功能的复合体。
alphafold就是通过第一级,来预测出第三级组成模型这样的一个ai。尽管alphafold在CASP上获得第一名,甚至远超过第二名,分数达到92.4,分数表明这一结果与实验方法相当,就是已经很接近实验的结果。但事实上,alphafold的预测与实验结果还是存在着部分差异,例如,在某一个由多个小重复段在组成和组装的时候会扭曲彼此位置的蛋白质上,预测和实验结果间还是存在部分差异。再比如,当尝试为蛋白质复合体的单个结构建模与其他蛋白质相互作用的时候,会扭曲它们的形状,就像俩个多边形积木,在安装的时候,通过大力出奇迹的方式,把它们强行安装在一起,导致彼此形状变形差不多一个道理。所以,预测的三级结构尽管数量上接近于实验研究测量的数量,但是当中存在的差异,还是值得商榷的。
当然,不能说alphafold只是哗众取宠,alphafold的出现,表现对AI用在生物科学的可行性,同时肯能意味着要获得良好的蛋白质结构,可以不再局限于实验室,而只要通过alphafold,只需要低质量的、易于收集的实验数据,对帮助生命科学的长远发展意义重大。