来自宇宙的大数据洪流

2017-07-14 10:45:00 阅读 9194


Preston Lerner 文 Shea 编译

数字巡天和实时望远镜观测正在引发一场前所未有的数据洪水。埋藏在这些数据中的可能有宇宙学中最大谜题的答案。

对于工作在美国宇航局(NASA)国家空间科学数据中心的科学家来说,一场信息革命从2000年起便悄然而至。在一个会议上,有一位天文学家询问,这个中心是否能放下由晕族大质量致密天体巡天——专门用来研究仅发出少量光线和其他辐射的神秘天体——所收集的1万亿字节的数据。虽然今天许多台式计算机的硬盘就能放下1万亿字节的数据,但对于当时的这个数据中心来说却是不可能的,因为在此之前的45年中NASA所收集的数据总量也只有1万亿字节。

[图片说明]:斯隆数字巡天的2.4米望远镜。版权:SDSS。

一个实验所产生的数据就相当于之前15,000个实验的总和。于是有人意识到,科学界必须要做点什么,不但把使所有这些数据提供给科学家,而且还要能从所有这些信息中做出科学发现。

在随后的十年中,天文学家所使用的工具发生了彻底的变化,而我们对宇宙的认知也跟着发生了翻天覆地的改变。用照相底片来辛苦地拍摄天空的日子已经一去不复返。今天地球上和太空中的天文台可以让天文学家从射电波到γ射线纵览整个宇宙。而随着数字化探测设备的发展,计算机取代了原先的暗室。这些新生力量为了解我们的宇宙提供了一条更有意义的途径,但它们同时也引发了一场骇人的数据洪灾。惊人的发现也许就在其中,但你必须要先梳理所有的数据。

从2000年起,耗资8,500万美元的斯隆数字巡天(SDSS)已经拍摄了超过三分之一的夜空,获得了超过930,000个星系和120,000个类星体的信息。对SDSS庞大数据的计算分析发现了一些已知最年老天体的证据、确定了绝大多数大型星系拥有超大质量黑洞、甚至还测定出了局部宇宙的三维结构。在SDSS之前,单个天文学家或者小组占据了天文学。你要申请望远镜的使用时间,获得你的数据,然后再对其进行分析。之后SDSS问世了,突然间有了为了某个目的而获得的大量数据,但人们却把它们用到了其他各自感兴趣的研究上。因此,天文学的研究方式出现了巨大的改变,即便不属于某个项目的天文学家也能提出全新的问题、做出崭新的发现。

SDSS:宇宙制图家 斯隆数字巡天(SDSS)始于2000年,昭示着海量数据天文学时代的到来。多年来,对于需要了解宇宙全局特征的天文学家来说,他们主要依靠的是20世纪50年代的帕洛玛照相天图。SDSS也观测了帕洛玛天图中的大量区域,但却把之前的照相底片换成了可以在任何地方更新和分析的数字图像。SDSS的科学家由此做出了一些惊人的发现。2000年,他们发现了已知最遥远的类星体。而独立于SDSS之外的科学家却根据它的数据已经发表了2,000多篇的科学论文,把SDSS的公开数据作为了他们研究的基础。另一个生动的例子是,天文学家由SDSS发现了“星流场”,这一群恒星分布的跨度长达近四分之一个天空。它们可能是小型星系被银河系吞噬时所产生的残骸。
[图片说明]:斯隆数字巡天对天空的覆盖情况以及对其中某一块逐步放大的图像。版权:SDSS。

在这其中,数据挖掘和其他信息学工具对于从基本的亮度测量中提取有用的信息进而得出新的科学结果起到了至关重要的作用。

新一代的巡天将会观测并记录下数百亿个的天体。但问题是,在已知的宇宙中没有那么多的研究生能对它们进行分类。2019年当大口径全天巡视望远镜(LSST)在智利帕琼山上将其32亿像素的数码相机(世界上最大)对准天空的时候,它会以15秒的曝光时间拍摄一片比满月大49倍的天区,一个晚上拍摄2,000次。在其后10年中所拍摄的这些快照最终会被串编起来,构成一部可见天空的电影。每晚可以生成30万亿字节数据的LSST将会成为千万亿字节天文学的核心。

洪水般的数据已经令过去为获得大型天文台那么一丁点观测时间就激烈竞争的天文学家们感到了势不可挡。有史以来第一次天文学家们不再能够检查并使用所有的数据。这不仅仅在于数据的数量,还关乎数据的质量和复杂性。一个大型巡天可能会观测数百万甚至数十亿个天体,而对每一个天体可能又会测量它的数千个特性。虽然有现成的数据挖掘程序包,但如果你想处理10亿个对象而每个对象又包含1,000个数据的时候,就算有世界上最大的超级计算机你也只能干瞪眼。其挑战是发展出适用于21世纪的新科学方法。

宇宙摄像机 建在智利帕琼山上的大口径全天巡视望远镜(LSST)是一个价值4.5亿美元的庞大工程,它将真正把天文学和信息学揉合在一起。它的目标是探测暗能量和暗物质、对太阳系和银河系进行前所未有的详尽普查并且寻找天空中任何会变化或者移动的目标。
[图片说明]:建在智利帕琼山上的大口径全天巡视望远镜。版权:Michael Mullen Design/LSST Corporation。

装备有一面8.4米的主镜和一架世界上最大的32亿像素的照相机,LSST只要几个晚上就能获得和SDSS在8年的时间里所得到的一样多的数据。据估计LSST总共会观测到200亿个左右的目标,这将是第一次有一个巡天能观测到比地球上的人口还要多的天体。

如此庞大而惊人的数字使得LSST也成为第一个把信息学融入其设计的天文项目,其中涉及到数据挖掘、机器学习、可视化研究以及除了天文学家之外的计算机科学家和统计学家。LSST会一丝不苟地对整个可见天空进行成像,最终会生成一部10年长的宇宙电影。这将导致研究天体快速变化现象——黑洞形成、超新星爆发——的时间域天文学和对地球构成潜在威胁的小行星以及位于海王星轨道之外的柯伊伯带天体的搜寻向前迈进一大步。

这一方法的核心是被称为信息学的大批量数据处理技术。它已经改变了生物学和医学,使得科学家可以对数千种生物的脱氧核糖核酸(DNA)进行测序并寻找出与健康和疾病有关的基因线索。天文学家相信信息学也能为他们做同样的事情。基本的想法是用计算机来从过于复杂而人脑无法理解的原始数据中提取出有意义的信息。软件可以在几秒钟的时间里处理数万亿字节的数据,找出其中的规律和异常,对关键信息进行可视化,甚至在这个过程中“自我学习”。

从这个意义上讲,信息学其实就是让天文学家能更快、更准确地去完成他们一直在从事的工作。例如,对于这天文学中的两大关键技术——分类和整合信息——而言,数据挖掘是有益的。这个天体是一颗恒星还是一个星系?如果它是一个星系,那它是旋涡星系还是椭圆星系?如果是椭圆星系,它是圆的还是扁的?就在不久之前,这些问题还是处理照相底片的人必须要回答的。当你手中只有数百个太阳系外行星或者数千颗超新星的时候,分类不是什么大不了的事情。但当你面对数十亿个天体的时候,它就会变得极其复杂而繁重。

1996年天文学家为了了解遥远宇宙中的大尺度结构试图证认出几百个类星体。当时的做法很原始,一只铅笔和一张纸,还有反复地试验。而当LSST完工的时候,它轻而易举地就能给我们收集到以数百万计的类星体。

[图片说明]:大口径全天巡视望远镜焦平面的实际大小模型,其直径达64厘米。请注意其中由于比较视场大小的月球(直径0.5度)。版权:LSST Corporation。

针对大样本的算法不仅能更容易地发现规律,还能加速识别出异常现象。现在,一百万分之一被认为是实属意外的发现,你恰好在正确的时间把望远镜对准了正确的方向。这是搜寻高红移类星体——由超大质量黑洞所驱动的极为遥远而明亮的天体——中经常发生的现象。目前寻找它们基本是靠运气的事情。有了计算机来筛选数十亿个天体,天文学家能够更具方法性地来寻找这些天体以及其他不同寻常的目标。这一方法不仅更快而且更准确。

另一方面,信息学也是进行统计的有力工具,它可以反映出宇宙整体的图像。例如,传统上天文学家会利用分光仪来估计遥远星系的距离,后者会把一个天体所发出的光分解到不同的波长上。但对于SDSS中每一个具有光谱数据的天体,又有大约100个没有光谱而只有图像的天体与之对应。这里就是天文信息学派上用场的地方了。天文学家们开发出了一个算法,它可以让天文学家仅分析图像就能估计出天体的距离,为研究宇宙的三维结构提供了大得多的数据集。这对于LSST尤为重要,因为天文学家无法获得其中99%天体的光谱。

望远镜无国界 为了尽可能多得了解遥远的天体,天文学家会在不同的波段上对它们进行观测。不幸的是,由此产生的数据通常都存放在全世界的各个地方,这使得它们变得很难获取。此外,它们中的绝大部分并不兼容,因此把它们合并到一起需要花费大量的辛苦劳动。大约10年前,一群天文学家开始讨论建立一个全球统一的虚拟天文台。就像互联网,这个虚拟的天文台是一个超乎实体的框架,它将众多望远镜的数据资料连接了起来并为之提供了研究工具。在美国,一个试验性的虚拟天文台——美国国家虚拟天文台——于2002年上线,但由于缺乏好的数据分析工具而难以使用。2010年5月NASA和美国国家科学基金会决定在未来5年为虚拟天文台注资2,750万美元并继续开发数据共享工具,这使得虚拟天文学的前景再一次变得诱人。

虚拟天文台本身不会取得突破,但它却会让新的突破成为可能。这就像互联网改变了世界,而造就它的是超文本传输协议(HTTP)一样。

计算机科学和天文学间跨学科的联姻还没有得到各自领域的完全拥护,不过情况正在发生改变。2010年5月初次登台的虚拟天文台是一个分水岭。这个历经10年时间打造的国际网络使得天文学家能通过互联网获得来自几十架望远镜的数据。之后,在2010年6月又召开了首次国际天文信息学会议。

天文学家习惯于行走在人类想象力的极限,但即便是他们也会在从如洪水般涌来的新数据中提炼出新的认识时遇到尴尬。路已经修好,现在就要看法拉利的了。


关注微信公众号,获取最新信息小编微信(zqykj0811),加入微信群与悟空团队的数据分析师一起交流

返回新闻活动列表