近日,华中科技大学硕士生叶广平,以第一作者在国际权威期刊 The Astrophysical Journal Supplement 上发表了题为“Machine Learning-based Search of High-redshift Quasars” 的文章。第二作者和通讯作者为我系张华年副教授,合作者还包括我系吴庆文教授。该工作在对早期宇宙中类星体的密度上取得了进展。
类星体一般是由宿主星系中心的超大质量黑洞(SMBH)通过吸积过程驱动的,是宇宙中最亮的非暂现源。高红移类星体(> 5)为研究星系演化和宇宙学提供了有效的探针,因此获取大量高红移类星体样本对于研究星系际介质、星系周介质以及超大质量黑洞及其宿主星系的共同演化至关重要。目前已知的红移大于 5 的类星体数量大约为 1000 个,这些基本上都是通过传统方法找到的,而传统方法相对低效。
Becker et al., 2015
Wang et al., 2022
图一中的上图是一个典型的高红移类星体光谱,下图是高红移类星体在光学近红外波段的成像。
我们这个工作介绍了一种利用DESI Image Legacy Survey和WISE Survey的测光数据(包括 g, r, z 和W1, W2 的星等和它们相关的颜色)对高红移(5.0 < z < 6.5)类星体进行机器学习搜索的方法。我们探讨了高红移类星体缺失值的估算,比较了不同特征的选择,不同的机器学习算法,不同的训练样本类别组合,我们发现随机森林模型能非常有效地将高红移类星体从各种污染物中分离出来。我们的模型在测试集上给出的精确度高达 96.43%。
图二是我们分类模型在测试集上的混淆矩阵。红色区域是我们的高红移类星体类别的分类结果,从红色一列可以看到,模型预测为高红移类星体类别中有 96.43% 是真正的高红移类星体,而红色一行表示有 91.53% 的已知高红移类星体被模型正确的预测。
我们使用这个分类模型对 DESI LS DR9 的全天数据进行分类,找到了 27多万个高红移类星体候选体,和其他数量不等的各类污染源。这数量相比于目前已知的 1000多个高红移类星体来说,是一个巨大的提升。我们的模型还给出了每个高红移类星体候选体的预测概率,以便于我们关注更有可能的高红移类星体候选体。
表一中是 DESI 全天区的各类源的分类结果,高红移类星体候选体数量将近 30 万个。
表二给出了在不同的高红移类星体候选体目录中高于相应概率阈值的候选体数量。
此外,我们还训练了回归模型来计算高红移类星体候选体的测光红移,在比较三种模型后,得到随机森林回归模型的性能最佳。这计算的测光红移可以为后续光谱认证环节提供便利。我们所有的高红移类星体候选体目录都会公开。
图二是三个回归模型在测试集上得到的结果。蓝色线和红色线分别是指|Δz| < 0.2 和 0.1。
文章链接:https://iopscience.iop.org/article/10.3847/1538-4365/ad79ee