一、预见性学习机器及短时间观测数据的未来预测
国科大杭州高等研究院陈洛南研究组与中山大学、苏州大学、东京大学的研究组在2020年国际学术期刊《National Science Review》在线发表了等题为“Predicting future dynamics from short-term time series by anticipated learning machine”的最新研究成果。该成果基于延迟嵌入理论(delay embedding theory),提出面向小样本时序预测的预见性学习机器(ALM: Anticipated Learning Machine)方法,从而为该类问题提供了全新的解决方案,同时ALM可看作是由高维小样本数据构建被预测变量的大样本数据方法。
研究祖采用全新的空间-时间信息转换(STI: Spatial-Temporal Information transformation)方法,建立了基于小样本的预见性学习机器(ALM)神经网络(图1),利用神经网络全面和鲁棒地学习这空间-时间的非线性映射(STI)。有别于传统学习的线性近似映射,神经网络出色的非线性函数学习能力使得神经网络可以更好的模拟STI映射。另外,ALM神经网络的Dropout也可以很好的模拟随机采样的过程,所构建的ALM神经网络可以综合多个子采样系统中的动力学信息,得到最终的多步预测。实验表明,该ALM方法在洛伦兹系统、基因表达预测、风速预测、股票预测、车流量预测、台风路径预测等多个实际数据集上都能做出准确的多步预测。
该工作对于小样本的时间序列数据分析提供了全新的的预见性学习机器方法,不仅可用于时间序列的多步预测,也可应用于人工智能及脑科学中的小样本数据构建和全新学习建立等。
二、构建辨识因果网络的新型算法
近日,国科大杭州高等研究院陈洛南研究组,与复旦大学、苏州大学、日本东京大学等团队共同合作,提出了数据驱动的因果网络辨识的新型算法。该方法可以用于大规模复杂动力系统内蕴因果网络的复现,有助于解析实际系统演化的本质机制和规律。该研究成果于5月26日以《偏交叉映射排除间接因果影响》(“Partial cross mapping eliminates indirect causal influences”)为题在线发表于综合类学术期刊《自然•通讯》(Nature Communications)。
因果关系是自然界现象之间最普遍和最基本的联系。在物理学、生命科学、地理学等各个自然科学领域乃至哲学、经济学等社会科学中,发现内蕴的因果关系、因果网络可以反映系统演化的核心互作机制,具有重要的科学意义。因此,如何在基于大规模数据,并且在复杂系统精确模型缺失的前提下,准确地辨识系统变量之间的因果关系和因果网络,成为了包括人工智能在内的科学研究中的焦点问题,受到学者们的广泛关注。
此项研究进一步完善了现有复杂系统因果分析的理论体系,为多学科共性科学问题提供了有效的数学方法,面向数据驱动的研究领域具有广泛的应用前景,体现了应用数学研究的价值。陈洛南研究员与复旦大学林伟教授、东京大学合原一幸教授是论文共同通讯作者,冷思阳博士为论文第一作者, 苏州大学马欢飞教授是共同作者。本项研究得到了国家自然科学基金委、科技部重大研究计划、上海市科委项目的支持。
三、使用基于偏相关的特定样本网络进行疾病表征
国科大杭州高等研究院陈洛南研究组提出了使用基于偏相关的特定样本网络进行疾病表征的新方法。
单样本网络(SSN)是根据给定参考数据集的单样本数据构建的生物分子网络,可以洞悉个别疾病的机制并有助于个性化医学的发展。在这项研究中,我们提出了一种计算方法,一种基于偏相关的单样本网络(P-SSN),该方法不仅可以从给定参考数据集的每个单样本数据中推断出一个网络,而且可以通过排除间接来保留直接的相互作用互动。通过应用P-SSN分析来自癌症基因组图谱的肿瘤数据和单细胞数据,我们验证了P-SSN在预测驱动程序突变基因(DMG),产生网络距离,识别亚型以及进一步分类单细胞方面的有效性。尤其是P-SSN在基于单样本数据的DMG预测中非常有效。通过引入任意两个样本之间的网络距离P-SSN还可以有效地用于对复杂疾病进行亚型分析以及对单个细胞进行聚类。
因此,我们的方法表明这些非微分基因可能具有丰富的疾病信息,在表达上是“黑暗基因”。应该声明,P-SSN是使用单个样本构建的理论网络,该网络量化了单个样本与参考样本之间的相关性变化程度。 P-SSN从监管,相互作用或网络角度反映正常样本与癌症样本之间的差异。传统的分子网络是基于多个样本的聚合网络,而P-SSN是特定的基于单个样本的网络。因此,与传统的分子生物标志物相比,它可用于构建NBs或动态网络生物标志物以进行个体诊断和预测,并成为个性化医学的潜在工具。