由于存在各种限制(如时间、成本、道德、隐私、安全和数据获取),使得小数据经常被用于科学和工程研究。然而,大数据一直是过去十年的焦点,小数据及其挑战很少受到关注。而小数据的挑战主要是数据多样性、插补、噪声、不平衡和高维等问题。而当前大数据时代的特点是ML、DL和人工智能(AI)的技术突破,这使得数据驱动的科学发现成为可能,而为大数据开发的许多先进ML和DL技术为小数据问题提供了解决方案。因此,在过去十年中,ML和DL在解决小数据挑战方面取得了重大进展。近日,密歇根州立大学Wei Guowei、武汉纺织大学江健总结并分析了分子科学(包括化学和生物科学)中小数据挑战的几种新兴潜在解决方案。
本文要点:
1) 作者回顾了基本的机器学习算法,如线性回归、逻辑回归(LR)、k近邻(KNN)、支持向量机(SVM)、核学习(KL)、随机森林(RF)和梯度增强树(GBT)。
2) 此外,还包括更先进的技术,如人工神经网络(ANN)、卷积神经网络(CNN)、U-Net、图神经网络(GNN),生成对抗性网络(GAN)、长短期记忆(LSTM)、自动编码器、转换器、迁移学习、主动学习、基于图的半监督学习、将深度学习与传统机器学习相结合,以及基于物理模型的数据增强。作者还简要讨论了这些方法的最新进展,最后讨论了分子科学中小数据的发展趋势。
Bozheng Dou et.al Machine Learning Methods for Small Data Challenges in Molecular Science Chem. Rev. 2023
DOI: 10.1021/acs.chemrev.3c00189
https://pubs.acs.org/doi/10.1021/acs.chemrev.3c00189