神经形态计算文献记录
神经形态计算(neuromorphic computing)从脑科学汲取灵感来为信息处理创造节能硬件,并能适应高度复杂的任务。研究表明,物理和材料科学研究是创造人工纳米神经元和突触,将它们大规模联系起来,在复杂系统中组织它们,并用它们进行高性能运算的关键。两种研究人员汲取灵感的途径,一种是从人工智能中汲取灵感,另一种是从神经科学中汲取灵感。
# Deep physical neural networks trained with backpropagation
- 现有的硬件实现优势在快速推断,却无法实现反向传播
- 本文将神经网络训练过程用3种物理系统实现,并实现了级联结构
# Physics-aware training(PAT)
提出原因:
- 前向物理过程不能解析微分,只能近似估计,参数量很大
- 用数值模拟训练物理系统,但是有模拟-现实差距
模拟-现实差距有两个根本问题
- 层数越深,差距越大(PAT前向直接使用物理模型,不存在此问题)
- 训练过程中,误差导致参数训练不准确,更加大了误差(反向传播用每层的真实输出,差距缩小)
步骤:
- 为耦合非线性振荡系统定义一个参数化的输入-输出映射
- 用参数化的输入-输出映射构造并训练PNN
- 加载训练模型并可视化训练结果
# 示例模型
$$\frac{\mathrm{d}^{2} q_{i}}{\mathrm{~d} t^{2}}=-\sin q_{i}+\sum_{j=1}^{N} J_{i j}\left(\sin q_{j}-\sin q_{i}\right)+e_{i}$$
其中,$q_i$为振荡器幅值,$J_{ij}$为对称的耦合系数,$e_i$为独立的振荡器驱动。与传统神经网络的联系:
- 本模型有大量可训练的物理参数$J_{ij}$和与传统神经网络类似的矩阵向量积
- 物理系统中,非线性sin函数是很常见的,但人工神经网络并非如此
- 本模型的耦合系数是对称的,人工神经网络没有这个限制
- 本模型激活函数是非线性sin,但人工神经网络一般用sigmoid或者ReLU等
- 本模型具有二阶导,与常见的神经形态动力模型相比,本系统有很多复杂的相空间动力特征
注:
- Physical Neural Network(PNN)在这里定义的
- PAT在Neuromorphic Computing中已有应用?【TODO:需要确认】
- 感觉没有根本解决问题啊,基于PAT
# Next generation reservoir computing
创新点:RC中RNN的权重随机固定,有大量超参数需要优化;已有人证明RC等价于NVAR;
近期研究表明,储层计算在数学上与非线性向量自回归机(NVAR)等同。这里,研究人员证明设计良好的NVAR可以完成较困难的储层计算任务,成为下一代储层计算技术。数学证明表明NVAR包含传统储层计算的连接矩阵和其他参数,并且每个多项式输出线性储层计算都可以用NVAR表示。相比传统储层计算方法,NVAR直接从离散样本输入数据创建特征向量,无需神经网络;预热期仅包含时间步长,显著短于传统储层计算。利用天气系统简化模型、双旋涡电路模型测试新方法,结果表明,NVAR与优化良好的传统储层计算方法准确度相当,但训练时间和样本数量大幅减少。这种下一代储层计算方法减少了训练数据和训练时间,有望用于流体动力学预测等任务。
参考资料:
# Deep neural networks using a single neuron: folded-in-time architecture using feedback-modulated delay loops
# Connecting reservoir computing with statistical forecasting and deep neural networks
NC子刊特邀点评《Next generation reservoir computing》及《Deep neural networks using a single neuron: folded-in-time architecture using feedback modulated delay loops》
预测分为统计预测领域和机器学习领域。统计预测中有非线性向量自回归(NVAR);机器学习中,RC比较低端,DNN比较高端,其他算法处于中间。且机器学习不仅可以预测,还可以分类。
DNN与NVAR的中间产物是RC。RC中间是RNN结构,但是权重固定,输出层权重通过线性回归计算。训练很快,代价是中间层维度很高。
NG-RC:将RC与NVAR结合。优点:1)需要调试的参数减少;2)需要的训练集更小。评论员认为这还是属于机器学习领域
Fit-DNN:将delay-based RC的思想延伸至DNN。
- 节点的时间间隔大,相当于DNN,时间间隔小时,需要修改反向传播算法,考虑相邻节点间的连接;
- 少量的延迟环得到稀疏矩阵,但是一条延迟环就控制了权重矩阵的一条对角元素,稀疏矩阵并不灵活
- 间隔小,延迟环就短,计算速度就快,但是性能会下降;间隔大,性能与DNN一致
# 英文表达摘录
All three algorithms are backpropagation algorithms and involve four key steps, namely: the forward pass, computing the error vector, the backward pass and the update of the parameters.