时滞微分方程与神经网络
# Deep time-delay reservoir computing: Dynamics and memory capacity
- 我们介绍了Ikeda-based的深层储层的动态属性如何与其存储容量(MC)相关,以及如何将其用于优化;
- 分析了相应自治系统的分叉,并计算了条件Lyapunov指数,该指数测量了输入和层动力学之间的广义同步;
- 展示了MC如何与系统到分叉的距离或条件Lyapunov指数的大小相关。不同动态机制的相互作用导致线性和非线性MC之间的可调分布;
- 数值模拟显示了时钟周期和各层MC延迟之间的共振。与单层储层中的MC损失相反,这些共振可以提高不同程度的MC,并可用于设计一个具有最大线性MC的系统;
- 提出了两种配置,高非线性MC,长时间线性MC;
# Information Processing Capacity of Dynamical Systems
许多动力学系统,无论是自然的还是人工的,都受到依赖时间的外部信号的刺激,以某种方式处理其中包含的信息。我们演示了如何量化这些系统可以处理信息的不同模式,并将它们组合起来定义动力系统的计算能力。这是由动力系统的线性独立状态变量的数量所限制的,如果系统服从衰落记忆条件,则等于它。它可以被解释为系统可以计算的与其刺激的线性无关函数的总数。我们的理论结合了机器学习(油藏计算)、系统建模、随机过程和函数分析的概念。我们通过对逻辑图、递归神经网络和二维反应扩散系统的数值模拟来说明我们的理论,揭示了计算的非线性和系统的短期记忆之间的普遍权衡。
所有的动态系统,只要遵守具有衰减记忆的条件,并且具有线性独立的内部变量,原则上都具有相同的总归一化信息处理能力;
我们通过对三个非常不同的动力学系统进行数值模拟来说明我们方法的多功能性:逻辑图、递归神经回路和二维反应扩散系统。这些例子使我们能够揭示记忆深度和动态系统本身执行的非线性计算之间的(潜在的普遍的)权衡。我们还讨论了噪声的影响如何降低动力系统的计算能力;
为了以标准的方式评估系统的性能,并使分析推导易于处理,我们将输入$u(t)$从一些概率分布$p(u)$中独立且相同地得出;
预测器必须是简单的线性的,这样才是计算的动力系统本身的容量属性,而不是预测器的;
样本长度为1e6;
系统以不同的方式处理信息,与其他系统相反,当输入是无偏的时,ESN基本上不能计算偶数度的基函数(我们将其归因于ESN中出现的tanh是一个奇函数的事实);
角度1:希尔伯特空间
$$C_T\left[X, y_k\right]=\sum_{i, j=1}^N \frac{\left\langle y_k, \bar{x}_i\right\rangle_T\left\langle\bar{x}_i \bar{x}_j\right\rangle_T^{-1}\left\langle\bar{x}_j, y_k\right\rangle_T}{\left\langle y_k^2\right\rangle_T}$$
- $\bar x$为正交归一化向量;
- 当且仅当$i=j$,等式右边上面的中间项才为一,否则为零;
$$C_T[X, z]=\frac{\left\langle\widehat{z}^2\right\rangle_T}{\left\langle z^2\right\rangle_T}=\frac{\sum_{i, j=1}^N P_i \bar R_{i j}^{-1} P_j}{\left\langle z^2\right\rangle_T}=\frac{\sum_{i=1}^N\left\langle\bar{x}_i, z\right\rangle_T^2}{\left\langle z^2\right\rangle_T}$$
- 重建输入信号的容量:预测时间序列的范数平方与原始时间序列的范数平方的比值
角度2:相关系数
$$C_T^{\prime}[X, z]=\frac{\sum_{i j} \operatorname{cov}\left(z x_i\right) \operatorname{cov}\left(x_i x_j\right)^{-1} \operatorname{cov}\left(x_j z\right)}{\operatorname{var}(z)}$$
- $cov(x,y)=<x,y>_T -
_T _T$,$var(x)=cov(x,x)$; - 若各样本均标准化为均值为0,内积=协方差,因此角度1的定义范围比角度2广;
- $cov(x,y)=<x,y>_T -
# [2020]Limitations of the Recall Capabilities in Delay-Based Reservoir Computing Systems
我们分析了具有Hopf范式的基于延迟的储层计算机的非线性存储容量,并数值计算了线性和高阶调用能力。一种可能的物理实现可以是具有外腔的激光器,通过电注入为其提供信息。储层系统的计算能力的任务无关量化是通过基函数的完整正交集来完成的。我们的结果表明,即使对于恒定的读出尺寸,总存储器容量也取决于信息输入周期(也称为时钟周期)和系统中的时间延迟之间的比率。对于大约1.6倍时钟周期的时间延迟,可以发现最佳性能。
目标是探索系统如何转变输入信号。因此,被选中的基函数$z(u_n)$得构成H空间,用于表述输入信号每个可能的变换。需评估的是系统近似这些基函数的能力。
$n$表示样本索引,例如$o_n=z(u_n)=u_{n-5}u_{n-2}$,用于评估系统能多好地执行将输入提前5步乘以输入提前2步的非线性变换;
一个基函数表示一种变换,对于这一种变换的容量可以表示为:
$$C=1-NRMSE^2$$
$$C=\frac{o^Ts(s^Ts)^{-1}s^To} {||o||^2N^2}$$
本文中,我们使用有限个归一化后的L多项式乘积作为构造的H空间的完备基;
对于IPC,输入是服从[-1,1]分布的,与具体的NARMA10任务无关,本文还计算了NARMA10的NRMSE;
对比了MC与NMSE,主要是说明了共振会使系统性能下降;
疑问:
- 为什么必须是正交基?避免容量计算时有重叠;
# [2021]Unifying framework for information processing in stochastically driven dynamical systems
动态系统是一种信息处理设备,它将来自外部环境的输入流编码为其状态,并通过状态转换对其进行处理。信息处理能力(IPC)是一个很好的工具,可以全面评估这些处理过的输入,提供黑匣子系统中未知信息处理的细节;然而,这种度量只能应用于时不变系统。本文将适用范围扩展到时变系统,并进一步揭示了IPC等价于更一般动力学系统中的多项式混沌(PC)展开系数。为了实现这一目标,我们要解决三个问题。首先,我们在时不变系统的IPC和PC展开之间建立了联系,PC展开是一种使用输入历史的正交函数作为基的多项式展开。我们证明了IPC对应于PC展开中基的系数向量的平方范数。其次,我们展示了遵循任意分布的输入可以用于IPC,从而消除了以前对特定输入分布的限制。第三,我们将传统的正交基扩展到时间和输入历史的函数,并提出了时变系统的IPC。为了表明我们方法的重要性,我们证明了我们的测量不仅可以揭示机器学习网络中的信息表示,而且可以揭示真实的、培养的神经网络中的信号表示。我们的广义测量为揭示自然界中遗留下来的各种物理动力学的信息处理能力铺平了道路。
IPC通过将系统状态分解为正交基来测量系统中处理和保存的输入历史的类型和数量;
如果系统可以保持延迟的处理过的输入信号(例如,系统状态包含各种多项式组合),我们应该可以通过对系统状态进行线性回归以模拟多项式;
状态矩阵对正交基具有仿真能力,IPC是用于评估状态矩阵能维持的输入信号的一个测量方法;
本文的方法能够在训练前后分解机器学习网络的计算能力,并澄清任务所需的计算组件是否已通过学习提取并存在于网络中;
实验1中,当NARMA10任务的输入是$[-\sigma,\sigma]$时,目标输出只需要二阶容量,当输入是$[0,\sigma]$时,目标输出需要一阶及二阶容量;
实验2中,用ESN模拟NARMA10任务,ESN的输入是[-1,1]的,实际输出是没有二阶IPC的,但是状态矩阵是具有二阶IPC的,但不是NARMA10任务所需要的目标二阶IPC;
NARMA10的定义为:
$$y_{t+1}=\alpha y_t+\beta y_t \sum_{s=0}^9 y_{t-s}+\gamma u_t u_{t-9}+\delta$$
$$u_t=\mu+\kappa \zeta_t$$
ESN的定义为:
$$x_{i, t+1}=\tanh(\rho \sum_{j=1}^N w_{i j} x_{j, t}+\iota w_{\mathrm{in}, i} \zeta_t)$$
为了在数值上构造完整的正交系统,我们采用了足够长的时间序列和足够大的度集和延迟族,通过用足够多的数据建立一个足够大的模型,我们可以建立一个高度准确的系统【时间步长大概是1e6~1e7】;
随着degree的上升,计算所需的最大延迟逐渐减少;
使用SVD,我们可以从状态时间序列中获得正交的时间基向量。这些向量可以用PC进行扩展,以获得每个基的系数向量。IPC相当于用作目标输出的PC的系数的平方范数。因此,扩展的基系数表示输入处理信息的量。
疑问:
ESN、IPC及NARMA10各自的输入信号分布?
原文作者表示,当ESN的输入服从[-1,1]时,只能有奇数阶的容量(是说输出还是状态?),当服从[0,1]时,才会有二阶容量。但是IPC的输入服从[0,1],会导致目标多项式重叠,总容量会超过上限。
用ESN作为NARMA10的近似模型,而不是把NARMA10看作task,那也无法解释啊,模型的输入不应该一致吗?
至少现在可以确定的是,IPC的输入分布必须是在[-1,1]的
需要做实验以确定:
$[-1,1]$ $[0,1]$ $[-\sigma,\sigma]$ $[0,\sigma]$
原文作者代码阅读:
- S1:ESN与IPC的输入均为$\zeta \in [-1,1]$,对状态矩阵进行IPC分解,各阶容量占比依次为27.453469,0.000514758,22.67197697,0.008146416,0.049350864,总容量为50.183458,秩为50;说明当ESN为对称输入时,没有处理二阶信息的能力;
- S2:为了展示二阶记忆函数,ESN的输入为$u \in [0,1]$,只计算了一阶与二阶容量,分别为17.1357与22.80877,IPC的输入依旧是$\zeta \in [-1,1]$;
- S3:ESN与IPC的输入均为$\zeta \in [-1,1]$,NARMA10的输入$u \in [0,\sigma]$,状态矩阵与输出都没有二阶与四阶容量;
- S4:尽管可以有各种输入分布,但IPC与ESN的输入分布应保持一致,但区间可以不一致;
# Deriving task specific performance from the information processing capacity of a reservoir computer
在储层计算文献中,信息处理能力经常被用来表征储层的计算能力。然而,目前尚不清楚信息处理能力与特定任务的绩效之间的关系。我们在一组标准的基准任务上证明,总的信息处理能力与特定任务的性能相关性很差。此外,我们将任务的归一化均方误差的表达式推导为单个信息处理能力的加权函数。从数学上讲,推导要求任务具有与用于计算信息处理能力相同的输入分布。我们在一系列违反这一要求的任务上测试了我们的方法,并发现只要任务输入序列的自相关时间不长,预测误差和实际误差之间就有很好的定性一致性。我们的方法为控制储层计算性能的原理提供了更深入的见解。它还增加了信息处理能力评估的效用,信息处理能力通常根据i.i.d.输入进行定义,即使特定任务提供来自不同分布的输入。此外,它还提供了降低优化物理储层(例如在光子系统中实现的物理储层)的实验成本的可能性。
- 本文目的:将IPCs与特定任务的性能显式关联起来,用IPCs推断RC在特定任务上的表现;
- 总IPC与特定任务的性能之间没有什么关联;
- 在特定任务的输入与IPC计算时的输入分布一致时,推导出IPCs的加权和与特定任务之间的显式关系;
- 当输入条件不满足时,分析加权和与任务性能之间的关系;
- 本文认为,IPCs表示重建衰减记忆函数在H空间中的独立基函数的容量,IPC的输入信号服从[-1,1]的独立同分布;
- 什么是衰减记忆函数?如何得到衰减记忆函数?
- 好像只针对一维回归任务,原作者邮件回复说动力系统在分类任务中不需要记忆能力,且分类任务具有高维输入与输出;
疑问:
- IPC是基于什么任务进行的?
- 没太看懂,为什么不直接分析目标输出需要的IPC?