软硬件协同设计技术与应用教育部工程研究中心在实时系统可用性、强化学习等方面开展了多组科研项目,并积极将相关成果转化为学术论文或发明专利。近日,博士研究生李丽颖的题为 “Learning-Based Modeling and Optimization for Real-time System Availability” 的学术论文被电气电子工程师协会 (Institute of Electrical and Electronics Engineers,IEEE) 旗下著名期刊 IEEE Transactions on Computers接收。该期刊影响因子3.131,同时也是CCF A类期刊。
课题背景及成果
随着晶体管的特征尺寸的缩小和系统集成的增加,由于软错误和硬错误导致的系统故障的可能性急剧增加。软错误是指由于高能粒子的碰撞和电磁干扰使得晶体管产生一些随机、临时的状态变化而导致的逻辑故障。该类错误的持续时间很短,不会永久损坏硬件。硬错误是由于电路老化引起的硬件故障,一旦形成就不会消失。 只有修复或更换硬件,才能消除硬错误。
尽管目前已经有很多研究致力于在系统的不同层面对软错误率进行了分析建模,但软错误的跨层传播相关的研究工作寥寥无几。此外,目前计算软错误率的工作大多是通过使用耗时的SPICE仿真工具,通常需要几个小时才能得出结果。 因此,基于SPICE仿真的方法不适用于例如航空电子设备等环境参数不断变化的实时应用。另外,除软错误外,功耗增加和芯片温度升高也加速了微处理器的老化,导致硬错误增加,这也大大降低了实时系统的可用时间。
为此,博士研究生李丽颖研究了软错误和硬错误对实时系统功能可用性的影响。为了克服基于SPICE仿真的方法耗时的缺点,提出了一种基于神经网络的跨层系统软错误率的预测方案,并针对有不同实时性要求的应用分别开发了基于交叉熵和强化学习学习的系统可用性优化技术。实验结果表明,与多个基准方法相比,所提出的基于交叉熵的方法可将实时系统可用性提高多达32%,而基于强化学习的系统可用性优化算法可进一步将系统可用性提高20%。
图1 可用性优化方法整体流程图