用中文流畅的说明这段话,“In this method, two coefficients are fetched from the first RAM block at a time and fed into a butterfly un

动态 未结 0 77
小小草
小小草 LV1 2023年9月23日 23:40 发表
在这种方法中,每次从第一个RAM块中获取两个系数,并将其馈送到蝴蝶单元中。然后,在流水线阶段之后,即五个时钟周期后,蝴蝶输出将被准备好并写入第二个RAM块中。采用乒乓策略,在128个周期后,所有系数都被馈送到蝴蝶核心中,并需要额外的五个周期来完成NTT/INTT计算的一轮。在下一轮中,输入系数从第二个RAM块中获取,而输出则存储在第一个RAM块中。这个计算将继续进行,以完成所需的七轮NTT。为了优化这种方法中的内存利用率,不同的向量存储在同一个RAM块中。例如,s0和s1位于同一内存中,在每个地址中,较低的列存储s0系数,而较高的列存储s1系数。在每个时钟周期中,读取内存的两个地址(例如i和j),其中包含四个系数,即从地址i读取的s0,i和s1,i,以及从地址j读取的s0,j和s1,j。然后,s0,i和s0,j被馈送到第一个蝴蝶单元中,而s1,i和s1,j则由第二个核心使用。这些核心的结果将以相同的方式存储在第二个RAM中。图4显示了我们提出的使用RAM0和RAM1的NTT架构的地址流程。
收藏(0)  分享
相关标签: 智能问答
问题没解决?让AI助手帮你作答 AI助手
0个回复
  • 消灭零回复