杂志简介
国际期刊可重构计算的旨在服务于大型社区的研究人员和专业工程师可重构计算的理论和实践方面的工作。
编辑聚光灯
国际期刊可重构计算的维持一个由世界各地的实践研究人员组成的编辑委员会,以确保手稿由研究领域的专家编辑处理。
特殊问题
最新的文章
更多文章从FPGA到支持云到FPGA的云:目前的技术状态
现场可编程门阵列(FPGA)的加速计算昂贵的应用和实现低功耗吸引了来自工业界和学术界的一个显著的关注。FPGA是有趣的,由于其设备的灵活性和reconfigurabiltiy。云计算成为对基础设施和计算资源的非物质化的一大趋势。它提供“无限”的存储容量和大量的数据和应用程序,使协作多个(不特定领域)的设计师之间更容易。在文献中,许多论文都分别调查云和FPGA和,更确切地说,他们的服务和挑战。由FPGA和云的无限容量的应用程序加速,预计越来越多的普及。随着越来越多的FPGA被部署在传统的云,它是适当的澄清什么是云FPGA和使用FPGA在当地得到解决的缺点。我们目前已经提出利用在云中使用FPGA的优势云FPGA作品进行了调查。我们在分类三军这些研究中突出自己的优点和局限性。本次调查的目的是在云FPGA激励进一步的研究。
FPGAs的科学代码的自动流水线和向量化
今天能够从像GPU和FPGA的加速器设备执行受益有一个庞大的身躯遗留科学代码使用。这样的遗留代码到设备专用并行代码手册翻译需要显著人工劳动,是更广泛的FPGA采用的主要障碍。我们正在开发一个自动化的优化编译器TyTra克服这一障碍。所述TyTra自流旨在编译传统Fortran代码基于FPGA的加速度,而施加适当的优化。我们提出了两个关键的优化,重点流程,自动流水线和矢量。我们的编译器前端提取物从传统的Fortran代码模式,可以流水线和量化。后端首先创建精细和粗粒管道,然后自动向量化的存储器访问和基于成本模型数据通路两者,生成用于FPGA目标上Amazon云在OpenCL-HDL混合工作溶液。我们的研究结果显示超过基线的OpenCL代码4.2×性能改进。
VIPAR:高层次设计太空探索并行视频处理架构
嵌入式视频应用现已涉足复杂的交通系统像自动车辆和驾驶员辅助系统。随着硅容量的增大,设计生产率差距为当前可用的设计工具长大。因此,高级综合(HLS)工具,以便通过移动的设计努力更高的抽象水平,以减少间隙出现。在本文中,我们目前VIPAR为在更高的设计级探索不同的视频处理架构的工具。首先,我们提出了专用于视频应用的并行参数化建筑模型。其次,针对这个建筑模型,我们有两个主要特点开发VIPAR工具:(1)经验模型引入估计基于硬件的利用率和工作频率的功耗。除此之外,我们推导出的方程用于在空间探索过程估计每个设计点的硬件的利用率和执行时间。(2)通过限定并行视频架构等的并行级,输入/输出端口的数量,像素分布模式,等等的主要特点,VIPAR工具可以自动产生用于硬件实现的专用体系结构。在实验验证,我们使用VIPAR工具自动生成赛灵思ZYNQ ZC706板绝对的多窗口总和差异立体匹配算法的高效硬件实现。我们成功通过迅速融合到我们的制度约束适合在功耗,硬件利用率和帧执行时间方面适当的设计,以提高设计效率。
在高性能可重构计算机上使用量子小波变换降维
在高能物理(HEP)中的粒子跟踪等应用中,多维时空测量的高分辨率和庞大的数据读出计数正成为当今的一个主要挑战。在这项工作中,我们建议将降维技术与量子信息处理相结合,应用于生成大量数据(如HEP)的领域。更具体地说,我们建议使用量子小波变换(QWT)来降低高空间分辨率数据的维数。量子小波变换利用量子力学原理,在处理大量信息的同时,减少了计算时间。我们开发了比以前报道的更简单和优化的仿真架构,对高分辨率数据执行量子小波变换。我们还实现了量子小波逆变换(IQWT)来精确地重建数据而不造成任何损失。这些算法是在基于fpga的量子仿真器上原型化的,该仿真器支持双精度浮点计算。在最先进的多节点高性能可重构计算机上使用高分辨率图像数据进行了实验工作。实验结果表明,所提出的概念为高能物理中粒子跟踪等应用产生的高空间分辨率数据降维提供了一种可行的方法。
时序翻译成一个架构:COTSon和HLS的协同(领域专业知识,通过设计HLS计算机体系结构)
将系统需求转换为底层表示(例如,寄存器传输层或RTL)是基于fpga的系统设计的典型目标。然而,识别最终架构所需要的设计空间探索(DSE)可能非常耗时,甚至在使用高级综合(HLS)工具时也是如此。在本文中,我们演示了我们的混合方法,它使用了HLS的前端,这样通过使用更高级别的抽象,DSE可以更快地执行,但不会失去准确性,这要感谢HP-Labs COTSon模拟基础设施与我们的DSE工具(MYDSE工具)的结合。特别地,这种被提出的方法被证明是有用的,它在比尝试在HLS中直接设计所有东西更短的时间内实现整个系统的适当设计。我们的动机问题是部署一种新的执行模型,称为数据流线程(data-flow threads, DF-Threads),它在尚未设计的硬件上运行。为了实现这个目标,在设计周期中直接使用HLS还为时过早。因此,我们方法的一个关键点在于在我们的仿真框架中定义第一个原型,并在模拟器中验证我们的新系统的关键性能指标之后,逐渐将设计迁移到Xilinx HLS中。为了解释这个工作流,我们首先使用一个简单的驱动例子,它包含了双向关联缓存的建模。然后,我们解释了如何推广这种方法,并描述了我们能够在AXIOM项目中分析的结果类型,这帮助我们将开发时间从几个月/周减少到几天/小时。
使用基于FPGA的硬件加速器的细胞神经网络的片上存储器,只有:设计和基准与英特尔Movidius神经计算棒
在过去的几年中,卷积神经网络已经被用于不同的应用,感谢他们的潜力,以与其他深度学习方法相比,使用的参数数量的减少执行任务。但是,消耗功率和内存占用约束,具有精度和等待时间要求的典型的边缘和便携式应用中,通常发生碰撞。由于这些原因,商用类硬件加速器已经成为流行,这要归功于其架构设计用于一般卷积神经网络模型的推断。然而,由于它们的价格,以实现符合特定的卷积神经网络模型,在等待时间和功率消耗方面有希望的结果的硬件体系结构的可能性现场可编程门阵列代表一个有趣的视角。在本文中,我们提出了一个完整的片上的现场可编程门阵列的硬件为可分离的卷积神经网络,它被设计为一个关键词识别应用促进剂。我们在为英特尔Movidius神经计算棒以前的工作中实现的模型开始。对于我们的目标,我们适当地通过一个位真模拟量化这样一个模型,我们实现了一个专门的架构完全采用片上存储器。比较在不同的现场可编程门阵列系列由Xilinx和英特尔与神经计算棒的执行结果的基准测试实现。分析表明,每推理结果较好推断的时间和精力,可以具有相当准确度较高的设计工作和开发时间成本通过FPGA的解决方案获得。