一、一种硬件预取机构及其对系统影响的研究(论文文献综述)
许柯[1](2021)在《深度神经网络加速器软硬件协同设计方法研究》文中研究指明深度神经网络(Deep Neural Network,DNN)在计算机视觉、自然语言处理、语音识别等领域取得了显着的成果。然而,高昂的计算和存储成本给基于DNN算法的部署,尤其是面向硬件资源有限的嵌入式设备,带来了巨大的挑战。近几年,关于神经网络压缩的研究逐渐成为学术界和工业界关注的热点方向。然而,部分压缩算法设计并没有与实际的加速器场景相结合,导致算法的理论压缩性能与实际硬件加速效果存在巨大差距。为了解决此问题,本文将模型剪枝、量化的压缩算法与基于现场可编程门阵列(Field-Programmable Gate Array,FPGA)的硬件架构设计相结合,实现了高吞吐率、低延时的DNN加速器。本文采用软硬件协同设计的方法,从硬件约束的压缩算法、算法硬件耦合优化、硬件设计适配压缩算法和系统级的目标检测加速器应用四个层次展开深入研究,主要的创新研究成果包括:(1)从硬件约束的压缩算法层面,本文以优化的遗传算法为基础,结合硬件约束对模型各层的剪枝率和量化位宽实现高效搜索。剪枝阶段,本文提出了基于模型参数量与计算量多目标优化策略,极大地缓解了因模型参数计算密度不同导致的模型剪枝结果不均衡的问题。实验表明,在Image Net数据集上,本文所提出的剪枝方案可以使Res Net50模型的计算量减少80%且没有精度损失;量化阶段,本文提出了基于小样本量化学习的快速评估方法,有效缓解了因量化损失导致的量化搜索评估与微调结果相关性差的问题并极大的提高了混合精度搜索的效率。在CIFAR-10和Image Net数据集上的实验结果表明,本文的混合精度方法优于其他的混合精度和均匀量化方法。(2)从算法硬件耦合优化层面,本文充分利用了剪枝模型的稀疏性和量化模型的数据独立性,提出了先累加后乘法的稀疏卷积(Accumulate-Before-Multiply Sparse Convolution,ABM-Sp Conv)计算方法。将传统的逐点乘累加(Multiply Accumulate,MAC)耦合卷积计算模式,通过合并同类项的方式拆解为累加与乘法操作解耦的两阶段卷积操作,然后根据模型权重的稀疏编码跳过零值计算,从理论上减少了卷积计算阶段乘法的计算次数,提高了稀疏卷积的计算效率和并行能力。(3)从硬件设计适配压缩算法层面,利用ABM-Sp Conv计算方法,本文提出了一个由“大”累加器阵列和“小”乘法器阵列组成的异构稀疏卷积计算单元,使其可以独立地执行累加和乘法两个阶段的卷积计算,以提供更大的灵活性来平衡FPGA片上逻辑和DSP(Digital Signal Processor)资源的利用。其次,本文采用异步的卷积设计,每个计算单元都有本地缓冲区和控制逻辑,可以独立执行具有不同工作负载的卷积任务,缓解了因稀疏数据的不规则性造成的计算负载不均衡的问题。最后,加速器采用全参数化的设计,利用自主开发的自动化设计空间探索引擎实现了从嵌入式平台到高性能FPGA板卡的部署。(4)从系统级的目标检测加速器应用层面,本文实现了一个基于YOLOv2的FPGA实时目标检测加速器系统。首先利用算子融合、剪枝、量化等压缩方法,实现了YOLOv2模型参数量20倍压缩,计算量7倍压缩。压缩模型在PASCAL VOC 2007数据集上保持74.45%的平均查准率均值(mean Average Precision,m AP)。然后,设计了包含最大池化在内的深度流水化稀疏硬件加速器架构。最后,借助参数空间探索将YOLOv2模型部署到Intel Arria-10 GX1150 FPGA板卡上,达到了72帧/秒的实时检测速度。
曹建立[2](2021)在《不规则任务在CPU-GPU异构平台上的几个优化方法》文中研究表明不规则任务指分解、映射以及运行过程中,在数据分割、流程控制、内存访问等方面表现出不规则性质的任务。不规则任务在并行平台上执行时,会引发控制流程分歧、负载不均衡、数据访问局部性差等问题,导致系统资源利用率下降。为了追求高性能和低成本,大量不规则任务需要在CPU-GPU异构平台上运行。因此研究不规则任务在CPU-GPU平台上的实现及优化,有着现实意义和价值。本文研究了动态计算量和数据划分不均匀类型的不规则任务在CPU-GPU平台上的并行分解、映射与运行过程。从并行算法设计和硬件平台改进的角度出发,采用线程任务合并、动态并行、流水线结构改进等手段,优化了不规则任务求解算法的性能。本文主要研究内容如下:(1)研究了具有动态计算量的不规则任务在CPU-GPU异构平台上的实现及优化。以图像区域填充算法为例,提出了基于连通图原理和并查集算法的多种子、多堆栈并行填充方案,采用合理的任务划分粒度对填充区域进行随机分割,通过线程间竞争和协作,完成整个区域的填充。针对并行算法中的填充和合并两个关键步骤,实现和对比了在CPU上的多线程并行方案与GPU上的CUDA方案;综合衡量这些方案的成本、收益以及数据传输代价,选择最佳方案组合为完整算法。对于批量填充任务,设计了 CPU-GPU两级流水线模型来进一步提升性能。实验证明,并行后算法在实际场景中具备实时性,针对该类型不规则任务的优化取得了明显收益。(2)在单节点CPU-GPU平台上,研究了数据划分不均匀类型不规则任务的并行实现。针对分解后子任务计算量存在较大差异的N皇后问题变体2候选解评价算法,在CPU和GPU上采用了改变任务分解粒度、子任务组合、CUDA动态并行等手段,探索了数据划分不均匀任务的优化方法,并通过模拟退火算法证实了优化手段的有效性。基于上述研究,在含有多个CPU-GPU节点的集群上,探索了 GPU集群上节点间和节点内任务划分和映射的方法。结合MPI技术构建了岛模型-主从模型的两级并行遗传算法用于求解N皇后问题变体2。与目前同类型的算法相比,本文算法不但提升了求解规模,还加快了求解速度。(3)探索了通过改进GPU流水线执行模型来提升不规则任务执行效率的方法。基于GPGPU-Sim模拟器观察了不规则任务运行时的缓存命中率、流水线空闲周期等微观指标,发现了 GPU执行过程中的流水线周期性停顿问题,并揭示问题产生原因是GPU中流式多处理器的指令缓存发生冷缺失。依据容量对Rodinia、ISPASS-2009、CUDA SDK中31个程序所包含的86个Kernel进行了分类,分析了 Kernel容量同缺失率的关系,设计了适合GPU执行模型的指令缓存预取机制。实验证明,预取机制可有效减少指令缓存冷缺失造成的访存长延迟和流水线停顿现象,相比基准模型提升了平均12.17%的性能。同大缓存方案相比,该机制具有硬件代价低、受益程序多的优势。
李青青[3](2021)在《基于RISC-V多核处理器的Cache及其一致性协议研究》文中指出现代处理器普遍采用高速缓冲存储器(Cache)来缓解处理器与主存储器之间的性能差距。然而,Cache的访问速度随容量的增大而降低,对于频率要求与处理器核几乎保持同频的L1 Cache而言,其容量注定不能很大,从而限制了高性能处理器的发展。因此,探索Cache容量和频率之间的平衡,设计高频的大容量Cache具有重要的现实意义。此外,随着集成电路技术的发展,人们对于处理器性能的需求日益提高,多核乃至众核处理器成为必然趋势,而由此带来的存储一致性问题也日益严峻。Cache一致性是保证多核处理器设计正确性的必要条件,研究低延时的高效Cache一致性协议对提升多核处理器的整体性能十分关键。RISC-V是加州大学伯克利分校提出的一种开源指令集架构,其免费、灵活、可定制等特性使其迅速成为处理器领域的研究热点。本文基于RISC-V多核处理器,研究Cache结构和Cache一致性协议,旨在提升处理器的整体性能,主要工作内容和研究结果归纳如下。1.基于2分频存储体,设计了一种高频、低功耗、大容量的指令Cache—D2MB-ICache。为了保证D2MB-ICache的功能正确且在不降频的前提下扩容,设计了存储体的划分机制、反向时钟以及一个控制跳转访问的电路模块。VCS仿真和DC综合结果表明,与传统指令Cache相比,容量相同和容量扩大一倍的D2MB-ICache的最大工作频率分别提高了14.6%和6.8%,其整体性能也分别提高了10.3%和3.8%。此外,当容量为16 kB、32 kB、64 kB和128 kB时,D2MB-ICache的功耗开销分别降低了0.5%、16.1%、24.3%和24.8%。2.对TileLink协议中现有的Cache一致性协议进行改进,设计了一种低延时、高效的Cache一致性协议—DTBDN。该协议不仅定义了Cache的一致性操作,还涵盖了IO设备的访存操作流程。不同于原有的Cache一致性协议,DTBDN协议将私有副本和共享副本彻底区分开来。在DTBDN协议中,共享副本直接从L2 Cache中获取,从而避免了多个远程读响应同时发出的问题,降低了总线占用率和缺失代价。本文基于Gem5模拟器对DTBDN协议进行了性能测试。实验结果表明,在RISC-V四核处理器系统中,DTBDN协议的性能较MESI和MOESI协议分别提高了2.4%和1.6%;在八核处理器系统中,DTBDN协议的性能比MESI和MOESI协议提升了3.6%和2.5%。3.采用基于仿真的验证方法,构建了面向RISC-V多核处理器存储系统的验证平台。首先,分析验证目标系统的特性,提取Cache一致性协议和多核处理器的典型测试场景的功能点,其中典型测试场景主要用于多核处理器的并行操作验证和边界测试;其次,基于System Verilog语言建立了目标存储系统的测试平台;最后,采用随机测试为主、定向测试为辅的测试方法,基于汇编语言和C语言设计了面向RISC-V多核处理器存储系统的测试程序。验证平台最后输出的功能覆盖率报告为100%,达到了验证要求。
赵盛烨[4](2021)在《基于云计算技术的区域安全通信技术研究》文中研究表明基于云计算技术的区域安全通信技术是计算机与通信的超融合技术,解决了无线通信技术中按身份分配不同通信权限的问题。其中,“云计算技术”是基于实时数据通信的控制方法,“区域”描述了精准限定的物理覆盖范围,“安全通信技术”是特定区域的受控通信控制技术。前人在通信速率和便捷程度的需求下,研发出的通信系统往往只是解决了通信的效率、可靠性、便捷性问题,较少考虑通信技术的发展对保密机构的破坏和这些机构的特殊需要,在各类通信协议的标准当中也不存在这样的信令集供特殊功能的通信设备研发。同时,当前在网的2G-3G通信系统出于通信效率考虑较少地使用了计算机辅助单元,因此作者在研究提升云计算算法效率的基础上,将2G-3G通信系统进行上云改良,再结合4G和5G通信协议,研究通信系统对移动台终端鉴权和定位的原理,并通过科研成果转化实验,在一定区域范围内对特定终端用户群体实现了这一目标,同时该固定区域之外的移动台用户不受该技术体系的影响。文章以区域安全通信为研究对象,结合当前云计算、人工智能的新兴技术展开研究,具体工作如下:1.提出一种云环境下异构数据跨源调度算法。针对云计算中异构数据跨源调度传输耗时问题,现有的调度方法很多都是通过启发式算法实现的,通常会引起负载不均衡、吞吐量和加速比较低的问题。因此,本文提出了一种云环境下异构数据跨源调度方法,在真正进行调度之前进行了数据预取,大大减小了调度时的计算量,从而减小了调度资源开销。然后,更新全部变量,对将要调度的异构数据跨源子数据流质量进行排列,并将其看做子流数据的权重,每次在调度窗口中选择异构多源子流数据中最佳质量的子流数据进行调度传输,直到全部数据子流处理完毕。实验结果表明,本文所提的方法能够在云环境下对异构数据进行跨源调度,同时具有较高的负载均衡性、吞吐量和加速比。2.提出一种云环境下改进粒子群资源分配算法。云计算中,云平台的资源分配,不仅面对单节点的资源请求,还有面对更复杂的多节点的资源请求,尤其对于需要并行运行或分布式任务的用户,对云集群中节点间的通信都有非常严格的时延和带宽要求。现有的云平台往往是逐个虚拟机进行资源分配,忽略或者难以保障节点间的链路资源,也就是存在云集群多资源分配问题。因此,本文提出了一种新的云资源描述方法,并且对粒子群云资源分配方法进行改进。仿真实验结果表明,本文方法能够有效地对云资源进行分配,提高了云资源的平均收益和资源利用率,在资源开销方面相比于传统方法减少了至少10%,而且有更短的任务执行时间(30ms以内)。3.提出一种智能化区域无线网络的移动台动态定位算法。无线网络影响因素较多,总是无法避免地产生定位误差,为取得更好的可靠性与精准度,针对智能化区域无线网络,提出一种移动台动态定位算法。构建基于到达时延差的约束加权最小二乘算法,获取到达时延差信息,根据移动台对应服务基站获取的移动台到达时延差与到达角度数据,利用约束加权最小二乘算法多次更新定位估计,结合小波变换,架构到达时延差/到达角度混合定位算法,依据智能化区域无线网络环境的到达时延差数据采集情况,将估算出的移动台大致位置设定为不同种类定位结果,通过多次估算实现移动台动态定位。选取不同无线网络环境展开移动台动态定位仿真,分别从到达时延测量偏差、区域半径以及移动台与其服务基站间距等角度验证算法定位效果,由实验结果可知,所提算法具有理想的干扰因素抑制能力,且定位精准度较高。4.构建了基于云计算技术的区域安全通信系统。系统包括软件系统和硬件系统,整个系统是完整的,并且已经得到了实践的验证。通过SDR软件定义的射频通信架构,实现系统间的通信超融合。对于非授权手机与非授权的SIM卡要进行通信阻塞,同时要对手机与SIM卡分别进行授权,当有非授权手机或者授权手机插入非授权SIM卡进入监管区域中后,要可实现对其通讯的完全屏蔽和定位,软件系统应对非法用户进行控制,所有非法用户的电话、短信、上网都应被记录和拦截。硬件系统主要对顶层模块、时钟模块、CPU接口模块、ALC模块、DAC控制模块进行了设计。同时,本文使用改进的卷积定理算法提高了信号的保真度。5.智能化区域安全体系研究。未来的区域安全管理员还需要对多个进入的移动台终端进行鉴别,解决谁是终端机主、是否有安全威胁、真实身份是什么等问题,针对这些问题建立智能化区域安全通信体系,并将其保存在存储设备中,该体系可以实现自我学习。最后,通过实际应用对上述研究工作进行了验证,取得了较好的应用效果,满足了特定领域特定场景下的区域安全通信需求。
王子潇[5](2021)在《基于异构计算平台的深度卷积神经网络加速方法研究》文中认为基于深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的算法在计算机视觉领域拥有至关重要的地位,相比与传统算法,其针对图像分类、目标检测、实例分割等任务均具有更高的准确率,成为近年来学术和工业界的主要研究方向。然而,由于DCNN固有的高计算负载、高参数量的属性,针对功耗、存储限制较为严苛的场景,实现高吞吐率、低延时的推理运算仍然面临诸多挑战。本论文提出了一种针对现场可编程门阵列(Field-Programmable Gate Array,FPGA)与中央处理器(Central Processing Unit,CPU)组成的异构计算平台的软、硬件协同设计方法。本文的主要贡献如下:(1)在硬件设计层面,本文设计了一种基于CPU+FPGA异构计算平台的神经网络加速器。该加速器基于异步计算卷积内核的思想,成功将ABM-Sparse算法拓展到基于CNN的目标检测领域。该加速器可根据高吞吐率、低延时等不同检测场景,灵活切换异构工作模式。(2)在算法设计层面,本文设计了一套基于Roofline模型的端到端的CNN优化引擎。引擎中包含一种新提出的基于Roofline模型的剪枝算法,新提出的剪枝算法从如何发挥FPGA最高计算效率的角度重新审视了前人的工作,以计算机体系结构中经典的Roofline模型为依据,保证算法层面的剪枝可以带来更高的硬件部署增益。同时,引擎对传统的CNN模型压缩算法进行了改进和集成,可实现基于软硬件协同设计思路的端到端的CNN模型压缩。(3)本文并设计了一套自动化硬件设计空间探索引擎。可以实现由优化后CNN模型到FPGA硬件部署的自动化设计空间探索流程,并实现了一套可进行算法实时加速的FPGA演示平台。在众多基于DCNN的算法中,You Only Look Once(YOLO)系列算法展现出了在检测准确率和检测速度上的很好平衡,本文使用YOLOv2算法作为评估设计有效性的标准。实验结果表明,针对高吞吐率需求的场景,本文的设计可在Intel Arria-10 GX1150 FPGA上实现2.27万亿次操作/秒(Tera Operations Per Second,TOPS)的吞吐率,达78.7帧/秒(Frames Per Second,FPS);针对低延迟需求的场景,本文的设计可在同平台上实现24毫秒的单帧推理延时,达41.7 FPS。同时,YOLOv2模型最终部署的平均精度均值(mean Average Precision,m AP)在VOC2007上达到74.45%,相比官方全精度模型(m AP 76.8%)的准确率损失控制在3个百分点以内。
杜俊慧[6](2021)在《嵌入式Flash缓存预取加速技术研究》文中提出嵌入式Flash由于成本、存储密度等优势日益成为微控制器中重要的程序、数据存储器。然而嵌入式Flash相对较慢的读取速度,制约着微控制器的整体性能,因而提升Flash中指令和数据的读取性能十分重要。当前研究主要采用缓存和预取技术对Flash进行读取加速,但是仍存在两个问题:1)缓存的行大小是固定的,不利于适配各种应用程序;2)当前预取技术主要是顺序预取,准确率相对较低。因此如何进一步优化缓存和预取技术对微控制器中嵌入式Flash的读取加速有重要的工程意义。本文首先针对缓存适配性低的问题,提出缓存行长自适应技术;在程序运行的过程中,硬件根据所观察到的程序局部性的变化对缓存的行大小进行动态重构,使缓存行长在运行时向更优的大小变化,以取得更好的加速效果。其次,针对缓存访问过程中存在功耗浪费和缺失代价高的问题,提出路命中预测技术,通过预比较和路预测结合的方式进行优化。再次,针对顺序预取准确率低的问题,提出跨步预取技术,对常数步长访问类别中未被缓冲的数据进行预取,而不受步长大小的影响,并且避免对不规则访问进行不必要的预取,节省功耗。再者,针对低频时读取Flash速度慢的问题,对Flash控制器的架构进行改进,实现了低频时对Flash的连续单周期读取。最后,设计并实现了一款嵌入式Flash控制器,并集成到SoC系统中,搭建了验证平台进行功能仿真和FPGA验证。实验结果表明,采用缓存行长自适应技术后,CPU运行Core Mark的性能提升高达103%;采用路命中预测技术后,CPU运行MD5的性能进一步提升了2%。采用跨步预取技术后,DMA读取Flash中数据的速度提升高达50%。控制器的面积仅增加8%,功耗降低了23%。
贺云波[7](2019)在《基于BOOM的硬件预取技术的研究与实现》文中研究表明在现代计算机体系结构中,处理器需要不断与存储系统进行交互以读取和写入数据。但随着现代处理器架构和微体系结构设计技术的不断进步与集成电路工艺制造水平的不断提高,数据的读写访问速度与处理器处理数据速度之间的差异越来越明显,从而制约了处理器整体性能的提升。分层次存储系统结构的出现在一定程度上缓解了该问题,但当处理器在一级高速缓存中访存请求不命中时,仍然需要向下级存储结构请求数据。在这个过程中,处理器需要较多的时钟周期等待数据的返回响应,从而产生较大的时钟延时,影响处理器性能。而预取技术能够使处理器在产生访存失效之前,将相关数据取回到高速缓存,从而达到隐藏访存失效时间,提高处理器运行性能的目的。BOOM是一款采用RISCV精简指令集的典型超标量乱序处理器。但是,在BOOM的设计中,没有实现硬件数据预取相关功能的结构单元,因而其处理器性能仍有进一步提升空间。本文以BOOM处理器作为实验平台,详细总结介绍了预取技术的分类和原理,并通过分析BOOM乱序处理器中访存通路相关单元模块,如一级缓存单元、虚实转换模块和LSU单元等结构的设计特点;结合其设计特点,在该处理器平台上,为一级数据缓存设计实现了顺序硬件数据预取和虚拟地址步长推断预取方案;另外,为BOOM处理器添加了针对缓存模块读写操作的性能计数器,实现了对于处理器运行时缓存性能参数的监测;最后基于SPEC CPU 2006测试程序使用Xilinx zc706FPGA开发板对BOOM处理器性能进行测试,通过对比FPGA仿真测试性能数据和不同方案设计原理,分析总结各个实验方案的优缺点。最终实验结果表明,本文设计添加的顺序硬件预取模块在测试程序中最好实现了处理器3%的性能提升,虚拟地址步长推断预取方案在测试程序中最好实现了处理器5%的性能提升。综合来看,两种数据预取方法都达到了设计的最初目的。
于广路[8](2019)在《命名数据网络路由高性能改进》文中认为互联网用户对数据的内容感兴趣,而并不关心它的位置在什么地方。但是TCP/IP网络依然需要建立端对端的连接进行通信,由于路由节点不具备数据缓存的能力,网络中重复的数据无法复用。基于连接的通信双方位置变化之后需要重新建立连接,移动性支持不友好。通信的数据如果没有应用层加密数据不安全。TCP/IP存在诸多的问题,需要一种设计一种全新的网络模式来解决。命名数据网络(NDN)可以满足以内容为需求的全新的网络模式,有着名字路由,数据缓存,数据包加密等优点,很好的解决了当前TCP/IP网络设计上的缺陷。但是NDN的研究大多关注协议的本身,这种全新的网络在过渡和部署阶段面临着很大的挑战,需要高性能的软件路由可以工作在现有的通用服务器上,避免大规模的硬件升级带来的巨大成本。并本文主要设计并实现了基于命名数据网络的高性能的软件路由,并通过各种优化技术使其可以达到较高的包转发率的性能目标。本文分析了当前硬件平台实现高包转发率的软件路由的性能瓶颈,然后设计了查找算法和实现策略来消除这些瓶颈。针对访存次数较多的名字前缀查找算法,本文提出了二阶布隆过滤器的新颖数据结构以减少对内存访问的次数,使得对于名字的查找在CPU缓存上就可以完成而不需要访问内存;使用基于用户态的网络数据包处理的技术,避免了操作系统内核协议栈频繁I/O中断问题,加快网络数据包的处理速度;同时从微体系结构分析了网络包转发流程中存在的性能瓶颈,然后设计了两种预取友好的数据包预取技术来隐藏DRAM访问延迟,减少CPU流水的停顿;使用多核编程和网卡多队列设计将网络包处理固定在特定逻辑处理器上以避免缓存丢失问题。本文在通用平台硬件上部署了这个实现,并分析了对不同的预取策略,线程数量,转发路由表大小多个方面验证对包转发率的影响。数据结果分析显示该实现在数据包大小为100个字节的情况下,可以实现10Mpps的包转发速率和10Gbit/s线速吞吐量,达到了本文的设计目标。
钱程[9](2019)在《微处理器存储体系结构优化关键技术研究》文中研究指明大数据时代的来临加剧了本就已很严重的存储墙、带宽墙以及功率墙问题,也使得当前的计算机系统在处理相关的数据密集型应用时,存储系统往往会成为整个系统的性能瓶颈。近年来一些针对性的存储优化技术以及新型存储结构、介质等为存储结构的发展提供了可能性。本文面向存储结构中真实存在的各种问题,围绕从各方面对存储结构进行优化来展开,基于不同存储结构的优势与不足,针对性的设计优化框架来提高存储系统的性能;通过合理的利用新型存储结构的存储内计算特性,以全新的视角探究将存储系统作为加速器的可能性。在目前通用存储系统以及新型存储结构的框架下,本文重点解决三个问题:如何在当前多级复杂存储结构的框架下充分挖掘预取技术的潜力;如何在目前DRAM可扩展性已经乏力且新型存储结构存储容量并无很大提高的情况下,通过压缩技术增大其有效容量;如何合理的利用当前新型三维存储结构的逻辑层进行存储内计算,针对某类重要应用进行加速。本文取得的主要研究成果如下:1.提出了一种面向多层存储结构的优化预取效率方法CHAM(Composite Hierarchy-Aware Method for improving Prefetch Efficiency)。硬件预取一直以来都是提升系统性能的重要方法。然而硬件预取的效率在很大程度上取决于预取的准确率,若准确率较低的话,预取器可能会降低系统的性能。之前有工作提出在两层Cache结构上进行自适应性预取的方法,这种方法在两层Cache结构上可以提升系统性能,而在更为复杂的存储系统中,例如三层的Cache结构,所取得的性能加速就比较有限。CHAM部署在存储系统中的中层Cache中,使用运行时的预取准确率作为评估参数。CHAM中包括两个工作:1)一种动态自适应的预取控制机制,用于在实时针对预取指令调度的优先级以及预取数据的传输层次进行调度。2)一种以提高预取率为目的的混合型Cache替换策略。2.提出了一种提升三维存储结构容量的压缩管理机制CMH(Compression Management in the Hybrid Memory Cube)。由于受到DRAM位元可扩展性以及功耗密度的影响,单个HMC的物理存储容量很有限,而且并不太可能在未来有明显的增长。因此,在应对大数据时代的高性能应用程序时,HMC的存储容量受限将是一个非常严重的问题。针对新型存储系统容量提升不高且后继乏力的情况,提出了一个用于增长HMC有效存储容量的压缩管理机制CMH。CMH部署在HMC的逻辑层,通过在数据传输的过程中压缩数据以及在运行时对HMC中DRAM层存储的数据进行选择性的压缩。CMH可以有效的提高存储容量,同时也节省了运行时所消耗的带宽。3.提出了使用混合存储块(HMC,Hybrid Memory Cube)进行加速的方法,HMCSP(CSR-based SPMV in HMC)与CGAcc(CSR-based Graph Traversal Accelerator on HMC)。HMC作为一种新型的三维存储结构,其在有计算功能的逻辑层上堆叠负责存储数据的DRAM层。得益于HMC独特的存储内计算(PIM)特性以及非常短的传输延迟,将HMC作为加速器优化一些常用的应用程序是一种很有前景的研究点。HMCSP是一种利用HMC逻辑层的PIM部件来降低传输延迟,提高性能的方法;CGAcc利用存储内预取器,基于HMC的三维结构,部署在其逻辑层上以利用其PIM部件以及很短的传输延迟,并通过将预取流水线化来提高存储层次的并行,进而对程序进行优化。对存储系统的优化一直以来都是研究的热点,然而由于现在存储技术的飞速发展,对存储的优化仍有相当大的空间。本文以当前通用的处理器存储架构,以及一些新型的存储架构为研究基础,提出并设计实现了若干针对目前存储系统中的性能、容量等问题的优化技术及框架。本文的所有工作都经过了大量实验的验证,结果也表明对于存储系统的优化是实际有效的,能够应用于未来存储系统的设计与实现。
张洋[10](2018)在《高效能GPU微体系结构关键技术研究》文中研究说明拥有强大运算能力和高能效的多核/众核处理器是提升高性能计算机系统性能的关键。本文探索一种新型众核处理器体系结构,使得其能够满足未来高性能的需求并兼顾高能效,从而能够应用于下一代E级超级计算机系统中。本文对众核处理器中一个最常用的处理器GPU进行了深入研究,取得的研究成果主要包括以下几个方面:1.提出了基于局部性保护和延迟隐藏的线程束调度方法。本章在现有的线程调度器基础之上,设计和实现了一个性能更优的调度器,它能够更好地维持数据局部性和隐藏长访存延迟。此方法在不同测试程序中能获得相对基准方法平均2.2%的性能提升,而总的硬件开销可以忽略。2.提出了一种基于指令PC(Program Counter)的cache内的数据局部性保护方法,用来保持数据局部性。本章对传统的LRU替换策略进行了改进,设计了一种基于PC信息的局部信息收集器。此外,还设计了一个与改进后的LRU单元协同的cache分配单元,来更好的分配cache块中的优先级,优化逐出策略。它可以在低硬件开销下得到超过基准方法平均5.0%的性能改善。3.本文提出了一种协同的cache管理和线程束调度方法。它利用cache收集的局部性信息来同时指导cache管理和线程束调度的过程。本文利用局部性信息收集器的信息,提出了两种线程束调度方法,一种是基于重用信息的线程束重排方法(CWLP),另一种是基于重用信息的线程束限流方法(CTLP)。CWLP能够获得相对最新调度方法平均4.8%的性能提升。CTLP方法能将平均的性能提升13.6%。
二、一种硬件预取机构及其对系统影响的研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一种硬件预取机构及其对系统影响的研究(论文提纲范文)
(1)深度神经网络加速器软硬件协同设计方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
主要符号对照表 |
1 绪论 |
1.1 研究背景及意义 |
1.2 论文研究内容概述 |
1.2.1 神经网络压缩算法概述 |
1.2.2 目标检测算法概述 |
1.2.3 基于OpenCL的FPGA设计方法 |
1.3 论文主要贡献 |
1.4 论文章节组织结构 |
2 神经网络加速器软硬件研究进展 |
2.1 模型剪枝与量化算法研究进展 |
2.1.1 模型剪枝 |
2.1.2 模型量化 |
2.2 神经网络加速器研究进展 |
2.2.1 传统神经网络加速器设计 |
2.2.2 新型神经网络加速器设计 |
2.3 本章小结 |
3 基于多目标优化的模型剪枝搜索算法 |
3.1 引言 |
3.2 多目标模型剪枝理论建模 |
3.2.1 模型内存占用目标 |
3.2.2 模型计算负载目标 |
3.2.3 模型计算密度 |
3.3 多目标优化的模型剪枝搜索框架 |
3.4 面向稀疏架构搜索的遗传算法设计 |
3.4.1 种群初始化方法 |
3.4.2 变异与交叉算子优化 |
3.5 实验结果分析 |
3.5.1 实验设置 |
3.5.2 CIFAR-10的实验结果及分析 |
3.5.3 ImageNet的实验结果及分析 |
3.5.4 消融实验分析 |
3.6 本章小结 |
4 基于强相关性的混合精度量化搜索算法 |
4.1 引言 |
4.2 混合精度量化搜索框架 |
4.3 混合精度量化模块设计 |
4.3.1 基于混合精度的卷积层设计 |
4.3.2 基于混合精度的激活层设计 |
4.4 小样本混合精度量化微调策略 |
4.4.1 卷积微调 |
4.4.2 激活微调 |
4.4.3 批归一化微调 |
4.5 基于遗传算法的混合精度量化搜索 |
4.6 知识蒸馏混合精度量化训练策略 |
4.7 实验结果分析 |
4.7.1 实验设置 |
4.7.2 CIFAR-10的实验结果及分析 |
4.7.3 ImageNet的实验结果及分析 |
4.7.4 消融实验分析 |
4.8 本章小结 |
5 稀疏神经网络加速器软硬件协同设计 |
5.1 引言 |
5.2 基于先累加后相乘的稀疏卷积算法设计 |
5.2.1 ABM-SpConv计算架构 |
5.2.2 量化对计算密度的影响 |
5.2.3 并行性和数据共享探索 |
5.3 硬件加速器架构设计 |
5.3.1 设计挑战 |
5.3.2 整体架构 |
5.4 硬件加速器理论建模 |
5.4.1 性能建模 |
5.4.2 带宽建模 |
5.4.3 资源建模 |
5.5 设计空间探索 |
5.5.1 卷积神经网络模型准备 |
5.5.2 加速器架构搜索 |
5.6 稀疏加速器性能评估 |
5.6.1 实验设置 |
5.6.2 性能与资源分析 |
5.6.3 FPGA加速器性能对比 |
5.7 本章小结 |
6 目标检测加速器软硬件协同设计 |
6.1 引言 |
6.2 YOLOv2模型算法压缩 |
6.2.1 模型算子融合 |
6.2.2 YOLOv2剪枝压缩 |
6.2.3 YOLOv2量化压缩 |
6.3 YOLOv2硬件加速器架构设计 |
6.3.1 整体架构 |
6.3.2 计算内核设计 |
6.3.3 访存设计 |
6.3.4 其他功能单元设计 |
6.4 YOLOv2加速器设计空间探索 |
6.5 YOLOv2加速器性能评估 |
6.5.1 实验设置 |
6.5.2 对比最先进的目标检测加速器 |
6.5.3 实时目标检测加速器系统展示 |
6.6 本章小结 |
7 总结与展望 |
7.1 论文工作总结 |
7.2 未来工作展望 |
参考文献 |
作者简历及攻读博士学位期间取得的研究成果 |
学位论文数据集 |
(2)不规则任务在CPU-GPU异构平台上的几个优化方法(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景与意义 |
1.1.1 不规则任务 |
1.1.2 CPU-GPU异构平台 |
1.1.3 研究意义 |
1.2 国内外研究进展 |
1.2.1 任务调度优化方案 |
1.2.2 存储系统优化方案 |
1.2.3 预取机制优化方案 |
1.3 本文主要研究内容 |
1.4 本文组织结构 |
2 CPU-GPU平台上动态计算量任务的并行优化 |
2.1 区域填充的不均衡 |
2.1.1 动态计算量任务 |
2.1.2 图像区域填充问题 |
2.1.3 区域并行填充算法 |
2.2 种子填充和反向填充算法 |
2.3 并行区域填充算法设计 |
2.3.1 相关概念的定义 |
2.3.2 算法设计 |
2.3.3 线程同步和优先级问题 |
2.3.4 填充阶段GPU堆栈的构造 |
2.4 实验及结果 |
2.4.1 实验设计 |
2.4.2 算法流程对比 |
2.4.3 算法最优参数的获取 |
2.4.4 单张图像性能对比 |
2.4.5 批量图像流水线模型 |
2.5 本章小结 |
3 CPU-GPU平台上数据划分不均匀任务的并行优化 |
3.1 候选解评价中的不均衡 |
3.1.1 数据划分不均匀问题 |
3.1.2 N皇后问题候选解评价 |
3.1.3 候选解评价函数的并行和优化手段 |
3.2 基于不同技术的评价函数实现 |
3.2.1 CPU串行方案和OpenMP方案 |
3.2.2 CPU自适应多线程方案 |
3.2.3 CPU Intel TBB方案 |
3.2.4 CPU Fork-Join方案 |
3.2.5 GPU细粒度方案1 |
3.2.6 GPU细粒度方案2 |
3.2.7 GPU粗粒度方案 |
3.2.8 GPU动态并行方案 |
3.3 实验及结果 |
3.3.1 实验平台 |
3.3.2 性能对比 |
3.3.3 GPU动态并行方案的性能 |
3.3.4 粗粒度GPU方案的稳定性分析 |
3.4 粗粒度方案在模拟退火算法上的应用效果 |
3.4.1 串行评价函数的耗时比例 |
3.4.2 GPU粗粒度方案的效果 |
3.5 本章小结 |
4 遗传算法在GPU集群上的任务并行及优化 |
4.1 GPU集群与任务的并行 |
4.1.1 基于集群的N-Queens问题变体2并行化 |
4.1.2 基于GPU集群的求解方案 |
4.2 改进的串行遗传算法方案 |
4.2.1 染色体设计 |
4.2.2 适应度函数设计 |
4.2.3 变异和交叉算子设计 |
4.2.4 差解接受概率函数的设计 |
4.2.5 改进的串行算法流程 |
4.3 基于GPU集群的两级并行遗传算法 |
4.3.1 基于CPU-GPU的主从模型遗传算法 |
4.3.2 基于GPU集群的岛模型遗传算法 |
4.4 实验及结果 |
4.4.1 实验平台 |
4.4.2 评价标准 |
4.4.3 实验结果 |
4.5 本章小结 |
5 基于GPU硬件改进的不规则任务优化 |
5.1 GPU硬件与不规则任务 |
5.1.1 基于硬件的不规则任务优化方法 |
5.1.2 GPU流水线周期性停顿现象 |
5.1.3 指令预取机制 |
5.2 GPU架构与模拟器 |
5.2.1 GPU架构模型 |
5.2.2 模拟器配置 |
5.2.3 基准程序以及运行参数选择 |
5.3 加大I-Cache方案 |
5.3.1 分析GPU Kernel容量 |
5.3.2 实验及结果 |
5.4 指令预取方案 |
5.4.1 GPU指令缓存的利用率 |
5.4.2 指令预取单元的设计 |
5.4.3 重要参数的选择 |
5.4.4 硬件代价 |
5.4.5 实验及结果 |
5.4.6 预取机制同大缓存方案的组合 |
5.4.7 功耗研究 |
5.5 本章小结 |
6 结论与展望 |
6.1 结论 |
6.2 创新点 |
6.3 展望 |
参考文献 |
攻读博士学位期间科研项目及科研成果 |
致谢 |
作者简介 |
(3)基于RISC-V多核处理器的Cache及其一致性协议研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 Cache的组织形式 |
1.2.2 Cache性能提升技术 |
1.2.3 Cache一致性协议 |
1.2.4 存储系统验证方法 |
1.3 论文的主要内容及组织架构 |
第二章 RISC-V多核处理器的存储系统架构 |
2.1 RISC-V多核处理器的总体存储结构 |
2.2 Cache存储器 |
2.2.1 映射结构 |
2.2.2 替换算法 |
2.2.3 写策略 |
2.3 基于TileLink的 Cache一致性协议 |
2.3.1 TileLink总线 |
2.3.2 现有Cache一致性协议 |
2.4 本章小结 |
第三章 D2MB-ICache设计 |
3.1 设计需求 |
3.2 D2MB-ICache的总体设计 |
3.2.1 存储体的划分机制 |
3.2.2 存储体时钟 |
3.2.3 电路结构和控制流程方案 |
3.3 D2MB-ICache的访问机制 |
3.3.1 写操作 |
3.3.2 读操作 |
3.4 实验结果 |
3.4.1 功能仿真 |
3.4.2 性能测试 |
3.4.3 功耗分析 |
3.5 本章小结 |
第四章 DTBDN一致性协议设计 |
4.1 DTBDN协议的总体方案 |
4.1.1 状态集合 |
4.1.2 读写策略 |
4.1.3 状态转换 |
4.2 DTBDN协议的目录 |
4.2.1 目录结构 |
4.2.2 目录的处理流程 |
4.3 DTBDN协议的操作过程 |
4.3.1 Cache中的一致性操作 |
4.3.2 IO设备的一致性操作 |
4.4 DTBDN协议正确性论证 |
4.4.1 单写多读条件的满足 |
4.4.2 数据最新原则的满足 |
4.5 性能测试 |
4.5.1 Gem5 模拟器 |
4.5.2 测试集的选择 |
4.5.3 不同Cache一致性协议的性能测试 |
4.6 本章小结 |
第五章 RISC-V多核存储系统的验证平台设计 |
5.1 验证平台开发流程 |
5.2 功能点分析 |
5.2.1 Cache一致性协议的功能点 |
5.2.2 多核处理器的典型测试场景 |
5.3 验证平台的搭建 |
5.3.1 验证平台总体设计 |
5.3.2 测试平台设计 |
5.3.3 激励生成器设计 |
5.4 功能覆盖率结果分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
附录:作者在攻读硕士学位期间取得的成果 |
(4)基于云计算技术的区域安全通信技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 移动通信系统 |
1.2.2 通信系统与通信终端 |
1.2.3 区域安全通信现状 |
1.3 本文研究内容 |
1.4 论文组织结构 |
1.5 本章小结 |
第2章 区域安全通信理论基础 |
2.1 移动通信研究对象 |
2.1.1 2G移动通信技术 |
2.1.2 3G移动通信技术 |
2.1.3 4G移动通信技术 |
2.1.4 5G移动通信技术 |
2.2 SDR设备原理 |
2.3 云计算技术 |
2.3.1 虚拟化 |
2.3.2 云计算安全 |
2.3.3 云计算与通信的超融合 |
2.4 本章小结 |
第3章 一种云环境下异构数据跨源调度方法 |
3.1 相关研究 |
3.2 算法模型 |
3.2.1 异构多源数据的预取 |
3.2.2 异构数据跨源调度算法 |
3.3 实验与分析 |
3.3.1 实验环境与实验过程 |
3.3.2 实验结果与分析 |
3.4 本章小结 |
第4章 一种云环境下改进粒子群资源分配方法 |
4.1 相关研究 |
4.2 算法模型 |
4.3 实验与分析 |
4.3.1 实验环境与实验过程 |
4.3.2 实验结果与分析 |
4.4 本章小节 |
第5章 一种智能化区域无线网络的移动台动态定位算法 |
5.1 相关研究 |
5.2 基于智能化区域无线网络的移动台动态定位 |
5.2.1 TDOA下约束加权最小二乘算法 |
5.2.2 融合及平滑过渡 |
5.2.3 TDOA/AOA混合定位算法 |
5.2.4 TDOA/AOA混合定位算法流程 |
5.3 实验仿真分析 |
5.3.1 实验环境与评估指标 |
5.3.2 实验结果与分析 |
5.4 本章小结 |
第6章 安全通信系统设计 |
6.1 软件系统设计 |
6.1.1 功能设计 |
6.1.2 界面设计 |
6.1.3 信令模组设计 |
6.2 硬件系统重要模块设计 |
6.2.1 时钟模块设计 |
6.2.2 CPU接口模块设计 |
6.2.3 ALC模块设计 |
6.2.4 DAC控制模块设计 |
6.3 实验部署与验证 |
6.3.1 实时控制过程和验证 |
6.3.2 传输验证实验设计 |
6.3.3 实验设备部署 |
6.3.4 天馈系统实验方案 |
6.3.5 实验安全事项 |
6.3.6 实验环境要求 |
6.3.7 实验验证测试及调试 |
6.4 本章小结 |
第7章 结论与展望 |
参考文献 |
致谢 |
作者简历 |
(5)基于异构计算平台的深度卷积神经网络加速方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.2.1 基于深度卷积神经网络的目标检测算法综述 |
1.2.2 深度卷积神经网络目标检测加速器综述 |
1.3 本文研究内容 |
1.4 本文结构安排 |
1.5 本章小结 |
2 深度卷积神经网络算法 |
2.1 深度卷积神经网络 |
2.1.1 卷积层 |
2.1.2 ABM-Sparse算法 |
2.1.3 池化层 |
2.1.4 激活层 |
2.1.5 归一化层 |
2.1.6 全连接层 |
2.1.7 重新排列层 |
2.1.8 拼接层 |
2.2 YOLOV2算法介绍与分析 |
2.2.1 YOLOv2算法简介 |
2.2.2 YOLOv2算法计算复杂度分析 |
2.3 本章小结 |
3 基于CPU+FPGA异构平台的神经网络加速器设计 |
3.1 设计挑战 |
3.2 目标异构计算平台 |
3.3 加速器应用场景与软硬件划分 |
3.3.1 高吞吐率加速器:离线视频、图像检测 |
3.3.2 低延时加速器:在线实时视频流检测 |
3.4 硬件加速电路设计 |
3.4.1 整体架构设计 |
3.4.2 高吞吐率访存单元(T-DLU) |
3.4.3 低延时访存单元(L-DLU) |
3.4.4 稀疏卷积单元(SCU) |
3.4.5 片上缓存设计 |
3.4.6 数据写回单元(DSU) |
3.4.7 高吞吐率池化单元(T-MPU) |
3.4.8 低延时池化单元(L-MPU) |
3.5 加速器软件功能设计 |
3.5.1 多线程池化功能块 |
3.5.2 重排、拼接功能块 |
3.6 加速器性能建模 |
3.6.1 吞吐率建模 |
3.6.2 计算强度建模 |
3.7 本章小结 |
4 基于Roofline模型的端到端模型优化引擎设计 |
4.1 模型优化引擎工作流程 |
4.2 基于Roofline模型的剪枝算法 |
4.3 对已有压缩算法的改进 |
4.3.1 权重聚类 |
4.3.2 模型定点量化 |
4.3.3 BN层融合 |
4.3.4 卷积层融合 |
4.4 稀疏编码 |
4.5 模型优化实验与结果分析 |
4.5.1 剪枝结果分析 |
4.5.2 聚类结果分析 |
4.5.3 层融合结果分析 |
4.5.4 模型优化结果汇总 |
4.6 本章小结 |
5 软硬件平台实现与实验分析 |
5.1 软硬件实现平台搭建 |
5.2 神经网络硬件加速器设计空间探索 |
5.2.1 设计空间探索流程 |
5.2.2 高吞吐率加速器探索 |
5.2.3 低延时加速器探索 |
5.2.4 设计空间探索结果汇总 |
5.3 效率和检测结果 |
5.3.1 高吞吐率加速器效率分析 |
5.3.2 低延时加速器效率分析 |
5.3.3 检测结果展示 |
5.4 本工作与国内外工作性能对比 |
5.5 本章小结 |
6 总结与展望 |
6.1 全文总结 |
6.2 展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(6)嵌入式Flash缓存预取加速技术研究(论文提纲范文)
致谢 |
摘要 |
Abstract |
1.绪论 |
1.1 课题背景与意义 |
1.2 国内外研究现状 |
1.2.1 基于缓存的加速方法 |
1.2.2 基于预取缓冲器的加速方法 |
1.3 主要研究内容与创新点 |
1.4 本文章节安排 |
2.嵌入式Flash控制器设计 |
2.1 控制器整体架构设计 |
2.2 嵌入式Flash接口控制模块设计 |
2.2.1 嵌入式Flash接口协议 |
2.2.2 状态机设计 |
2.2.3 低频读取优化 |
2.3 本章小结 |
3.加速模块的设计与实现 |
3.1 缓存的优化技术 |
3.1.1 缓存的基本原理 |
3.1.2 动态可重构缓存架构 |
3.1.3 缓存行长自适应技术 |
3.1.4 路命中预测技术 |
3.1.5 硬件设计与实现 |
3.2 跨步预取模块设计 |
3.2.1 跨步预取技术 |
3.2.2 硬件设计与实现 |
3.3 本章小结 |
4.SoC实例与平台验证 |
4.1 基于eFlash控制器的SoC实例 |
4.1.1 SoC系统架构 |
4.1.2 系统地址空间分配 |
4.2 仿真验证 |
4.2.1 验证平台搭建 |
4.2.2 仿真结果 |
4.3 板级测试与性能分析 |
4.3.1 FPGA开发与测试 |
4.3.2 读性能分析 |
4.4 功耗与面积评估 |
4.4.1 功耗评估 |
4.4.2 面积评估 |
4.5 本章小结 |
5.总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读研究生期间取得的研究成果 |
(7)基于BOOM的硬件预取技术的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 背景介绍 |
1.2 本文研究工作 |
1.3 本文组织结构 |
第二章 数据预取技术 |
2.1 软件预取 |
2.2 硬件预取 |
2.2.1 顺序预取 |
2.2.2 流缓冲预取 |
2.2.3 步长预取 |
2.2.4 其他硬件预取方式 |
2.3 软硬件结合预取 |
2.4 预取应用现状 |
2.4.1 Intel NetBurst微体系架构处理器 |
2.4.2 Intel Core微体系架构处理器 |
2.5 总结 |
第三章 BOOM流水线及相关模块分析 |
3.1 BOOM处理器流水线结构分析 |
3.2 非阻塞数据缓存单元 |
3.2.1 非阻塞数据缓存结构分析 |
3.2.2 存储一致性与TileLink总线 |
3.2.3 MSHRFile模块分析 |
3.2.4 Prober模块分析 |
3.2.5 波形分析 |
3.3 DcacheShim模块分析 |
3.4 TLB与 PTW单元分析 |
3.5 Load Store Unit单元 |
3.5.1 LSU单元微操作 |
3.5.2 LSU单元结构分析 |
3.5.3 LSU综合分析 |
3.6 总结 |
第四章 研究方法实现及仿真测试分析 |
4.1 顺序预取实现 |
4.1.1 预取地址 |
4.1.2 预取时机 |
4.1.3 预取数据存储及一致性维护 |
4.1.4 预取模块实现 |
4.2 虚拟地址步长推断预取实现 |
4.2.1 步长计算 |
4.2.2 预取地址虚实转换 |
4.2.3 预取模块实现 |
4.3 仿真测试和数据统计方法实现 |
4.3.1 工具链搭建及仿真测试过程 |
4.3.2 数据统计方法与实现 |
4.4 总结 |
第五章 实验数据分析 |
5.1 测试程序及实验配置 |
5.1.1 实验测试程序 |
5.1.2 BOOM实验基本配置参数 |
5.2 顺序预取数据分析 |
5.3 虚拟地址步长推断预取数据分析 |
5.4 总结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
参考文献 |
致谢 |
作者简介 |
(8)命名数据网络路由高性能改进(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 论文的主要内容 |
1.4 论文的章节安排 |
第二章 命名数据网络及软件路由概述 |
2.1 命名数据网络的体系结构 |
2.1.1 数据包类型和结构 |
2.1.2 命名与转发机制 |
2.2 名字查找算法 |
2.2.1 名字前缀树 |
2.2.2 基于哈希Trie树 |
2.2.3 布隆过滤器 |
2.3 本章小结 |
第三章 命名数据网络软件路由的需求与设计 |
3.1 需求分析 |
3.1.1 总体需求 |
3.1.2 系统功能需求 |
3.2 概要设计 |
3.2.1 设计目标 |
3.2.2 系统设计 |
3.3 本章小结 |
第四章 名字最长前缀查找 |
4.1 前缀布隆过滤器设计 |
4.1.1 算法结构的设计 |
4.1.2 查找过程 |
4.1.3 前缀布隆过滤器的块扩展 |
4.2 基于前缀布隆过滤器的查找 |
4.2.1 最长前缀匹配查找过程 |
4.2.2 查找性能的优化 |
4.3 二阶布隆过滤器算法设计 |
4.3.1 算法结构的设计 |
4.3.2 二阶布隆过滤器的查找 |
4.3.3 布隆过滤器分析 |
4.4 实验结果及分析 |
4.4.1 实验环境 |
4.4.2 实验结果及分析 |
4.5 本章小结 |
第五章 命名数据网络软件路由性能改进设计 |
5.1 软件路由性能问题分析 |
5.1.1 通用平台的网络包处理流程 |
5.1.2 当前平台的性能问题分析 |
5.2 用户态空间网络包转发 |
5.2.1 用户空间高效的数据包处理 |
5.2.2 在用户态进行网络包的转发 |
5.3 数据预取 |
5.3.1 数据预取对性能的影响 |
5.3.2 未隐藏的数据预取 |
5.3.3 数据预取策略 |
5.4 并发和多队列设计 |
5.5 本章小结 |
第六章 命名数据网络软件路由的实现与验证 |
6.1 系统实现 |
6.1.1 软件路由实现 |
6.1.2 转发线程实现 |
6.1.3 数据结构实现 |
6.1.4 数据预取策略实现 |
6.2 实验环境和流程 |
6.2.1 实验环境 |
6.2.2 实验流程 |
6.3 性能瓶颈分析方法 |
6.3.1 微体系结构性能分析方法 |
6.3.2 系统整体转发吞吐量测试方法 |
6.4 实现结果及分析 |
6.4.1 数据预取实验结果分析 |
6.4.2 系统转发速率实验结果分析 |
6.4.3 数据包转发性能对比 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 全文总结 |
7.2 工作展望 |
致谢 |
参考文献 |
攻读硕士期间取得的成果 |
(9)微处理器存储体系结构优化关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
符号使用说明 |
第一章 绪论 |
1.1 研究背景 |
1.1.1 大数据应用广泛存在于学术研究与工业设计中 |
1.1.2 存储墙问题在当今对于存储系统提出了更加严峻的挑战 |
1.1.3 三维堆叠存储系统与新型非易失存储介质研究蓬勃发展 |
1.2 课题动机 |
1.2.1 当前商用存储结构仍在各方面都受到制约 |
1.2.2 新型存储结构与技术为提高系统总体性能带来机遇 |
1.3 国内外相关工作 |
1.3.1 三维存储结构相关工作 |
1.3.2 面向处理器及高速缓存的主流预取技术 |
1.3.3 面向高速缓存及主存系统的主流压缩技术 |
1.4 本文研究内容 |
1.4.1 针对多级存储结构的预取优化 |
1.4.2 针对三维存储系统的压缩管理 |
1.4.3 基于三维存储系统的加速器 |
1.5 本文主要创新工作 |
1.6 论文结构 |
第二章 处理器存储体系结构以及关键技术介绍 |
2.1 处理器存储系统结构介绍 |
2.1.1 传统处理器存储体系结构及其优化 |
2.1.2 新型存储介质及结构 |
2.1.3 非易失存储介质 |
2.2 预取相关技术介绍 |
2.2.1 预取技术的分类 |
2.2.2 经典预取器设计思路 |
2.2.3 预取技术的问题与挑战 |
2.3 压缩相关优化技术 |
2.3.1 压缩技术的必要性及优势 |
2.3.2 压缩技术的参数权衡 |
2.3.3 主流压缩算法介绍 |
2.4 存储内计算相关介绍 |
2.4.1 二维集成的存储内计算 |
2.4.2 三维集成的存储内计算 |
2.5 本章小结 |
第三章 存储层级感知的优化预取方法 |
3.1 引言 |
3.2 相关背景知识及设计动机 |
3.2.1 背景知识 |
3.2.2 设计动机 |
3.2.3 本章相关工作 |
3.3 CHAM优化预取方法 |
3.3.1 一种动态自适应的预取控制机制 |
3.3.2 一种动态选择的Cache替换策略 |
3.3.3 CHAM硬件开销分析 |
3.4 实验环境设置 |
3.4.1 系统配置与测试程序 |
3.4.2 测试参数 |
3.5 实验结果及分析 |
3.5.1 单核测试 |
3.5.2 多核测试 |
3.5.3 与PADC的比较 |
3.6 参数分析 |
3.6.1 预取激进程度参数分析 |
3.6.2 数据传输情况参数分析 |
3.6.3 预取指令丢弃参数分析 |
3.6.4 替换策略参数分析 |
3.6.5 预取指令优先级参数分析 |
3.7 本章小结 |
第四章 面向三维存储结构的压缩管理机制 |
4.1 引言 |
4.2 相关背景知识 |
4.2.1 混合存储立方体 |
4.2.2 常用压缩算法 |
4.2.3 基于压缩的存储系统 |
4.2.4 本章相关工作 |
4.3 CMH压缩管理机制 |
4.3.1 CMH系统结构 |
4.3.2 CMH中间数据与数据布局 |
4.3.3 CMH硬件开销分析 |
4.4 实验环境设置 |
4.4.1 系统设置 |
4.4.2 测试程序 |
4.5 结果分析 |
4.5.1 性能结果测试 |
4.5.2 存储容量用量对结果的影响 |
4.5.3 压缩算法参数对结果的影响 |
4.5.4 FABT以及STT Cache对结果的影响 |
4.6 本章小结 |
第五章 基于存储内计算的应用加速 |
5.1 引言 |
5.2 相关背景知识 |
5.2.1 基于CSR的矩阵与向量相乘 |
5.2.2 基于CSR的图遍历 |
5.2.3 传统的预取技术 |
5.2.4 图遍历程序的运行瓶颈 |
5.2.5 本章相关工作 |
5.3 基于存储内计算的应用加速 |
5.3.1 用于加速矩阵乘的HMCSP |
5.3.2 用于加速图遍历的CGAcc |
5.4 实验环境设置 |
5.4.1 系统设置 |
5.4.2 测试程序 |
5.5 结果分析 |
5.5.1 HMCSP相关结果及分析 |
5.5.2 CGAcc相关结果及分析 |
5.6 本章小结 |
第六章 结论与展望 |
6.1 工作总结 |
6.2 工作展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(10)高效能GPU微体系结构关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究动机 |
1.2 本文的主要工作和创新点 |
1.3 论文结构 |
第二章 课题背景及意义 |
2.1 单核到多核的转变 |
2.2 存储墙与功耗墙的限制 |
2.3 众核加速器和异构系统 |
2.4 GPU结构 |
2.5 并行编程与CUDA编程模型 |
2.6 GPU的主要性能瓶颈 |
2.7 高性能GPU优化方法 |
2.8 课题研究意义 |
2.9 本章小结 |
第三章 相关工作 |
3.1 GPU中调度方法的优化 |
3.2 GPU中 cache的优化 |
3.3 协同的cache管理和线程束调度 |
3.4 其它提升众核处理器性能的重要技术 |
3.5 本章小结 |
第四章 基于局部性和延迟隐藏的warp调度方法 |
4.1 引言 |
4.2 研究动机 |
4.3 基准的线程调度方法 |
4.4 调度对局部性和延迟的影响 |
4.5 存储分离 |
4.6 warp间和warp内的局部性 |
4.7 基于局部性和延迟隐藏的warp调度 |
4.7.1 LPI的组成与结构 |
4.7.2 LPI的工作过程和原理 |
4.8 实验环境和结果 |
4.8.1 实验环境及测试程序 |
4.8.2 实验结果 |
4.8.3 硬件开销分析 |
4.9 本章小结 |
第五章 GPU上局部性保护的低开销cache分配策略 |
5.1 引言 |
5.2 研究动机 |
5.3 GPU中 cache的结构 |
5.4 GPU程序中的数据局部性 |
5.5 分支分离和存储分离 |
5.6 两种重用性收集方法 |
5.7 基于PC信息的局部性保护的cache管理方法 |
5.7.1 局部性检测器的结构 |
5.7.2 局部性检测的过程 |
5.7.3 带有重用信息和时间戳信息的cache分配单元 |
5.7.4 硬件开销和复杂度 |
5.8 实验评估 |
5.8.1 实验环境的建立 |
5.8.2 实验结果和分析 |
5.9 本章小结 |
第六章 协同的cache管理和warp调度方法 |
6.1 非规则程序的影响 |
6.2 单独cache优化和单独调度优化的局限性 |
6.2.1 单独调度优化的局限性 |
6.2.2 单独cache优化的局限性 |
6.3 基于反馈信息进行协同优化的优势 |
6.4 协同的cache管理和warp重排序方法 |
6.4.1 CWLP的组成和结构 |
6.4.2 CWLP工作原理和过程 |
6.4.3 CWLP的有效性 |
6.4.4 硬件开销分析 |
6.5 协同的cache管理和warp限流方法 |
6.5.1 CTLP结构 |
6.5.2 CTLP工作原理和过程 |
6.5.3 CTLP的有效性 |
6.5.4 硬件开销分析 |
6.6 实验环境及结果 |
6.6.1 实验环境及测试程序 |
6.6.2 实验结果 |
6.7 本章小结 |
第七章 结束语 |
7.1 本文工作总结 |
7.2 未来研究方向 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
四、一种硬件预取机构及其对系统影响的研究(论文参考文献)
- [1]深度神经网络加速器软硬件协同设计方法研究[D]. 许柯. 北京交通大学, 2021(02)
- [2]不规则任务在CPU-GPU异构平台上的几个优化方法[D]. 曹建立. 大连理工大学, 2021
- [3]基于RISC-V多核处理器的Cache及其一致性协议研究[D]. 李青青. 江南大学, 2021(01)
- [4]基于云计算技术的区域安全通信技术研究[D]. 赵盛烨. 中国科学院大学(中国科学院沈阳计算技术研究所), 2021(09)
- [5]基于异构计算平台的深度卷积神经网络加速方法研究[D]. 王子潇. 北京交通大学, 2021(02)
- [6]嵌入式Flash缓存预取加速技术研究[D]. 杜俊慧. 浙江大学, 2021(01)
- [7]基于BOOM的硬件预取技术的研究与实现[D]. 贺云波. 西安电子科技大学, 2019(02)
- [8]命名数据网络路由高性能改进[D]. 于广路. 电子科技大学, 2019(01)
- [9]微处理器存储体系结构优化关键技术研究[D]. 钱程. 国防科技大学, 2019(01)
- [10]高效能GPU微体系结构关键技术研究[D]. 张洋. 国防科技大学, 2018(02)