一、HPC++:一种支持多线索和远程对象调用的并行语言(论文文献综述)
寿颖杰[1](2021)在《嵌入式操作系统在分布式系统中的设计与应用》文中进行了进一步梳理随着对物联网设备的的不断发展,现在的社会越来越需要在智能家居、智能医疗、智能交通等嵌入式终端节点具备高性能的结构和高速有效的计算功能,使用户满足各种信息科技服务。然而在目前社会中,大都嵌入式系统单独工作,系统与系统之间几无互动,很少能够在终端节点利用互相协作来完成一些复杂的计算。而在分布式系统的应用下,物联网终端节点在理论上可以通过协同工作实现一定的计算。伴随着分布式系统的推广,多个嵌入式系统之间的交互将成为分布式技术和嵌入式技术交叉融合研究方面比较热门的内容。但目前这方面设计研究在市面上还比较少,且存在多方面的问题:第一,嵌入式设备中的资源有限,且设备专用性强,使得用于复杂计算的性能会不高;第二,研究人群较少,研究并未对这方面有深入探讨;第三,几乎无应用方面的研究,研究基本仅止步于在系统测试阶段。因此,本文先将嵌入式系统与分布式系统结合起来,通过多个嵌入式系统构建一个小型分布式系统,称为“多嵌入式系统”;然后在这个可用于分布式计算的多嵌入式系统上,将嵌入式操作系统进行设计和应用,即为分布式系统和嵌入式操作系统结合的“分布式操作系统”。在构建的多嵌入式系统中,每个节点都由一个STM32板和一个分布式操作系统(通过嵌入式实时操作系统RT-Thread修改扩充而成)构成。整个系统中,单个嵌入式系统分为控制节点和计算节点两类,两者的功能有所不同。控制节点负责收集节点信息、管理进程和分配分发计算任务,将任务分发分配到计算节点上执行;计算节点上实现执行任务功能,并将自身节点信息和任务结果发送数据给控制节点或其他计算节点。控制节点和计算节点相互协同工作,构成了整个分布式系统,实现了在终端节点协同完成部分复杂计算工作的目标。在构建整个系统时,对分布式操作系统和分布式通信机制进行了设计。具体为:1)在设计分布式操作系统时,主要对进程管理与调度、协同处理和任务分配完成探讨和设计;在设计过程中,主要是将分布式系统中成熟的研究,甚至已经应用的算法,将其实现在系统中的分布式操作系统里,并提供代码。2)在设计通信机制时,先实现了消息传递的方式,由于系统的运行特点,采用半同步半异步的Client/Server通信模型;然后还设计实现了远程过程调用(RPC)功能,用于实现控制节点调用某计算节点;最后设计了信息传递时的保密机制,由于本系统小型化、分布式等特点,采用并设计了基于属性加密的通讯加密方案,将其应用于系统中。总体上,完成实现了系统的基本功能。根据实际项目,还将构建完成的分布式操作系统应用于实际生产生活中的多嵌入式系统上。通过应用实现在DALI系统中可以看出,嵌入式操作系统与分布式系统所结合而成的分布式操作系统在智能家居中可以得到很好的应用,使原本的系统提升了更良好的性能,且在产品现场安装使用后也取得了不错的效果。
许凯[2](2020)在《基于哈希的高通量生物基因测序数据处理算法优化》文中认为近年来,随着生命科学技术不断发展,特别是在高通量测序技术(通常称为下一代测序,Next Generation Sequencing,NGS)的飞速发展推动下,生命科学中生成的数据量大大增加,基因组测序项目的数量和测序数据的数量急剧增加。高通量测序数据在飞速增加,但处理器的性能提升速度却逐年放缓,甚至接近停滞,单个处理器的性能已经难以进一步扩展。在2015年,由于提升芯片频率等方法会进一步加大芯片的散热问题,同时,指令级的流水和并行也出现了巨大的局限性和低效性,各种微体系结构的改进已经达到瓶颈,处理器性能的提升现在每年只有3.5%,平均20年提升一倍,摩尔定律在芯片领域几乎已经失效。因此学者们开启了多核和异构体系结构的研究,不需要改变程序的算法和实现仅仅依靠芯片性能提升从而使程序性能获得大幅度改善已经变得越来越困难,“免费午餐”的时代已经过去。因此,一方面生命科学高通量测序数据一直在急剧增加,另一方面近年来计算性能的提升主要集中在新兴体系结构的发展,因此在新的体系结构上如何处理高通量测序数据是急切需要解决的问题。基因纠错和基因比对是高通量测序数据处理中前期的两个步骤,纠错和比对在同构CPU上的研究已经有很多,但是针对异构架构处理器的研究和针对大规模数据集的处理研究相对较少。如何在基础的算法上进行改进使得计算量减少,如何针对新兴的异构体系架构进行针对性的设计以适应不同架构处理器的特点,如何进行分布式的实现以针对大规模的数据集,都是需要解决的问题。本文的工作主要针对以上问题,围绕DNA测序数据处理过程中的基因纠错和序列比对在Intel多核和众核架构以及国产自主设计的处理器SW26010等体系结构上的算法设计和针对性实现进行研究。本文的主要研究成果如下所述:1)本文提出了一种可扩展的并行纠错算法SPECTR,旨在提高各种Intel并行平台上Illumina DNA短序列进行纠错时的吞吐量。SPECTR的实现基于k-谱方法,针对Intel多核和众核架构以及异构计算集群采用了许多针对性的优化。本文针对SPECTR中的一个关键操作Bloom过滤器的查询进行了优化,对数据重新布局,加快了查询速度,对查询工作中的共同操作,抽象出查询中向量化需要的一般操作,实现了 Bloom过滤器查询操作的异构计算框架。在纠错过程中,本文设计了一个基于堆栈迭代的方法来取代在异构架构上性能较低的递归操作。在单个设备内,本文使用OpenMP的动态任务划分实现了负载均衡。针对单个节点的多个设备,本文设计了数据的分发框架,实现了不同设备间的负载均衡。针对多个节点,本文设计了分布式实现。实验表明,与在CPU上的多线程原始实现相比,优化后的实现在不同设备中加速了 2.8到9.3倍。与其他基因纠错工具相比,在相同的硬件上执行时,SPECTR的速度可提高1.7到6.4倍。在天河二号超级计算机的32个节点上执行时,实现了约86%的并行效率。2)针对基因比对,本文在神威·太湖之光及其申威体系架构SW26010上设计实现了一种高度可扩展的序列比对算法S-Aligner。为解决序列比对算法中的内存瓶颈和计算瓶颈,S-Aligner设计采用了三层并行级别:(1)使用MPI基于任务网格模式进行节点间并行计算;(2)使用多线程和异步数据传输来实现节点内并行处理,将需要计算的数据进行分块实现了不同计算核心之间的负载均衡,充分利用了 SW26010多核处理器的所有260核,以及(3)向量化了基因比对中计算编辑距离的Myers算法,充分利用了可用的256位SIMD向量寄存器。在文件I/O期间,本文采用异步访问模式和数据共享策略以克服网络文件系统的带宽限制。性能评估表明,S-Aligner几乎可以线性扩展,在太湖之光上的13,312个节点上实现了 95%的并行效率。S-Aligner在具有很高准确度的同时,在单个节点上的性能优于在Intel CPU平台上运行的序列比对工具RazerS3。3)在对S-Aligner进行分析之后,本文设计了一个新的可扩展且高效的基因比对算法SWMapper。为了减少内存的使用和加速索引的构建,SWMap-per使用了一个精简哈希索引,设计并实现了一个分布式索引构建方法。在进行比对时,提出了一种新的过滤算法,将基因序列分解为长种子和短种子,使用短种子查找到候选匹配位置后,利用长种子进行过滤减少需要计算的候选位置数。为了去除候选匹配位置中的重复,设计使用了一个最小堆数据结构进行排序删除重复位置。在对基因序列和参考基因子序列进行编辑距离的计算时,设计实现了带状Myers(Baned Myers)算法的向量化,使用SW26010的一条三元逻辑指令替换多条逻辑指令,减少了计算指令数。本文针对多个计算核心设计了动态调度策略来实现负载均衡,针对多个节点,本文设计了分布式实现。性能评估表明,在单个SW26010上,SWMapper的性能优于在相同硬件上的S-Aligner 6.2倍。与运行在Intel CPU上的其他比对算法相比,SWMapper实现了 2.6到26.5倍的加速。在128个计算核组上运行时,SWMappcr实现了 74%的强扩展效率。
谢尚威[3](2020)在《虚拟机环境下MPI/RDMA库的通信优化》文中进行了进一步梳理随着云计算的快速发展和应用,在HPC领域,不少组织和机构也开始着力打造HPC云。在HPC云中,HPC应用的数据需要频繁的在不同节点之间传输,因此通信性能成为超算应用整体性能中一个不可忽略的关键点。目前,消息传递接口(Message Passing Interface,MPI)库在HPC领域被广泛用来为超算应用提供高效的通信服务。虽然目前MPI库可以在裸机环境下可以充分利用远程直接内存访问(Remote Direct Memory Access,RDMA)为上层应用提供高效的通信服务,但是当MPI库部署在云环境中时,MPI库的通信性能将会因目前不成熟的RDMA虚拟化技术而大幅下降,这将进一步导致虚拟机中MPI应用的整体性能的下滑。这是HPC云中一个亟需解决的问题。目前关于MPI在虚拟机环境下的通信优化的研究工作大多着力于解决RDMA的虚拟化问题,这一类工作试图在虚拟机中提供虚拟化RDMA设备,进而提高MPI在虚拟机环境下的通信性能,然而这一类工作专注于提高RDMA在虚拟机中的通信性能,却没有兼顾在云环境中,宿主机需要对客户机的网络进行管控这一重要需求。因此这些研究成果应用场景有限,可以应用在私有云环境中,但不能应用在公有云中。所以目前还没有研究工作试图解决在满足公有云环境下对网络管控需求的条件下提供高性能通信的问题。针对上述问题,本文尝试在满足公有云环境对网络管控的前提下,研究网络I/O虚拟化部分对MPI性能的影响,并从该方面着手探索网络I/O虚拟化部分的优化空间,从而提高虚拟机中MPI的通信性能。主要工作包括:(1)本文注意到大多数的网络管控需求都是对控制路径上连接的管理,而应用的通信性能通常与数据路径上数据传输性能息息相关,所以本文的基本思想是将控制路径和数据路径分开处理,在控制路径上利用内核协议栈实现宿主对客户机网络的管控,而在数据路径上利用RDMA网络平台的性能优势优化数据传输。(2)利用MPI的通信特点优化客户机到宿主机的虚拟网络I/O路径,减少I/O虚拟化中数据拷贝所带来的开销。(3)基于这个思路提出的在虚拟机环境下消息传递接口库的高性能通信方案VMPI可以在满足云环境中对网络的特定需求的前提下,实现了MPI的高性能数据传输。通过实验证明,根据我们的设计方案所实现的消息传递接口标准原型系统相比于传统的虚拟化方式在基准性能指标(通信延迟)上可以获得40%左右的性能提升。在应用性能测试中,可有效降低应用基准测试程序Graph500的通信时间占比。
付茜雯[4](2020)在《计算机科技论文摘要的机翻错误类型及译后编辑》文中认为科研论文在知识传播过程中作用重大,推动国际范围内的知识共享。摘要是科研论文中必不可少的一部分,既是对论文的概括性总结,也是读者发现和探寻相关领域知识的快捷途径。然而,目前英文摘要的机器翻译质量在精确性和专业性方面都不尽人意,需要通过后期编辑和人工校对才能产出高质量的中文翻译文本。本文以计算机科学论文摘要为例,对谷歌机器翻译的300篇计算机英文论文摘要的中文版本进行了翻译错误类型分析并归类,并提出相应的译后编辑策略。首先在赖斯文本类型理论翻译策略指导下,对机器翻译系统生成的译文进行译后编辑,再邀请计算机专业以及翻译专业的专业人士进行确认。之后以DQF-MQM错误类型分类框架为依据,对机器翻译系统生成的译文中的错误进行分类。研究发现,机器翻译的计算机英文论文摘要的中文版本中存在七大类翻译错误,其中不符合中文表达习惯的翻译错误占比最大,其次是术语误译、误译、欠译、漏译、过译以及赘译。本论文研究发现,由于源文本的信息型学术文本特征,长难句、被动语态以及术语翻译是造成机器翻译错误的主要原因。针对源文本的逻辑缜密、语步序固定等特征,本研究针对性地对各类错误类型提出了相应译后编辑策略。建议译者在译后编辑中通过将隐性连接转换为显性连接从而保持源文逻辑性,通过增加主语以及调整语序处理被动语态保持源文的学术精准,通过恰当选取词意处理半技术词汇等。本研究采用定性和定量分析方法,系统归类了计算机科技文本摘要中机器翻译出现的错误,并提出相应译后编辑策略,为该领域的译者提供参考建议,从而提高该领域的机器翻译质量。
张庄[5](2020)在《工业大数据分析建模平台研究与实现》文中研究表明如今,全球掀起了的新一轮工业变革——智能制造,而工业大数据作为制造智能化的核心驱动力之一,已成为了工业领域的研究热点。作为工业大数据分析技术的关键环节,分析建模的好坏将会直接影响工业大数据分析的质量与效率。然而工业大数据分析发展至今,在数据采集和算法研究上取得了较大的进展,数据完整性和处理能力有很大的提高,相对而言,构建分析模型的能力较为滞后,数据难以转化为可直接进行决策的信息。因此,本文以工业大数据分析建模为研究对象,对其建模方法体系进行分析,并设计开发了工业大数据分析建模平台。主要研究内容如下:(1)通过分析工业大数据中业务梳理、数据支持、分析建模和平台的内部组成和各部分之间的关系,基于CRISP-DM模型形成工业大数据分析建模方法体系,在此基础上对工业大数据分析建模平台进行需求分析,并形成了平台的总体架构;(2)针对支持多计算模式的大数据计算框架问题,首先基于Lambda架构提出多模式大数据处理架构;随后筛选出批处理和流处理两种计算模式下典型、开源的大数据框架进行性能测评;最终形成面向工业大数据分析建模平台的Hadoop+Spark+Flink多模式集成的大数据计算框架;(3)针对大规模、强关联、多维度的工业大数据可视分析问题,提出了基于聚类挖掘算法的可视分析方法。通过将K-means算法与平行坐标法结合,解决工业大数据强关联、多维度的可视化问题,提高数据挖掘的准确度和易见性;随后基于Flink大数据处理框架完成K-means聚类算法的并行化改造,解决大规模工业大数据的计算问题,提高数据挖掘的效率;(4)基于Hadoop、Spark、Flink等开源大数据框架,利用Java Web相关开发技术,完成了工业大数据分析建模平台的开发。
梁伟浩[6](2019)在《E级计算的存储系统突发数据缓存的I/O性能优化》文中研究指明超级计算机用于自然科学的很多关键领域中进行复杂系统的大规模计算和模拟。随着芯片技术的高速发展,到2020年超级计算机的性能将会达到EFlop/s(每秒百亿亿次浮点运算)。爆发性增长的计算能力同时也导致了科学计算模拟输出的数据规模激增,从而引发了对大型存储系统的高性能I/O需求。例如,在美国超算中心的系统上使用12万个核模拟计算3万亿个粒子的磁重联物理过程,每小时就会产生约100TB的数据。存储和检索如此大规模的突发性产生的数据会极大地影响这些科学应用的整体性能。当前集中式存储的I/O系统也难以提供足够的性能去充分满足极端规模的科学计算平台要求。为此,近年来学术界提出了突发数据缓存(Burst Buffer)结构:它在计算和存储节点之间添加了新型硬件如非易失性存储器作为缓冲层,支持对于大量突发性的I/O请求进行快速处理。但是针对突发数据缓存的设计仍面临许多问题,需要高效的系统软件与该新的存储架构相结合,来满足支持百亿亿次计算的科学应用所要求的极端并行性和性能需求。本文的工作旨在研究数据密集型科学应用在突发数据缓存系统中的I/O性能优化方法。通过分析应用的数据访问特征和存储需求动态调度分配缓存资源以减少应用之间的相互影响。通过异步数据传输实现跨存储层次之间的数据移动优化,从而提高应用的整体性能和存储系统的效率。本文的研究工作和成果主要包括以下三个方面:1.针对共享式突发数据缓存系统上的资源调度展开了研究。通过分析现有针对缓存节点的调度分配策略,发现多应用在共享访问缓存系统时会引发带宽竞争现象导致了应用的I/O性能下降。为了解决突发数据缓存节点的负载不均衡及应用性能瓶颈问题,本文提出了一种基于竞争感知的存储资源分配算法。通过在运行时中实现对应用的数据读写特征和资源需求的实时分析并根据缓存系统中的节点负载分布,该算法会动态分配合理的缓存节点来协调来自大量进程的高度并发I/O访问以最大化每个应用可获得的I/0带宽,降低进程之间的带宽竞争并平衡节点之间的I/O负载。为了进一步研究节点内带宽竞争的产生机制,本文提出了面向多进程并发I/O访问场景的性能模型和三种衡量指标以定量评估不同的调度策略分别对应用和缓存系统产生的性能影响。实验结果表明,相对现有的静态资源调度策略,所提出的竞争感知分配算法可以使应用的平均效率提高25%和突发数据缓存系统的带宽利用率提高20%。2.针对分布式突发数据缓存系统上的数据传输问题展开了研究。计算节点内独立的非易失性存储虽然能提供本地的高I/O带宽以快速处理应用的大量突发性I/O读写请求,但是计算结束后本地数据回传到外部存储系统的时间开销严重地影响应用的总体性能。为了解决这一问题,本文提出了一种自适应可扩展的异步数据传输优化策略。该策略通过在运行时中利用少量的计算核异步地在计算节点中统一地调度处理来自不同进程发出的I/O请求而不影响程序继续其计算,有效地将应用的计算阶段和I/O阶段交替并行地执行以达到隐藏数据传输延迟的目的。在所有计算阶段结束后,通过调用更多的空闲计算核对缓存在本地存储中的数据回传过程实现I/O并行传输优化,进一步降低数据传输的开销。实验结果显示,与默认的同步I/O模式对比,所提出的异步传输优化策略能使科学应用的数据传输时间减少30%。3.针对异构突发数据缓存系统中的数据调度问题展开了研究。由于异构缓存系统中存储介质的多样性,存储层次之间对于应用的I/O访问特征有着不同的性能表现,增加了数据移动的复杂性。本文提出了一种结构感知的动态I/O调度方案,通过运行时透明地在异构缓存系统中不同存储层之间自动地调度数据,加速科学应用的端到端I/O访问过程。本文提出了流量感知的调度优化方法,通过对在计算节点内的进程发出的I/O请求进行动态分流,以降低大量突发性写操作对节点本地缓存带来的带宽压力。针对跨存储层的数据移动问题,本文提出了干扰感知的I/O调度算法,通过将缓存数据动态映射到不同的存储目标以最大化所有存储层的利用率并减少共享缓冲层中应用之间的I/O干扰。实验结果表明,所提出的调度方法能使应用共享访问异构缓存系统时的I/O干扰降低一倍,程序总体性能获得了54%的提升。本文设计的一系列针对突发数据缓存系统的I/O性能优化技术方法解决了数据密集型科学应用在大规模超算系统上并发存储和访问数据所面临的一系列挑战。本文提出的缓存资源分配算法、异步数据传输优化策略和动态I/O调度方案可以作为一般方法论推广应用于其他存储结构。同时,对下一代E级超级计算机的存储系统的改进和软件生态建设也具有参考价值。
廖龙龙[7](2019)在《面向多测量率压缩感知的并行加速技术及应用》文中认为在大规模分布式智能视频监控中,终端摄像头连续不断地向远程服务器发送所采集的视频数据,不仅需要较大的网络带宽和存储空间,而且网络传输延迟较大,面临采样视频压缩的严峻挑战。压缩感知能从基于少量采样点获取的测量值中重构原始数字信号,并在采样过程中完成数据压缩,非常适合于在智能监控终端完成高压缩率的监控视频采集。然而,目前的大部分压缩感知方法采用单一测量率进行压缩感知采样和重构,导致重构质量和采样压缩率的矛盾,即提高重构图像质量则导致采样的压缩率降低,反之,提高采样的压缩率则会降低重构图像的质量。因此,解决现有压缩感知方法存在的这个问题,对于提高压缩感知方法的压缩率性能具有重要的研究价值,同时有助于促进压缩感知方法在大规模视频监控等实际场景中的广泛应用。本研究以解决现有压缩感知方法存在的上述问题为出发点,提出了一种多测量率压缩感知方法,以在重构质量不降低的情况下,减小压缩感知采样得到的测量数据大小。多测量率压缩感知涉及用户感兴趣的目标区域检测、压缩感知采样数据表示、压缩感知采样加速、面向应用的重构性能评估共四个方面的关键问题。其中,用户感兴趣的目标检测采用卷积神经网络来实现,为加速相应卷积神经网络模型的训练和推理,分别研究了 ARMv8多核CPU集群和异构多核集群上的深度神经网络加速方法,最后以端到端行人再识别为例分析半精度多测量率压缩感知方法的有效性。因此,本研究主要探究了如下四个方面的关键技术:(1)提出了一种多测量率压缩感知方法MRCS。MRCS使用设计的单步目标检测网络MYOLO3预测用户感兴趣的目标区域,然后使用不同的测量率对用户感兴趣的目标图像区域以及其他图像区域分别进行采样,以减小压缩感知采样得到的测量数据大小。实验结果表明,MYOLO3是一个网络规模较小的实时目标检测模型,适用于监控摄像机、无人机等计算资源有限的终端设备。MRCS方法通过降低压缩感知测量数据的大小,明显减少了其所需要的网络传输带宽和存储空间。例如,当测量率为0.01-0.25时,MRCS方法在VOC-pbc数据集上的平均压缩比达到了 1.43-11.51。(2)研究了一种在ARMv8多核CPU集群上基于OpenCL加速深度神经网络的方法。为了以透明的方式在多核CPU集群上实现OpenCL并行编程,设计了一个虚拟OpenCL平台模型FTCL。然后,通过将深度神经开发库Darknet移植到基于FTCL的多核CPU集群上,实现了一个并行深度神经网络框架FTCL-Darknet,以有效利用ARMv8多核CPU加速深度神经网络。FTCL-Darknet支持利用基于StridedBatchedGEMM的并行im2col卷积来加速多核CPU上的深度神经网络。实验表明,FTCL在不同数量的多核CPU集群上具有较好的可扩展性。同时,基于 FTCL-Darknet 实现的深度神经网络 YOLOv3、ResNet-152 和 DenseNet-201,在由6个FT-2000plus CPU节点构成的多核CPU集群上,基于MS COCO2014和ImageNet2012数据集的平均数据并行训练与推理性能分别达到了 2.2Image/s和6.4Image/s。(3)提出了一种使用OpenCL在异构多核集群上加速深度神经网络的方法。首先,为异构多核集群设计了统一的、高层次抽象的OpenCL平台模型UHCL和一个支持基于偏好的OpenCL内核动态调度的自适应运行时系统。然后,通过引入深度神经网络的并行优化方法,如基于stridedbatchedGEMM的并行Winogrand卷积算法、基于机器学习的OpenCL内核自动调优等。最后,在异构多核集群上基于UHCL实现了一种并行优化的深度学习框架UHCL-Darknet。实验结果表明,UHCL-Darknet框架在异构多核集群上具有较好的可扩展性和性能可移植性,提高了深度神经网络模型在异构多核集群上进行并行训练和推理的图像吞吐量。(4)面向端到端行人再识别提出了一种半精度压缩感知采样方法HCS4ReID。HCS4ReID采用半精度浮点数进行压缩感知采样和压缩感知测量值的表示,支持使用多种测量率同时对一帧视频图像的不同区域进行压缩感知采样和重构。在PRW数据集上的实验表明,与采用单精度浮点数表示的传统压缩感知采样方法相比,HCS4ReID在Intel HD Graphics 530 GPU上的压缩感知采样达到了 1.55倍的加速比,且传输和存储采样得到的测量数据只需约一半的网络带宽和存储空间。同时,在端到端行人再识别的应用方面,HCS4ReID在重构的PRW数据集上达到了与相应传统压缩感知方法类似的行人再识别准确度。通过上述四个关键技术的研究,构建了一个比较完整的并行多测量率压缩感知技术框架,为在不降低重构质量的同时提高现有压缩感知方法的采样压缩率提供了一种技术解决方案,有助于促进压缩感知方法在大规模分布式图像和视频采样系统中的应用。
黄璜[8](2019)在《基于故障数据预处理的超算系统容错关键技术研究》文中研究指明随着超级计算机的规模不断扩大,体系结构日益复杂,系统可靠性的要求也急剧增高,使得与可靠性紧密相关的系统故障预测和研究面临着极大的挑战。超级计算机系统中的故障一般具有瞬时性、多样性以及不确定性,这些因素对故障信息采集、故障预测以及容错提出了更高更复杂的要求。由高效的数据采集能力和快速准确地数据分析能力所构成的数据预处理技术,为面向超算系统的容错技术提供了强大的数据保障。于此同时,E级系统中单个科学计算应用所产生的最大数据规模将从TB级别增长到PB级。而大规模数据采集时要求更高的聚合带宽来降低延迟以增强实时性,因此实时数据采集很容易产生大量的突发性I/O请求。这样的数据密集型应用和突发性I/O可能成为影响系统I/O性能的最大瓶颈,从而影响故障数据采集的效率。与此同时,I/O性能降低也将影响超算系统容错的执行效率。本文针对超级计算机系统可靠性问题以及与之紧密相关的I/O问题,以保障大规模应用在超算系统高效运行和提高I/O密集型应用的存储利用效率为目标,对故障数据预处理技术、容错技术以及与之相关的I/O问题展开了多方位较深入的研究和实验分析,取得的主要成果如下:设计和优化了面向超算系统的故障数据预处理技术。首先,针对当前系统规模不断增大,数据采集效率较低的情况提出了面向超级计算机系统的实时数据采集框架。实时数据采集框架由数据采集器、H2FS和分布式数据采集管理器组成。针对超算系统中可能产生突发性I/O的复杂应用环境,通过加入高效的H2FS为整个采集框架提供了高性能和高可用性的支持。其次,针对运行时应用相关性能信息收集不完整的问题,优化了用来收集和分析典型应用性能特性的性能分析工具的功能,丰富了实时数据采集框架中的采集数据类型。再次,为了提高系统故障分析和诊断的准确性和时效性,提出了基于离线预处理的在线日志模板提取方法。该方法由两部分组成:第一部分,通过对现有离线日志模板技术的研究和分析,设计了一种针对天河超级计算机的离线日志模板提取流程;第二部分,采用我们设计的实时故障数据采集框架,在存储中间层当中快速增量式的在线分析日志。然后将整个设计融入到数据预处理模块当中与实时数据采集模块联合运行。最后,实验结果表明该框架具有较高的性能和较好的可扩展性,同时验证了基于离线预处理的在线日志模板提取方法的准确性,以此证明面向超算系统的故障数据预处理技术的可用性。针对大规模应用在运行时遇到系统故障可能性增大以及涉及的失效节点数量更多的问题,在XOR的检查点/恢复容错方法的基础上,提出了基于多维度XOR的检查点/恢复容错技术。系统的频繁失效会使得那些在超级计算机平台上长时间运行的任务的完成时间大大髙于任务原本所需的执行时间。而传统检查点/恢复技术在恢复所需的时间成本和恢复所需的存储容量之间往往很难取得平衡。为了解决这些问题,我们提出了基于多维度XOR的检查点/恢复容错方法,并对基于数学函数库的容错框架进行了分析和讨论。通过多维度XOR的检查点/恢复容错方法对大规模并行应用进行容错操作,在不过度增加存储容量的情况下又能够较大程度的提高系统的可靠性。最后,通过实验验证了多维度XOR的检查点/恢复容错方法的有效性。为了解决超算系统中大量突发性I/O对系统性能以及容错效率的影响,提出了面向超算系统的存储负载管理模型SWMM。它可以在多个数据密集型应用并行访问文件系统时优化I/O路径,从而提高带宽效率。同时,优化了面向超级计算机存储系统的容量均衡策略,用于解决存储扩展中的容量不平衡问题。这些技术可以进一步提高应用运行的效率,同时一定程度上缓解了容错技术中I/O性能带来的影响。我们在天河-1A超级计算机上对SWMM进行了测试,实验结果表明,I/O路径优化和容量平衡策略达到了预期的效果,数据采集模块在小数据块传输中具有低开销和高传输效率。
杜宜阳[9](2019)在《智能时代国际化城市的语言生活治理 ——以上海为例》文中指出全球化时代,伴随更加频繁、剧烈的人口跨国流动而产生的语言超多样性,一方面为社会提供了更为丰富的语言资源,但同时也为如何协调更加复杂的语言关系、如何处理多语环境中的交际问题提出了新的挑战。与此同时,科技进步,特别是移动互联网和智能技术的发展为语言生活和语言治理带来的新的变量。在此背景下,探究国际化都市中语言生活可能面临的新现象与新挑战,特别是智能技术在多语交际中所能发挥的作用对城市语言生活的治理有着重要的理论意义和实践意义。本研究以上海五个外国人聚居区的公共空间为研究范围,以上海跨国移民和公共领域从业者为研究对象,提出以下三个研究问题:(1)上海城市语言生活中人们对语言资源的使用有何特点;(2)智能技术在城市语言生活中发挥怎样的作用;(3)智能时代国际化城市的语言生活治理如何实现。为回答上述研究问题,本研究遵循解释主义范式,以质性研究中的语言景观民族志与网络民族志为基本研究路径,从空间语库和个人交际语库两个角度,通过观察、访谈和实物分析等手段收集数据,以类属分析、情境分析和时刻分析等方法对收集到的数据进行归纳、整理和分析探究城市空间中的语言资源状况和人们对这些资源的使用过程。本研究有如下发现:(1)虽然上海的多语资源配置呈现层次性与变动性特征,但总体上普遍采用以英语为国际通用语的做法应对多语交际需求,空间语库和交际语库中其他语言资源配置较少,原因在于上海的多语交际需求总量少、分布散,公共领域的机构缺乏动力配置相应语言资源;(2)因语言不通而产生的多语交际问题,跨国移民和本地公共领域从业人员普遍使用超语实践作为替代性策略,满足了日常生活中大部分的交际需求,但超语实践的效果受到个人能动性与空间性的限制,不能完全解决多语交际中的问题;(3)移动应用和智能技术在上海的普及为人们提供了更丰富的语言资源,增强了人们通过超语实践进行多语交际的能力;因不同人应用相关资源和工具的效果千差万别,除了技术产品本身的限制外,个人使用语言资源解决交际问题的意识和能力是重要影响因素。基于以上发现,本研究提出:(1)对于高流动性和超多样性的国际化都市,加强空间语库中以物质形式为载体的语言资源的可用性与可及性是比提升本地民众外语能力更加可行和有效的做法;(2)培养和提升人们使用一切可用语言资源和工具(包括物质形式的资源)进行多语交际的能力和意识,将个人能动性驱动的随机超语实践通过语言政策的引导变为稳定的超语能力;(3)互联网和智能技术是人们多语交际时可调用的最重要资源与工具,因此培养人们超语能力的最核心内容就是他们运用智能设备、智能产品解决交际问题的能力。
季旭[10](2019)在《基于应用行为分析的高性能计算机存储系统优化技术研究》文中进行了进一步梳理伴随着科技的进步,科学计算在生活中发挥着越来越重要的作用。高性能计算机是其中的重要基础。受摩尔定律的驱动,高性能计算机计算能力一直在不断加强,但是相应的存储系统的发展并没有跟上计算能力进步的脚步,计算系统与存储系统的性能差异越来越大,造成了‘‘存储墙’’问题。针对此,本文研究如何通过分析和学习应用程序和存储系统的行为,来优化存储系统服务能力,提升应用程序I/O和访存性能。本文的主要工作包括:1.提出利用端到端、低开销I/O监控对高性能计算I/O性能行为进行协同分析。本文基于国产超级计算机神威太湖之光的生产环境构建了一套全I/O路径的监控和I/O行为分析系统Beacon。利用该系统,经过一年多对用户行为和系统状态的总结,发现了一系列高性能计算机存储系统的问题,包括:静态的计算节点和I/O转发节点连接导致负载不均衡;共享I/O转发节点应用程序间的严重I/O性能干扰;性能异常的I/O转发节点和后端存储服务器会严重拖慢应用程序I/O性能等,并在此基础上给出针对性优化方案。2.针对现代高性能计算机的I/O性能问题与I/O转发层密切相关的特点,本文提出了基于应用程序历史I/O行为的转发层资源动态分配方法DFRA,实现并部署于国产超级计算机神威太湖之光上。DFRA通过利用Beacon提供的应用程序历史I/O行为,预测其对I/O转发资源的需求并探测I/O冲突,进而动态调整应用程序的I/O转发资源分配,以改善负载不均衡、消除干扰,最终有效提升应用程序性能。结果表明,DFRA在最好情况下会提升应用程序I/O性能16倍以上,为神威太湖之光上的大规模应用程序节省了上亿核时。3.新型存储介质(如SSD)已经开始在高性能计算机中部署。本文对高性能计算程序如何利用本地高速SSD作为内存扩展展开研究。首先利用首创的低成本内存变量分析工具分析了38个不同计算程序的内存行为,并发现科学计算程序的一些独特属性,包括:内存行为在不同输入的情况下有较好的相似性,变量的数目较少,单一变量占据内存空间更大等。利用这些特性,进一步提出了混合内存架构上的变量级别的内存调度方法Deep Map。结果显示,在不需要修改应用程序代码的情况下,Deep Map相比于传统基于交换区的内存扩展方案平均节省51.4%的时间。
二、HPC++:一种支持多线索和远程对象调用的并行语言(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、HPC++:一种支持多线索和远程对象调用的并行语言(论文提纲范文)
(1)嵌入式操作系统在分布式系统中的设计与应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 嵌入式系统研究现状 |
1.2.2 分布式系统研究现状 |
1.3 本文的研究内容及贡献 |
1.4 本文的章节安排 |
第二章 相关理论与软硬件平台介绍 |
2.1 分布式系统 |
2.1.1 分布式系统概述 |
2.1.2 分布式系统的特征 |
2.1.3 分布式系统的结构 |
2.1.4 分布式系统的拓扑结构 |
2.2 分布式操作系统 |
2.2.1 构造分布式操作系统的途径 |
2.2.2 设计分布式操作系统时应考虑的问题 |
2.2.3 分布式操作系统的结构模型 |
2.3 RT-Thread操作系统 |
2.3.1 RT-Thread概述 |
2.3.2 RT-Thread的架构 |
2.3.3 RT-Thread内核 |
2.4 嵌入式系统 |
2.4.1 嵌入式系统概述 |
2.4.2 STM32概述 |
2.5 本章小结 |
第三章 系统总架构设计 |
3.1 硬件的规划实现 |
3.2 分布式架构设计模式 |
3.2.1 无操作系统模式 |
3.2.2 均衡模式 |
3.2.3 非均衡模式 |
3.3 系统结构 |
3.3.1 控制节点和计算节点 |
3.3.2 系统运行结构 |
3.4 本章小结 |
第四章 分布式操作系统设计与实现 |
4.1 进程管理 |
4.1.1 分布式进程 |
4.1.2 分布式进程的状态与切换 |
4.2 分布式协同处理 |
4.2.1 分布式互斥 |
4.2.2 事件定序与时戳 |
4.2.3 资源管理算法 |
4.2.4 选择算法 |
4.3 任务分配 |
4.3.1 任务分配环境 |
4.3.2 任务调度策略 |
4.4 操作系统的移植 |
4.5 本章小结 |
第五章 分布式通信机制设计与实现 |
5.1 消息传递 |
5.1.1 消息传递概述 |
5.1.2 消息传递方式的设计 |
5.1.3 消息传递的实现 |
5.2 RPC的功能 |
5.2.1 RPC的通信模型 |
5.2.2 RPC的结构 |
5.2.3 RPC的实现 |
5.3 保密设计 |
5.3.1 概述 |
5.3.2 加密模型 |
5.3.3 加密方案算法描述 |
5.3.4 安全性分析 |
5.3.5 性能分析 |
5.4 本章小结 |
第六章 系统的应用 |
6.1 引言 |
6.2 DALI协议 |
6.2.1 协议介绍 |
6.2.2 DALI系统结构 |
6.3 分布式操作系统的应用 |
6.3.1 DALI访问时序与时戳 |
6.3.2 主从设备RPC功能 |
6.3.3 数据资源管理 |
6.4 本章小结 |
第七章 主要结论与展望 |
致谢 |
参考文献 |
附录:作者在攻读硕士学位期间发表的论文 |
(2)基于哈希的高通量生物基因测序数据处理算法优化(论文提纲范文)
中文摘要 |
英文摘要 |
文中使用的缩略词和符号 |
第一章 绪论 |
1.1 研究的背景和意义 |
1.2 研究的现状和挑战 |
1.2.1 数据量的增加 |
1.2.2 基因序列纠错的方法 |
1.2.3 基因序列比对的方法 |
1.2.4 异构处理器的发展 |
1.2.5 生物信息学在异构架构上的实现 |
1.2.6 面临的挑战 |
1.3 本文研究内容和创新点 |
1.4 本文的组织结构和章节安排 |
第二章 背景 |
2.1 哈希算法 |
2.1.1 哈希简介 |
2.1.2 布隆过滤器 |
2.2 FASTQ格式 |
2.3 基因纠错算法 |
2.4 基于哈希的基因比对算法 |
2.4.1 SAM格式 |
2.4.2 种子-延伸策略 |
2.4.3 精确比对和最优比对 |
2.4.4 Smith-Waterman算法 |
2.5 高性能计算机的体系结构 |
2.5.1 Intel CPU和向量处理器 |
2.5.2 Xeon Phi |
2.5.3 SW26010 |
2.6 编程模型 |
2.6.1 MPI模型 |
2.6.2 OpcnMP模型 |
2.6.3 Athread编程模型 |
2.7 本章小结 |
第三章 SPECTR: 多核和众核架构上的可扩展短读序列纠错 |
3.1 引言 |
3.2 串行纠错算法介绍 |
3.3 并行算法设计 |
3.3.1 数据内存对齐 |
3.3.2 向量化Bloom过滤器查询 |
3.3.3 消除递归代码 |
3.3.4 优化细节 |
3.4 分布式实现 |
3.5 实验结果 |
3.5.1 实验设置 |
3.5.2 准确度 |
3.5.3 单设备性能 |
3.5.4 与其他工具的比较 |
3.5.5 天河二号上的性能 |
3.6 本章小结 |
第四章 S-Aligner: 基于神威·太湖之光超级计算机的基因比对 |
4.1 引言 |
4.2 Myers算法 |
4.3 S-Aligner的设计 |
4.3.1 计算核组间的大规模并行 |
4.3.2 计算核组内的多线程并行 |
4.3.3 SIMD向量化 |
4.3.4 局部设备内存的使用 |
4.4 实验结果 |
4.4.1 单节点的性能分析 |
4.4.2 与RazerS3的比较 |
4.4.3 扩展性分析 |
4.5 本章小结 |
第五章 SWMapper: 基于精简哈希的可扩展基因比对 |
5.1 引言 |
5.2 带状Myers算法 |
5.3 SWMapper的设计 |
5.3.1 MPE上的工作流程 |
5.3.2 精简哈希索引的建立 |
5.3.3 CPE上的工作流程 |
5.3.4 移除重复位置 |
5.3.5 种子过滤 |
5.3.6 带状Myers算法的向量化 |
5.3.7 数据传输优化 |
5.3.8 分布式版本 |
5.4 实验结果 |
5.4.1 准确度 |
5.4.2 建立哈希索引的时间 |
5.4.3 比对时间 |
5.4.4 优化的性能分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
博士期间发表的论文 |
博士期间参加的科研工作 |
相关的开源项目 |
学位论文评阅及答辩情况表 |
(3)虚拟机环境下MPI/RDMA库的通信优化(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.2.1 MPI在虚拟机环境中的优化工作 |
1.2.2 云环境下的RDMA虚拟化 |
1.3 研究内容 |
1.4 内容组织 |
第2章 背景知识 |
2.1 消息传递接口MPI |
2.2 云计算与虚拟化 |
2.2.1 处理器虚拟化 |
2.2.2 内存虚拟化 |
2.2.3 I/O虚拟化 |
2.3 远程直接内存访问RDMA |
2.3.1 内存注册 |
2.3.2 RDMA接口与传输模式 |
2.3.3 RDMA传输实例 |
2.4 RDMA虚拟化 |
2.5 vSocket |
2.6 本章小结 |
第3章 控制路径和数据路径分离的框架设计 |
3.1 问题分析 |
3.1.1 测试环境 |
3.1.2 测试结果 |
3.2 VMPI系统框架 |
3.2.1 控制路径与数据路径分离 |
3.2.2 网络可控的满足 |
3.2.3 低延迟的保证 |
3.3 VMPI系统框架 |
3.4 本章小结 |
第4章 高效的数据传输过程 |
4.1 虚拟连接 |
4.2 截获层 |
4.3 截获层与前端之间的通信 |
4.4 前后端之间的通信 |
4.5 前端模块的实现 |
4.6 后端模块的实现 |
4.6.1 虚拟设备的后端驱动 |
4.6.2 RDMA物理连接 |
4.7 连接建立过程 |
4.8 数据传输过程 |
4.9 本章小结 |
第5章 实验与性能测试 |
5.1 实验环境 |
5.1.1 硬件平台 |
5.1.2 软件配置 |
5.2 微基准测试 |
5.2.1 延迟 |
5.2.2 带宽 |
5.3 应用性能测试 |
5.3.1 graph500应用测试 |
5.4 本章小结 |
第6章 结束语 |
6.1 论文总结 |
6.2 工作展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(4)计算机科技论文摘要的机翻错误类型及译后编辑(论文提纲范文)
摘要 |
Abstract |
CHAPTER1 INTRODUCTION |
1.1 Research Background and Significance |
1.2 Aims of the Study |
1.3 Organization of the Thesis |
CHAPTER2 LITERATURE REVIEW AND FRAMEWORK |
2.1 Overview on Machine Translation and Post-editing |
2.2 Previous Studies on MT Error Types and Post-Editing Strategies |
2.3 DQF-MQM Error Classification Framework |
2.4 Previous Studies on MT Error Types of Paper Abstracts |
2.5 Text Typology Theory |
2.5.1 Text Typology Theory of Reiss |
2.5.2 Previous Studies on Informative Texts and Translation Principles |
CHAPTER3 METHODOLOGY |
3.1 Source Text and Text Analysis |
3.1.1 Source Text |
3.1.2 Text Analysis |
3.2 Research Method |
3.3 Translation Process |
3.3.1 Translating300 computer science abstracts with MT system |
3.3.2 Post-editing the MT-generated translation based on Text Typology Theory |
3.3.3 Conducting a semi-structured interview for ensuring post-editing quality |
3.3.4 Analyzing and summarizing the errors in300 abstracts |
3.3.5 Preliminary error classifications based on DQF-MQM Framework |
3.3.6 Conducting the2nd semi-structured interview to confirm error classifications |
3.3.7 Quantitative analysis of all MT errors in the300 abstracts |
CHAPTER4 RESULTS AND DISCUSSION |
4.1 Error Types of Machine Translated English Abstracts |
4.1.1 Unidiomatic Translation Errors in MT output |
4.1.2 Terminology Mistranslation Errors in MT Output |
4.1.3 Mistranslation Errors in MT Output |
4.1.4 Under-translation Errors in MT Output |
4.1.5 Omission Translation Errors in MT Output |
4.1.6 Over-translation Errors in MT Output |
4.1.7 Errors of Addition in MT Output |
4.2 Post-editing Strategies for Machine Translated Abstracts |
4.2.1 Post-editing Strategies for Long and Complex Sentences |
4.2.2 Post-editing Strategies for Passive Voice Sentences |
4.2.3 Post-editing Strategies for Technical Terms |
CHAPTER5 CONCLUSION |
5.1 Major Findings |
5.2 Limitations and Suggestions |
References |
Appendix Source Texts and Target Texts of300 Abstracts |
1-20 Abstracts |
21-40 Abstracts |
41-60 Abstracts |
61-80 Abstracts |
81-100 Abstracts |
101-120 Abstracts |
121-140 Abstracts |
141-160 Abstracts |
161-180 Abstracts |
181-200 Abstracts |
201-220 Abstracts |
221-240 Abstracts |
241-260 Abstracts |
261-280 Abstracts |
281-300 Abstracts |
ACKNOWLEDGEMENTS |
(5)工业大数据分析建模平台研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 工业大数据平台研究现状 |
1.2.2 分析建模方法研究现状 |
1.2.3 大数据计算框架研究现状 |
1.3 论文的主要内容与结构框架 |
第二章 工业大数据分析建模方法体系与平台架构 |
2.1 引言 |
2.2 分析建模方法体系 |
2.2.1 业务梳理 |
2.2.2 数据支持 |
2.2.3 分析建模 |
2.3 分析建模平台架构 |
2.3.1 平台需求分析 |
2.3.2 平台总体架构 |
2.4 本章小结 |
第三章 工业大数据分析建模计算框架方案 |
3.1 引言 |
3.2 基于Lambda的多框架集成架构 |
3.2.1 Lambda架构理论 |
3.2.2 基于Lambda的多模式大数据处理架构 |
3.3 大数据处理框架概述 |
3.4 大数据计算框架性能评价 |
3.4.1 批处理计算框架性能评价 |
3.4.2 流式实时计算框架性能评价 |
3.5 分析建模的多模式大数据计算框架 |
3.6 本章小结 |
第四章 工业大数据挖掘的可视分析方法 |
4.1 引言 |
4.2 K-means聚类算法 |
4.2.1 K-means算法基本思想 |
4.2.2 K-means算法步骤流程 |
4.3 基于平行坐标法的K-means算法可视分析 |
4.3.1 K-means聚类算法的改进策略 |
4.3.2 基于平行坐标的可视化方法 |
4.3.3 基于平行坐标的K-Means算法可视化挖掘 |
4.3.4 实例分析 |
4.4 基于Flink的聚类算法并行化 |
4.4.1 Flink运行机制 |
4.4.2 K-means算法并行化 |
4.4.3 实例分析 |
4.5 本章小结 |
第五章 工业大数据分析建模平台的实现 |
5.1 引言 |
5.2 平台功能模块设计 |
5.3 平台开发基础 |
5.3.1 平台开发工具 |
5.3.2 平台运行环境 |
5.4 平台开发关键技术 |
5.4.1 基于Web的可视化技术 |
5.4.2 Flink和Yarn的融合 |
5.5 平台应用实例与功能界面 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 本文总结 |
6.2 展望 |
参考文献 |
致谢 |
作者简介 |
(6)E级计算的存储系统突发数据缓存的I/O性能优化(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景 |
1.1.1 数据驱动的高性能科学计算 |
1.1.2 E级计算系统的发展趋势 |
1.1.3 大规模存储系统的发展趋势 |
1.2 E级计算存储系统设计面临的挑战性问题 |
1.3 本文主要研究内容 |
1.4 论文组织结构 |
第2章 相关研究工作 |
2.1 高性能存储系统结构 |
2.1.1 近数据端计算架构 |
2.1.2 突发数据缓存架构 |
2.1.3 相关工作总结 |
2.2 数据存储格式与I/O编程接口 |
2.2.1 MPI-IO |
2.2.2 HDF5 |
2.2.3 NetCDF |
2.2.4 相关工作总结 |
2.3 I/O执行模式 |
2.3.1 解耦合执行模式 |
2.3.2 异步执行模式 |
2.3.3 相关工作总结 |
第3章 竞争感知的共享式突发数据缓存分配算法 |
3.1 引言 |
3.2 相关背景介绍 |
3.2.1 共享式突发数据缓存系统 |
3.2.2 面向存储资源的调度分配 |
3.2.3 动机 |
3.3 基于竞争感知的存储资源调度方案 |
3.3.1 运行时框架设计与实现 |
3.3.2 竞争感知的节点分配算法 |
3.3.3 性能模型分析 |
3.4 实验评估 |
3.4.1 仿真实验 |
3.4.2 模拟实验 |
3.5 本章小结 |
第4章 分布式突发数据缓存的异步数据传输优化策略 |
4.1 引言 |
4.2 相关背景介绍 |
4.2.1 分布式突发数据缓存系统 |
4.2.2 动机 |
4.3 自适应可扩展的异步数据传输优化策略 |
4.3.1 运行时框架设计与实现 |
4.3.2 自适应的异步数据传输策略 |
4.3.3 动态数据回传优化方法 |
4.3.4 性能模型分析 |
4.4 实验评估 |
4.4.1 测试平台与测试程序 |
4.4.2 实验结果与分析 |
4.5 本章小结 |
第5章 结构感知的异构突发数据缓存的动态I/O调度方案 |
5.1 引言 |
5.2 相关背景介绍 |
5.2.1 异构突发数据缓存系统 |
5.2.2 动机 |
5.3 结构感知的动态I/O调度方案 |
5.3.1 运行时框架设计与实现 |
5.3.2 本地缓存的流量感知调度方法 |
5.3.3 跨存储层的I/O重定向策略 |
5.3.4 基于干扰感知的I/O调度算法 |
5.4 实验评估 |
5.4.1 测试平台与测试程序 |
5.4.2 实验结果与分析 |
5.5 本章小结 |
第6章 结果与展望 |
6.1 研究工作与结果 |
6.2 主要创新 |
6.3 下一步研究工作 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
在读期间参与的科研项目 |
(7)面向多测量率压缩感知的并行加速技术及应用(论文提纲范文)
摘要 |
Abstract |
符号使用说明 |
第一章 绪论 |
1.1 研究背景 |
1.1.1 雾计算与智能视频监控 |
1.1.2 压缩感知方法 |
1.1.3 深度神经网络并行加速 |
1.2 研究内容及创新点 |
1.2.1 研究内容 |
1.2.2 研究的创新点 |
1.3 论文组织结构 |
第二章 相关研究及理论基础 |
2.1 压缩感知方法 |
2.2 目标检测方法 |
2.3 半精度浮点数 |
2.4 分布式模型训练方法 |
2.4.1 数据并行 |
2.4.2 模型并行 |
2.4.3 混合并行 |
2.4.4 分布式训练方法的比较 |
2.5 面向多核集群的并行编程方法 |
2.5.1 面向多核集群的Open MP并行编程 |
2.5.2 面向多核集群的OpenCL并行编程 |
2.5.3 面向多核集群的OpenCL内核调度 |
2.5.4 OpenCL内核调优 |
2.6 深度神经网络的集群加速 |
2.6.1 面向GPU集群的深度学习框架 |
2.6.2 基于OpenCL的深度学习框架 |
2.7 卷积算法 |
2.8 行人再识别 |
第三章 多测量率图像压缩感知方法 |
3.1 引言 |
3.2 MRCS方法概述 |
3.3 MYOLO3 模型的网络结构 |
3.3.1 深度可分离卷积 |
3.3.2 Bottleneck残差块 |
3.3.3 深度特征金字塔网络 |
3.4 多测量率压缩感知 |
3.4.1 多测量率CS采样 |
3.4.2 基于DNN的多测量率CS重构 |
3.5 实验方法 |
3.5.1 实现技术 |
3.5.2 性能评估标准 |
3.6 实验结果分析 |
3.6.1 目标检测性能比较 |
3.6.2 多测量压缩感知方法的性能 |
3.7 本章小结 |
第四章 面向ARMv8 多核CPU集群的深度神经网络并行加速方法 |
4.1 引言 |
4.2 面向FT-2000plus CPU的 OpenCL实现 |
4.2.1 FT-2000plus CPU的架构 |
4.2.2 面向FT-2000plus CPU的 OpenCL运行时系统 |
4.3 面向ARMv8 多核CPU集群的OpenCL编程框架 |
4.3.1 虚拟OpenCL平台模型 |
4.3.2 面向FTCL的 OpenCL运行时系统 |
4.4 面向多核CPU的 im2col卷积并行优化 |
4.4.1 im2col卷积算法 |
4.4.2 基于Strided Batched GEMM的并行im2col卷积 |
4.5 实现方法 |
4.5.1 FTCL框架的实现 |
4.5.2 基于FTCL的并行DNN实现 |
4.6 实验结果与分析 |
4.6.1 实验环境 |
4.6.2 DNN模型与数据集 |
4.6.3 图像吞吐量 |
4.6.4 实验结果分析 |
4.7 本章小结 |
第五章 面向异构多核集群的深度神经网络加速方法 |
5.1 引言 |
5.2 UHCL-Darknet框架的设计 |
5.2.1 统一的OpenCL平台模型 |
5.2.2 基于偏好的动态调度 |
5.2.3 自适应运行时系统 |
5.2.4 内存管理 |
5.3 面向异构多核集群的DNN并行优化 |
5.3.1 基于Strided Batched GEMM的并行Winograd卷积算法 |
5.3.2 基于机器学习的OpenCL内核调优 |
5.4 UHCL-Darknet框架的实现方法 |
5.4.1 OpenCL编程接口的扩展 |
5.4.2 自适应运行时系统的实现 |
5.4.3 点对点数据传输 |
5.5 实验结果与分析 |
5.5.1 实验环境 |
5.5.2 DNN模型及数据集 |
5.5.3 实验结果分析 |
5.6 本章总结 |
第六章 半精度压缩感知技术在行人再识别中的应用 |
6.1 引言 |
6.2 半精度压缩感知方法HCS4ReID |
6.2.1 半精度CS采样 |
6.2.2 多测量率CS重构 |
6.2.3 端到端行人再识别 |
6.3 实验方法 |
6.3.1 数据集 |
6.3.2 实现技术 |
6.3.3 性能评估方法 |
6.4 实验结果与分析 |
6.4.1 半精度CS采样的性能 |
6.4.2 多测量率CS的重构质量 |
6.4.3 CS方法的性能比较 |
6.5 本章总结 |
第七章 结论与展望 |
7.1 工作总结 |
7.1.1 多测量率压缩感知 |
7.1.2 基于OpenCL多核集群的深度神经网络加速 |
7.1.3 半精度压缩感知采样 |
7.1.4 半精度多测量率压缩感知在端到端行人再识别中的应用 |
7.2 研究展望 |
7.2.1 面向多核CPU的 MYOLO3v2 模型并行加速 |
7.2.2 面向视频的多测量率压缩感知采样方法 |
7.2.3 面向深度学习的云计算资源组合与调度方法 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(8)基于故障数据预处理的超算系统容错关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 故障数据处理技术研究现状 |
1.1.1 相关概念 |
1.1.2 面向超级计算机的数据采集技术 |
1.1.3 面向超级计算机的故障数据处理技术、 |
1.2 容错技术发展现状 |
1.2.1 面向超级计算机的容错技术 |
1.2.2 面向超级计算机的容错库 |
1.2.3 其他容错技术 |
1.3 I/O相关技术研究现状 |
1.3.1 MPI-IO |
1.3.2 MPI-IO、Lustre与数据密集型应用相关研究 |
1.3.3 I/O性能分析工具与I/O工作负载管理 |
1.3.4 科学数据管理 |
1.5 主要贡献和创新点 |
1.6 论文组织结构 |
第二章 面向超算系统的故障数据预处理技术 |
2.1 引言 |
2.2 研究背景 |
2.2.1 I/O软件栈,I/O转发层和H~2FS |
2.2.2 数据采集框架和存储负载管理模型 |
2.2.3 资源管理器和性能分析工具 |
2.2.4 日志模板提取技术 |
2.3 面向超算系统的实时数据采集框架 |
2.3.1 实时数据采集框架 |
2.3.2 优化后的性能分析收集工具 |
2.4 基于离线预处理的在线日志模板提取方法 |
2.5 实验 |
2.5.1 实验环境 |
2.5.2 结果与讨论 |
2.6 小结 |
第三章 面向超算系统的容错技术 |
3.1 研究背景 |
3.1.1 超级计算机的可靠性现状 |
3.1.2 检查点/恢复容错技术 |
3.1.3 超算系统中的故障数据相关性分析 |
3.2 主要工作 |
3.2.1 基于多维度XOR容错模式 |
3.2.2 基于数学函数库的容错模式 |
3.3 性能分析与实验 |
3.3.1 性能分析 |
3.3.2 实验设计 |
3.4 小结 |
第四章 面向超算系统容错的I/O优化技术 |
4.1 引言 |
4.2 研究背景 |
4.2.1 ROMIO,Lustre以及SLURM |
4.2.2 I/O性能与系统状态 |
4.2.3 存储资源以及资源管理系统 |
4.3 方法 |
4.3.1 I/O路径优化模块 |
4.3.2 存储容量均衡模块 |
4.3.3 I/O数据采集和故障预警模块 |
4.4 实验设计 |
4.4.1 实验环境 |
4.4.2 实验一 |
4.4.3 实验二 |
4.4.4 实验三 |
4.5 小结 |
第五章 结论与展望 |
5.1 工作总结 |
5.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(9)智能时代国际化城市的语言生活治理 ——以上海为例(论文提纲范文)
致谢 |
摘要 |
Abstract |
第一章 导论 |
1.1 研究背景 |
1.2 研究问题 |
1.3 论文结构 |
1.4 小结 |
第二章 文献综述 |
2.1 全球化的社会语言学研究 |
2.1.1 移动性与超多样性:全球化时代城市语言生活的基本特点 |
2.1.2 交际语库与超语实践:全球化时代城市语言生活研究的新视角 |
2.1.3 都市超语现象与空间语库:城市语言生活研究的空间转向 |
2.2 国际化城市的语言生活治理研究 |
2.2.1 从规划到治理:语言政策研究的演进 |
2.2.2 移民语言生活:国际化城市语言生活治理的核心议题 |
2.2.3 语言景观民族志:城市语言生活治理研究的新路径 |
2.3 智能技术与语言生活 |
2.3.1 传统互联网的语言研究 |
2.3.2 移动数字交际 |
2.3.3 网络空间的语言政策 |
2.4 小结与讨论 |
2.4.1 本研究的理论视角 |
2.4.2 本研究的核心概念 |
第三章 研究设计 |
3.1 研究范式的选择 |
3.2 研究方法 |
3.2.1 资料收集 |
3.2.2 材料分析 |
3.3 研究范围 |
3.3.1 研究场景 |
3.3.2 研究对象 |
3.4 研究信度与效度 |
3.4.1 研究的信度 |
3.4.2 研究的效度 |
3.5 研究伦理 |
3.6 小结 |
第四章 上海城市语言生活的社会历史背景 |
4.1 早期上海的国际化与现代性 |
4.1.1 上海开埠与租界的建立 |
4.1.2 外来移民涌入与华洋杂居 |
4.1.3 上海的城市文化与多元性 |
4.2 新时代上海的全球化之路 |
4.2.1 上海的全球城市建设 |
4.2.2 上海的人才政策 |
4.2.3 上海国际社区的形成 |
4.3 上海的智能化之路 |
4.3.1 “互联网+”战略 |
4.3.2 移动互联网与智慧生活 |
4.3.3 智能技术与智能社会 |
4.4 上海的语言政策 |
4.4.1 宏观层面的语言文字法规 |
4.4.2 宏观语言政策中外语的定位 |
4.4.3 上海市层面的语言生活治理 |
4.5 小结 |
第五章 上海城市语言生活中语言资源使用的特点 |
5.1 上海城市空间中语言资源配置的特点 |
5.1.1 层次性 |
5.1.2 变动性 |
5.2 上海城市语言生活中语言资源使用的特点 |
5.2.1 超语实践作为交际策略 |
5.2.2 超语实践的空间性 |
5.3 城市语言生活中超语实践的限制因素 |
5.3.1 城市空间中资源配置的不确定性 |
5.3.2 机构语言政策的影响 |
5.4 小结 |
第六章 上海城市语言生活中的智能技术 |
6.1 网络空间中的语言资源 |
6.1.1 传统互联网中的语言资源 |
6.1.2 移动互联网中的语言资源 |
6.1.3 智能技术中的语言资源 |
6.2 智能技术在语言生活中的应用 |
6.2.1 突破交际的时空限制 |
6.2.2 转化交际需求 |
6.2.3 转换交际模态 |
6.3 语言生活中影响智能技术应用的因素 |
6.3.1 意识因素 |
6.3.2 知识因素 |
6.3.3 经验因素 |
6.4 小结与讨论 |
6.4.1 网络语言资源的全球性与本地性 |
6.4.2 企业外部语言政策的影响 |
第七章 面向全球化与智能化的城市语言生活治理 |
7.1 智能技术为国际化城市语言生活治理带来的机遇 |
7.1.1 丰富语言资源的可用性 |
7.1.2 提高语言资源的可及性 |
7.2 智能技术为国际化城市语言生活治理带来的挑战 |
7.2.1 从超语实践到超语能力 |
7.2.2 科技企业的语言政策 |
7.3 小结 |
第八章 结语 |
8.1 研究发现 |
8.2 主要贡献及创新 |
8.2.1 理论意义 |
8.2.2 实践意义 |
8.3 研究局限 |
8.4 结语 |
参考文献 |
附录1 在沪跨国移民访谈大纲 |
附录2 在沪跨国移民访谈转写节选 |
附录3 本地公共领域从业者访谈大纲 |
附录4 本地公共领域从业人员访谈转写稿节选 |
附录5 田野观察笔记节选 |
附录6 主要年份在沪外国常住人口 |
附录7 上海分年龄、性别及目的来华境外人口统计(节选) |
附录8 上海各地区境外人口户数与人口数统计(节选) |
附录9 上海各地区境外家庭户规模统计(节选) |
附录10 虹桥外国人服务站田野调查点 |
附录11 上海外国人展田野调查现场 |
附录12 联洋社区涉外服务站田野调查现场 |
附录13 碧云CCS社区开放日活动田野调查现场 |
附录14 CharityLink慈善活动田野调查现场 |
附录15 虹梅路老外街田野调查点 |
附录16 《上海市公共信息多语种服务手册》发布现场 |
(10)基于应用行为分析的高性能计算机存储系统优化技术研究(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 背景和意义 |
1.2 高性能计算机面临的关键问题和挑战 |
1.2.1 问题一:I/O资源竞争 |
1.2.2 问题二:高性能计算机的I/O性能调优 |
1.2.3 问题三:存储结构的变化 |
1.3 论文主要工作和贡献 |
1.4 论文组织结构 |
第2章 背景和相关工作 |
2.1 I/O转发架构及针对性优化 |
2.2 并行应用程序的I/O分析与优化 |
2.3 变量级内存分析以及数据分配 |
2.4 论文所使用的系统和应用程序 |
2.4.1 神威太湖之光高性能计算机及其存储系统 |
2.4.2 论文中使用的其它测试系统 |
2.4.3 论文中使用的程序 |
2.4.4 基准测试程序 |
2.5 小结 |
第3章 端到端的I/O行为检测与分析 |
3.1 前言 |
3.2 端到端的I/O监控与分析系统Beacon |
3.2.1 主要目的与挑战 |
3.2.2 Beacon系统的架构 |
3.2.3 多层级系统监控的实现 |
3.2.4 I/O分析系统 |
3.2.5 性能评估 |
3.3 I/O行为分析 |
3.3.1 存储系统I/O行为分析 |
3.3.2 应用程序I/O行为分析 |
3.4 太湖之光存储访问优化 |
3.4.1 修改N-1的I/O模式 |
3.4.2 避免缓存颠簸 |
3.4.3 I/O转发节点队列调度策略调整 |
3.5 小结 |
第4章 高性能计算机的存储转发系统优化 |
4.1 前言 |
4.2 动态I/O转发资源分配系统DFRA |
4.3 自适应的I/O转发节点调整 |
4.4 消除I/O性能干扰 |
4.5 性能异常节点规避 |
4.6 系统评估 |
4.6.1 I/O历史行为统计 |
4.6.2 整体效果评估 |
4.6.3 I/O转发资源升级测试 |
4.6.4 节点异常检测 |
4.6.5 I/O干扰消除 |
4.6.6 DFRA的动态分配开销 |
4.6.7 突发缓存上的扩展 |
4.7 小结 |
第5章 面向混合存储的分析和优化 |
5.1 前言 |
5.2 内存行为研究方法 |
5.2.1 对象与变量 |
5.2.2 两阶段变量/对象分析工具 |
5.3 实验环境与应用程序集合 |
5.4 应用程序的内存行为分析 |
5.4.1 应用程序的变量/对象行为 |
5.4.2 主要变量分析 |
5.4.3 并行应用程序分析 |
5.5 内存分析的实验结果 |
5.5.1 变量/对象数目和大小 |
5.5.2 变量的生存周期 |
5.5.3 不同问题规模下内存行为的研究 |
5.5.4 对象的内存使用量 |
5.5.5 主要变量数据结构类型 |
5.5.6 对象内存访问模式 |
5.5.7 内存访问分析的采样窗口 |
5.6 混合存储系统的优化数据分配策略 |
5.6.1 概述 |
5.6.2 性能模型构建 |
5.6.3 变量在混合存储上的分配 |
5.6.4 实验评估 |
5.7 小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 进一步工作 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文与研究成果 |
四、HPC++:一种支持多线索和远程对象调用的并行语言(论文参考文献)
- [1]嵌入式操作系统在分布式系统中的设计与应用[D]. 寿颖杰. 江南大学, 2021(01)
- [2]基于哈希的高通量生物基因测序数据处理算法优化[D]. 许凯. 山东大学, 2020(04)
- [3]虚拟机环境下MPI/RDMA库的通信优化[D]. 谢尚威. 中国科学技术大学, 2020(01)
- [4]计算机科技论文摘要的机翻错误类型及译后编辑[D]. 付茜雯. 大连理工大学, 2020(06)
- [5]工业大数据分析建模平台研究与实现[D]. 张庄. 西安电子科技大学, 2020(05)
- [6]E级计算的存储系统突发数据缓存的I/O性能优化[D]. 梁伟浩. 中国科学技术大学, 2019(02)
- [7]面向多测量率压缩感知的并行加速技术及应用[D]. 廖龙龙. 国防科技大学, 2019(01)
- [8]基于故障数据预处理的超算系统容错关键技术研究[D]. 黄璜. 国防科技大学, 2019(01)
- [9]智能时代国际化城市的语言生活治理 ——以上海为例[D]. 杜宜阳. 上海外国语大学, 2019(07)
- [10]基于应用行为分析的高性能计算机存储系统优化技术研究[D]. 季旭. 清华大学, 2019(02)