一、高性能集群文件系统的研究(论文文献综述)
刘欣[1](2018)在《基于层次式混合存储技术的并行文件系统关键技术研究》文中认为超级计算机规模、数据密集型应用和大数据应用规模的多重快速增长的叠加作用,对当前超级计算机中广泛采用的基于磁盘的并行文件系统带来巨大技术挑战。在超级计算机中,计算分系统与存储分系统分离,增大了I/O延迟。计算结点不配置磁盘[1,2],难以在所有计算结点中配置固态盘(SSD),使得数量巨大的本地I/O汇聚到共享并行文件系统,并产生巨大I/O压力。超级计算机中CPU核数已经达到千万量级[2,3],它将聚合产生数量巨大的I/O请求。研究和实际应用表明,当前基于磁盘构建的单一存储层次的并行文件系统在提供超大存储容量的同时,难以同时满足Exascale超级计算机提出的高并行、高带宽和低延迟的要求。本文以天河一号超级计算机、高性能计算应用和大数据应用为基础,面向Exascale超级计算机对并行文件系统的要求,研究新的并行文件系统结构和关键实现技术,主要研究工作和创新点如下:1)提出了基于层次式混合存储技术的并行文件系统结构ONFS当前在超级计算机中广泛使用基于磁盘的并行文件系统,它只有单一存储层次,由于存储服务器远离计算结点,并受限于磁盘固有的性能不足,使得它们难以满足高速低延迟的要求。基于SDD的Burst Buffer Node和ION仅用于构建局部文件系统,没有与底层基于磁盘的存储系统融为一体。本文根据Exascale超级计算应用的I/O需求特性,提出了基于DRAM、SSD和磁盘构建的具有三个存储层次的并行文件系统ONFS,以靠近计算结点的基于DRAM和SSD的存储层次为用户程序提供高速低延迟的并行文件读/写服务,利用基于磁盘的存储层次实现超大存储容量,文件可以在三个存储层次之间动态高效迁移,实现单一名空间,支持POSIX协议。经过与典型并行文件系统比较,ONFS是首个可综合实现超大存储容量、高并行、高速度和低延迟文件服务的并行文件系统,可满足Exascale超级计算机对并行文件系统的综合高要求。2)提出了基于用户组子目录的元数据划分、分布存储和处理的方法元数据的高效管理是实现高性能并行文件系统的重要基础,它包括元数据的划分、分布、存储和服务。划分方法主要有静态子树、动态子树和哈希分布三大类。静态子树粒度大,难以支持负载和规模的有效动态调整;动态子树粒度小,子树关系复杂,管理的开销大;哈希分布丢弃元数据之间的相互关系,在目录名和文件名修改时将产生元数据迁移。本文基于用户目录构建过程,提出以根目录之下的用户组子目录(UGSD)为元数据划分粒度,它保持了目录固有的树状结构,简化了元数据划分的描述和管理;提出了在UGSD上增加自然整数后缀,实现UGSD在映射函数输入变量空间的均匀分布;采用简单的MOD函数和查找表,实现UGSD到MDS、MDS到MDSS之间的映射;采用同步更新和调峰机制,实现元数据负载动态调整和MDS规模动态增减,等。由实验和比较分析可知:UGSD的元数据划分粒度合理,易于描述和管理;文件路径名到MDS之间的映射算法简单,分布均匀;可动态实现元数据负载和MDS规模的调整;综合解决了元数据划分、存储和处理上存在的主要技术问题。3)提出了DS-m的内存借用和归还策略、并行存储控制和综合性能优化方法在超级计算机中,计算结点内存是专供用户程序使用的。基于结点内存构建高速低延迟存储层次最关键的问题是如何获得可以使用的内存。迄今为止,所有基于HPC计算结点内存构建存储系统的研究工作都回避该问题。本文基于计算密集型和数据密集型程序使用内存的不同情况,将所有计算结点划分为小内存分区和全内存分区,采用静态方式先从小内存分区的结点中借用确定数量的内存;根据用户程序使用内存的动态变化情况,采用最大值方法,动态窃用小内存分区结点中的剩余内存;采用静态与动态结合的方法,及时归还程序需要的内存,确保程序正确执行。本方法首次解决了基于结点内存构建存储系统的内存来源和管理的关键问题。现有的存储空间分配方法是面向磁盘的,不适合DS-m。DS-m的可用内存容量小,读/写带宽受限于互连接口带宽,这影响了大文件存储和多进程并行读/写带宽。DRAM为易失性存储器件,通常采用双副本方法解决存储可靠性问题,现行的串行更新主辅副本的方法,延迟大。VFS的页缓存控制策略是面向磁盘小数据块的,在大文件读/写时性能低;FUSE分拆大数据块的读/写请求,引入较大的读/写请求发送延迟。为了解决上述问题,本文提出由多个DS-m/DS-s并行工作,提高DS-m组的可用存储容量和多进程的聚合带宽;采用主辅副本并行更新方法,消除串行更新方法引入的写延迟;提出了关闭VFS页缓存,增大FUSE的MAXsize参数,构建和管理客户端缓存的方法,大幅提升了大数据块的读/写性能。实验和分析表明,由4个DS-m构成的分组并行存储,提高存储容量4倍,平均提高读/写带宽3.4倍;并行副本更新时间仅为串行方式的48.8%;客户端缓存的读和写速度分别是使用VFS页缓存的6.7倍和1.78倍。4)提出了基于内存容量阀值控制的文件向下迁移和基于应用特性的文件向上预迁移的控制策略文件数据迁移是层次式存储系统获得高性能的关键技术。当前,向下迁移主要以可用存储容量作为迁移条件,向上迁移主要以文件访问特性,如读/写、访问请求大小等,为迁移条件。现有的方法或是基于低速磁盘的,或是没有考虑高性能计算应用程序访问文件的特性。使用文件访问的动态特性计算热度,开销大;仅仅使用可用存储容量控制向下迁移,不考虑文件所处的open/close状态,易于使处于open状态的文件产生迁移乒乓效应。本文按照文件所处的open和close状态,使用双LRU表,实现文件冷度计算;在DS-m中设立三个可用内存容量阀值,并与文件冷度结合触发向下迁移;基于数据密集型应用程序读/写和处理文件数据的特性,提出了全文件和部分文件结合的混合迁移粒度方法,以及向上主动预迁移和被动预迁移结合的控制策略。实验和分析结果表明,冷度计算方法的计算开销小;向下迁移可在迁出文件数据量和写入数据量两个方面取得性能均衡;全文件和部分文件数据向上迁移、主动向上预迁移可减少无效迁移操作,在DS-m与DS-d之间可提高读带宽16倍以上。ONFS支持POSIX协议,我们在天河一号超级计算机上实现了ONFS原型系统,用户程序不需要修改便可在ONFS上运行。IOR benchmark测试表明,ONFS的文件读/写带宽是Lustre的7.7倍或以上;典型数据密集型应用程序测试结果表明,ONFS文件读和写带宽分别是Lustre的5.44倍和4.67倍,实际应用效果良好。
周凯[2](2015)在《高性能计算中作业调度技术与集群管理系统的研究》文中进行了进一步梳理计算科学从诞生以来,已经在科学研究、工程技术以及军事等方面取得了巨大的成就。在计算科学的发展过程中,高性能计算技术凭借其易用性、灵活性和平台无关性等特点,在国内外广受关注。同时,高性能计算也是许多计算学科的工具基础,正因如此,高性能计算中常用的集群技术正愈发受到各科研部门的重视和关注。集群管理系统主要包括了资源管理、作业管理和用户管理,本文主要从高性能计算的起源、发展趋势以及相比大型机的优势所在等方面阐述高性能计算中资源管理、作业管理和用户管理的研究成果。本文主要的工作如下:1、介绍了集群硬件架构的发展过程,分析了Linux高性能集群系统平台的构成,阐述了集群中各硬件节点以及所用网络的功能,同时对集群中软件架构进行了分析;2、以资源管理器Torque与作业调度器Maui组合为基础,结合监控软件Ganglia,给出利用Python语言在Django框架下开发集群系统管理软件CCLAB的过程。3、分析了CCLAB中“作业调度”、“集群用户”和“集群监控”三个Portlet的设计开发过程,给出了CCLAB中URL的设计过程,并分析了文中采用的GPFS并行文件系统、消息传递接口(MPI)技术以及集群远程电源管理的工作原理;4、分析了作业调度的分类和过程,根据作业调度器Maui调度作业的方式对作业调度进行数学模型抽象,通过有向无环图(DAG图)解释调度过程。在分析了常用的FCFS策略、优先级调度策略、Firstfit策略、Bestfit策、预约策略和回填策略优缺点的基础上,改进并分析了一种基于节点负载情况自定义优先级预约回填的策略(“BLPRB”策略),拓展了单、双策略的研究,并对其实现节点负载评估、作业优先级确定和预约资源以及回填作业的过程进行详细分析,给出“BLPRB”策略确定预约作业最迟执行时间和解决大作业饥饿问题的算法理论分析,最后将该策略集成到Maui调度器中。在搭建的高性能计算平台上进行验证分析,结果表明BLPRB策略相比Firstfit和FCFS,作业最大响应时间最大减幅达到26.17%和25.99%,吞吐率最大提升达到54.55%和30.77%,对比Firstfit策略和FCFS策略,BLPRB策略在平均等待时间上的最大降幅分别为35.22%和60.58%。测试结果表明BLPRB策略一定程度上提高了集群的系统利用率和吞吐率。文中开发的CCLAB大大降低了集群管理员的负担,有一定的实际价值,改进后的新型作业调度策略能在一定程度上提升集群资源的利用率。
王刚[3](2014)在《计算机集群技术的研究》文中指出计算机集群是一种计算机系统,它通过一组松散集成的计算机软件和硬件协同完成计算工作。本文对高可用性、负载均衡、高性能计算、网格计算等集群技术进行了分析,探讨了集群文件系统、集群NAS系统的功能和实现,并研究了C/S型集群文件系统、Serverless型集群文件系统的原理和实现方式,对计算机集群技术的应用有一定参考价值。
万勇[4](2013)在《集群系统中的网络性能优化方法研究》文中研究说明在高性能的计算机集群系统中,采用高速网络设备对集群中的各个节点进行互连已成为当前集群技术发展的主流。网络组件是集群系统体系结构的重要组成部分,直接影响了集群系统的各项性能指标。另一方面,集群网络具有许多明显不同于一般网络的优势特征,例如高带宽、低延迟、高可靠性等等,如果系统中的网络组件不能充分利用这些优点,就容易成为系统的瓶颈。因此,针对高性能集群网络的特点,对网络进行优化设计非常必要。RPC是一项广泛用于集群与分布式系统的网络组件与通信技术。然而,当传统的RPC技术用在基于高速网络的集群环境中时其性能表现很一般,其主要原因就在于传统的RPC技术并没有充分利用到集群网络中所特有的优点。仔细研究了传统的RPC技术,研究表明传统RPC在集群网络中性能表现差的主要原因之一是由RPC技术中的序列化/反序列化操作引起的。因此提出了一种同构集群下专用的序列化/反序列化方法——SimpSerial,它能够减少传统的序列化/反序列化方法中的数据拷贝次数,以此来大幅度地提升集群网络的性能。将SimpSerial在真实的集群环境中加以实现,并进行了测试。测试表明此方法能显着提升集群网络的性能,当测试中所传输的数据块大于2MB时,其对集群网络带宽性能的提升幅度可达到40%以上。在高性能集群系统中,如果RPC超时现象频繁发生,将会严重影响集群的整体性能。传统的自适应超时机制能动态地调整超时值,因此它们被广泛使用在RPC系统中。然而,传统的自适应超时机制也有它们自己的缺点,并且有待于进一步的改进。通过对超时现象发生时服务端与客户端的具体情况的仔细分析,发现传统的单机版自适应超时机制存在两个重要的问题,其一是当超时发生时,服务端经常会发生一种本文称之为"RPC任务拥塞”的情形;另一个问题是超时值的调整趋势为只增不减,因此,超时值在系统运行过程中会调整得越来越大。根据上述分析,提出了一种分区间的RPC自适应超时机制,它将超时值区间划分为两个不同的子区间,当超时值位于不同的区间时,分别采用了不同的超时值调整方法,使系统的RPC超时值调整方法达到更好的调整精度与自适应能力。分区间的超时机制具有更大的超时值调整范围与更快的调整速度,因此可以在一定程度上解决“RPC任务拥塞”问题;同时,在这个机制中有一个新颖的算法,用于当超时值偏大时可以将其调整到一个合理范围。因此,这个机制具有较好的精确度与自适应能力。TCP与RDMA都是集群网络中最常用的协议。早期文献中的分析认为TCP协议在高速网络环境中容易成为性能瓶颈,并且将主要原因归结为TCP协议在工作过程中存在着多次的内存拷贝操作,这导致了整体效率低下以及较多的CPU资源消耗。相比之下,RDMA最主要的优势在于其对内存的单次访问,因此具有数据传输速率快、CPU利用率低的优点。对目前的主流集群服务器平台中各种新部件的特点进行了分析,并且在此平台上对TCP的性能进行了研究。研究表明,TCP的工作效率与性能可以随着计算机体系结构和硬件技术的发展而提升。在目前的主流集群服务器平台上,TCP协议能够获得非常好的性能表现。相比之下,RDMA技术带来的编程方面的复杂性、兼容性问题依然严重存在。所以,TCP在集群平台上仍然有着广阔的应用与发展空间。在上述分析基础上,在Cappella集群系统的开发过程中设计并实现了相应的网络中间层。Cappella系统网络中间层包含了两种主要的用户态通信方式分别为:RPCover TCP、RPC over RDMA,测试表明这两种方式都能获得非常高的带宽性能。通过网络中间层实例设计,对集群系统中提升网络中间层性能的方法进行了归纳总结。可以认为,在集群系统中,在各个层次减少数据拷贝操作、在TCP协议中使用多流技术是集群系统中提升网络性能的两类典型的方法。
杨希[5](2012)在《智能网络磁盘(IND)存储管理方法研究》文中研究表明随着网络化和数字化技术的飞速发展,互联网为广大的用户提供了极为丰富的信息资源,如何处理并长期保存有重要价值的海量数据信息,引起了人们的高度关注。因此,近年来海量信息存储技术已经成为计算机科学和技术领域的一个非常重要的研究方向和技术研究热点。目前在解决海量信息存储技术问题的众多技术方案中,网络集群技术是一种最流行的实现方式,但是在网络集群存储系统中仍然还不同程度地存在着存储性能瓶颈和单点故障问题,因此,如何有效地克服网络集群存储方式中的存储性能瓶颈和单点故障问题是当前计算机存储技术研究领域中一项十分重要的研究工作,具有重要的理论意义和实际意义。智能网络磁盘(Intelligent Network Disk, IND)存储系统是作者课题组提出的一种新的智能化的海量信息存储体系结构,由智能网络磁盘(IND)组成的网络存储系统除了具有一般网络集群存储系统的特点外,还能通过采用一系列的智能控制算法来防止存储性能瓶颈和单点故障问题,维护系统的负载均衡,实现整个网络存储系统的智能化信息存储。因此,智能网络磁盘(IND)存储系统是一种较理想的网络集群存储系统。本文对智能网络磁盘(IND)存储系统的嵌入式IND结构模型、IND智能存储管理算法、适合IND特性的综合负载均衡策略、消除系统热点瓶颈的Cache调整机制以及IND在视频服务器与高性能计算中的应用等存储管理方法进行了系统和深入的研究。作者所做的主要研究工作和创新性成果体现在以下几方面:1、提出了一种具有直接联网和自主存储功能的IND结构模型。这种IND通过联网可灵活地构建大容量的IND存储系统,为存储虚拟化增添了一种海量存储的新途径,并进行了相应试验,为后续探索提供了有利条件。2、提出了IND存储系统的智能存储管理算法。在深入研究Bloom filter和Hash表对存储管理的重要作用的基础上,设计了相应的IND算法以控制存储系统的读写过程,自动地应对客户的高并发请求,实现IND之间的相互协调,提高系统整体存储效率。同时,采用集中控制和分散服务的管理措施,能够克服存储性能瓶颈和单点故障问题。大量测试结果表明,在当前条件下,这是实现IND海量存储行之有效的一种存储方法。3、提出了一种适合IND特性的综合负载均衡策略。它能够根据IND处理能力和任务特点来合理分配负载。通过统计读写访问频数,结合时空因素来动态调整实现存储系统的负载均衡,使各IND负载尽量分布均匀。当在高并发请求产生负载倾斜时,可适时迁移调整各个IND上的文件数量。这种用文件访问频数动态调整负载均衡的方法,不干扰系统进程,不增加通信开销。实验研究表明,系统运行稳定,收到了很好的效果。4、提出了一种能够消除系统热点瓶颈的Cache调整机制。针对读请求频繁的系统,如IND用于Web服务器、视频服务器,采用Cache动态调整策略可消除系统的热点瓶颈,减少延时和迁移通信开销,提高了存储系统的性能。5、设计了一种IND视频点播系统,其运行结果令人满意,它综合反映了IND存储系统的特色,预示了IND的应用前景。此外,还给出了一种挂载IND的高性能集群计算系统方案,并通过I/0密集型高性能计算中矩阵运算的存储试验,达到了预期的效果。
黄訸[6](2011)在《高性能计算体系结构下的海量数据处理分析与优化》文中认为本文的研究内容是探索如何在高性能计算机上搭建海量数据处理平台,高效地实现海量数据处理。首先,阐述了在高性能计算机上进行海量数据处理的难点和重大意义,分析了在高性能计算机上处理数据密集型应用,部署MapReduce架构的必要性、可行性、以及可能遇到的问题。其次,通过实验对高性能计算机上MapReduce架构的性能进行评测。分别在不同的节点规模下、基于不同的存储系统、对不同类型应用的性能进行了评测。通过评测发现,分布式文件系统(DFS)的I/O性能可以随着节点数目的增加线性扩展,而集中存储系统的I/O性能则受限于集中存储系统中磁盘阵列的规模,所以在节点数目增加的情况下,基于DFS的测试性能要好得多。再次,建立了RA-MapReduce性能预测模型。通过详细分析MapReduce作业各个阶段的执行过程,把执行MapReduce应用的性能(主要通过作业总的时间开销来反映)与应用特性参数以及集群硬件环境特性参数关联起来。通过该模型,可以计算出不同体系结构和硬件资源环境下,处理不同类型的数据密集型应用时,MapReduce作业各个阶段的时间开销,以及计算开销、数据I/O开销等在各个阶段中所占的比例。利用RA-MapReduce性能预测模型,既可以预测在特定硬件环境下运行某一特定MapReduce应用能够获得的最佳性能,也可以分析出影响MapReduce应用性能的瓶颈因素,以及增加某一类集群硬件资源能够获得的性能提升。接下来,针对高性能计算机数据I/O能力有限,可能无法满足当前数据密集型应用需要的问题,提出了对高性能计算机上MapReduce架构设计的优化,即中间结果网络数据传输优化和中间结果本地存储优化。最后,把RA-MapReduce性能预测模型与实验数据结合起来,验证了模型的正确性。通过模型分析和实验验证两个方面,分别证明了中间结果网络数据传输优化和中间结果本地存储优化,在高性能体系结构下的有效性。在本文的实验中,存储系统的I/O是系统性能的主要瓶颈,而中间结果本地存储优化减轻了集中存储系统的负担,很好地改善了系统的性能。实验证明,基于集中存储系统排序1TB数据,加入中间结果本地存储优化后,性能提升了32.5%。
蔡达伟[7](2011)在《Lustre集群文件系统实例分析》文中研究说明随着计算机技术的发展,集群系统的应用越来越广泛。在各种高性能计算机解决方案中,基于linux的高性能科学计算集群是比较流行的低成本方案。本文介绍了Linux高性能集群及集群文件系统的相关技术,并通过实例展现搭建集群文件系统的过程。
张晓波[8](2011)在《基于高性能集群计算的并行文件系统关键技术研究》文中研究表明本文提出了一个基于并行文件系统的地震资料处理的集成平台架构,消除了传统共享网络存储系统的瓶颈,解决了大规模数据处理中的效率问题。石油天然气勘探地震资料处理过程中的多个环节需要对大数据量并发读写,由于网络带宽、文件系统等性能问题,造成I/O等待、集群系统效率低下,无法实现有效的协同工作。本文通过分析地震资料处理应用中的并行计算、数据布局特点和主流网络存储技术,挖掘出制约高性能计算效率的关键因素。通过对并行文件系统Lustre进行深入的技术和应用场景分析、得出Lustre可以成为存储系统和应用软件之间的桥梁,消除大量并发应用进程访问存储系统的瓶颈。搭建了一套部署Lustre文件系统的高性能集群系统,进行系统的I/O和应用性能测试,通过测试数据的分析,印证了方案的有效性,这就为下一步的推广和优化打下了良好的基础。
钱迎进[9](2011)在《大规模Lustre集群文件系统关键技术的研究》文中研究说明集群已成为当今高性能计算机的主流体系结构。集群文件系统是缓解高性能计算集群I/O瓶颈问题的核心技术。随着高性能计算技术的不断发展,很多高性能计算应用的存储需求在不断提高。Lustre是领先的集群文件系统,已经成为构建高性能计算存储系统的标准,在高性能计算市场中占据统治地位。它可以有效地扩展到支持上万个节点的大规模HPC系统,具有被证实的聚合性能和扩展性。随着高性能计算不断的以增加节点来提升系统性能,未来高性能计算集群将变得异常庞大,技术上给Lustre带来了扩展性、I/O性能和可用性等诸多严峻挑战。本文所做的工作就是紧紧围绕这些问题展开的。具体研究内容和创新成果如下:(1)针对大规模应用的并行I/O访问特性,设计了一种新颖的跨网络的服务器端I/O请求调度器框架,并提出了一种基于对象的轮转(OBRR, Object Based Round Robin)调度算法来优化性能。它通过调度上层的并行I/O请求的执行,呈现给后端存储系统更容易优化的I/O工作负载。同时,为了避免饥饿以及满足不同紧急程度I/O请求响应时间的需求,提出了一种新颖的两级deadline设置策略:动态deadline和强制deadline。一系列的模拟测试结果表明使用OBRR性能提高了40%以上,两级deadline设置策略可以保持公平性,避免饥饿,确保不同紧急程度I/O的响应时间。(2)与网络拥塞类似,当存储系统达到超大规模时,也会造成I/O拥塞问题。针对这个问题,提出了一种动态I/O拥塞控制机制来更好的支持未来的艾级规模HPC系统的存储需求。在该机制的控制下,当服务器轻载时,允许客户端发送更多的I /O请求给服务器,以达到优化网络和服务器资源利用率提高I/O吞吐率的目的;另一方面,当服务器负载过重时,它可以对客户端I/O进行节流控制,限制服务器挂起的I/O请求的数目,控制I/O延迟,避免服务器拥塞崩溃。在天河一号上的一系列评估实验结果证明了提出的拥塞控制机制的有效性:它阻止了拥塞崩溃的发生;在此前提下,它最大化了Lustre文件系统的I/O性能。(3)针对传统的固定超时机制不能适应超大规模集群环境的不足,提出了一种综合考虑网络条件、服务器负载、扩展性和性能等因素的自适应可扩展的RPC超时机制。它包括两个策略:自适应超时策略和及早回复策略。在自适应超时策略中,客户端设置的超时值可以根据客户端服务器间的网络情况以及服务器的工作负载动态的进行调整,以适应集群环境的变化,从而避免不必要的超时造成整个系统性能的降低;同时,为了区分服务器因负载过重而拥塞和网络/节点失效,以及为了解决嵌入式超时问题,提出了一种及早回复策略:当服务器知道它不能在客户端期待的响应时间内回复RPC请求时,它将提前发送一个轻量级的及早回复消息给客户端并指示一个估测的额外需要的服务时间。该策略进一步减少了超时的发生,提高了系统的响应速度。一系列的模拟评估的结果表明:与固定超时机制相比,使用自适应超时策略RPC超时率从76%降低到13%,结合及早回复策略,超时率甚至降低到0%;在基于RPC的超大规模集群系统中,其他的一些RPC失效检测机制,如客户端驱动的轮询或探测机制,会产生大量的不必要的网络流量,存在扩展性问题,而我们的机制通常只产生少量的网络流量,是一个更具有扩展性的基于超时的失效检测机制。(4)研究了Lustre分布式锁管理器技术。首先,分析了Lustre的文件访问的并发控制机制,基于锁回调的客户端目录项高速缓冲和数据写回缓冲;其次,研究了Lustre的基于意图锁的元数据操作和子树锁机制以及基于范围锁的文件大小获取算法;最后,提出了自适应I/O锁策略、基于区间树的范围锁冲突检测优化策略以及锁淘汰策略等,进一步增强了Lustre的I/O性能和锁服务的扩展性。(5)研究有状态的Lustre基于事务的元数据更新算法和恢复机制。Lustre允许服务器完成了事务的内存更新就可以将结果返回客户端,而且其结果在整个命名空间即为可见的。这种方式能够提供优异的元数据性能,但它会在服务器重启恢复(或者故障切换)时造成事务的叠加abort的问题,从而不能进行透明无缝的恢复。Lustre的重启恢复算法需要集群中所有客户端在指定的恢复时间窗口内与服务器重新建立连接,客户端重传未提交的事务请求,服务器严格按照事务序列号重放所有未提交的事务,其要求过于严格。为了提高Lustre的可恢复性,提出了基于版本恢复和共享时提交算法,它们分别对Lustre的元数据更新算法和重启恢复恢算法进行了扩展,允许客户端在更为宽松的条件下能够进行恢复重新加入到集群。基于版本的恢复算法在恢复的过程中加入了版本检查,允许操作对象版本匹配的事务进行重放恢复。在共享时提交算法中,服务器一旦检测到未提交的客户端间依赖事务时,会将它提交到磁盘来避免读或者写未提交的事务的数据,从而消除客户端间的恢复依赖关系,使得各个客户端可以独立的恢复。实验评估证明由于发生事务依赖时需要强制进行磁盘提交,共享时提交算法对性能会有所影响。尽管如此,在超大规模的Lustre集群中,为了能够提供高可靠高可用的服务,一般都会选择开启共享时提交功能。
冯保民[10](2010)在《油田高性能集群系统性能优化技术研究》文中提出集群系统性能优化技术研究,在探讨了常用性能优化方法的基础上,从地震处理实际出发,着重解决特定环境下的工业化应用问题。通过对地震作业的运行状态分析,得出了各类地震作业的资源类型特征,并得到了整个处理流程中各类作业的用时比例关系,找到了地震处理系统存在的瓶颈问题。研究了磁盘条带化技术,使多磁盘并发读写,提高了I/O类作业数据读写效率30%;研究了各种作业调度算法,它根据不同地震作业的资源特征,制定了相应的作业调度策略,解决了集群节点负载均衡和资源争夺问题,提高了系统的吞吐率,提升了多任务处理能力45%。研究了各种文件系统的特点,针对地震处理业务的对系统高带宽需求特点,重点研究了集群存储的关键技术。分布式存储方式为地震处理业务提供了所需要的高带宽,彻底解决了制约集群系统的存储瓶颈问题。在集群系统规模扩展的同时,计算能力得以线性增长。
二、高性能集群文件系统的研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、高性能集群文件系统的研究(论文提纲范文)
(1)基于层次式混合存储技术的并行文件系统关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.1.1 高性能计算机对并行文件系统性能的要求 |
1.1.2 高性能计算应用和大数据应用的I/O需求 |
1.2 存储设备、存储系统和文件系统技术概述 |
1.2.1 存储设备的发展 |
1.2.2 存储系统和文件系统的发展 |
1.3 层次式混合存储技术的现状、难点和挑战 |
1.3.1 层次式混合存储技术的现状 |
1.3.2 层次式混合存储技术的难点和挑战 |
1.4 本文的研究工作 |
1.5 论文结构 |
第二章 相关研究工作 |
2.1 面向Exascale超级计算机系统的存储系统和I/O栈 |
2.2 基于SSD的存储系统 |
2.3 基于DRAM的存储系统 |
2.4 混合存储技术和混合存储系统 |
2.5 混合存储环境下的文件数据迁移 |
2.6 元数据分布存储和管理 |
2.7 面向对象存储的OSD规范 |
第三章 基于层次式混合存储技术的并行文件系统(ONFS)结构 |
3.1 引言 |
3.2 研究背景 |
3.3 ONFS并行文件系统结构概述 |
3.3.1 ONFS组成结构 |
3.3.2 ONFS在TH-1A上的物理实现 |
3.3.3 基于结点内存的存储层次DS-m |
3.3.4 基于SSD的存储层次DS-s |
3.3.5 基于磁盘的存储层次DS-d |
3.3.6 对象存储,文件数据与元数据分离 |
3.4 ONFS文件系统简要工作流程 |
3.4.1 元数据操作 |
3.4.2 文件数据的分布存储和读/写操作 |
3.4.3 文件数据的迁移 |
3.5 性能比较分析 |
3.6 小结 |
第四章 基于用户组子目录的元数据分布存储与管理方法 |
4.1 引言 |
4.2 相关工作 |
4.2.1 元数据划分和映射方法 |
4.2.2 元数据分布存储和管理方法 |
4.3 研究背景 |
4.3.1 元数据的操作数量和元数据的数据量的分析 |
4.3.2 Lustre文件系统MDS的构成和性能分析 |
4.4 元数据分布存储和处理的集群系统组成 |
4.6 UGSD、MDS和MDSS之间的映射关系和映射方法 |
4.6.1 UGSD到MDS的映射方法 |
4.6.2 MDS与MDSS相互映射方法 |
4.7 MDS和MDSS之间的元数据一致性实时维护方法 |
4.8 动态负载调整和可扩展性的实现方法 |
4.8.1 临时性动态调整某一个MDS的高负载 |
4.8.2 永久性调整某一个MDS的高负载 |
4.8.3 扩大MDS规模的方法 |
4.8.4 处理MDS故障的方法 |
4.8.5 增大MDSS规模的方法 |
4.9 实验和测试结果分析 |
4.9.1 与Lustre的MDS的主要元数据操作性能的比较 |
4.9.2 UGSD方法与DDG方法的性能比较与分析 |
4.10 与现有的元数据处理方法和元数据系统的比较 |
4.11 小结 |
第五章 DS-m的内存借用与归还策略,综合性能优化的技术方法 |
5.1 引言 |
5.2 研究背景 |
5.2.1 TH-1A计算结点内存管理方法和使用情况分析 |
5.2.2 D-m的可用存储容量和通信带宽,多副本更新,客户端缓存 |
5.3 静态与动态结合的计算结点内存借用与归还方法 |
5.3.1 静态借用计算结点内存的方法 |
5.3.2 静态归还计算结点内存的方法 |
5.3.3 内存的动态使用特性分析 |
5.3.4 VFS中的页缓存对内存资源影响的分析 |
5.3.5 动态窃用和归还内存的控制策略 |
5.4 DS的并行存取控制策略 |
5.4.1 平均文件大小和存储空间分配单元(SAU)大小的分析 |
5.4.2 数据块传输大小对读/写带宽的影响 |
5.4.3 分组并行存储方法 |
5.5 基于双副本的可靠性存储控制策略 |
5.6 客户端缓存的实现方法 |
5.7 实验和测试结果分析 |
5.7.1 单个DS读/写性能与Lustre的单个OST读/写性能的比较 |
5.7.2 以4个DS-m/DS-s为一组与4个OST为strip的读/写性能的比较 |
5.7.3 ONFS的读/写性能可扩展性的分析 |
5.7.4 并行更新双副本的方法与串行更新双副本的方法的效果对比分析 |
5.7.5 客户端缓存效果分析 |
5.8 小结 |
第六章 文件数据迁移控制方法 |
6.1 引言 |
6.2 研究背景 |
6.3 文件数据向上迁移的混合粒度 |
6.4 基于内存容量阀值的文件数据向下迁移控制策略 |
6.4.1 基于可用存储容量阀值和文件冷度的向下迁移控制策略 |
6.4.2 文件冷度相关参数的计算方法 |
6.4.3 确定向下迁移控制阀值Cf-m和 Cn-m的方法 |
6.4.4 向下迁移的实现方法 |
6.5 主动向上预迁移控制策略 |
6.5.1 应用程序读输入文件的特性分析 |
6.5.2 主动预迁移的控制策略和实现方法 |
6.5.3 被动迁移的控制策略和实现方法 |
6.6 实验和测试结果分析 |
6.6.1 确定Cn-m和 Cf-m阈值的初值 |
6.6.2 向上迁移的效益分析 |
6.6.3 典型数据密集型应用程序性能测试和分析 |
6.7 小结 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(2)高性能计算中作业调度技术与集群管理系统的研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究的背景及意义 |
1.2 国内外研究现状和发展趋势 |
1.2.1 集群管理系统的研究现状与发展趋势 |
1.2.2 作业调度策略的研究现状与发展趋势 |
1.3 本文的主要研究工作及主要章节安排 |
1.3.1 本文的主要研究工作 |
1.3.2 主要章节安排 |
1.4 本章小结 |
第2章 高性能计算集群的体系架构 |
2.1 集群系统概述 |
2.2 Linux高性能集群系统 |
2.2.1 Beowulf集群 |
2.2.2 COW集群 |
2.3 Linux高性能集群系统平台的构成 |
2.3.1 Linux高性能集群系统硬件构成 |
2.3.2 Linux高性能集群系统软件构成 |
2.4 典型Linux高性能集群拓扑图 |
2.5 本章小结 |
第3章 基于Web的高性能计算集群管理系统 |
3.1 集群管理系统中作业调度系统的选取 |
3.1.1 CONDOR |
3.1.2 Platform LSF (Load Sharing Facility) |
3.1.3 PBS(Portable Batch System) |
3.1.4 Torque(Terascale Open-source Resource and QUEue manager) |
3.2 集群管理系统Web服务网格门户技术 |
3.2.1 第一代集群管理系统门户 |
3.2.2 第二代集群管理系统门户 |
3.3 集群监控工具Ganglia的架构及工作原理 |
3.3.1 Ganglia基本架构 |
3.3.2 gmond的工作原理 |
3.3.3 gmetad、RRDTool和gweb的工作原理 |
3.4 集群管理系统所用到的主要技术 |
3.4.1 Django架构 |
3.4.2 并行文件系统技术 |
3.4.3 消息传递接. MPI技术 |
3.4.4 集群远程电源管理 |
3.5 CCLAB各模块工作状态显示 |
3.5.1 登录验证模块 |
3.5.2 作业调度模块 |
3.5.3 集群用户操作模块 |
3.5.4 CCLAB中集群系统监控模块 |
3.6 本章小结 |
第4章 基于节点负载情况自定义优先级预约回填策略的设计 |
4.1 作业调度分类及过程 |
4.2 Torque的体系架构 |
4.2.1 Torque的工作原理 |
4.2.2 Torque处理批作业的过程 |
4.3 Torque默认的调度器 |
4.4 集成调度器Maui |
4.5 基于节点负载情况自定义优先级预约回填策略 |
4.5.1 作业调度的数学抽象模型 |
4.5.2 常用作业选取策略分析 |
4.5.3 基于节点负载情况自定义优先级预约回填策略的分析 |
4.6 BLPRB策略的算法理论分析 |
4.6.1 BLPRB策略能够确定预约作业进入运行阶段的最迟时间 |
4.6.2 BLPRB策略可以解决大作业的饥饿问题 |
4.7 本章小结 |
第5章 BLPRB策略模拟实验及性能分析 |
5.1 搭建集群环境 |
5.1.1 硬件环境 |
5.1.2 软件环境 |
5.1.3 集群硬件拓扑图 |
5.1.4 集群实际上架图 |
5.2 衡量作业调度性能的指标 |
5.3 实验结果分析 |
5.3.1 测试所用作业集的选取 |
5.3.2 作业的编译与提交 |
5.3.3 测试结果分析 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 全文小结 |
6.2 未来展望 |
参考文献 |
攻读硕士学位期间发表的学术论文 |
致谢 |
(3)计算机集群技术的研究(论文提纲范文)
1 引言 |
2 集群技术的分类 |
2.1 功能和结构的集群 |
2.2 应用范围的集群 |
2.3 访问请求的路由技术 |
3 集群文件系统 |
3.1 功能实现方式 |
3.2 系统类型 |
4 集群NAS系统 |
5 时间同步技术 |
5.1 基于网络时间协议的时间同步 |
5.2 Oracle数据库的CTSSD服务 |
6 结语 |
(4)集群系统中的网络性能优化方法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 集群 |
1.2 集群系统中的网络组件 |
1.3 集群系统中网络技术的研究现状 |
1.4 本文的研究工作 |
1.5 论文的组织结构 |
2 一种同构集群中的专用RPC序列化方法 |
2.1 传统RPC中的数据处理过程 |
2.2 序列化操作过程的解析 |
2.3 同构集群中一种专用的序列化方法—SimpSerial |
2.4 测试及分析 |
2.5 本章小结 |
3 集群系统中分区间的RPC超时机制 |
3.1 RPC系统超时机制的研究现状 |
3.2 对超时现象的具体分析 |
3.3 基于排队论的RPC超时值分析 |
3.4 一种分区间的RPC自适应超时机制 |
3.5 测试与分析 |
3.6 本章小结 |
4 Cappella集群系统网络中间层设计 |
4.1 集群系统中TCP与RDMA协议的性能研究 |
4.2 Cappella集群系统总体介绍 |
4.3 Cappella系统的网络层次 |
4.4 网络中间层的具体设计实现 |
4.5 性能评测 |
4.6 集群系统中提升网络性能的方法总结 |
4.7 本章小结 |
5 总结与展望 |
5.1 本文的具体研究工作与贡献 |
5.2 进一步的研究工作 |
致谢 |
参考文献 |
附录1 攻读学位期间发表的学术论文 |
附录2 攻读学位期间申请的技术专利 |
附录3 攻读学位期间参与的主要科研项目 |
(5)智能网络磁盘(IND)存储管理方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 存储技术发展历史 |
1.1.1 直接附属存储DAS |
1.1.2 网络附属存储NAS |
1.1.3 存储区域网络SAN |
1.2 存储技术的融合与创新 |
1.2.1 IP-SAN |
1.2.2 IB-SAN |
1.2.3 DAFS |
1.2.4 统一存储网USN |
1.2.5 面向对象存储OBS-OSD |
1.2.6 统一虚拟存储 |
1.2.7 云存储 |
1.3 存储系统面临的技术挑战 |
1.4 本文的研究内容和意义 |
1.5 本文的主要研究工作 |
1.6 论文的组织结构 |
第二章 智能网络磁盘存储系统结构 |
2.1 IND逻辑结构模型 |
2.2 IND嵌入式实体模型 |
2.2.1 IND嵌入式硬件结构 |
2.2.2 加电引导功能 |
2.2.3 内核移植与启动 |
2.2.4 文件系统 |
2.2.5 IND磁盘挂接 |
2.2.6 网络通讯协议 |
2.2.7 智能控制程序 |
2.2.8 容错与恢复 |
2.3 IND存储系统 |
2.4 本章小结 |
第三章 智能网络磁盘存储策略 |
3.1 数据存储与传输方式 |
3.1.1 Block I/O方式 |
3.1.2 File I/O方式 |
3.1.3 Object I/O方式 |
3.1.4 混合方式 |
3.2 智能算法 |
3.3 读写控制 |
3.3.1 读请求算法 |
3.3.2 写请求算法 |
3.4 存储管理 |
3.5 查询管理机制 |
3.5.1 Bloom filter |
3.5.2 哈希表 |
3.6 运行模式 |
3.6.1 服务方式 |
3.6.2 并发处理 |
3.7 测试结果 |
3.8 本章小结 |
第四章 智能网络磁盘集群负载均衡 |
4.1 负载均衡的重要意义 |
4.2 负载均衡的分类 |
4.3 常用负载均衡技术实现方式 |
4.4 IND负载均衡技术 |
4.4.1 调度策略 |
4.4.2 动态调整 |
4.4.3 适时迁移 |
4.5 测试结果 |
4.6 本章小结 |
第五章 智能网络磁盘的应用 |
5.1 视频点播系统(VOD) |
5.2 IND视频点播系统 |
5.2.1 服务信息表 |
5.2.2 数据分布 |
5.2.3 迁移算法 |
5.2.4 测试结果 |
5.2.5 热门影片分块存储 |
5.3 高性能计算 |
5.3.1 高性能计算原理 |
5.3.2 高性能计算存储需求 |
5.3.3 高性能计算存储结构 |
5.3.4 测试结果 |
5.4 智能存储 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 研究工作总结 |
6.2 研究工作展望 |
参考文献 |
致谢 |
攻读博士学位期间主要的研究成果 |
(6)高性能计算体系结构下的海量数据处理分析与优化(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究背景 |
1.2 在高性能计算机上进行海量数据处理的难点和意义 |
1.3 研究内容和主要创新点 |
1.4 论文的组织结构 |
第二章 相关研究 |
2.1 MapReduce 架构研究 |
2.1.1 Google 搜索的后台支撑 |
2.1.2 分布式文件系统DFS 层 |
2.1.3 任务管理MapReduce 层 |
2.1.4 并行编程模式的分析比较 |
2.2 相关研究热点 |
2.2.1 资源管理与任务调度 |
2.2.2 能耗管理与绿色计算 |
2.3 MapReduce 架构与集群文件系统 |
2.3.1 IBM 的集群文件系统GPFS |
2.3.2 DFS 与专用存储系统 |
第三章 高性能计算机上MapReduce 架构性能评测 |
3.1 集群I/O 性能评测 |
3.2 小规模集群上的排序基准测试 |
3.2.1 排序基准测试 |
3.2.2 基于DFS 的性能评测 |
3.2.3 基于集中存储系统的性能评测 |
3.3 中等规模集群上的排序基准测试 |
3.3.1 基于DFS 的性能评测 |
3.3.2 基于集中存储系统的性能评测 |
3.4 中等规模集群上的WordCount 用例测试 |
3.4.1 WordCount 用例 |
3.4.2 基于DFS 的性能评测 |
3.4.3 基于集中存储系统的性能评测 |
3.5 小结 |
第四章 MapReduce 架构的性能建模 |
4.1 影响MapReduce 架构性能的主要因素 |
4.2 RA-MapReduce 性能预测模型 |
4.2.1 MapReduce 架构的I/O 数据流 |
4.2.2 商业机器集群上的RA-MapReduce 性能预测模型 |
4.2.3 高性能计算机上的RA-MapReduce 性能预测模型 |
4.3 RA-MapReduce 性能瓶颈评估模型 |
4.3.1 计算资源与存储系统I/O 资源瓶颈分析 |
4.3.2 网络I/O 资源瓶颈分析 |
4.4 小结 |
第五章 高性能计算机上MapReduce 架构的性能优化 |
5.1 中间结果网络数据传输优化 |
5.1.1 MapReduce 架构上中间结果的传输 |
5.1.2 针对集中存储系统的优化设计 |
5.1.3 优化设计的性能建模 |
5.2 中间结果本地存储优化 |
5.2.1 本地存储中间结果的优化设计 |
5.2.2 优化设计的性能建模 |
5.3 小结 |
第六章 模型验证与结论 |
6.1 小规模集群上的模型验证 |
6.2 中等规模集群上的模型验证 |
6.3 性能瓶颈评估模型验证 |
6.4 高性能计算机上的MapReduce 架构性能优化验证 |
第七章 总结与展望 |
7.1 本文总结 |
7.2 下一步工作 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(7)Lustre集群文件系统实例分析(论文提纲范文)
1. 引言 |
2. Linux高性能集群及集群文件系统 |
3. Lustre集群文件系统 |
3.1 对象 |
3.2 对象存储设备 |
3.3 元数据服务器 |
4. Lustre文件系统组建实例分析 |
4.1 安装Lustre |
4.2 安装mds和oss端: |
4.3 磁盘设置。 |
4.4 配置MDS |
4.5 配置OSS |
4.6 配置Client |
5. 小结 |
(8)基于高性能集群计算的并行文件系统关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题背景 |
1.2 石油勘探高性能集群计算的现状 |
1.3 国内外研究的现状 |
1.4 本文的组织 |
第二章 用于地震资料处理的高性能计算技术 |
2.1 地震资料处理的计算特点 |
2.1.1 地震资料适合并行计算处理 |
2.1.2 地震数据的格式 |
2.1.3 一个典型的地震资料处理方法 |
2.2 地震资料处理集群的技术特点 |
2.3 本章小结 |
第三章 高性能集群技术的相关背景知识 |
3.1 高性能集群系统 |
3.2 存储网络 |
3.3 影响存储系统性能的关键因素 |
3.3.1 存储阵列的性能 |
3.3.2 高速网络(FastNetwork) |
3.3.3 文件系统 (File System) |
3.4 并行文件系统 |
3.4.1 Lustre 系统 |
3.5 网络化存储未来 |
3.6 本章小结 |
第四章 共享文件系统在高性能计算的应用 |
4.1 NFS 文件系统 |
4.1.1 NFS 的实现原理 |
4.1.2 NFS 的局限 |
4.2 SNFS 共享文件系统 |
4.2.1 SNFS 文件系统的技术特点 |
4.2.2 SNFS 文件系统的工作方式 |
4.2.3 SNFS 文件系统的性能 |
4.3 传统共享文件系统的不足 |
4.4 本章小结 |
第五章 并行文件系统的技术架构分析 |
5.1 集群计算架构对存储的需求 |
5.2 并行文件系统的技术架构 |
5.2.1 并行文件系统的文件抽象 |
5.2.2 并行 I/O 的实现 |
5.2.3 MPI-IO 接口 |
5.3 Lustre 并行文件系统的实现 |
5.3.1 面向对象的存储系统 |
5.3.2 Lustre 文件系统的组成 |
5.3.3 Lustre 并行文件系统高性能的关键因素 |
5.3.4 Lustre 性能评测[36] |
5.3.5 Lustre 并行文件系统的优势总结 |
5.4 地震数据处理中的 I/O 特点 |
5.4.1 地震资料处理 |
5.4.2 并行文件系统和地震资料处理的数据 I/O 特点 |
5.5 本章小结 |
第六章 并行文件系统部署设计与测试评估 |
6.1 测试环境配置状况 |
6.2 Lustre 并行文件系统的部署 |
6.3 测试评估过程 |
6.3.1 NFS 文件系统的读写测试 |
6.3.2 基于 NFS 的地震资料处理测试 |
6.3.3 Lustre 文件系统的读写测试 |
6.3.4 基于 Lustre 的地震资料处理测试 |
6.4 测试结论 |
第七章 结论及未来的工作 |
致谢 |
参考文献 |
(9)大规模Lustre集群文件系统关键技术的研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 典型的面向HPC的集群文件系统 |
1.2.1 PVFS |
1.2.2 CXFS |
1.2.3 GPFS |
1.2.4 Panasas |
1.2.5 Lustre |
1.3 本文工作 |
1.4 本文结构 |
第二章 Lustre体系结构和技术分析 |
2.1 Lustre体系结构 |
2.2 Lustre网络通讯 |
2.3 Lustre的可用性 |
2.4 Lustre模拟器 |
2.5 本章小结 |
第三章 一种新颖的面向HPC存储集群的I/O请求调度器 |
3.1 相关工作 |
3.2 网络请求调度器构架 |
3.3 基于对象的网络请求调度器算法 |
3.3.1 调查分析 |
3.3.2 基于对象的轮转调度算法(OBRR) |
3.3.3 Deadline设置策略 |
3.4 试验评估 |
3.5 本章小结 |
第四章 Lustre的动态I/O拥塞控制机制的研究 |
4.1 Lustre可扩展I/O模型 |
4.2 Lustre的拥塞问题及其成因分析 |
4.3 动态I/O拥塞控制机制 |
4.3.1 I/O模型分析 |
4.3.2 分布式I/O拥塞控制算法 |
4.3.3 RCC分配算法 |
4.4 试验评估 |
4.5 相关工作 |
4.6 本章小结 |
第五章 基于RPC的大规模集群中自适应可扩展的超时机制 |
5.1 相关工作 |
5.2 观测与分析 |
5.3 自适应超时策略 |
5.3.1 滑动时间窗口算法 |
5.3.2 基于STW的自适应超时算法 |
5.3.3 基于STW的服务时间估测算法 |
5.4 及早回复策略 |
5.5 试验评估 |
5.5.1 试验设置 |
5.5.2 自适应超时策略的评估 |
5.5.3 及早回复策略的评估 |
5.6 本章小结 |
第六章 Lustre分布式锁管理器技术 |
6.1 简介 |
6.2 Lustre分布式锁管理器模型 |
6.2.1 DLM模型的基本概念 |
6.2.2 锁请求的处理和锁队列的管理 |
6.2.3 影像锁命名空间 |
6.2.4 锁回调 |
6.2.5 意图锁 |
6.2.6 锁的获取与释放 |
6.3 文件元数据锁服务 |
6.3.1 索引节点占位锁 |
6.3.2 基于意图锁的元数据操作 |
6.3.3 子树锁 |
6.4 文件I/O锁服务 |
6.4.1 范围锁 |
6.4.2 基于锁回调的文件大小获取 |
6.4.3 自适应I/O锁策略 |
6.4.4 范围锁冲突检测性能的优化 |
6.5 死锁避免和锁淘汰策略 |
6.6 本章小结 |
第七章 基于事务的元数据更新和恢复机制 |
7.1 研究背景 |
7.1.1 元数据更新与文件系统的一致性 |
7.1.2 单机文件系统的元数据更新和恢复技术 |
7.1.3 分布式文件系统的元数据更新和恢复 |
7.1.4 有状态和无状态服务协议 |
7.1.5 分布式文件系统的服务连续性 |
7.2 ldiskfs日志工作机制 |
7.3 Lustre基于事务的元数据更新和恢复机制 |
7.3.1 术语和定义 |
7.3.2 Lustre基于事务的元数据更新 |
7.3.3 Lustre的恢复机制 |
7.3.4 Lustre事务处理的可恢复性 |
7.4 基于版本的事务恢复 |
7.4.1 术语和定义 |
7.4.2 基于版本恢复算法 |
7.4.3 事务间隙的处理 |
7.5 共享时提交 |
7.5.1 共享时提交算法的实现 |
7.5.2 性能评估 |
7.6 本章小结 |
第八章 结论和展望 |
8.1 工作总结 |
8.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
攻读博士学位期间参与的科研项目 |
(10)油田高性能集群系统性能优化技术研究(论文提纲范文)
摘要 |
ABSTRACT |
创新点摘要 |
第一章 绪论 |
1.1 课题背景 |
1.2 高性能集群计算技术在地震叠前偏移处理中的作用 |
1.3 高性能系统性能优化技术国内外研究概况及发展趋势 |
1.4 性能优化技术的意义及应用价值 |
第二章 油田高性能计算机环境 |
2.1 集群系统架构 |
2.1.1 常规计算节点 |
2.1.2 偏移计算节点 |
2.1.3 管理节点 |
2.1.4 IO 节点 |
2.2 核心交换机 |
2.3 基于 SAN 存储的 StorNext FS 共享文件系统 |
2.4 系统软件环境 |
2.5 应用软件环境 |
第三章 系统性能优化方法 |
3.1 性能优化概述 |
3.1.1 性能优化是计算机领域不变的主题 |
3.1.2 性能优化的分类 |
3.2 性能优化通用方法 |
3.2.1 性能优化的顺序 |
3.2.2 系统级别的性能优化 |
3.2.3 应用级别的性能优化 |
3.2.4 微架构级别的性能优化 |
3.2.5 性能优化工作循环 |
3.2.6 性能优化循环的常见问题 |
3.3 并行应用性能优化方法 |
3.3.1 概述 |
3.3.2 减少关键路径上的时间 |
3.3.3 检查是否选择最优的并行方法 |
3.3.4 检查是否选择合适的层级开始并行 |
3.3.5 Amdahl 定律的检查:减少串行部分的比例 |
3.3.6 检查程序的负载均衡问题 |
3.3.7 检查程序的粒度问题 |
3.3.8 检查硬件导致的扩展性问题 |
3.4 小结 |
第四章 地震处理作业特征分析 |
4.1 地震资料处理业务主要步骤 |
4.2 地震作业资源特征 |
4.3 地震作业流程时间特征 |
4.4 叠前处理阶段地震作业耗时原因分析 |
4.5 改进措施 |
4.5.1 逻辑磁盘与性能 |
4.5.2 节点磁盘读写机制规划 |
4.6 改进效果 |
4.7 小结 |
第五章 集群系统作业调度策略分析 |
5.1 常用的作业调度策略 |
5.2 常用作业调度策路的弊端 |
5.3 地震处理软件作业调度 |
5.3.1 调度策略的改进 |
5.3.2 作业分配实际运行效果 |
5.3.3 节点间作业分配实际运行效果 |
5.4 小结 |
第六章 集群存储系统关键技术 |
6.1 相关工作研究 |
6.1.1 NFS 和DAFS |
6.1.2 AFS、CODA 和DFS |
6.1.3 xFS |
6.1.4 PVFS |
6.1.5 GFS |
6.2 集群存储系统目标 |
6.2.1 全局文件共享 |
6.2.2 性能 |
6.2.3 可扩展性 |
6.2.4 可用性 |
6.2.5 管理 |
6.2.6 典型系统总结 |
6.3 集群存储系统关键技术 |
6.3.1 分布式元数据管理技术 |
6.3.2 分布式的磁盘存储技术 |
6.4 小结与实际应用 |
6.4.1 应用实例环境 |
结论 |
参考文献 |
发表文章目录 |
致谢 |
详细摘要 |
四、高性能集群文件系统的研究(论文参考文献)
- [1]基于层次式混合存储技术的并行文件系统关键技术研究[D]. 刘欣. 国防科技大学, 2018(02)
- [2]高性能计算中作业调度技术与集群管理系统的研究[D]. 周凯. 江苏科技大学, 2015(03)
- [3]计算机集群技术的研究[J]. 王刚. 河南科技, 2014(10)
- [4]集群系统中的网络性能优化方法研究[D]. 万勇. 华中科技大学, 2013(02)
- [5]智能网络磁盘(IND)存储管理方法研究[D]. 杨希. 中南大学, 2012(12)
- [6]高性能计算体系结构下的海量数据处理分析与优化[D]. 黄訸. 国防科学技术大学, 2011(07)
- [7]Lustre集群文件系统实例分析[J]. 蔡达伟. 信息与电脑(理论版), 2011(12)
- [8]基于高性能集群计算的并行文件系统关键技术研究[D]. 张晓波. 西安电子科技大学, 2011(04)
- [9]大规模Lustre集群文件系统关键技术的研究[D]. 钱迎进. 国防科学技术大学, 2011(04)
- [10]油田高性能集群系统性能优化技术研究[D]. 冯保民. 东北石油大学, 2010(06)