InfiniBand 回来了

一、InfiniBand回来了（论文文献综述）

陈照云^[1]（2019）在《基于小规模GPU集群平台的深度学习任务调度研究》文中认为近年来,以深度学习为代表的核心技术引发了第三次人工智能的浪潮。从互联网巨头到中小规模企业、从研究所到各个高校,学术界和工业界都围绕深度学习技术开展了广泛的研究和探索。虽然以TPU为代表的深度学习专用硬件层出不穷,但是GPU集群仍然是开展深度学习研发的主流平台。相比于巨头互联网公司推出的大规模定制化深度学习平台,广大科研院校和中小规模企业由于预算有限,更偏向于采用高性价比的小规模GPU集群,来构建多用户共享的深度学习研发平台。在该研究背景下,如何提高GPU平台的资源利用率,进而提高深度学习任务的吞吐量,是极具现实意义的研究方向。本文紧紧围绕上述挑战,基于小规模GPU集群平台对深度学习任务进行了广泛的评测与分析,并在此基础上提出了一系列调度策略。本文的主要工作和创新点包括:1.考虑到深度学习研发平台需要处理各种复杂的深度学习任务,因此本文首先对深度学习任务进行详细的分析与评测。本文从网络结构、计算流程、通信模式、不同框架实现、各种应用超参数和分布式参数等多个方面对深度学习任务进行梳理和总结,并基于一个小规模GPU集群对典型深度神经网络进行评测,从任务吞吐率、GPU资源利用率、显存占用、GPU扩展性和GPU局部性等多个角度进行量化分析,并作为后续调度算法设计的重要基础。2.基于深度学习任务的评测与分析,提出了一种基于用户QoS感知的动态调度框架GENIE。该框架主要包含离线评估模块和在线调度模块。通过轻量级离线评估器,GENIE可以利用深度学习任务的评测数据来构建性能预测模型。基于性能预测模型,GENIE可以在线动态地为每个任务选择最佳的放置方案,并在GPU集群上调度执行。通过在16-GPU规模的集群和大规模模拟器的实验验证,GENIE相比于其他基准算法可以实现更高的QoS保证率和集群资源利用率。3.针对基于预测的调度策略的预测精度不高和离线评估开销大等问题,提出了一种基于强化学习的在线任务调度策略。该策略采用Q-learning的算法框架,对深度学习任务的调度场景进行了建模,设计并实现了该场景下的状态空间、动作空间、反馈函数和更新机制等模块。基于对任务执行性能的在线监控和反馈,学习引擎可以自主进行学习并不断调整任务调度决策。在GPU集群上的实验表明该算法在任务平均标准化吞吐率和整个任务队列完成时间上都有显着提高。由于强化学习方法较好的在线自适应特性,该算法更适用于长运转周期的深度学习研发平台。4.为了改善独占式任务调度策略对GPU资源利用不充分的缺点,进一步提高GPU显存资源的利用效率,提出了一种基于显存效率的GPU共享任务调度策略。该策略结合深度学习自身网络模型结构信息,计算其在不同放置策略下的计算量和显存占用,并通过显存效率这个指标来衡量不同放置策略在有限显存资源的占用下所支撑的计算规模。在显存效率的基础上,提出了一种启发式调度算法,来实现多任务对GPU资源的共享,进一步提高系统资源利用率和任务的完成速率。

吴克^[2]（2019）在《高性能计算网络拥塞控制关键技术研究》文中研究说明端点拥塞是高性能计算（HPC）互连网络的瓶颈,并严重影响系统性能,尤其是对延迟敏感的应用程序来说。对于持续时间远远大于网络往返时间（RTT）的长消息（或流）,网络可以通过主动或被动的拥塞控制机制将每个源的注入速率动态控制为适当的水平,从而有效地减轻端点拥塞。但是,许多HPC应用程序产生混合流量,即短消息和长消息的混合,并且由短消息在数量上占主导,但长消息的总量很大。要调度由这些短消息引起的快速变化的流量模式,现有的主动拥塞控制方法面临着巨大挑战。本文从两个维度提出了两个方法,以降低网络延迟提升网络性能。首先,本文利用主动和被动拥塞控制技术的优势,提出了数据包链预约协议（PCRP）,PCRP在用流来进行主动预约的方法与根据网络条件而进行反应型拥塞控制方法之间实现动态平衡。本文选择链式数据包作为整个流和一个数据包之间的灵活预约粒度。PCRP允许小流量被投机性地传输而不被丢弃,并且在整个网络上给予它们更高的优先级。本文的PCRP可以快速响应网络状况,有效避免端点拥塞的形成,并减少平均流完成时间。其次,本文还提出了一种基于预取和预测的交换机结构（PPS）,PPS通过带预取寄存器的动态分配多队列（DAMQ）输入缓冲和可以通过预测来过滤潜在失败请求的两级仲裁方案降低了路由器的延迟。本文进行了实验来评估PCRP和PPS。仿真结果表明,PCRP在热点流量下的流完成时间可以减少50.2%,在统一流量下的流完成时间可以减少28.38%;PPS则达到了与i SLIP相近的性能,但面积只有其一半,使用逻辑单元（LUT）数量只有i SLIP的36.37%。

王冬洋^[3]（2019）在《公有云中高性能网络系统研究》文中研究指明近年来,云计算作为一个新的技术趋势己经得到了迅速的发展。云计算已经彻底改变了一个前所未有的工作方式,也改变了传统软件工程企业。同时,伴随着大数据,人工智能,物联网等大规模的分布式业务在云数据中心的部署,网络系统的压力越来越大。因此,提升网络系统的性能成为云计算中亟待解决的问题。本论文针对公有云对高性能网络平台的迫切需求,从优化已有网络平台的虚拟化后端、设计和实现基于RDMA的高性能公有云网络平台、提供高性能的网络协议栈三个方面展开研究。论文的主要工作和创新点如下:1.零拷贝的虚拟包I/O系统:针对虚拟化引入的额外开销,导致后端的CPU消耗增加的问题,我们提出了零拷贝虚拟包I/O系统。该方案在半虚拟化网络I/O中采用页面重映射的方法消除了数据拷贝,并结合使用一系列的优化技术降低了页面重映射引入的开销。使得单核的I/O速度得到了2-4倍的提升,节省了CPU资源,进一步为服务商节省了成本。2.公有云中可靠的网络传输平台:针对公有云中越来越高的网络需求,我们基于RDMA为虚拟机构建了高性能的网络传输平台。提出基于连接虚拟化的RDMA半虚拟化方案,解决RDMA硬件虚拟化方案难以满足网络隔离、性能隔离等公有云需求的诸多难题,并消除了RDMA半虚拟化方案中所需的设备和驱动的维护开销。相比于传统的传输平台,该平台具有更低的延迟和更高的吞吐,并且为上层提供可靠的传输服务。3.超轻量级协议栈:云计算中传统的协议栈处理过于复杂,占用大量的CPU,基于软件的方案难以消除复杂的TCP处理过程,并且高性能的用户态协议栈在提供原生BSD Socket接口时也面临着困难。我们在基于RDMA的公有云后端传输平台上构建了超轻量级协议栈vSocket,提出了重用内核协议栈控制面、仅加速数据面的设计思想,不仅消除了数据通路上的巨大开销,还保持了内核协议栈的功能,并与原生的BSD Socket接口相兼容。本文为云计算中的网络性能问题提出了若干方案,提升了当前云环境中网络的性能,并为虚拟机构建了可靠的网络传输平台。我们期望这些方案能为云计算中网络问题的研究提供新的思路与可能性。

陆元伟^[4]（2018）在《数据中心内硬件资源高效的低延迟传输层研究》文中指出近年来,大型数据中心被大规模部署。这些数据中心内运行着大量分布式应用,比如网页搜索,数据挖掘以及存储服务。网络延迟对许多分布式应用的性能至关重要。网络延迟大体上可以分为两部分:主机网络协议栈的延迟和网络内部的延迟。使用RDMA（远程直接访问内存）技术,主机延迟可以被大幅降低,但网络内部的延迟仍无很好的解决办法。因此延迟敏感的分布式应用的性能仍有很大提升空间。本文的目标是为延迟敏感的分布式应用降低网络内部的延迟,从而提升这些应用的性能。数据中心网络内部的延迟主要来源于以下三个方面:1)粗粒度的网络QoS导致延迟敏感的流量排队在高吞吐量的流量之后,使得延迟敏感流量网络排队延迟大;2)粗粒度的网络负载均衡带来网络流量局部热点;3)RDMA低效率的丢包恢复机制导致网络延迟在丢包时大幅增大。本文的目标是从以上三个方面来降低网络内部的延迟。针对该目标,之前的研究提出了很多方案,但均未考虑网络硬件资源有限的限制条件。网络硬件资源主要指网络交换机和主机网卡。网络交换机上的硬件优先级队列的数目以及主机网卡的片上资源都是很有限的。本文的创新点是在考虑网络硬件资源的限制下,从上述的三方面来降低网络内部延迟。首先,为解决粗粒度QoS带来的问题,许多工作通过细粒度的基于优先级的流量调度来给予延迟敏感流量更高的优先级,从而避免不必要的排队延迟。然而,大多数工作都假设网络交换机上有无穷多的优先级队列,这一点通常是不成立的。本文的研究表明,数据中心的网络交换机通常只有2～3个硬件优先级队列可以被用于流量调度。因此,如何利用有限的优先级队列个数来实现细粒度的流量调度成为了一个挑战。针对这个挑战,本文设计了显示优先级通知系统,利用两个网络交换机中的硬件优先级队列实现了细粒度的优先级流量调度,降低了延迟敏感流量的流完成时间其次,为提升网络的负载均衡效果,许多工作利用数据中心中的多路径来提供细粒度的负载均衡以避免局部流量热点。然而,之前的大多数工作聚焦于TCP流量而非RDMA流量。RDMA实现在硬件网卡之中,片上存储资源十分有限,通常在MB的数量级。因此,如何利用有限的片上硬件资源来把为RDMA流量设计一个可行的负载均衡策略是一个挑战。本文为RDMA设计了一个多路径的传输层协议来为RDMA流量做负载均衡,在最小化片上存储资源的同时,有效地提高了吞吐量并且降低了延迟。最后,为提升RDMA的丢包恢复效率,本文在考虑到硬件网卡片上资源限制的前提下,为RDMA设计了存储友好的选择性重传机制来提升RDMA在丢包时的重传效率。该机制利用最小的内存代价,大幅提升了 RDMA在丢包时的吞吐量,降低了延迟。我们实现并评测了上述的三个方案,实验结果表明:利用我们的流量调度策略,网络流的平均完成时间降低了 60.5%;进一步的,多路径RDMA传输层协议在把网络流的平均完成时间降低17.7%的同时将网络带宽利用率提高47%;最后,我们的丢包恢复机制能将RDMA流量在一定丢包率情况下的吞吐量提高14.02倍,同时将99%分位的流完成时间降低3.11倍。

刘志祥^[5]（2018）在《基于RDMA的非易失性内存文件系统设计与实现》文中指出近年来,新出现的非易失性内存（Non-Volatile Memory,简称NVM）是一种高性能的存储设备,其具有可字节寻址、纳秒级别的读写延迟、掉电不丢失数据等优点。学术界针对这种新型的存储介质做了许多富有创新型的工作,设计了许多新型的文件系统。但是这些文件系统大多都是传统的单节点文件系统,单节点文件系统由于存储插槽的天然限制,其存储容量非常有限并且难以扩展存储容量,不适应大数据的应用。针对这种高性能存储介质,如何快速扩展存储容量而又不会较大地损失其读写性能,是一个值得思考的问题。本文设计了一种基于RDMA技术的多节点非易失性内存文件系统（RDMA Memory File System,简称RMFS）。RMFS可以通过网络动态灵活地快速扩展NVM存储节点,并通过RDMA技术实现高速的文件数据读写。为此,本文进行了如下的研究:（1）灵活快速扩展的存储架构设计。RMFS文件系统采用主从结构,Master节点负责对文件系统的元数据以及对Slave节点进行管理,而Slave节点则负责提供文件数据存储空间。Slave节点可以通过向Master节点注册的方式加入到RMFS文件系统,实现灵活快速扩展存储节点。（2）低延迟高带宽的RDMA文件数据读写流程。RMFS文件系统基于Infiniband低延时网络实现高效的RDMA文件数据读写操作,RDMA文件数据读写操作能够降低CPU的利用率从而提高RMFS文件系统性能。（3）基于处理器硬件MMU的文件数据块索引快速查找机制。本文设计了一套基于硬件MMU的文件索引快速查找方案,RMFS通过为文件索引数据建立虚拟地址空间映射,并在页表项中存储文件数据的索引信息即所在的存储节点及NVM地址,实现通过文件虚拟地址快速定位到文件数据块所在位置,并通过预读缓存索引来加速文件顺序索引查找。（4）基于位图链表的高效NVM空闲空间分配管理机制。随着Slave数据存储节点的快速扩展,RMFS文件系统的NVM空闲空间的管理压力越来越大,管理分配信息的存储开销也快速增大。本文设计了一种新型位图链表的高效空闲空间管理方案。通过位图链表来管理文件系统NVM存储空间的分配使用情况,同时具备位图节省空间和链表的快速分配功能,并通过预分配连续物理空间的机制来加速分配过程和通过多线程后台回收来加快数据块释放过程,实现文件数据大块存储并提高大块数据的读写性能。（5）数据的灾备功能。对于一个多节点文件系统来说,在节点不可用后,通过冗余存储的文件数据块来保证文件数据可用。RMFS文件系统以文件数据块为单位,进行双份存储。RMFS在节点不可用时,读写操作会自动切换到可用节点上。最后,针对RMFS文件系统的设计目标,设计了测试实验。实验结果表明RMFS的基于MMU的快速文件索引查找可以达到软件查找的3倍速度,并且文件数据读写性能分别可以达到5387MB/s和5321MB/s左右,启动数据灾备功能后,文件数据读写性能分别可以达到5355MB/s和2180MB/s左右。

杨敏^[6]（2016）在《基于RDMA分布式key-value存储系统的设计与实现》文中研究指明随着互联网+时代的到来,传统行业和互联网相互结合,以及Web2.0社交网络和商务金融产生了大量的动态数据,这对传统的RDBS（Relational Database Server）带来的重大的挑战。分布式key-value系统作为一种非关系型数据缓存/存储系统被广泛的应用于互联网+的系统中,相比于RDBS,其拥有高性能、高可扩展性和最终一致性。然而面对大量的动态数据和集群数目的不断扩展,网络的性能开销成为了分布式key-value系统的性能瓶颈,因为系统从网卡到内核再到应用系统要经过很多层次。针对以上难题,本文结合被广泛应用于高性能计算的InfiniBand,主要的工作和创新如下:首先,在Memcached和Redis上保留原有的BSD Socket套接字的通信模块的同时,结合InfiniBand设计了IB Verbs混合元语网络模块,客户端使用IB WRITE发送命令和数据,这样服务器可以使用较少的CPU参与,客户端不用暴露自己的内存地址空间给服务器端,获得较低的时延和较高的吞吐量。设计实现了InfiniBand RDMA注册的内存池和线程池,达到RDMA注册的内存池的重复利用和线程池的重复利用以及减少每次注册RDMA区域带来的开销。其次,随着网络时延的减小,反而应用本身的开销就凸显出现,我们发现传统的BSD Socket应用内部在接收到网络的数据以后会拷贝到数据存储的内存中,这并不适用于InfiniBand。所以我们将以前的通信内存和数据存储的内存进行融合,实现了部分融合的系统InnerCache和完全融合的NewCached系统。InnerCache借鉴了操作系统cache的机制,实现了cache-in-cache,既cache中的cache。NewCached将通信区域与存储区域的完全融合,并且在融合以后的区域分为两部分;一分部是RDMA既可以读也可以写的稀疏区域,另一部分是RDMA只读的密集区域。最后,在整个集群结构上,Memcached采用了代理节点或者mcrouter节点,其运行一致性哈希算法,提供了非常良好的可扩展性,但是随着大量的客户端的访问,客户端首先会访问代理节点获取对应的Memcached节点,这样代理节点面对高并发是很可能成为系统的瓶颈。我们设计了一种更加适合InfiniBand的Sharding分布式key-value系统集群结构,它是一种无中心的结构,客户端可以任意连接到任何一个节点,节点与节点之间共享它们的RDMA区域,并且可以根据服务器负载动态调节客户端连接到别的服务器节点。

谢林甫^[7]（2016）在《面向InfiniBand控制器的PCI Express接口设计实现》文中研究说明近年来,InfiniBand互连总线技术凭借其高带宽、低延迟的特点,被广泛应用于服务器集群等高速数据交换网络中。它将总线网络化,使得各种功能节点都可以通过InfiniBand总线来直接交换数据。FPGA等节点也可以加入InfiniBand网络来来进行诸如基带信号处理等运算,加速数据的生成和转发而由于现阶段大多数功能节点没有专用InfiniBand接口,主要通过PCI Express接口转接主通道适配器（Host Channel Adapter,HCA）来接入InfiniBand网络。本文即研究将FPGA作为一个功能节点加入InfiniBand网络。本文的主要工作如下:1.对PCI Express总线进行分析,包括其总线结构,总线事务,路由方式以及配置空间的结构等内容。分析HCA的工作方式,介绍基于PCI Express的InfiniBand应用链路,链路在AXI4总线结构下,包含对HCA的PCIE初始化配置、映射AXI4总线数据和PCIE数据包、HCA工作指令生成、工作队列生成和通信数据存储等模块,这些模块一起可以实现驱动HCA的基础功能。2.在深入研究PCIE配置和AXI4数据映射原理的基础上,设计PCI Express接口应用链路,链路分阶段实现对HCA的配置和对InfiniBand总线数据流的映射。3.采用Verilog HDL模块化设计,编写功能链路:设计配置模块向HCA发送配置读写请求,识别设备并为其分配ID号,探测设备拥有的存储空间并为其分配数据通信地址,配置完成后连通数据通信接口;设计AXI4-STREAMIN G到AXI4总线的映射模块,它将来自AXI4总线的读写命令转换为对应的AXI4-STREAMING数据包发送到PCIE IP核,而且将来自PCIE IP核的AXI4-STREAMING包转换为不同通道的总线交易。4.对设计的链路进行仿真测试,并在FPGA平台上验证PCIE通信。结果表明,面向InfiniBand控制器的PCI Express的接口设计能实现和HCA的通信,使得FPGA节点加入InfiniBand网络总线成为可能。

柴燕涛^[8]（2015）在《面向拥塞优化的高性能软件定义互连体系结构研究》文中研究说明随着高性能计算应用的不断出现,人们对网络的性能要求不断提高,高性能网络的相关技术研究的重要性日渐明显,如何在有限的规模内提升网络的数据传输能力正成为网络性能的瓶颈。拥塞作为影响网络数据传输的主要原因之一,对其解决的好坏,对数据传输以及整个网络的性能都会产生很大影响,拥塞控制已成为高性能网络的研究热点。传统的拥塞控制策略主要分为两类,一类是基于反馈机制的拥塞处理策略,另一类是基于预订机制的拥塞避免策略,而在高性能计算对数据传输时效性、无损性有较高要求的前提下,传统的拥塞控制策略存在较多不足,不符合适应高性能网络的应用需求。因此,如何针对高性能网络传输数据量大、时效性要求强和容错率低的特性,设计一种易于实现,反应快速并且能够全局统筹控制的拥塞控制策略,成为高性能网络性能提升的关键。基于上述问题,本文从以下四个方面展开研究:1.深入了解高性能网络和拥塞控制策略的发展现状,对传统的拥塞控制策略进行分析总结。深入研究高性能网络数据传输的特性及其给拥塞控制策略设计带来的挑战,对已有的针对类似应用的拥塞避免策略进行分析总结,为设计高效的高性能网络拥塞避免策略奠定基础。2.基于对高性能网络的拥塞避免策略的分析结果,提出在原有网络基础上结合SDN架构。通过专有控制网络收集数据网络信息,集中控制器统一处理等方法,较好的解决了传统网络信息获取速度慢和获取信息量有限的问题。3.针对原有拥塞避免策略预订周期长等问题,在实现SDN架构的工作基础上,提出一种基于全局信息的拥塞避免策略OSCP。该策略能够收集网络中的全局信息,由集中控制器对传输请求进行集中处理,减少了拥塞避免策略预订阶段所需要的时间,提高了实现的效率。使用BookSim模拟器进行性能分析的结果表明,OSCP可以有效降低网络延迟,提高吞吐率。4.为了进一步减少网络拥塞、提高网络性能,本文对最新的基于竞争机制的拥塞避免策略进行改进,提出了一种基于多跳竞争信息的拥塞避免策略。该策略前瞻的分析网络中可能的传输,将本地节点的竞争情况与同一路径上邻居节点的情况统筹分析。实验证明,该策略相对于原有工作,性能有进一步提升。综上所述,本文围绕“高性能网络拥塞避免策略设计”这一目标,基于对高性能网络特性的分析,优化设计了传统的拥塞避免策略,并结合其他先进的网络拥塞避免技术使的网络性能进一步提升。因此,本文解决了高性能网络拥塞控制的一些实际问题,具有一定的工程价值和理论意义。

尹林^[9]（2012）在《湘财证券VIP快速交易系统的设计与实现》文中提出目前我国很多证券公司都已经拥有了自己的网上交易系统,为广大的股民提供了方便快捷的服务。然而,随着证券业务的日益繁杂,传统的网上交易系统已经无法满足部分资金充裕、从事多种投资产品的VIP客户的需求。针对VIP客户的特点,拟开发的VIP快速交易系统能够全方位地为VIP客户提供更好的服务,改善VIP客户的交易体验,保障VIP客户用户的通道稳定性与快捷性。本文分析了VIP快速交易系统的需求,提出了一种湘财证券VIP快速交易系统的解决方案,给出了其总体架构,系统按实现的功能不同分为四个子平台,分别是证券行情服务平台、证券资讯服务平台、证券委托交易平台和快速交易客户端。给出了系统设计的相关关键技术,主要是对快速交易客户端进行详细分析设计,设计了客户端的功能、委托交易模块、成交推送功能,给出了交易系统低延时性的关键设计,并根据安全性要求设计了客户端安全和加密体系。

范成相^[10]（2012）在《基于VSC8248的高速误码测试系统的设计与实现》文中进行了进一步梳理在信息社会,通信己经成为人们生活中不可缺少的部分。人们对信息的需求越来越大,传统的以电信号为载体的通信系统、传输系统将逐渐被以光为载体的传输系统与通信系统所代替。光通信系统传输的信息容量大,传输速度快,抗干扰能力强,这使得通信系统的可靠性和有效性都得到了极大的提高。因此,光通信系统是最具潜力的,是通信系统的发展趋势。有效性和可靠性是衡量通信系统优劣的重要性能指标。在光通信中,数据经过发送设备、传输信道、接收设备后不可避免地会出现误码,从而影响通信系统的可靠性。通常将通信过程中出现的误码率大小来衡量通信系统的可靠性的好坏,因此如何统计出实际通信系统的误码率成为检测系统性能好坏的关键。高速误码测试主要用于测试光通信系统的误码率,它为验证系统的可靠性、诊断通信故障提供了最优的技术测试方案。本文针对当前的误码测试系统测试速率单一且无法满足更高速率的光通信系统误码测试,研制了一种测试速率更高的误码测试系统。它很好的兼容了以前的高速误码测试系统的测试速率,同时也将连续误码测试速率提高到11.318Gbps,主要对光通信系统中不同速率的SFP、SFP+、XFP光收发模块进行误码测试,验证其可靠性。近年来,1OGbps速率的光通信系统已经在大力建设并投入使用,研制测试速率高达1OGbps的误码测试系统意义重大。本课题研制的高速误码测试系统是基于专用误码测试芯片VSC8248,测试速率从1.0625Gbps至11.318Gbps,可以兼容Ethernet、Fibre Channel、OTN、SDH、Infiniband的测试速率。本文完成的主要工作如下：理论分析了误码测试系统的实现方法、工作原理,提出了一种测试速率从1.0625Gbps至11.318Gbps的误码测试系统的设计方案,并通过几种方案的对比选择最优的设计方案。设计了基于VSC8248的高速误码测试系统的硬件电路。运用高速电路设计的理论知识对电路设计的可行性进行了验证,电源系统的设计上采用了开关电源和线性稳压器的组合供电方式,使整个电源满足低噪声、高瞬态响应的要求。时钟电路的设计上通过编程来改变有源时钟的输出时钟频率,满足各种测试速率所要求的频点。实现了软件设计的要点与思路,考虑到误码测试系统的实用性与易用性,本系统采用人机界面操作和单机独立操作来实现被测系统的误码测试；同时上位机通信方面采用串口通信和USB两种通信方式,满足不同接口情况下的误码测试功能。本课题研究的系统测试速率从1.0625Gbps至11.318Gbps,电路的设计和PCB的设计上大量运用高速电路设计与传输线理论。本文从高速电路中出现的信号完整性问题、电源完整性问题出发,对高速PCB设计中的叠层设计、端接设计、阻抗控制设计、EMC设计进行理论分析,结合信号完整性仿真和电源完整性仿真,为系统的PCB设计提供最优的解决方案,提高了系统的整体性能。针对高速误码测试系统低抖动要求,理论分析了抖动的来源,通过选择低抖动的时钟发生器和时钟缓冲器设计出低抖动的时钟发生电路,结合高速PCB的设计降低各种噪声引起的抖动,优化系统抖动,满足Ethernet、Fibre Channel、 OTN、SDH、Infiniband网络的抖动要求。最终,本文完成了误码测试系统设计,并通过实物调试验证了其性能。完全覆盖1.0625Gbps至11.318Gbps速度率的误码测试；发送端信号上升时间在24ps-47ps间,峰峰值抖动小于0.28UI,满足10G Ethernet、SDH等标准；接收灵敏度35mv,XFP的光接收灵敏度达到-17dbm以下,完全满足当前被测设备对误码测试系统的性能要求。

二、InfiniBand回来了（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、InfiniBand回来了（论文提纲范文）

（1）基于小规模GPU集群平台的深度学习任务调度研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景和意义

1.1.1 深度学习的发展

1.1.2 深度学习研发平台的兴起

1.1.3 深度学习研发平台任务调度可能面临的技术挑战

1.2 研究现状

1.2.1 深度学习模型及应用的研究现状

1.2.2 通用集群调度系统研究现状

1.2.3 深度学习研发平台相关研究现状

1.3 主要研究内容和创新点

1.4 论文结构

第二章基于小规模GPU集群平台的深度学习任务评测与分析

2.1 引言

2.2 深度学习任务分析

2.2.1 网络结构

2.2.2 计算流程

2.2.3 分布式模型

2.2.4 深度学习框架

2.2.5 典型的应用超参数和分布式参数

2.3 基于GPU集群平台的深度学习任务评测

2.3.1 实验设置

2.3.2 任务吞吐率性能分析

2.3.3 GPU利用率分析

2.3.4 显存占用分析

2.3.5 GPU扩展性分析

2.3.6 GPU局部性分析

2.4 本章小结

第三章基于用户QoS感知的动态任务调度策略

3.1 引言

3.2 GENIE整体调度框架

3.2.1 离线评估模块

3.2.2 在线调度模块

3.3 基于离线评估的性能预测模型

3.3.1 平台建模和任务建模

3.3.2 性能预测模型

3.3.3 轻量级离线评估器

3.4 基于用户QoS感知的动态任务调度策略设计

3.4.1 用户QoS的定义

3.4.2 不同放置策略的性价比模型

3.4.3 调度问题建模

3.4.4 基于用户QoS感知的动态调度算法

3.5 系统实现

3.6 实验评测与讨论

3.6.1 实验设置

3.6.2 面向GPU集群的性能评测与对比

3.6.3 面向模拟器的大规模性能测试与分析

3.6.4 讨论

3.7 本章小结

第四章基于强化学习的自适应任务调度策略

4.1 引言

4.2 强化学习和Q-learning

4.2.1 强化学习的定义及分类

4.2.2 马尔可夫决策过程

4.2.3 Q-learning

4.3 基于Q-learning的深度学习研发场景建模

4.3.1 状态空间

4.3.2 动作空间

4.3.3 反馈函数

4.3.4 更新策略

4.4 基于Q-learning的自适应任务调度策略

4.4.1 算法调度流程

4.4.2 系统实现

4.5 实验评测与分析

4.5.1 实验设置

4.5.2 基于GPU集群的评测与对比

4.5.3 基于模拟器的大规模验证

4.6 本章小结

第五章基于显存效率的GPU共享任务调度策略

5.1 引言

5.2 深度学习任务的显存占用分析

5.2.1 不同数值类型对显存占用的影响

5.2.2 网络权值参数的显存占用

5.2.3 中间特征图的显存占用

5.2.4 显存占用总数

5.2.5 分布式任务的显存占用

5.3 基于显存效率的共享调度算法设计

5.3.1 调度问题形式化

5.3.2 显存效率概念与计算

5.3.3 调度算法设计

5.3.4 系统实现

5.4 实验评测

5.4.1 实验设置

5.4.2 调度性能对比与分析

5.4.3 任务密度敏感性测试

5.4.4 扩展性测试

5.4.5 讨论

5.5 本章小结

第六章总结与展望

6.1 工作总结

6.2 未来研究方向

致谢

参考文献

作者在学期间取得的学术成果

（2）高性能计算网络拥塞控制关键技术研究（论文提纲范文）

摘要

ABSTRACT

符号使用说明

第一章绪论

1.1 课题研究背景

1.1.1 高性能计算互连网络

1.1.2 网络拥塞控制技术

1.1.3 RDMA网卡与智能网卡

1.2 研究内容、意义和主要贡献

1.3 论文组织结构

第二章基于预约的主动拥塞控制机制

2.1 投机预约协议

2.1.1 SRP

2.1.2 SMSRP和LHRP

2.1.3 存在的问题

2.2 双边流预约协议

2.3 基于信用的预约协议

2.4 链路预约协议

2.5 从虚拟大交换机的角度重看预约机制

2.6 小结

第三章基于数据包链预约的主动拥塞控制协议

3.1 高性能计算应用通信负载特点

3.2 数据包链预约协议

3.2.1 设计空间

3.2.2 执行过程

3.3 发送端行为

3.4 接收端行为

3.5 数据包链优先级

3.6 性能评估

3.6.1 实验配置

3.6.2 测试负载

3.6.3 实验结果

3.7 讨论

3.8 小结

第四章基于预取和预测的交换机结构

4.1 动机

4.2 PPS微体系结构

4.3 带数据预取功能的DAMQ缓冲区

4.4 流控和仲裁

4.4.1 流控方法

4.4.2 具有失败预测功能的两级仲裁结构

4.4.3 调度策略

4.5 性能评估和硬件开销

4.5.1 性能评估

4.5.2 硬件资源估算

4.6 小结

第五章结束语

5.1 工作总结

5.2 工作展望

致谢

参考文献

作者在学期间取得的学术成果

（3）公有云中高性能网络系统研究（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 云计算

1.2 虚拟化

1.3 云计算中的网络栈

1.4 RDMA网络

1.5 本文贡献

1.6 论文结构

第2章背景知识与相关工作

2.1 系统虚拟化

2.1.1 CPU虚拟化

2.1.2 内存虚拟化

2.1.3 I/O设备虚拟化

2.1.4 虚拟化软件

2.1.5 KVM中网络设备半虚拟化

2.2 云数据中心网络性能

2.3 RDMA

2.3.1 RDMA接口与传输模式

2.3.2 RDMA的连接建立与数据传输

第3章零拷贝虚拟包I/O系统

3.1 半虚拟化网络I/O系统及其性能瓶颈

3.2 基于页面重映射消除数据拷贝

3.3 设计空间探索

3.4 零拷贝虚拟包I/O系统的设计

3.4.1 页面大小的选择

3.4.2 内存管理

3.4.3 页面重映射

3.5 零拷贝虚拟包I/O系统的实现

3.5.1 页面映射的初始化

3.5.2 性能优化

3.5.3 清除TLB

3.6 实验和测试

3.6.1 环境部署

3.6.2 吞吐

3.6.3 对虚拟机性能的影响

3.6.4 性能分析

3.7 小结

第4章公有云中基于RDMA的可靠传输系统

4.1 公有云中的主机网络平台

4.2 RDMA及其虚拟化方案

4.3 基于RDMA的后端传输平台的设计

4.4 可靠的传输平台设计

4.4.1 连接虚拟化

4.4.2 可靠传输

4.4.3 高性能数据传输

4.5 可靠传输平台实现

4.5.1 虚拟设备及其接口

4.5.2 后端平台构建

4.5.3 虚拟设备的前端驱动

4.5.4 虚拟连接建立过程

4.5.5 虚拟连接上的数据传输

4.6 未来工作与相关讨论

4.7 实验和测试

4.7.1 延迟

4.7.2 吞吐率

4.8 小结

第5章 vSocket:基于可靠传输后端的超轻量级协议栈

5.1 背景介绍

5.2 低效的内核协议栈

5.3 用户空间协议栈的缺陷

5.4 设计空间探索

5.5 vSocket设计与实现

5.5.1 线程模型

5.5.2 交互层

5.5.3 Socket处理层

5.5.4 Epoll层

5.5.5 连接管理模块

5.5.6 数据收发层

5.5.7 流控

5.6 实验与测试

5.6.1 实验环境设置

5.6.2 基准性能测试

5.6.3 应用性能

5.7 未来工作与相关讨论

5.7.1 轮询线程优化

5.7.2 非虚拟化场景场景

5.8 小结

第6章总结与展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

（4）数据中心内硬件资源高效的低延迟传输层研究（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 研究的背景和意义

1.2 国内外研究现状

1.3 硬件资源有限带来的挑战

1.4 本文的研究内容与贡献

1.5 本文系统设计

1.6 论文结构安排

第2章流量调度系统的设计与研究

2.1 引言

2.2 EPN系统设计

2.2.1 EPN系统概览

2.2.2 EPN系统设计细节

2.3 EPN系统实现

2.3.1 优先级映射器

2.3.2 优先级控制器

2.3.3 交换机配置

2.3.4 实验平台搭建

2.4 实验结果与分析

2.4.1 对比实验对象

2.4.2 测试平台微基准实验

2.4.3 测试平台真实流量实验

2.4.4 大规模仿真实验

2.5 相关工作

2.6 本章小结

第3章多路径RDMA传输层协议的设计与研究

3.1 引言

3.2 研究背景介绍

3.2.1 RDMA的背景知识

3.2.2 多路径传输的必要性

3.2.3 多路径RDMA协议设计的挑战

3.3 多路径RDMA传输层协议的设计

3.3.1 MP-RDMA概览

3.3.2 拥塞控制和多路径ACK时钟

3.3.3 MP-RDMA的流模型分析

3.3.4 感知乱序的路径选择

3.3.5 处理Sychronise操作

3.3.6 其它的设计细节与讨论

3.4 多路径RDMA传输层协议的系统实现

3.4.1 基于FPGA的原型系统

3.4.2 原型系统的基本性能

3.5 实验结果与分析

3.5.1 MP-RDMA对性能的提升

3.5.2 MP-RDMA的深入评测

3.6 相关工作

3.7 本章小结

第4章 RDMA丢包重传机制的改进与研究

4.1 引言

4.2 背景知识

4.2.1 基于硬件的传输层协议

4.2.2 选择性重传的必要性

4.2.3 片上内存高效的必要性

4.3 Melo系统设计

4.3.1 MELO系统概览

4.3.2 MELO系统设计的细节

4.4 实验结果与分析

4.4.1 MELO的总体性能

4.4.2 MELO的深入探究

4.5 本章小节

第5章总结与展望

5.1 全文总结

5.2 未来工作展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

（5）基于RDMA的非易失性内存文件系统设计与实现（论文提纲范文）

中文摘要

英文摘要

1 绪论

1.1 研究背景

1.2 研究目的与意义

1.3 国内外研究

1.3.1 RDMA在存储领域的应用

1.3.2 面向非易失性内存的文件系统

1.4 本文的主要工作和特色

1.5 本文的组织安排

2 研究背景知识

2.1 虚拟地址空间与页表

2.2 RDMA技术简介

2.2.1 RDMA技术优势

2.2.2 RDMA技术原理

2.3 文件数据块索引技术

2.3.1 基于数组的索引查找技术

2.3.2 基于链表的索引查找技术

2.3.3 基于Hash的索引查找技术

2.3.4 基于树的索引查找技术

2.4 本章小结

3 系统设计及实现

3.1 系统总体设计

3.1.1 系统网络架构

3.1.2 系统功能架构

3.2 Master节点架构设计及实现

3.2.1 元数据管理模块

3.2.2 文件数据管理模块

3.2.3 空间管理模块

3.2.4 Slave节点信息管理模块

3.3 Slave节点架构设计及实现

3.3.1 节点监控管理模块

3.3.2 节点空间管理模块

3.3.3 节点配置管理模块

3.4 网络服务架构设计及实现

3.4.1 网络连接服务

3.4.2 心跳上报与监控服务

3.4.3 注册管理服务

3.5 本章小结

4 系统测试

4.1 测试环境

4.1.1 测试网络环境

4.1.2 测试主机环境

4.2 系统性能测试

4.2.1 文件索引查询性能测试

4.2.2 文件数据读写性能测试

4.2.3 Slave容灾性能测试

4.3 本章小结

5 总结与展望

5.1 总结

5.2 展望

致谢

参考文献

附录

A.作者在攻读硕士学位期间发表的论文

B.作者在攻读硕士学位期间参加的科研项目

（6）基于RDMA分布式key-value存储系统的设计与实现（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景

1.1.1 互联网+时代下的大数据与web2.0技术面临的挑战

1.1.2 分布式key-value缓存/存储系统

1.1.3 InfiniBand高性能网络

1.2 研究意义

1.3 相关研究

1.3.1 分布式key-value缓存/存储系统

1.3.2 InfiniBand网络

1.4 主要工作与组织结构

1.4.1 本文主要工作

1.4.2 论文组织结构

第二章 RDMA在主流分布式key-value缓存/存储系统的设计与实现

2.1 Memcached系统架构和关键技术

2.2 Redis架构和关键技术

2.3 RDMA关键技术

2.3.1 RDMA传输层

2.3.2 RDMA读写

2.4 详细设计

2.4.1 IBVerbs混合元语设计

2.4.2 Master-Worker线程设计

2.5 实验结果与分析

2.5.1 实验平台和测试数据

2.5.2 实验结果及分析

2.6 本章小结

第三章基于RDMA的分布式key-valuestore系统的设计与实现

3.1 InnerCache系统设计与实现

3.1.1 主要设计

3.1.2 实验环境和结果分析

3.2 NewCached系统设计与实现

3.2.1 主要设计

3.2.2 主要的数据结构

3.2.3 数据操作流程

3.2.4 数据压缩

3.2.5 实验结果与分析

3.3 本章小结

第四章分布式key-value系统集群结构的研究与优化

4.1 Memcached的分布式集群结构

4.1.1 Facebook的代理服务器mcrouter

4.2 Sharding集群结构

4.2.1 Sharding集群结构的内存管理

4.3 本章小结

第五章总结与展望

5.1 工作总结

5.2 研究展望

致谢

参考文献

作者在学期间取得的学术成果

（7）面向InfiniBand控制器的PCI Express接口设计实现（论文提纲范文）

摘要

abstract

第一章绪论

1.1 InfiniBand发展背景

1.2 基于PCI Express的应用技术

1.3 论文主要研究内容和章节安排

第二章 PCI Express协议

2.1 PCI Express总线结构

2.2 PCI Express总线事务

2.3 PCI Express数据传输路由

2.4 PCI Express配置空间

2.5 本章小结

第三章基于PCI Express的接口设计

3.1 总体结构

3.2 HCA结构

3.2.1 HCR

3.2.2 工作空间

3.2.3 UAR

3.3 子模块功能

3.3.1 HCA_CTRL

3.3.2 Queue_Group

3.3.3 ICM

3.3.4 DDR

3.3.5 AXI Interconnect

3.4 PCI Express IP核研究

3.5 本章小结

第四章 PCI Express接口设计实现

4.1 PCI Express配置和数据映射原理

4.1.1 PCI Express配置原理

4.1.2 AXI4数据映射原理

4.2 PCI Express链路模块设计

4.2.1 pcie_cfg模块

4.2.2 mux模块

4.2.3 mapper模块

4.3 PCI Express链路仿真测试

4.3.1 pcie_cfg仿真测试

4.3.2 mapper仿真测试

4.4 PCI Express链路硬件验证

4.4.1 IP核设置与修改

4.4.2 硬件测试

4.5 本章小结

第五章总结与展望

致谢

参考文献

个人简历及攻读硕士学位期间的研究成果

（8）面向拥塞优化的高性能软件定义互连体系结构研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景

1.1.1 高性能计算和高性能网络

1.1.2 网络拥塞的定义

1.1.3 拥塞控制的重要性

1.2 论文主要工作与贡献

1.3 论文组织结构

第二章高性能网络拥塞控制研究现状

2.1 高性能网络背景知识

2.1.1 Myrinet互连网络技术

2.1.2 Qsnet互连网络技术

2.1.3 Infiniband互连网络技术

2.1.4 SCI互连网络技术

2.1.5 网络性能评价参数

2.2 传统拥塞控制算法

2.2.1 拥塞处理策略

2.2.2 拥塞避免策略

2.3 拥塞控制算法设计难点

2.4 小结

第三章高性能网络中SDN架构的实现

3.1 高性能网络的传输问题

3.2 SDN架构相关知识

3.3 高性能网络与SDN结合的设计细节

3.3.1 LLDP后台程序

3.3.2 SDN集中控制器

3.3.3 信号传输路径的设计

3.4 小结

第四章基于全局信息的拥塞避免策略研究

4.1 网络拥塞介绍

4.2 拥塞避免的相关工作

4.3 OSCP策略设计细节

4.3.1 OSCP设计架构

4.3.2 网络资源分析与分组

4.3.3 全局集中与局部自适应策略

4.3.4 OSCP策略工作步骤

4.4 实验评估

4.4.1 实验设置

4.4.2 实验结果

4.5 小结

第五章基于多跳竞争的拥塞避免策略实现

5.1 传统拥塞检测策略存在的问题

5.1.1 拥塞检测的粒度

5.1.2 使用信用机制的不确定性

5.1.3 响应时间

5.1.4 路由振动

5.2 基于竞争的拥塞检测工作

5.3 CAS策略设计细节

5.4 实验评估

5.4.1 实验设置

5.4.2 实验结果

5.5 小结

第六章总结与展望

6.1 工作总结

6.2 研究展望

致谢

参考文献

作者在学期间取得的学术成果

（9）湘财证券VIP快速交易系统的设计与实现（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 课题背景及意义

1.2 存在问题

1.3 解决的主要问题

1.4 本文主要工作

1.5 论文组织结构

第二章相关技术理论分析及背景

2.1 证券交易系统延迟分析

2.2 低延迟证券交易系统关键技术

2.2.1 操作系统

2.2.2 消息中间件

2.2.3 应用软件延迟

2.3 Java EE的分布式应用技术

2.3.1 组件容器技术

2.3.2 Servlets和JSP

2.3.3 数据库访问

2.3.4 分布式通信技术及分布式应用技术

2.4 证券市场相关的知识

2.5 本章小结

第三章 VIP快速交易系统分析与架构

3.1 需求分析

3.1.1 业务需求

3.1.2 技术需求

3.2 系统设计目标

3.3 系统总体架构

3.3.1 系统设计理念

3.3.2 系统特性

3.3.3 系统架构与组成

3.4 系统模块设计

3.4.1 标准行情服务

3.4.2 标准资讯服务

3.4.3 委托交易

3.4.4 快速交易

第四章系统设计及实现的关键技术

4.1 客户端系统的实现

4.1.1 快速交易业务逻辑

4.1.2 快速交易

4.1.3 快速交易功能实现

4.1.4 交易区域

4.2 服务器端系统的实现

4.3 数据库连接池配置及优化

4.4 JavaBean设计

4.4.1 MD5加密算法加密用户的重要信息

4.4.2 用正则表达式认证用户

4,4.3 编码转换

4.5 低延时设计

4.5.1 网络传输

4.5.2 传输技术

4.5.3 通信模型

4.5.4 模块处理

4.6 高安全性设汁

4.6.1 通讯安全

4.6.2 身份安全

4.6.3 业务安全

第五章总结与展望

参考文献

致谢

（10）基于VSC8248的高速误码测试系统的设计与实现（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 课题研究的目的与意义

1.2 国内外研究现状分析与发展趋势

1.3 课题的研究内容与本文的结构安排

1.3.1 课题的研究内容

1.3.2 本文的结构安排

第2章高速误码测试系统工作原理与方案设计

2.1 高速误码测试系统的工作原理

2.1.1 误码测试系统的工作原理

2.1.2 被测系统误码率的计算

2.1.3 被测系统误码测试时间选取

2.1.4 误码测试系统的关键问题分析

2.2 高速误码测试系统的方案选择

2.2.1 高速误码测试系统实现方案的分析与对比

2.2.2 系统的方案设计

2.3 误码测试系统的性能指标与技术参数

2.4 本章小结

第3章误码测试系统的硬件电路设计

3.1 时钟分配系统的硬件电路设计

3.1.1 系统抖动分析

3.1.2 高速误码测试系统时钟系统方案分析

3.1.3 高速误码测试系统的时钟电路设计

3.1.4 时钟分配系统优化设计

3.2 电源分配系统的硬件电路设计

3.2.1 系统对功耗的计算与分析

3.2.2 系统供电方案分析

3.2.3 电源分配系统电路设计

3.3 高速接口的硬件电路设计

3.3.1 光接口电路设计

3.3.2 电接口电路设计

3.4 控制系统的硬件电路设计

3.5 液晶显示电路设计

3.6 通信接口的设计

3.7 本章小结

第4章高速PCB设计与信号完整性分析

4.1 高速信号完整性问题理论分析

4.2 高速PCB设计

4.2.1 高速PCB叠层设计

4.2.2 阻抗设计

4.2.3 端接设计

4.2.4 EMC设计

4.3 信号完整性仿真

4.3.1 时钟信号完整性仿真

4.3.2 发送端测试信号完整性仿真

4.4 电源完整性仿真

4.4.1 1.2V电源完整性仿真

4.4.2 1.8V电源完整性仿真

4.4.3 3.3V电源完整性仿真

4.5 本章小结

第五章误码测试系统的软件设计与系统调试

5.1 误码测试系统的软件设计

5.1.1 上位机软件的设计思路

5.1.2 底层软件的设计思路

5.2 误码测试系统的发送端调试

5.2.1 发送端的测试原理以及测试方法

5.2.2 测试结果与分析

5.3 误码测试系统的接收端调试

5.3.1 接收端的测试原理以及测试方法

5.3.2 接收端的测试结果及分析

5.4 本章小结

第六章总结与展望

6.1 全文的工作总结

6.2 展望

致谢

参考文献

四、InfiniBand回来了（论文参考文献）

[1]基于小规模GPU集群平台的深度学习任务调度研究[D]. 陈照云. 国防科技大学, 2019(01)
[2]高性能计算网络拥塞控制关键技术研究[D]. 吴克. 国防科技大学, 2019(02)
[3]公有云中高性能网络系统研究[D]. 王冬洋. 中国科学技术大学, 2019(08)
[4]数据中心内硬件资源高效的低延迟传输层研究[D]. 陆元伟. 中国科学技术大学, 2018(09)
[5]基于RDMA的非易失性内存文件系统设计与实现[D]. 刘志祥. 重庆大学, 2018(04)
[6]基于RDMA分布式key-value存储系统的设计与实现[D]. 杨敏. 国防科学技术大学, 2016(01)
[7]面向InfiniBand控制器的PCI Express接口设计实现[D]. 谢林甫. 电子科技大学, 2016(02)
[8]面向拥塞优化的高性能软件定义互连体系结构研究[D]. 柴燕涛. 国防科学技术大学, 2015(04)
[9]湘财证券VIP快速交易系统的设计与实现[D]. 尹林. 复旦大学, 2012(03)
[10]基于VSC8248的高速误码测试系统的设计与实现[D]. 范成相. 武汉理工大学, 2012(10)

标签：rdma论文; 拥塞控制论文; 分布式存储系统论文; 深度学习论文; 应用虚拟化论文;

InfiniBand 回来了

一、InfiniBand回来了（论文文献综述）

二、InfiniBand回来了（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、InfiniBand回来了（论文提纲范文）

（1）基于小规模GPU集群平台的深度学习任务调度研究（论文提纲范文）

（2）高性能计算网络拥塞控制关键技术研究（论文提纲范文）

（3）公有云中高性能网络系统研究（论文提纲范文）

（4）数据中心内硬件资源高效的低延迟传输层研究（论文提纲范文）

（5）基于RDMA的非易失性内存文件系统设计与实现（论文提纲范文）

（6）基于RDMA分布式key-value存储系统的设计与实现（论文提纲范文）

（7）面向InfiniBand控制器的PCI Express接口设计实现（论文提纲范文）

（8）面向拥塞优化的高性能软件定义互连体系结构研究（论文提纲范文）

（9）湘财证券VIP快速交易系统的设计与实现（论文提纲范文）

（10）基于VSC8248的高速误码测试系统的设计与实现（论文提纲范文）

四、InfiniBand回来了（论文参考文献）

猜你喜欢