高性能计算( 三 )


高性能计算

文章插图
图4.格线功能图回响和结果都同样地在格线控制器上进行排队 , 以便在处理完所有工作单元(及其结果)时将它们收集到应用程式的最终结果集中 。图4中显示了这样一个示例 。格线模型允许使用各种级别的资源、工作单元规模和分配级别 , 而不只是HPC解决方案使用的执行模型提供的那些 。大多数格线支持使用每个将被排队和分配的应用程式的各种工作单元同时执行多个工作请求 。例如 , 可以在一些节点仍然在完成Job1上的工作时开始Job2上的工作 , 为了完成工作 , 两项作业以某种动态的方式使用相同数量的可用节点 。此过程的灵活特性不但允许以更动态更适应的方式执行工作 , 还允许格线与各种硬体和平台一起使用 。即使格线中的某些节点比其他一些节点更快或更慢一些 , 也不再有任何关係;它们可以在自己(比较)空闲的时间完成工作 , 并且结果将被排队 。其间 , 更快的系统可能被分配更多的工作并完成更多的工作单元 。出现这种不利现象是因为需要更繁重的管理费用来观察和监视各个节点 , 以便能够在节点间有效分配工作 。在异构环境中 , 还必须考虑不同的平台 , 并开发跨支持环境兼容的应用程式 。但在格线空间中 , Web服务已简化了该过程 , 使分配工作变得更容易 , 不必担心这些不同 。在查看Web服务的效果之前 , 查看HPC和格线之间的会合区域 , 并了解这将如何影响不同的执行模型 。会合区域HPC 和格线环境之间存在一些类似之处 , 在许多方面 , 这二者都出现了一些会合和分歧 , 不同的团体利用了这两个系统的各自优点 。许多格线环境已从HPC解决方案的扩展中产生 , 基于HPC环境中的工作 , 格线中使用的许多技术得到了最佳化和採用 。一些显而易见的类似之处是工作被分配到更小的单元和组件中的方式 , 以及各个工作节点之间的工作分配方式 。在HPC环境中 , 这种劳动分配通常受到严格控制 , 并且是根据您的可用资源进行的 。格线使用了一种更灵活的模型 , 该模型允许将工作分配给大小不标準的单元 , 因此可以在截然不同的格线节点数组之间分配工作 。儘管工作的分配方式上存在不同 , 但分配的基本原则仍然是相同的:先确定工作及其分配方式 , 然后相应地创建工作单元 。例如 , 如果遇到计算问题 , 可以通过创建不同的参数集 , 利用将套用于每个节点的每个集合的变数来分配工作 。HPC 系统中使用的讯息传递结构和系统也已开发并适用于格线系统 。许多 HPC 讯息传递库使用共享记忆体结构来支持节点之间的工作单元分配 。在格线中 , 共享的记忆体环境是不存在的 。此外 , 工作是利用标準网路连线(通常使用TCP/IP)上传送的不同讯息来分配的 。系统的核心没有什幺不同:交换包含工作参数的讯息 。只有交换信息的物理方法是不同的 。Web 服务的影响儘管平台独立 HPC 系统非常常见(比如 MPI , 它支持多个平台和架构) , 但 HPC 解决方案并不能直接使用 , 并且许多使用仍然依赖于架构的统一 。典型格线的不同特性导致工作分配方式发生了变化 。因为格线节点可能基于不同平台和架构 , 所以在不同公用和私用网路上 , 需要某种以平台为核心的交换工作和请求的方法 , 该方法使分配工作变得更容易 , 不必担心目标环境 。Web 服务基于开放标準 , 使用XML来分配和交换信息 。该效果实质上将消除在平台和架构间共享信息的複杂性 。可以编写一系列支持不同操作的Web服务 , 而不是编写跨格线执行的二进制应用程式 , 这些 Web 服务是为各种节点和平台量身订做的 。部署Web服务的费用也比较低 , 这使得它们对于不使用专用计算节点的格线中的操作比较理想 。通过消除兼容性问题并简化信息分配方法 , Web服务使格线的扩展变得更轻鬆 。使用HPC解决方案 , 通常必须使用基于相同硬体的节点来扩展HPC环境的功能 。而使用格线 , 特别是在使用Web服务时 , 系统几乎可以在任何平台上扩展 。格线和Web服务的其他问题是由于不再套用关闭的HPC系统和内部HPC系统而导致的常见分配和安全考虑事项 。在WAN或公用网路上使用网路节点时尤为如此 。对于HPC 解决方案 , 系统的安全可通过硬体的统一特性得到控制;对于某一位置上的所有机器 , 安全性更容易控制 。为了提高Web服务的互操作性 , 特别是在格线环境中 , OASIS 团队开发了许多Web服务标準 。这些标準都是通过其WS前缀来标识的 。通用规範包含一些顶级 Web服务支持和全面保护规範 , 用于发现Web服务和选项以及信息交换(通过WS-Security) 。更深一层的标準提供了用来共享资源和信息的标準化方法(WS-Resource 和 WS-Resource Framework)、用来可靠地交换讯息的标準化方法(WS-Reliable Messaging)、用于事件通知的标準化方法(WS-Notification) , 甚至是用于 Web 服务管理的标準化方法(WS-Distributed Management) 。出于安全考虑 , 可以 WS-Reliable Messaging 交换与WS-Security 标準包装在一起 , 这定义了用于身份验证、授权和讯息交换加密的方法和过程 。通过将Web服务标準支持、安全规範和您自己的定製Web 服务组件结合在一起 , 可以构建一个使用多个平台和环境的高效格线 。然后可以在LAN环境中使用应用程式 , 或者安全地通过公用网路提供与典型HPC解决方案同样强大的计算资源 , 但具有扩展的灵活性和对格线技术的标準支持 。结束语格线计算从技术上说是一种高性能计算机 , 但它在许多方面不同于传统的HPC 环境 。大多数传统HPC技术都是基于固定的和专用的硬体 , 并结合了一些专门的作业系统和环境来产生高性能的环境 。相比较而言 , 格线可以使用日用硬体、不同平台 , 甚至被配置成可以使用现有基础设施中的多余容量 。儘管存在一些不同 , 但两个系统也有许多相似之处 , 特别是查看跨节点的工作分工和分配时 。在两种情况下 , 都可以使用Web服务来帮助支持系统操作 。通过使用开放标準并允许支持更广範围的作业系统和环境 , Web 服务和格线技术可能在高性能计算解决方案的功效和灵活性方面带来很大的不同 。提升性能各种高性能计算设施都要根据企业不同的需求选用 , 但所有高性能计算应用程式都必须经过特殊最佳化 , 这与传统数据中心要求不大一样 。以下方式可以让HPC应用程式平台以最高的性能执行 。选择适合的记忆体有三种DIMM记忆体可用:UDIMM记忆体、RDIMM记忆体和LRDIMM记忆体 。在处理较大型工作负载时 , 无缓冲DIMM(UDIMM)速度快、廉价但不稳定 。暂存器式DIMM(RDIMM)记忆体稳定、扩展性好、昂贵 , 而且对记忆体控制器的电气压力小 。它们同样在许多传统伺服器上使用 。降载DIMM(LRDIMM)记忆体是暂存器式记忆体的替代品 , 它们能提供高记忆体速度 , 降低伺服器记忆体汇流排的负载 , 而且功耗更低 。升级设施HPC系统设计与传统数据中心基础设施设计的一大区别就是选择现成工具或定製系统 。现成的系统只能在很小的範围内进行扩展 , 限制了未来增长 。定製可以保持一个开放式的设计 , 让企业在将来获得更好的扩展功能 。然而 , 额外的功能对于定製系统来说是一笔不小的代价 , 比购买现成系统要高得多 。充分利用HPCHPC应用程式设计与传统设计不同 。开发者需要将信息流拆分为并行组 。保持系统一致当集群中出现不一致 , HPC管理员可能会看到一些零星的异常货变化 , 影回响用程式性能 。考虑到潜在的性能 , IT部门需要实施策略来确认HPC系统中都运行着什幺应用程式 ,  并想办法让配置同步 。这些检查每季度应该进行 , 或者每年不少于两次 。关注能耗普通的伺服器开销为每机柜30kw , 这个数字还在不断上升 。由于高密度 , 高效率数据中架构基础设施与冷却系统变得至关重要 。最佳化高性能计算(HighPerformanceComputing)是计算机科学的一个分支 , 主要是指从体系结构、并行算法和软体开发等方面研究开发高性能计算机的技术 。随着计算机技术的飞速发展 , 高性能计算机的计算速度不断提高 , 其标準也处在不断变化之中 。高性能计算简单来说就是在16台甚至更多的伺服器上完成某些类型的技术工作负载 。到底这个数量是需要8台 , 12台还是16台伺服器这并不重要 。在定义下假设每一台伺服器都在运行自己独立的作业系统 , 与其关联的输入/输出基础构造都是建立在COTS系统之上 。