并行计算的编程模型--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书以使用说明的形式对当今主流的并行编程模型进行了详细描述，内容包括分布式内存架构上常见的MPI（消息传递接口）编程模型；单边通信模型，范围从低层的运行时库（GASNet、OpenSHMEM）到高层的编程模型（UPC、GA、Chapel）；面向任务的编程模型，包括Charm++、ADLB、Scioto、Swift、CnC，由运行时系统来管理计算和数据移动；面向节点内并行（多核架构以及附带加速器）的并行编程模型，包括OpenMP、CilkPlus、TBB、CUDA以及OpenCL。每章配备大量应用和程序实例，可以使读者很好地理解各种编程模型所提供的功能及特点。本书可作为高等院校并行编程课程的研究生教材，也可作为具有一定并行编程经验的软件开发人员、科研人员以及任何与数据集及大规模计算打交道的科学家的参考资料。

作者简介

帕万·巴拉吉，中国科学院外籍青年科学家、美国阿贡国家实验室(Argonne National Laboratory)计算机科学家。美国西北大学西北-阿贡研究所和工程学院研究员，芝加哥大学计算所研究员。

出版者的话
译者序
前言
第1章消息传递接口1
1.1引言1
1.2MPI基础1
1.3点对点通信2
1.4数据类型3
1.5非阻塞式通信4
1.6聚合通信5
1.7单边通信7
1.8并行I／O9
1.9其他特性11
1.10MPI开发心得12
1.11总结13
第2章全局地址空间网络14
2.1研究背景与动机14
2.2GASNet概述14
2.2.1相关术语15
2.2.2线程15
2.2.3API组织16
2.3核心API16
2.3.1开始和结束16
2.3.2段信息18
2.3.3屏障18
2.3.4锁与中断19
2.3.5活动消息20
2.3.6活动消息进程22
2.3.7活动消息规则与约束22
2.3.8出错代码23
2.4扩展API23
2.4.1GASNet段23
2.4.2排序与内存模型24
2.4.3阻塞与非阻塞24
2.4.4批量与单个24
2.4.5寄存器–内存与远程memset操作24
2.4.6扩展API总结25
2.5附加内容26
2.5.1GASNet工具26
2.5.2可移植平台头文件27
2.6示例27
2.6.1编译和运行示例27
2.6.2HelloWorld示例28
2.6.3AMPing—Pong示例28
2.6.4AMRing示例30
2.6.5MCSLocks示例32
2.7未来方向35
第3章OpenSHMEM37
3.1引言37
3.2设计理念和根据37
3.3OpenSHMEM存储模型39
3.4对称堆管理39
3.4.1初始化和查询40
3.4.2分配和释放40
3.4.3关于分配和对称堆的说明41
3.5远程内存访问：put和get41
3.5.1RMA函数语义41
3.5.2RMA函数使用42
3.6排序和同步44
3.6.1全局同步屏障44
3.6.2fence和quiet：RMA操作排序45
3.6.3锁46
3.6.4wait和wait_until46
3.7集合操作47
3.7.1选择集合参与者47
3.7.2同步数组和工作数组47
3.7.3非全局同步屏障48
3.7.4广播48
3.7.5收集49
3.7.6归约50
3.8原子内存操作51
3.8.1原子加和递增52
3.8.2原子取—加和取—递增52
3.8.3原子交换和条件交换53
3.9未来方向54
第4章统一并行C55
4.1UPC简史55
4.2UPC编程模型56
4.2.1术语56
4.2.2全局地址空间56
4.2.3执行模型57
4.3UPC概览57
4.3.1自省57
4.3.2数据布局57
4.3.3通信59
4.3.4UPC内存一致性模型60
4.3.5同步61
4.3.6集合操作62
4.4UPC程序示例63
4.4.1随机访问基准63
4.4.2雅可比5点stencil64
4.4.3排序示例65
4.4.4一维FFT68
4.5未来方向71
第5章全局数组72
5.1引言72
5.2编程模型与设计原则73
5.3核心功能74
5.4进程组77
5.5扩展的数组结构78
5.6稀疏数组操作的支持79
5.7数组上的集合操作80
5.8动态负载均衡80
5.9实际应用80
第6章Chapel82
6.1Chapel简史82
6.1.1全面启动82
6.1.2初始方向83
6.1.3HPCS时代83
6.1.4后HPCS时代84
6.2Chapel的主题思想84
6.2.1通用并行性表达84
6.2.2支持多线程执行模型85
6.2.3支持全局视图编程85
6.2.4支持多尺度设计85
6.2.5支持局部性控制86
6.2.6支持以数据为中心的同步86
6.2.7用户与编译器的不同角色86
6.2.8缩小主流语言和HPC语言之间的差距87
6.2.9从头开始（但争取令人熟悉）87
6.2.10远大目标88
6.2.11促使Chapel成为可移植的开源软件88
6.3Chapel特性概述88
6.3.1基本语言特性89
6.3.2任务并行92
6.3.3数据并行96
6.3.4位置特性98
6.4总结与未来方向100
第7章Charm++102
7.1引言102
7.2Charm的编程范例以及执行模型102
7.2.1以过分解作为核心思想102
7.2.2消息驱动的执行模型103
7.2.3授权自适应运行时系统104
7.3基本语言104
7.3.1chare：分解的基本单元104
7.3.2入口方法：基本的调度单元105
7.3.3异步方法调用105
7.3.4带索引的chare集合：chare数组105
7.3.5只读变量106
7.3.6Charm++对象：用户及系统角度107
7.3.7结构化匕首符号108
7.3.8示例：一维分解的5点stencil代码108
7.4过分解的好处以及消息驱动执行110
7.4.1不依赖于处理器个数110
7.4.2异步归约110
7.4.3自适应计算与通信重叠110
7.4.4合成性111
7.4.5软件工程方面的好处：逻辑实体的相互独立111
7.5一个设计示例：分子动力学模拟111
7.6自适应运行时特性112
7.6.1Charm++中负载均衡功能112
7.6.2容错113
7.6.3缩小或扩展处理器集合114
7.6.4异构处理器以及加速器的支持115
7.6.5额外特性115
7.6.6实验特性：热能与功耗管理115
7.7底层架构概述115
7.8基于Charm++的高层次语言家族116
7.9通过Charm++来开发应用程序117
7.10作为研究工具的Charm++118
7.11Charm++：历史以及现状118
7.12总结118
第8章异步动态负载均衡119
8.1引言119
8.2manager—worker模型与负载均衡119
8.3ADLB库定义121
8.3.1API简介121
8.3.2基本的ADLBAPI122
8.3.3使用批处理优化内存使用123
8.3.4获取和使用ADLB124
8.4实现ADLB124
8.4.1ADLBM实现124
8.4.2其他实现125
8.5示例125
8.5.1一个简单的批处理调度125
8.5.2动态任务创建：数独解法126
8.5.3任务单元类型：旅行推销员问题127
8.5.4GFMC127
8.5.5Swift128
8.6DMEM：一个处理大数据的辅助库128
8.7总结与未来方向129
第9章可拓展任务对象集合130
9.1Scioto任务并行执行模型131
9.1.1任务对象131
9.1.2任务输入／输出模型132
9.1.3任务执行模型132
9.2多级并行任务集合133
9.3Scioto+GA编程接口134
9.3.1核心编程结构134
9.3.2实现一个Scioto任务135
9.3.3示例：矩阵–矩阵乘法135
9.4Scioto运行时系统136
9.4.1共享任务队列方法136
9.4.2动态负载均衡方法137
9.4.3终止检测137
9.5总结138
第10章Swift：极端规模的隐式并行脚本139
10.1第一个示例：并行因式分解140
10.2一个真实的示例：晶体坐标转换140
10.3Swift发展历史142
10.4Swift语言和编程模型142
10.4.1HelloWorld示例143
10.4.2变量和标量数据类型143
10.4.3数据流执行144
10.4.4条件判断语句145
10.4.5数据依赖控制流145
10.4.6foreach循环和数组145
10.4.7Swift函数146
10.4.8外部函数147
10.4.9文件和app函数148
10.5Swift执行模型148
10.6大规模并行运行时系统150
10.7运行时架构151
10.8性能分析153
10.9Swift的大规模并行编译153
10.10相关工作154
10.11总结155
第11章并发集合编程模型157
11.1引言157
11.2研究动机158
11.3CnC领域语言158
11.3.1概述158
11.3.2特征160
11.3.3示例161
11.3.4执行语义162
11.3.5CnC编程163
11.3.6未来工作167
11.4CnC调优语言168
11.4.1描述168
11.4.2特征171
11.4.3示例171
11.4.4执行模型173
11.4.5未来工作175
11.5当前状态175
11.6相关工作175
11.7总结177
第12章OpenMP178
12.1引言178
12.2概述179
12.2.1术语179
12.2.2管理数据环境180
12.2.3OpenMP概念简述181
12.3OpenMP特性182
12.3.1并行区域182
12.3.2同步186
12.3.3工作共享187
12.3.4任务并行化191
12.3.5向量化195
12.3.6加速器支持196
12.3.7区域取消199
12.4性能优化建议200
12.5关于正确性的思考201
12.6总结与未来方向201
第13章CilkPlus202
13.1引言202
13.2向量并行化203
13.2.1数组标注204
13.2.2pragmaSIMD205
13.2.3支持SIMD的函数206
13.3线程并行208
13.4并行性能211
13.5数据竞争215
13.6实践技巧216
13.7历史219
13.8总结220
第14章IntelTBB工具221
14.1引言221
14.1.1概述221
14.1.2基本信息221
14.2泛型并行算法222
14.2.1简单循环的并行化222
14.2.2在STL容器中处理数据223
14.2.3复杂迭代空间224
14.2.4其他算法226
14.3流图226
14.3.1概述227
14.3.2节点通信协议227
14.3.3控制依赖图228
14.3.4数据流图230
14.3.5流图、算法和无环图的选择232
14.4总结232
第15章CUDA233
15.1CUDA简史233
15.2CUDA编程结构234
15.3示例：向量加法235
15.4设备内存和数据传输236
15.5kernel函数与线程238
15.6线程组织240
15.7线程和多维数据的映射242
15.8同步与透明可扩展性243
15.9线程块的资源分配244
15.10CUDA流与任务并行244
15.11总结248
第16章OpenCL开放计算语言249
16.1计算语言与OpenCL249
16.2基本定义250
16.3计算机、编程和异构250
16.4OpenCL的诞生251
16.5OpenCL的核心模型252
16.5.1平台模型252
16.5.2执行模型253
16.5.3内存模型255
16.5.4编程模型257
16.6OpenCL主机程序：向量加法258
16.7总结266
参考文献268

摘要

对于正在编程的程序员，编程模型可被看作一台虚拟机，并可通过编程语言和函数库实现。如果某个编程模型成为计算机科学研究中的热点，需要具有以下特性：高效性（易于描述各种抽象算法）、移植性（兼容各种硬件计算平台）、高性能（高效均衡地利用硬件平台的计算能力）、通用性（广泛地描述各种算法）。针对特定的编程模型，同时具有上述四种特性中的一种或两种相对容易，但同时具备这四种特性几乎是不可能的。特定的编程模型无法同时具备四种特性的主要原因在于编程模型的多样性，因此需要根据具体的科学应用，选择不同的编程模型特性。随着并行计算技术的发展，计算机科学领域的专家将研究重点转移到能够适应高性能并行计算和超级计算系统的编程模型设计方向。并行编程模型包含执行模型（选择代码执行路径）和内存模型（管理计算节点间和节点内的数据流）。多核计算需要并发计算和移动数据，这增加了程序运行结果和性能的不确定性，导致并行编程模型变得更加复杂。从技术上分析，编程模型和编程系统间存在一定区别。编程模型是一种编程方式，例如采用大量同步或者隐含编译器协助的并行化方式，而编程系统指程序员编写程序时实际使用的系统抽象接口。随着时间推移，编程模型和编程系统间的区别逐渐变得模糊。目前，编程模型既是一种编程方式，也是模型实例化过程中所使用的系统抽象接口。与通用的编程模型设计不同，在大多数并行系统中，程序开发人员往往不采用单一的并行编程模型。不同的开发人员会选择不同层次的虚拟化方式，并在高效性、移植性、高性能和通用性四种编程模型特性中选择不同的组合。针对面向终端的程序开发应用，具体研究领域的科学家通常倾向于选择更高效和高级别的编程模型，即使该编程模型只能针对特定的算法而缺乏通用性。针对编程语言和函数库，程序开发者一般更倾向于选择高性能和低级别的编程模型，即使该编程模型具有较高的使用难度。然而，针对面向终端的程序应用以及编程语言和函数库开发，上述编程模型选择并非是绝对的，可根据实际的开发应用情况进行调整。关于本书本书对当今高性能计算以及超级计算系统上的几种最主要的并行编程模型进行了概述。书中包含多种并行编程模型，它们拥有不同的生产效率、可移植性、性能以及表达范围。因此，读者可以学习和理解每种编程模型提供了哪些折中。第1章讨论了消息传递接口（MPI）。MPI是当今面向分布式内存计算的最重要的并行编程模型。该章对MPI最常用的功能进行了概述，并涉及MPI标准的第三个主要版本 ——MPI-3。第2～5章从低层次的运行时库到高层次的编程模型，对单边通信模型进行了讨论。第2章介绍了全局地址空间网络（GASNet），它是一种低层次的编程模型，用于多种分区全局地址空间（PGAS）模型的一种通用可移植运行时系统。第3章讨论了OpenSHMEM单边通信库，它用于向用户直接呈现本地硬件通信功能。OpenSHMEM通过扩展库的形式模拟了许多PGAS模型的功能，这样做的好处是不依赖于语言扩展及相应的编译器支持。第4章提供了Unified Parallel C（UPC）编程模型的概述。UPC是基于C语言的PGAS模型，它为全局地址空间内存的创建与管理提供了相应的语言扩展及库接口。第5章介绍了全局数组（GA），与OpenSHMEM类似，GA是另一种基于库的单边通信模型。但GA基于多维数组提供了更高层次的抽象，以方便用户编程。第6章讨论了Chapel。它是一种高生产率编程模型，支持以任务并行及数据并行两种方式对应用进行描述。Chapel同时也具有一级语言概念，可对局部性进行描述与推理，这与它支持的并行特性是互不相关的。第7～11章展示了面向任务的编程模型，它们允许用户以任务的方式描述计算及数据单元，并允许运行时系统来管理计算以及必要的数据移动。第7章对Charm++编程模型进行了讨论。Charm++提供了一种依赖于工作过分解的抽象模型，以在可用的计算单元间动态地管理任务。第8章深入讨论了异步动态负载均衡（ADLB）库，它提供了另一种面向任务的工作共享方法，并以MPI作为低层次的通信模型。第9章讨论了可扩展任务对象集合（Scioto）编程模型，它依赖于类似PGAS的单边通信框架来实现基于工作窃取的负载均衡。第10章描述了Swift，它是一种高层次的脚本语言，允许用户使用高层次语义对计算进行描述，并在内部将其翻译成其他面向任务的编程模型，如ADLB。第11章描述了并行集（CnC），它是一种高层次的声明式模型，允许用户将应用描述为由相互通信的内核构成的图。第12～16章展示了面向节点内并行的编程模型，涉及的硬件环境包括多核架构、加速器以及两者同时存在的情况。第12章讨论了OpenMP。OpenMP是当今科学计算领域最重要的节点内并行编程模型。该章介绍了OpenMP的进化历程以及核心特性，并涉及OpenMP 4.0。第13章讨论了Cilk Plus编程模型，它是一种对C及C++语言的并行扩展，用于在现代共享内存多核机器上开发规则以及非规则并行。第14章讨论了Intel TBB（Threading Building Block），它是一个基于C++模板类实现的库。与Cilk Plus类似，TBB支持共享内存多核架构上的并行执行。第15章讨论了NVIDIA提供的CUDA（Compute Unified Device Architecture）编程模型。CUDA通过单指令多线程块运行方式来支持NVIDIA图形处理单元上的并行计算。尽管CUDA是NVIDIA设备上的专有编程模型，但CUDA在并行编程社区中具有广泛影响力，并在应用中得到广泛使用，因此第15章对CUDA进行了讨论。第16章描述了OpenCL（Open Computing Language）模型，它提供了一个低层次的、平台无关的编程模型，可以在不同异构架构上进行编程，其中包括图形处理单元。本书对不同编程模型的讲解方式在其他书籍中是很少见的。尤其是通过使用说明的方式来展示材料，而不是以更正式的类似于研究论文的方式展示。本书不是一个致力于详细描述每个编程模型语法及语义的参考手册。本书的目标是描述使用这些模型进行并行编程的通用方法，以及每种方法所实现的目标。不过，本书提供了一些模型所提供的核心接口的语法及语义定义，我们将这些定义作为编程模型所提供抽象的例子。提供这些定义的目的是提高内容的可读性。这些定义并不一定是最重要的或最常用的接口，而只是作为例子说明如何使用该编程模型。致谢首先感谢对本书不同章节做出贡献的所有作者： William D. Gropp，伊利诺伊大学厄巴纳-香槟分校 Rajeev Thakur，阿贡国家实验室 Paul Hargrove，劳伦斯伯克利国家实验室 Jeffery A. Kuehn，橡树岭国家实验室 Stephen W. Poole，橡树岭国家实验室 Kathy Yelick，加州大学伯克利分校，劳伦斯伯克利国家实验室. Yili Zheng，劳伦斯伯克利国家实验室 Sriram Krishnamoorthy，美国太平洋西北国家实验室 Jeff Daily，美国太平洋西北国家实验室 Abhinav Vishnu，美国太平洋西北国家实验室 Bruce Palmer，美国太平洋西北国家实验室 Bradford L. Chamberlain，Cray公司 Laxmikant Kale，伊利诺伊大学厄巴纳–香槟分校 Nikhil Jain，伊利诺伊大学厄巴纳–香槟分校 Jonathan Lifflander，伊利诺伊大学厄巴纳–香槟分校 Ewing Lusk，阿贡国家实验室 Ralph Butler，中田纳西州州立大学 Steven C. Pieper，阿贡国家实验室 James Dinan，Intel公司 Timothy Armstrong，芝加哥大学 Justin M. Wozniak，阿贡国家实验室，芝加哥大学 Michael G.Burke，阿贡国家实验室，芝加哥大学 Ian T. Foster，阿贡国家实验室，芝加哥大学 Kath Knobe，莱斯大学 Michael G. Burke，莱斯大学 Frank Schlimbach，Intel公司 Barbara Chapman，休斯敦大学 Deepak Eachempati，休斯敦大学 Sunita Chandrasekaran，休斯敦大学 Arch D. Robinson，Intel公司 Charles E. Leiserson，麻省理工学院 Alexey Kukanov，Intel公司 Wen-mei Hwu，伊利诺伊大学厄巴纳–香槟分校 David Kirk，NVIDIA公司 Tim Mattson，Intel公司尤其感谢Ewing Lusk以及William Gropp对本书的整体贡献以及对修辞的润色。我也要感谢阿贡国家实验室的数学与计算机科学部的技术作家Gail Pieper，她对本书的格式以及用法进行了不可或缺的指导，极大地提高了本书的可读性。

并行计算的编程模型

库存： {{selectedSku?.stock}} 库存充足

上架到店铺