南开大学21并行程序设计离线作业2参考答案86.docx

资源描述

1、南开大学21春并行程序设计离线作业2参考答案1. 每个AVX寄存器宽度为_位。A.32B.64C.128D.256参考答案：D2. 将寄存器设置为4个单精度浮点数0.0的SSE intrinsics指令是( )。A._mm_set_psB._mm_set1_ssC._mm_setzero_ssD._mm_setzero_ps参考答案：D3. 一个AVX寄存器最多存放_个双精度浮点数。一个AVX寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考答案：B4. 静态线程编程模式的缺点是( )。A.线程管理开销高B.系统资源利用率低C.线程负载不均D.线程通信开销高参考答案：B5. 实现任

2、何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。A.omp parallelB.omp barrierC.omp criticalD.omp reduce参考答案：C6. 当前CPU性能提升已从依赖时钟频率提升转为更多依赖_。当前CPU性能提升已从依赖时钟频率提升转为更多依赖_。A.多核和众核技术B.突破物理局限C.改善散热D.采用新材料参考答案：A7. 指定线程间划分循环策略的OpenMP子句是_。A.sharedB.reductionC.scheduleD.nowait参考答案：C8. 对双精度浮点计算，AVX最

3、高实现( )路并行。A.2B.4C.8D.16参考答案：B9. 在SSE intrinsics程序中双精度浮点数数据类型是( )。A._m128B._m128fC._m128dD._m128i参考答案：C10. 为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。A.“#include”B.“#pragma omp parallel”C.“#ifdef _OPENMP”D.“#define _OPENMP”参考答案：C11. 在使用信号量之前必须对其进行_。在使用信号量之前必须对其进

4、行_。A.初始化B.加锁C.加1D.销毁参考答案：A12. MMX有_个专用寄存器。MMX有_个专用寄存器。A.4B.8C.16D.32参考答案：B13. pthread_create函数中线程函数指针的正确类型是( )。A.void(void*)B.void*(void*)C.int(void)D.void*(*)(void*)参考答案：D14. 若SIMD并行化时遇到对齐问题，下列说法正确的是( )。A.只能使用不对齐访存指令B.不能进行SIMD并行化C.对齐开销可能完全抵消SIMD并行收益D.以上皆错参考答案：C15. 编写矩阵乘法的Neon程序，若矩阵元素为单精度浮点数，则应对矩阵乘加

5、计算的循环进行( )路循环展开。A.2B.4C.8D.16参考答案：B16. 采用划分子矩阵方法实现矩阵乘法，在进行SSE并行化时，是对(由外至内数)第_层循环进行循环展开然后向量化。采用划分子矩阵方法实现矩阵乘法，在进行SSE并行化时，是对(由外至内数)第_层循环进行循环展开然后向量化。A.3B.4C.5D.6参考答案：D17. MPI默认点对点通信模式是( )。A.阻塞的B.非阻塞的C.对等的D.主从的参考答案：A18. AVX是( )平台的SIMD架构。A.x86B.POWERC.SPARCD.ARM参考答案：A19. 采用划分子矩阵(大小b*b)的方法实现n*n矩阵乘法，一次乘加运算涉

6、及的子矩阵可全部放入cache，则整个计算过程中，两个输入矩阵的每个元素会产生次访存。A.nB.tC.n-tD.n/t参考答案：D20. 利用cache line一次读取多个数据字的机制优化程序访存性能，其机理是( )。A.降低了访存延迟B.隐藏了访存延迟C.利用了cache空间局部性D.利用了cache时间局部性参考答案：C21. 条件变量相对于互斥量的优点是_。A.是多源状态B.加锁解锁开销低C.条件不成立时阻塞线程并自动解锁加锁D.以上皆错参考答案：C22. 以下超级计算机中，( )不是SIMD架构。A.CDCSTAR-100B.757C.银河D.天河1号参考答案：D23. 编写矩阵乘法

7、的Neon程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。编写矩阵乘法的Neon程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。A.2B.4C.8D.16参考答案：B24. 在使用互斥量之后必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案：D25. 华尔街是世界上超级计算机最密集的区域之一，原因是( )。A.金融巨头支付得起B.与超算制造商有良好合作C.海量交易需要很高安全性D.海量交易处理需要并行计算参考答案：D26. 记并行时间为T，串行时间为T&39;，处理器数量为p，则额外开销应如何计算?( )A.T-TB.T-TC.p

8、TD.pT-T参考答案：D27. 当处理器数量不变时，随着问题规模增大，加速比_。当处理器数量不变时，随着问题规模增大，加速比_。A.所有算法都增大B.所有算法都减小C.代价最优算法都增大D.代价最优算法都减小参考答案：C28. SSE数据移动指令分类不包括_。SSE数据移动指令分类不包括_。A.对齐传输B.未对齐传输C.标量传输D.缓存传输参考答案：D29. 以下哪条不是推动并行计算发展的因素?( )A.存储是系统瓶颈B.单CPU发展已能满足应用需求C.利用标准硬件构造并行机令升级容易D.编程环境标准化逐步发展参考答案：B30. 对于加速比S和处理器数量p，下列说法正确的是_。A.有可能Sp

9、B.必然SpC.不可能S=pD.两者无关联参考答案：A31. SSE指令移动单精度浮点数，不能实现_。SSE指令移动单精度浮点数，不能实现_。A.将64位数据移动到SSE寄存器高位B.将64位数据移动到SSE寄存器低位C.将32位数据移动到SSE寄存器指定位置D.在两个SSE寄存器高/低64位间移动参考答案：C32. n个节点的超立方构造成本为( )。A.OlognB.OsqrtnC.OnD.Onlogn参考答案：D33. 采用MPI主从模型解决矩阵每行排序问题，主进程不断向每个从进程发送任务、接收结果，则它从从进程接收结果时，以下哪种方式更好?( )A.按编号顺序依次从从进程接收结果B.按编

10、号逆序依次从从进程接收结果C.按编号顺序、逆序交替从从进程接收结果D.使用MPI_ANY_SOURCE和MPI_ANY_TAG参考答案：D34. 对于向线程函数传递参数，下列说法错误的是_。A.线程函数并非用户程序调用，因此无法直接传递B.线程函数必须接受void *参数，因此只能传递大小不超过指针的数据对象C.线程通常通过此途径获取线程号D.不同线程间的参数传递相互无关，即使它们具有相同的线程函数参考答案：B35. 将t个线程的局部结果汇总，可采用递归分解并行进行，即，两两汇总，中间结果继续两两汇总，直到剩下唯一的最终结果，其时间复杂度为( )。A.(1)B.(logt)C.(t)D.(tl

11、ogt)参考答案：B36. 单精度浮点数矩阵乘法进行AVX并行，期望的加速比为_。A.等于8B.小于8C.4到8之间D.等于4参考答案：B37. 在MPI中从/向虚拟进程收/发消息的实际效果是_。在MPI中从/向虚拟进程收/发消息的实际效果是_。A.与通信域根进程通信B.与0号进程通信C.像什么都没发生一样D.以上皆错参考答案：C38. 在使用条件变量之后必须对其进行_。在使用条件变量之后必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案：D39. 在SSE intrinsics程序中双精度浮点数数据类型是_。在SSE intrinsics程序中双精度浮点数数据类型是_。A._m128

12、B._m128fC._m128dD._m128i参考答案：C40. pthread_create函数中设置一个参数为“线程函数参数”的原因是_。A.它调用线程函数时可直接传递，性能更优B.它需要预处理之后传递给线程函数C.线程函数不是用户程序调用，只能采用这种方式由系统代为传递参数D.没有特别用意参考答案：C41. 四位助教帮助教授批改300份试卷，试卷共16道题，每位助教负责批改所有试卷的4道题，这是一种_任务划分方法。四位助教帮助教授批改300份试卷，试卷共16道题，每位助教负责批改所有试卷的4道题，这是一种_任务划分方法。A.数据并行B.任务并行C.搜索并行D.预测并行参考答案：B42.

13、记并行时间为T，串行时间为T&39;，处理器数量为p，并行代价的定义是_。记并行时间为T，串行时间为T，处理器数量为p，并行代价的定义是_。A.pTB.T+TC.p(T-T)D.pT-T参考答案：A43. 一个程序用pthread_create创建了4个线程，此时系统中属于这个程序的共有_线程。A.4B.5C.6D.7参考答案：B44. 在使用互斥量之前必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案：A45. 编写矩阵乘法的SSE程序，若矩阵元素为双精度浮点数，则应对矩阵乘加计算的循环进行( )路循环展开。A.2B.4C.8D.16参考答案：A46. 编写矩阵乘法的Neon程

14、序，若矩阵元素为双精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。A.2B.4C.8D.16参考答案：A47. 记并行时间为T，串行时间为T&39;，处理器数量为p，效率为E，则代价最优的定义是( )。A.pT=TB.E=(1)C.E=pT/TD.E=T/pT参考答案：B48. 采用划分子矩阵技术优化矩阵乘法CUDA程序，子矩阵数组变量声明应加_前缀。A._global_B._device_C._shared_D._private_参考答案：C49. 关于障碍机制，下面说法错误的是_。关于障碍机制，下面说法错误的是_。A.会导致快速线程阻塞，不应使用B.在需要强制线程步调一致时，应使用C.可用互斥量机制实现D.属于一种组通信参考答案：A50. 一个AVX寄存器最多存放( )个整型数。A.2B.4C.8D.16参考答案：C

展开阅读全文