珠海深圳清华大学研究院创新中心HPC计算服务平台采购项目单一来源采购公示

发布日期:2019-12-05

深圳市国际招标有限公司(政府采购代理机构)受珠海深圳清华大学研究院创新中心(采购单位)的委托,拟就珠海深圳清华大学研究院创新中心HPC计算服务平台采购项目(采购编号:ZHGJ2019-081)组织单一来源采购,现对该项目的基本情况予以公示,公示期从2019年1205日起至2019年1211日止,共计5个工作日。

一、采购项目基本信息及需求

1、采购项目预算:人民币叁佰叁拾伍万元整(¥3,350,000.00);

2、采购项目概况及用途:创新中心自成立以来,在人工智能、集成电路、物联网、智慧城市等领域设立了多个研发平台,这些平台在基于超算技术的无形资产价值评估研究、基于深度学习模型的语音识别芯片研发、基于深度学习的光学修正算法、基于深度学习的目标检测与行为识别技术等研发方向对高性能计算有强烈需求。本次项目采购HPC计算服务平台,主要用途是为各研发平台提供一个高性能计算资源平台。

3、主要技术要求:

序号

采购项目

技术参数指标要求

数量

1

GPU计算节点

1.CPU:CPU 不少于 1 块,Intel Xeon E5-2698 v4 或以上,水冷却系统

2.内存:相当或优于256GB DDR4服务器内存

3.硬盘:硬盘支持 SAS/SATA/SSD 硬盘;本次配置4 块 1.92 TB SSD

4.GPU:支持 NVLINK技术,互联速度 300GB/s;(4 块),4 块 V100,水冷却系统,共计 500 TFLOPS (GPU FP16),共计 128G 显存,NVIDIA Tensor 核心数量 2,560,NVIDIA CUDA 核 心数量 20,480

5.网络接口:提供两个万兆以太网口,支持 10BASE-T,   100BASE-TX, 1000BASE-T, RJ45 输出

6.规格:不大于 518(深)x   256(宽)x 639(高)(毫米)

7.功耗:1500W,整机噪音<   35 dB

8.操作系统: Ubuntu Linxu操作系统

9.系统应用:预装专门针对该设备优化的主流深度学习框架如Caffe/Tensorflow/Torch等  

10. 云平台:产品原厂家提供GPU云服务平台,提供有GPU原厂家调整、测试和优化的深度学习、机器学习和高性能计算 (HPC) 软件的容器;提供针对Tensor Core GPU优化的常见人工智能任务的预训练模型;提供用于创建深度学习模型的逐步说明和脚本,并提供样本性能和准确度指标。

3

2

CPU计算节点

1.国产品牌;

2.2U机架式,可支持导轨及理线架;

3.支持≥2个Intel   Xeon Cascade lake 系列处理器,配置英特尔至强金牌处理器≥2颗,每CPU主频:≥2.6GHz,≥18核;

4.内存配置容量≥224GB, 单条内存16GB 2666MT/s,可扩展内存插槽数≥24;

5.支持内存技术:故障DIMM标识隔离(Failed DIMM Isolation)、单颗粒数据纠错(SDDC)、内存巡检(Memory Demand and Patrol Scrubbing)、内存地址奇偶检测保护(Memory Address Parity Protection)、内存过热调节(Memory   Thermal Throttling)、内存Rank冗余热备(Memory Sparing)、内存镜像(Memory Mirroring)、设备标记(Device Tagging)、数据加扰(Data Scrambling),提供相关官网材料证明并盖章;

6.内置硬盘配置≥1*960GB SAS SSD硬盘,可扩展硬盘扩展能力:可扩展≥8个热插拔2.5''硬盘槽位;

7.配置一块独立阵列卡,带2G缓存,支持RAID0,1,5,6,10,50,60;

8.支持 2*M.2 SATA SSD,支持硬RAID1,支持免开箱热插拔;

9.配置GE端口≥2个,10Gb光口≥2个;

10.显存≥32 MB,分辨率1920*1200;

11.支持PCI-E I/O插槽总数≥10个,提供相关官网材料证明并盖章;

12.配置电源数量≥2个550W交流电源,单电源失效不影响主机运行;

12

3

登陆管理节点

1.国产品牌;

2.2U机架式,可支持导轨及理线架;

3.支持≥2个Intel   Xeon Cascade lake 系列处理器,配置英特尔至强金牌处理器≥2颗,每CPU主频:≥2.3GHz,≥16核;

4.内存配置容量≥192GB, 单条内存16GB 2666MT/s,可扩展内存插槽数≥24;

5.支持内存技术:故障DIMM标识隔离(Failed DIMM Isolation)、单颗粒数据纠错(SDDC)、内存巡检(Memory Demand and Patrol Scrubbing)、内存地址奇偶检测保护(Memory Address Parity Protection)、内存过热调节(Memory   Thermal Throttling)、内存Rank冗余热备(Memory Sparing)、内存镜像(Memory Mirroring)、设备标记(Device Tagging)、数据加扰(Data Scrambling),提供相关官网材料证明并盖章;

6.内置硬盘配置≥2*960GB SAS SSD硬盘、6*2.4TB SAS 2.5寸硬盘,可扩展硬盘扩展能力:可扩展≥8个热插拔2.5''硬盘槽位;

7.配置一块独立阵列卡,带2G缓存,支持RAID0,1,5,6,10,50,60;

8.支持 2*M.2 SATA SSD,支持硬RAID1,支持免开箱热插拔;

9.配置GE端口≥2个,10Gb光口≥2个;

10.显存≥32 MB,分辨率1920*1200;

11.支持PCI-E I/O插槽总数≥10个,提供相关官网材料证明并盖章;

12.配置电源数量≥2个550W交流电源,单电源失效不影响主机运行;

1

4

存储管理节点

1.国产品牌;

2.2U机架式,可支持导轨及理线架;

3.支持≥2个Intel   Xeon Cascade lake 系列处理器,配置英特尔至强金牌处理器≥2颗,每CPU主频:≥2.3GHz,≥16核;

4.内存配置容量≥192GB, 单条内存16GB 2666MT/s,可扩展内存插槽数≥24;

5.支持内存技术:故障DIMM标识隔离(Failed DIMM Isolation)、单颗粒数据纠错(SDDC)、内存巡检(Memory Demand and Patrol Scrubbing)、内存地址奇偶检测保护(Memory Address Parity Protection)、内存过热调节(Memory   Thermal Throttling)、内存Rank冗余热备(Memory Sparing)、内存镜像(Memory Mirroring)、设备标记(Device Tagging)、数据加扰(Data Scrambling),提供相关官网材料证明并盖章;

6.内置硬盘配置≥2*960GB SAS SSD硬盘,可扩展硬盘扩展能力:可扩展≥8个热插拔2.5''硬盘槽位;

7.配置一块独立阵列卡,带2G缓存,支持RAID0,1,5,6,10,50,60;

8.支持 2*M.2 SATA SSD,支持硬RAID1,支持免开箱热插拔;

9.配置GE端口≥2个,10Gb光口≥4个(含模块);

10.显存≥32 MB,分辨率1920*1200;

11.支持PCI-E I/O插槽总数≥10个,提供相关官网材料证明并盖章;

12.配置电源数量≥2个550W交流电源,单电源失效不影响主机运行;

2

5

存储设备

1为了更好配合设备的兼容性和便利性,本次招标项目涉及的存储管理节点和存储设备必须是同一品牌;

2.实配SAN和NAS统一存储,配置NAS协议(包括NFS和CIFS)、IP SAN和FC SAN协议

实配2个控制器,双控之间PCI-E互联,多控架构,最大可扩展为16个控制器;

3.支持SAN和NAS一体化,不需额外配置NAS网关,存储操作界面同时支持快存储和文件系统服务;

4.提供图形化一键式的控制器在线升级,存储自动完成内部升级,自动检查升级完成情况;

系统内双控制器缓存总容量配置≥64GB,(不含任何性能加速模块、FlashCache、PAM卡,SSD Cache等);

5.NAS缓存具备断电保护功能, 在出现电源故障时,可提供充足的电源,将高速缓存内容转储至非易失性内部存储设备上(非通用服务器架构)

6.本次双控配置:8*10Gb ETH光口(含光模块) +8 *1Gbps GE主机接口,具备控制器在线主机接口IO模块热拔插功能;

7.支持8/16/32 Gbps FC、1/10/25/40/100 Gbps Ethernet;

8.双控最大支持≥12*4*12Gbps SAS3.0磁盘通道,本次双控配置≥4*4*12Gbps SAS3.0磁盘通道;本次双控配置≥192Gbps磁盘通道带宽;

9.本次配置≥16*8T 7.2K NL-SAS硬盘,配置≥4*1.92TB SAS SSD硬盘,最大支持磁盘插槽个数≥1000;

10.支持快照功能,系统最大快照数不小于2048个;

11.支持RAID 1、RAID3、RAID 10、RAID50、RAID   5、RAID6等可选配置磁盘、电源、IO模块都可以不停机热插拔;

12.故障快速恢复: 提供快速恢复技术,能够保障硬盘失效后的故障时间最短,减少风险;冗余电源、风扇、控制器、缓存断电保护功能;

1

6

千兆交换机

1.端口要求:≥28个10/100/1000Base-T以太网端口,4个复用的千兆Combo SFP,4个万兆SFP+

2.交换容量:≥598Gbps

3.包转发率:≥222Mpps

1

7

万兆交换机

1.端口要求:≥48×10GE   SFP+端口,2×40GE QSFP+端口

2.包转发率:≥1080 Mpps

3.交换容量:≥2.56Tbps

4.配置48个万兆多模模块

1

8

防火墙

1.整机吞吐量:≥5.5Gbps

2.应用层吞吐量:≥800Mps

3.并发连接数:≥2, 000,000

4.每秒新建连接数:≥6万

5.设备接口:标准1U机架设备,标配6个千兆电口,并含2个高速USB2.0接口,1个RJ45串口

6.硬盘:64G SSD

7.支持路由,网桥,虚拟网线,旁路镜像,单臂,以及混合部署方式;

8.支持IPSec VPN,SSL   VPN,GRE,GRE over OSPF,GRE over IPSec等VPN接入方式

9.支持Tear Drop、LAND、WinNuke、Smurf、Ping   of Death攻击防护,支持未知协议类型防护,支持IP数据块分片传输防护

10.支持文件杀毒,支持多种文件类型,如电源、音乐、图片、文本、压缩文件、应用程序等并支持用户自定义文件类型,支持最大16层的压缩文件查杀

11.设备具备独立的僵尸网络与病毒防护库,防护类型包括木马远控、恶意脚本、勒索病毒、僵尸网络、挖矿病毒等,特征总数在105万条以上,支持自定义僵尸网络规则库

12.设备具备独立的入侵防护漏洞规则特征库,特征总数在7400条以上,支持自定义漏洞攻击规则库;

13.设备具备独立的WEB应用防护识别库,特征总数在3600条以上,支持自定义WEB应用防护规则库;

14.支持安全运营中心功能,可以对全网所有的服务器和主机的威胁进行全面评估,管理员通过一键便可完成对服务器和主机的资产更新识别、脆弱性评估、策略动作的合理化监测、当前服务器和用户的保护状态、当前的服务器和主机的风险状态及需要管理员待办的紧急事项等,可以自动化直观的展示最终的风险;

15.支持场景化的配置向导功能,可以选择不同的部署方式以及使用场景实现产品的快速实施;

1

9

软件平台建设服务

1、集群管理与作业调度系统

(1)用户可通过命令行或Web浏览器与其HPC资源进行交互。

(2)提供集群资源管理功能:实现对计算资源的管理,提供作业调度、GPU调度、资源配额限制、作业资源约束等功能。

(3)提供集群控制器可充当计算集群的管理器,   并实现一种提供对计算资源的监视管理的守护程序,它将进入的作业(工作)映射到基本的计算资源。

(4)支持在每个计算节点实现一个守护程序,守护程序管理在其上执行的节点,包括监视此节点上运行的任务、接受来自控制器的工作,以及将该工作映射到节点内部核心之上的任务。

(5)支持远程桌面服务,用户可在浏览器中启动桌面会话,然后连接到远程桌面上运行GUI应用。

(6)提供Web计算服务:对用户提供文件系统访问、作业管理、终端访问、远程桌面等功能。

(7)提供File App文件管理界面, 允许用户创建文件和文件夹,查看文件,操纵文件位置,上载和下载文件。

(8)提供一个基于Web的实用程序,用于从模板目录创建和管理批处理作业。

2、日志智能分析运维平台

(1)提供对集群主机的实时性能指标监控,提供集群主机内存使用、硬盘使用、CPU使用、网络IO的明细统计。

(2)提供对集群主机的日志监控与统计功能。

(3)提供对集群Docker容器的实时性能指标监控。

(4)应用程序编程接口:提供Java、PHP、Groovy、.Net、Perl、Python、Ruby、JavaScript等主流语言的API。

(5)内置分布式、可扩展、实时的搜索与数据分析引擎。具备对日志数据搜索、分析和探索的能力。支持日志全文搜索和结构化数据的实时统计。

(6)多种节点角色和多重副本支持,部分节点掉线后能够进行角色自动选举和数据均衡迁移。

(7)不超过25%数量的节点掉线不影响数据完整性和正常运行;因不可抗力造成服务中断后可无损自动恢复。

(8)通过灵活强大高效的可视化图表和仪表板对数据应用上述能力,实现对百亿条级别数据的秒级处理和分析。

(9)支持在仪表板中,针对任意图表的组成元素通过点击方式自由创建数据过滤器。

(10)支持创建无上限数量的过滤器,通过开关及反向任意多个过滤器实现自由的组合以深入探索数据。

(11)支持在同一仪表板中呈现不同粒度及聚合层级的数据,而无需通过繁琐的上钻下钻多个仪表板。

1

10

机房建设工程

根据现场情况进行机房建设。

1

 

4、供应商资格要求:

1)响应供应商应具备《政府采购法》第二十二条规定的条件,响应供应商编制的谈判响应文件中须包含以下资格证明文件:

①响应供应商须为具有独立承担民事责任能力的法人或其他组织(提供法人或其他组织的营业执照等证明文件的复印件加盖响应供应商公章);

②法人资格证明书及法人授权委托书原件(若参加报价的代表为法定代表人,则只需提供法定代表人证明书原件及其身份证复印件)加盖响应供应商公章;

③具有良好的商业信誉和健全的财务会计制度;

④具有依法缴纳税收和社会保障资金的良好记录;

⑤提供具有履行合同所必须的设备和专业技术能力的书面声明;

⑥响应供应商近三年以来在经营活动中没有重大违法记录,须在谈判响应文件中提供声明函加盖响应供应商公章;

⑦本项目不接受联合体报价,不允许分包转包;

二、拟邀请供应商名称:广州市恒联计算机科技有限公司。

三、拟申请单一来源采购方式的理由:

1、市场供应情况:只能从唯一供应商处采购:

根据需求,采购人对所需深度学习、高性能计算市场技术、服务水平和供应能力进行市场调查,认为广州市恒联计算机科技有限公司代理的产品及提供相应的集成服务是唯一符合采购人采购标的。主要原因为:

①本次采购以GPU计算节点为核心,兼容CPU计算节点,建立HPC计算服务平台。GPU计算技术以英伟达GPU技术为主流。中心部分科研机构实验室对GPU计算节点有高算力、超低噪音的要求,英伟达 DGX Station完全满足此需求,并提供GPU云服务平台,提供有GPU调整、测试和优化的深度学习、机器学习和高性能计算 (HPC) 软件的容器;针对Tensor Core GPU优化的常见人工智能任务的预训练模型;提供用于创建深度学习模型的逐步说明和脚本,并提供样本性能和准确度指标。DGX Station具有NVIDIA NVLink?技术提供更高带宽与更多链路,并可提升多 GPU 和多 GPU/CPU 系统配置的可扩展性,总带宽为 300 GB/秒;Tensor核心技术在训练方面可提供高达12倍的Teraflops(TFLOPS)峰值;CUDA-X AI加速库,提供对于深度学习、机器学习和高性能计算 (HPC) 必不可少的优化功能;专业GPU水冷技术,优化系统性能的同时适应更多使用环境;这些技术为不可替代的、专有的技术。拟定供应商为英伟达厂商NPN深度学习合作伙伴,具有多位原厂认证技术工程师,并为系统开发相应的管理软件,能为本项目提供技术保障。

②本次采购计算服务平台部分通过互联网对外提供服务,对网络信息安全要求较高,拟定供应商具有信息系统安全集成资质及通过认证的信息安全保障人员;能为本次项目网络信息安全提供全面的保障,根据相关法律法规要求,拟申请进行单一来源采购。

2、拟邀请的供应商与项目的匹配情况:拟邀请的供应商与项目的采购需求匹配。

3、专家论证意见(200万元以上):

潜在政府采购供应商对公示内容有异议的,请于公示期至期满后2个工作日内将书面意见(包括:供应商名称,联系人,联系电话,符合本项目采购要求的说明或本项目采购需求技术指标的不合理性等内容)反馈至采购单位及采购代理机构。

采购单位联系人:黄蕾君,电话:0756-3616291

采购代理机构联系人:麦敏静、夏美书,电话:0756-2173710,2173707。

 

 珠海深圳清华大学研究院创新中心

深圳市国际招标有限公司

2019125