关于对《基于智能预报大数据技术应用服务采购》的相关回复通知

发布日期:2018-08-01

各投标人:

关于《基于智能预报大数据技术应用服务采购》招标项目(招标编号:0658-18711A31876),因招标文件公示期间,收到有投标单位提出的关于招标文件参数的询问,现根据采购人回复如下:

问题:招标文件中第二章“第三节 技术需求明细”中的“具体技术要求”存在疑问,该部分的内容过于笼统。请补充更详细的“具体技术要求”以便我们撰写相关的“技术方案”。

回答:为保证各意向投标人的权益,对招标文件中技术需求明细的“具体技术要求”部分进行了细化:

具体技术要求

拟对气象大数据进行整理和质量优化,提升大数据平台的维护和管理水平。

1、海量数据的采集和标准化处理

1.1 从海量数据(观测数据、气象数据产品、部门共享数据、互联网采集数据)中获取到有价值数据并存入大数据平台,同时检测数据获取是否正常。气象数据采集,原基于Oracle数据挖掘系统,连接数据中心Oracle数据库,从数据库表中挖掘数据,并转换成标准的数据格式。统一存放在大数据平台,开发大字段数据导出系统,从数据库表BLOB/CLOB大字段中卸出数据,转换为文件,存放在磁盘文件的待处理目录中,用于下一步的标准化处理。

 

1.2 互联网数据采集,互联网数据的来源一般有两种方式:提供webservice接口和提供ftp服务。通过FTP协议获取文件,将文件存放在磁盘文件的待处理目录中,用于下一步的标准化处理。webservice接口:根据对方提供的接口,开发相应的数据采集程序,并转换成标准的数据格式,

 

1.3 部门共享数据采集,提供前置机,开通FTP服务,各部门通过FTP服务将数据文件推送到前置机,第二种是对方提供数据库,我直接开发程序访问对方数据,并转换成标准的数据格式。

 

1.4 结构化数据标准化处理,需要进行数据解析,把格式复杂的气象数据转换为标准的XML文件,包括XML文件的命名和文件内容的格式,以xml格式存放,开发程序读取xml文件,存入大数据Hbase

 

1.5 结构化数据标准化处理,非结构化数据文件成功采集后,存放在磁盘文件的待处理目录中,数据标准化处理模块根据目录、文件名,识别数据种类、数据时间(观测数据的数据时间以观测时间为准,预报数据的数据时间以起报时间为准,其它随机生成的数据以文件的时间为准,统一采用北京时)、文件大小等信息,开发TCP/IP协议的socket通讯,在数据源系统上安装文件传输客户端程序,数据采集系统为服务端,数据源系统作为客户端,将非结构化数据文件传送到气象大数据HDFS分布式文件系统中。

 

2、气象大数据的质量优化

2.1结构化(国家、省、深圳自动站,高空探测)等数据优化,大数据平台数据库Hbase中历史数据量非常庞大,每一种数据的记录数很容易达到一亿条,其至上百亿条,当记录达到千万级别时,如果不能充分利用的索引,数据查询的效率极大降低。为此需进行数据的管理,按数据时间把数据分别存在当前表、历史表和归档表中。当前表的数据可以满足业务系统80%以上的应用要求,只存储最近若七天的记录,数据量不大,访问效率非常高。历史表数据可以满足业务系统15%以上的应用要求,存储最近一年左右的数据,数据量比较多,访问效率比较高。归档数据存放一年之前的历史数据,每年一个表,应用系统很少访问它,数据量非常大但是分散在多个表中,访问效率比较高。

 

2.2非结构化(图片、卫星数据、雷达、EC数据)数据优化,非结构化数据文件非常多、占用的磁盘空间大,若不进行归档和删除,同个目录下会有几万,甚至上百万个文件,访问非常慢,造成使用不便,且未收集文件信息,无法做到监控。数据归档、数据删除、文件信息入库、数据完整性保障、数据生命周期管理

 

2.3 多源异构样本数据的质量检测与优化,对自动站的风速、风向、温度、气压、湿度、雨量等要素进行质量优化,去除错误数据,删除重复数据,避免异常数据造成的影响。

 

3、气象大数据平台进行日常维护和优化

3.1数据统计程序检查,检查目前多个数据挖掘、统计程序的运行状况,定期核查统计数据准确性和完整性,并形成检查日志。

 

3.2大数据服务器日常巡检,40台服务器,硬件资源使用检查,CPU、内存、网络流量、磁盘、分布式文件系统、数据库、数据仓库巡检,及各个大数据组件检查并做好记录。

 

3.3大数据交换平台监控,定期检查数据交换平台的程序运行状态,服务器性能、空间等态,及时解决运行中出现的问题。

 

3.4大数据管理平台监控,定期检查管理平台运行状态,解决运行过程中出现的问题,为管理平台用户提供必要的技术培训和指导。

 

3.5大数据平台文件采集及导入监控,定期检查大数据入库程序运行状态,解决运行过程中出现的故障,确保入库程序按照数据规范正常运行。

 

4、气象数据检索业务性能优化

4.1 HBASE表行键设计优化,Hbase是无模式无类型的 , 只需要定义行键和列族 , 行键和列族会在数据文件级别产生影响 , 而在数据文件内部的具体数据都是以key-value键值对的形式存在。Hbase定位一个数据通过行键、列族、列和版本四个维度,访问仅需左起的部分维度即可,维度越少,访问返回的数据集越大,使用起来是比较灵活的。但是对于具体应用的开发而言 , 数据存储模式非常重要,一个好的数据存储模式能兼顾读写性能的均衡,会使整体性能得到好的发挥。设置规划行键上访问的数据在硬盘上也是存放在一起的; 需对大数据中大于20万行的表进行优化存储

 

4.2 HBASE表列族设计优化,行键确定后要进行列族和列的设计,在Hbase中,不同列族的数据是存储在不同的HFILE , 所以一般把同时访问的数据放在一个列族中 , 而在自动站应用中因为业务需要访问全要素 , 所以把数据都放置在一个列族中 ; 同时考虑到列族和列的标识符包含在每个单元数据的key-value键值对的key部分 , 这样如果标识符过长会造成空间的浪费 , 对新表设计时尽量简化列族和列的标识符 , 以单字母和三位数字作为列族和列的标识符

 

4.3Hbase中大气电场、分钟气象要素等表优化,建立二级索引的架构,对表的常用字段建立二级索引,提高检索速度。

 

5、提供服务方派2名技术人员在深圳市气象局驻点,工休时间与深圳市气象局员工相同。驻场人员1年内不更换,如需更换需要征求深圳市气象局同意。

 

6、驻点的技术人员精通UNIX/Linux操作系统、精通hadoop平台、熟悉python、c、c++等编程语言。

 

其他不变。

 

深圳市国际招标有限公司

2018年8月1日