(1) 大数据采集技术
大数据是指通过 RFID数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。
大数据采集一般分为大数据智能感知层与基础支撑层,大数据智能感知层主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接人系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接人、传输、信号转换、监控、初步处理和管理等:基础支撑层主要是提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网资源等基础支撑环境。
(2)大数据预处理技术
大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。
大数据存储及管理技术
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库并进行管理和调用,主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。
开发新型数据库技术,数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是 NoSQL 数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及 NewSOL 数据库。
开发大数据安全技术包括:改进数据销毁、透明加解密、分布式访问控制数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。