大数据培训班学习的知识有很多,但是大数据采集、大数据分析、大数据存储是几个必要的学习知识点。
大数据分析是大数据价值链中最终和最重要的阶段,其目的是挖掘数据中潜在的价值以提供相应的建议或决策。
数据分析( Data Analysis)是一个检查、清理、转换和建模数据的过程,目的是发现有用的信息,得出结论和推动决策制定。
数据挖掘(Data mining)是指用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。
这部分更多地是对大数据存储效率,以及读取速度进行优化的大数据分析方法。
①布隆过滤器:由一个位数组和一系列的哈希函数组成。布隆过滤器的原理是通过利用位数组来存储数据本身之的数据的哈希值。
②散列法:一种将数据变换为较短的固定长度数值或索引值的基本方法。特点:快速读取、快速写入和高查询速度。
③索引法:是减少磁盘读取和写入成本的有效方法。索引法能够提高插入、删除、修改和查询速度。
④字典树:又称单词查找树,是一种哈希树的变体。它主要应用于快速检索和字频统计。
⑤并行计算:并行计算是指利用若干计算资源来完成计算任务。
大数据分析按照层次的不同,还可以分为内存级分析、BI分析(数据层、业务层和应用层)和海量分析(数据采集模块、数据冗余模块、维度定义模块、并行分析模块)。
张老师:18927565259