BigData icon indicating copy to clipboard operation
BigData copied to clipboard

💎🔥大数据学习笔记

BigBata

  • 大数据简介

Hbase是数据库,Hive是数据仓库

hadoop2.2.0伪分布式搭建

  • 1、准备Linux环境
  • 2、CentOS卸载OpenJDK并安装Sun JDK
  • 3、安装Hadoop
  • 4、修改windows系统的hosts文件
  • 5、配置ssh免登陆

HDFS 分布式文件系统

  • Hadoop分布式数据分析系统概述
  • Hadoop深入浅出
  • HDFS fs命令
  • HDFS架构
  • RPC(Remote Procedure Call远程程序调用)及HDFS的读写过程
  • Windows系统下运行hadoop、spark程序出错Could not locate executablenull\bin\winutils.exe in the Hadoop binaries

MapReduce

  • MapReduce原理
    • MapReduce执行过程
    • 数据类型与格式
  • Writable接口与序列化机制
  • Partitioner编程
  • 自定义排序编程
  • Combiners编程
  • 常见的MapReduce算法
  • 倒排索引

Zookeeper

  • Zookeeper概述
  • Zookeeper安装与配置
  • Zookeeper简介
  • ZooKeeper应用场景

hadoop集群搭建

  • hadoop1.0集群搭建
  • hadoop2.0集群搭建
  • 集群测试

Sqoop

  • sqoop简介
  • Sqoop环境搭建及使用

HBase

  • Apache官方文档
  • HBase基础知识
  • HBase单节点安装及使用
  • HBase伪分布式搭建
  • Hbase集群搭建
  • HbaseShell

Hive

使用hive(表描述在hive数据库的TBLS表中,表中的字段在COLUMNS_V2表中,表的id在CDS表中,存储HDFS上的路径在SDS表中)

  • Hive简介
  • Hive单节点安装及操作
  • 安装MySQL
  • Hive集群搭建及操作
  • hive练习之内部表-外部表-分区表
  • Hive练习之MySQL
  • Hive之UDF
  • MySQL分区表

flume(日志收集系统)

  • flume简介
  • flume环境搭建

脚本-定时器

  • 脚本
  • 定时器

Linux