BigData
BigData copied to clipboard
💎🔥大数据学习笔记
BigBata
- 大数据简介
Hbase是数据库,Hive是数据仓库
hadoop2.2.0伪分布式搭建
- 1、准备Linux环境
- 2、CentOS卸载OpenJDK并安装Sun JDK
- 3、安装Hadoop
- 4、修改windows系统的hosts文件
- 5、配置ssh免登陆
HDFS 分布式文件系统
- Hadoop分布式数据分析系统概述
- Hadoop深入浅出
- HDFS fs命令
- HDFS架构
- RPC(Remote Procedure Call远程程序调用)及HDFS的读写过程
- Windows系统下运行hadoop、spark程序出错Could not locate executablenull\bin\winutils.exe in the Hadoop binaries
MapReduce
-
MapReduce原理
- MapReduce执行过程
- 数据类型与格式
- Writable接口与序列化机制
- Partitioner编程
- 自定义排序编程
- Combiners编程
- 常见的MapReduce算法
- 倒排索引
Zookeeper
- Zookeeper概述
- Zookeeper安装与配置
- Zookeeper简介
- ZooKeeper应用场景
hadoop集群搭建
- hadoop1.0集群搭建
- hadoop2.0集群搭建
- 集群测试
Sqoop
- sqoop简介
- Sqoop环境搭建及使用
HBase
- Apache官方文档
- HBase基础知识
- HBase单节点安装及使用
- HBase伪分布式搭建
- Hbase集群搭建
- HbaseShell
Hive
使用hive(表描述在hive数据库的TBLS表中,表中的字段在COLUMNS_V2表中,表的id在CDS表中,存储HDFS上的路径在SDS表中)
- Hive简介
- Hive单节点安装及操作
- 安装MySQL
- Hive集群搭建及操作
- hive练习之内部表-外部表-分区表
- Hive练习之MySQL
- Hive之UDF
- MySQL分区表
flume(日志收集系统)
- flume简介
- flume环境搭建
脚本-定时器
- 脚本
- 定时器
Linux
-
Linux版本介绍
-
Linux 文件系统
-
xshell 快捷键使用大全
-
Linux系统组成
-
Linux 系统的权限管理
- Linux 安全机制
- Linux用户管理
- Linux用户组管理
- Linux文件权限说明
- Linux文件权限管理
- Linux文件所属管理
-
Linux 环境变量
- Linux环境变量的概念
- Linux设置环境变量
- Linux 中设置环境变量的几个文件
- Linux安装JDK
- 在Linux系统上执行Java 程序
-
Linux要点
- Linux数组变量
- Linux命令别名
- Linux umask文件创建时的权限的缺省模式
-
Bash Shell脚本
- Bash Shell脚本初步
- 创建一个 Bash Shell 脚本
- Linux的echo 命令
- 在 Bash 脚本中使用变量
- Linux的exec命令
- 脚本中的反引号
- 获取命令输出结果的另一种方式
- 重定向输入和输出
- 管道
- 数学运算
- 脚本退出(exit命令)
- 命令执行顺序控制
- Linux的grep命令
- 变量设置模式
-
分支语句
- 命令的退出码
- 脚本中的控制结构语句
- if…then 语句
- if…then…else 语句
- 多重 if 语句
- 使用 test 命令(数值比较、字符串比较、文件比较)
- 复合条件
- case 分支语句
-
-
Linux 文件/目录管理类命令
- Linux的cd命令(文件系统目录切换)
- Linux的ls命令(显示文件和目录信息)
- Linux的touch命令(创建一个空文件)
- Linux的cp命令(复制文件)
- Linux的mv命令(重命名文件)
- Linux的rm命令(删除文件)
- Linux的ln命令(为某一个文件在另外一个位置建立一个同步的链接)
- Linux的pwd命令(显示工作目录)
- Linux的scp命令(跨主机之间的文件和目录的复制)
- Linux的mkdir命令(创建目录)
- Linux的rmdir命令(删除空的目录)
- Linux的tree命令(列出指定目录下的所有文件,包括子目录里的文件)
-
Linux 文件编辑类命令
- Linux的cat命令(显示文件内容)
- Linux的more命令(以一页一页的形式显示)
- Linux的less命令(随意地浏览文件)
- Linux的tail命令(从指定点开始将文件写到标准输出)
- Linux的head命令(显示文档结尾内容)
-
Linux 磁盘管理类命令
- Linux的df命令(显示指定的文件系统的可用空间等信息)
- Linux的du命令(显示目录或文件的大小)
-
Linux 系统管理类命令
进程是正在执行的程序实例,执行程序时,内核会将程序代码首先加载到虚拟内存,为程序变量分配内存空间,并为进程建立 记账数据结构,用于记录与进程相关的各种信息,如进程ID,用户ID,组ID以及进程的各种状态,运行或终止状态。
- Linux的ps命令(列出系统中当前运行的那些进程)
- Linux的kill命令(用于杀掉执行中的程序或工作)
- Linux的top命令(实时动态显示 Linux进程 的动态信息)
- Linux的free命令(显示内存状态)
- Linux的clear命令(清除控制台内容)
- Linux的wc命令(统计指定文件中的字节数、字数、行数,并将统计结果显示输出)
- Linux的stat命令(显示inode内容)
- Linux的which命令(查找文件)
- Linux的whoami命令(显示自身用户名)
-
Linux 网络类命令
- Linux的scp命令(跨主机之间的文件和目录的复制)
- Linux的netstat命令(检验主机端口的网络连接情况)
-