hadoop背景
首次来,欢迎与大家结识,这一次与大家共同学习的机会,来之不易,
和hadoop背景
我接触过的数据总结为3类:
1.结构化数据
关系数据中的数据,有字段进行约束;(有规则)
2.半结构化数据
HTMLXml/Json….这种数据虽然有结构,但约束不是很严格;(还有些规则可言)
3.非结构化数据
.text文本/日志….这种数据没有head、body、key这些标签标记,更没有什么字段约束;(没有规则可言)
4.如何储存海量的非结构化数据?
那么问题来了我们如何把大量的非结构化/半结构化的数据储存起来,进行高效得 分析、检索呢?
Google公司通过论文方式 提出了的解决方案;(没告诉咋实现哦!)