大数据与云计算技术周报（第142期)

2020 年 2 月 26 日
筆記

导语

“大数据” 三个字其实是个marketing语言，从技术角度看，包含范围很广，计算、存储、网络都涉及，知识点广、学习难度高。本期会给大家奉献上精彩的：死锁、知识图谱、Spark 、TCP、MongoDB、Redis、AI、kafka。全是干货，希望大家喜欢！！！

1死锁

读写死锁问题

https://mp.weixin.qq.com/s/RSkmMo_9GENOLsCuE5YS1w

2知识图谱

在 2019 年 11 月 22 日举行的 AICon 全球人工智能与机器学习技术大会上，百度知识图谱部主任研发架构师宋勋超分享了百度在大规模知识图谱构建、多模语义理解、行业知识图谱构建及应用等方面的最新进展。

https://mp.weixin.qq.com/s/kMv3J9tbiKVRxV_hHk8HAA

3Spark

本文介绍了基于SparkSQL的一次SQL查询优化实例。

https://mp.weixin.qq.com/s/0RZZxgyTGE4yeou6C76bXA

4TCP

，WebSocket是通过单个TCP连接提供全双工（双向通信）通信信道的计算机通信协议。此WebSocket API可在用户的浏览器和服务器之间进行双向通信。用户可以向服务器发送消息并接收事件驱动的响应，而无需轮询服务器。它可以让多个用户连接到同一个实时服务器，并通过API进行通信并立即获得响应。

https://mp.weixin.qq.com/s/RxiYHX7-RwKTI-hEhYDjVg

5Redis

Redis数据库是一个基于内存的 key-value存储系统，现在redis最常用的使用场景就是存储缓存用的数据，在需要高速读/写的场合使用它快速读/写，从而缓解应用数据库的压力，进而提升应用处理能力。

由于Redis的单线程架构，所以需要每个命令能被快速执行完，否则会存在阻塞Redis的可能，理解Redis单线程命令处理机制是开发和运维Redis的核心之一。

https://mp.weixin.qq.com/s/AUGpvpGBSiwmkqUJFNzEQA

6Kafka

Kafka 是一个高吞吐量的分布式的发布订阅消息系统，在全世界都很流行，在大数据项目里面使用尤其频繁。笔者看过多个大数据开源产品的源码，感觉 Kafka 的源码是其中质量比较上乘的一个，这得益于作者高超的编码水平和高超的架构设计能力。

https://mp.weixin.qq.com/s/kiI-TiLev2PC39enpCzs7A

7MongoDB

本文讲述了MongoDB升级之后的CPU负载升高的问题，通过监控日志发现CPU负载升高主要由于迁移数据之后的删除导致，采用了关闭表的balancer解决升级之后CPU负载升高的问题，最后分析MongoDB 4.0和3.2版本的balancer与moveChunk发现3.4及之后版本存在balancer迁移阈值较低的问题，导致更频繁的产生moveChunk。

http://www.mongoing.com/archives/31664

8源代码解析

分析开源项目源码，我们该如何入手分析？作者从学习开源框架到底难不难，以及如何入手去分析开源框架源码等角度去讲解，想学习分析源码的，值得去看下

https://juejin.im/post/5e4d06b451882549670673c5

9kafka

Kakfa 是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据的实时处理领域。本文详细介绍了kafka的各个知识点。

https://mp.weixin.qq.com/s/yZOt6WRgb8PzktXoLnZeIA

本文一起学习下Kafka的历史版本演进，增加我们对Kafka的了解，对于Kafka的技术选型也具有指导意义、

https://mp.weixin.qq.com/s/n9fqabd1JSIn11IQ8iIsvw

10AI

如何运用运筹学、统计学、机器学习等算法技术结合大数据和工程化的能力，建设物流智能大脑系统

https://mp.weixin.qq.com/s/rABaOI1xG5Sb56NH2LU3JA

11开心一刻

诸葛亮是一个优秀的程序猿，每一个锦囊都是应对不同的case而编写的！但是优秀的程序猿也敌不过更优秀的bug！六出祈山，七进中原，鞠躬尽瘁，死而后已的诸葛亮只因为有一个错误的case-马谡，整个结构就被break了！