https://codingnote.cc/p/308080/
三种梯度下降算法的区别(BGD, SGD, MBGD)