如果是做推荐业务的团队,那么使用地最多的还是逻辑回归算法(Logistic Regression),ItemCF 和 UserCF,物质扩散和热传导算法(Heat Spreading) 算法。由于 LR 是使用线性的方法来处理非线性的问题,并且实际的环境中会有物品的特征和用户的特征,因此会导致特征工程比较复杂,交叉项多(二维或者三维的交叉)。因此,在实际的工作中,特征工程的作用就显得十分重要。工程师和业务人员要根据物品和用户进行必要的特征构造,形成物品特征,用户特征,交叉特征等。之前也写过一篇文章,供大家参考。
除此之外,如果是推荐系统涉及到在线优化的问题,Google 在几年前提出了一个 FTRL 算法。论文是 Ad Click Prediction a View from the Trenches,里面会涉及 SGD 算法,Truncated Gradient 算法,RDA 算法,FOBOS 算法,以及最终的 FTRL 算法等。这部分内容已经整理好,《》。
除了数理统计的各种知识点之外,时间序列则是数理统计里面的一个重要方向,无论是在学术界的人士还是工业界的人员,都或多或少会接触到时间序列。在智能运维领域,时间序列的异常检测一直是一个基础的问题。无论是对网络流量的异常检测,还是对 CPU 使用率的检测,还是对在线用户数的实时统计,都离不开对时间序列的研究。