16推荐系统

发表于2020-10-12|更新于2020-10-12|机器学习

|总字数:687|阅读时长:1分钟|浏览量:

推荐系统

问题规划

电影和用户的评分相关性
使用用户对电影的评分，进行协同过滤的模型。

基于内容的推荐算法

主要思想：

基于用户浏览过的数据集，对用户尚未浏览的数据集进行评分。
假定我们已经知道，单个数据样本的特征标签。
通过多元线性回归+每个用户的历史数据集，训练得到每一个用户的线性回归参数$\theta$

协同过滤

特征学习，自行学习要使用的特征。
没有考虑用户之间的关联性。首先通过用户对电影特征的喜爱程度，反向
基于浏览过同一个电影的用户数据，对电影进行评分。同样也是基于内容的。前者是基于用户浏览记录+电影特征判断用户对特征的的爱好，后者是通过电影被浏览的记录判断电影包含的特征。

用户

电影

特征

基于内容的推荐算法：用户-电影 + 电影-特征 = 用户-特征
协同过滤： 用户-电影 + 用户-特征 = 电影-特征

两者可以结合，进行循环训练，能够收敛到更好的模型。

用户-特征 -> 电影-特征 -> 用户-特征

基于内容的推荐算法：已知用户-电影，电影-特征，求解用户-特征，用户-电影。

协同过滤：已知用户-电影，用户-特征，求解电影-特征，用户-电影。

两种算法进行对比

基于内容的电影推荐

基于内容的特征生成

协同过滤算法

协同过滤算法原理，同时优化“基于内容的特征生成”和“基于内容的电影推荐”两部分

协同过滤算法的实现。
- 初始化用户-电影特征关系参数$\theta$和电影特征$x_i$
- 最小化代价函数。对所有用户-电影特征关系参数$\theta$和电影特征$x_i$使用梯度下降算法，进行计算。
- 最终生成用户-电影特征参数和电影特征的解。然后使用这两个解，生成用户推荐。

向量化

使用协同过滤，实现电影推荐的例子。
又称为低秩矩阵分解。可以对低秩矩阵进行矩阵化运算。

协同过滤算法获得的电影特征无法进行可读理解。
可以通过计算两个电影特征之间的距离，识别两个电影是否相似。

均值规范化

将各个数据进行均值规范化处理，能够让从来没有进行评分的用户，拥有平均的评分。

文章作者: Estom

文章链接: https://estom.github.io/2020/10/12/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/%E5%90%B4%E6%81%A9%E8%BE%BE%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0/16%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Estom的博客！

使用进行参数

相关推荐

2.5. 分解成分中的信号（矩阵分解问题）校验者: @武器大师一个挑俩 @png @barrycg翻译者: @柠檬 @片刻 2.5.1. 主成分分析（PCA）2.5.1.1. 准确的PCA和概率解释（Exact PCA and probabilistic interpretation）PCA 用于对具有一组连续正交分量(Orthogonal component 译注: 或译为正交成分,下出现成分和分量是同意词)的多变量数据集进行方差最大化的分解。在 scikit-learn 中， PCA 被实现为一个变换器对象，通过 fit 方法可以拟合出 n 个成分，并且可以将新的数据投影(project, 亦可理解为分解)到这些成分中。在应用SVD(奇异值分解) 之前, PCA 是在为每个特征聚集而不是缩放输入数据。可选参数 whiten=True 使得可以将数据投影到奇异（singular）空间上，同时将每个成分缩放到单位方差。如果下游模型对信号的各向同性作出强假设，这通常是有用的，例如，使用RBF内核...

Markevery示例此示例演示了使用Line2D对象的markevery属性在数据点子集上显示标记的各种选项。整数参数非常直观。例如 markevery = 5 将从第一个数据点开始绘制每个第5个标记。浮点参数允许标记沿着线以大致相等的距离间隔开。沿着标记之间的线的理论距离通过将轴边界对角线的显示坐标距离乘以 markevery 值来确定。将显示最接近理论距离的数据点。切片或列表/数组也可以与 markevery 一起使用以指定要显示的标记。 12345678910111213141516171819202122import numpy as npimport matplotlib.pyplot as pltimport matplotlib.gridspec as gridspec# define a list of markevery cases to plotcases = [None, 8, (30, 8), [16, 24, 30], [0, -1], slice(100, 20...

03超参数调试、Batch正则化和程序框架

超参数调试、Batch 正则化和程序框架超参数调试处理超参数重要程度排序最重要：学习率 α；其次重要： β：动量衰减参数，常设置为 0.9； #hidden units：各隐藏层神经元个数； mini-batch 的大小；再次重要： β1，β2，ϵ：Adam 优化算法的超参数，常设为 0.9、0.999、$10^{-8}$； #layers：神经网络层数; decay_rate：学习衰减率；调参技巧随机选择点（而非均匀选取），用这些点实验超参数的效果。这样做的原因是我们提前很难知道超参数的重要程度，可以通过选择更多值来进行更多实验；由粗糙到精细：聚焦效果不错的点组成的小区域，在其中更密集地取值，以此类推；选择合适的范围对于学习率 α，用对数标尺而非线性轴更加合理：0.0001、0.001、0.01、0.1 等，然后在这些刻度之间对log值进行均匀选择。对于 β，取 0.9 就相当于在 10 个值中计算平均值，而取 0.999 就相当于在 1000 个值中计算平均值。可以考虑给 1-β 取值，这样就和取学习率类似了。上述操作的原因是当 β...

## 1 概述 ### 是什么 https://blog.csdn.net/weixin_43498556/article/details/120839089 JUnit是Java编程语言的单元测试框架，用于编写和可重复运行的自动化测试。 1. 编码完成就可以立刻测试，尽早发现问题 2. 将测试保存成为了代码，可以随时快速执行 3. 可以嵌入持续集成流水线，自动为每次代码修改保驾护航 ### 注意事项 * 测试方法必须使用 @Test 修饰 * 测试方法必须使用 public void 进行修饰，不能带参数 * 一般使用单元测试会新建一个 test 目录存放测试代码，在生产部署的时候只需要将 test 目录下代码删除即可 * 测试代码的包应该和被测试代码包结构保持一致 * 测试单元中的每个方法必须可以独立测试，方法间不能有任何依赖 * 测试类一般使用 Test 作为类名的后缀 * 测试方法使一般用 test 作为方法名的前缀 ### 测试失败 * Failure：一般是由于测试结果和预期结果不一致引发的，表示测试的这个点发现了问题 * Error：是由代码...

Django——关于URL分组匹配问题

**基本原则说明：** - Django会一次匹配列表中的每个URL模式，在遇到第一个请求的URL相匹配的模式时停下来 - 分组传参包括以下内容： - 一个HttpRequest实例。 - 如果正则表达式是无名组，那么正则表达式所匹配的内容将作为位置参数提供给视图。 - 如果正则表达式是命名组，那么正则表达式所匹配的内容将作为关键参数提供给视图。 - 对于GET、POST请求本身的参数不进行匹配。作为扩展参数kwargs提供给视图。 - 如果请求的URL没有匹配到任何一个正则表达式，或者匹配过程中抛出异常，会进行相应的错误处理。分组参数关键参数 **匹配分组算法说明：** \> 分组对应参数，是如何传递参数的过程；匹配分组算法，是如何匹配字符串的过程。 - 如果有命名参数，则使用命名参数，忽略非命名参数。 - 否则，将以位置参数传递所有的非命名参数。 - 所有的匹配结果都是字符串能够通过url函数额外传递多个参数。终于他妈的明白这种关键参数和位置参数的意思了：关键...

1.16. 概率校准校验者: @曲晓峰 @小瑶翻译者: @那伊抹微笑执行分类时, 您经常希望不仅可以预测类标签, 还要获得相应标签的概率. 这个概率给你一些预测的信心. 一些模型可以给你贫乏的概率估计, 有些甚至不支持概率预测. 校准模块可以让您更好地校准给定模型的概率, 或添加对概率预测的支持. 精确校准的分类器是概率分类器, 其可以将 predict_proba 方法的输出直接解释为 confidence level（置信度级别）. 例如，一个经过良好校准的（二元的）分类器应该对样本进行分类, 使得在给出一个接近 0.8 的 prediction_proba 值的样本中, 大约 80% 实际上属于正类. 以下图表比较了校准不同分类器的概率预测的良好程度: LogisticRegression 默认情况下返回良好的校准预测, 因为它直接优化了 log-loss（对数损失）情况. 相反，其他方法返回 biased probabilities（偏倚概率）; 每种方法有不同的偏差: GaussianNB 往往将概率推到 0 或 1（注意...

数据加载中