降维协同过滤_大数据分析领域有哪些分析模型

Ⅰ 大数据分析领域有哪些分析模型

数据挖掘和分析领域涉及多种模型，旨在从大量数据中提取有价值的信息。以下是几种常见的分析模型：
1. 降维模型
在处理大数据集时，高维度数据可能导致计算复杂度和存储需求增加。降维模型如主成分分析（PCA）和t-SNE，旨在减少数据集的维度，同时保留最重要的信息。
2. 回归模型
回归模型用于分析自变量与因变量之间的关系。线性回归是最基础的形式，它假设关系是线性的。通过建立数学方程，回归模型可以预测因变量的值。
3. 聚类模型
聚类模型如K-means和层次聚类，将数据点分组，使得同一组内的数据点相似度更高。这些模型有助于发现数据中的自然分组或模式。
4. 分类模型
分类模型如决策树和SVM，通过学习已标记数据的特征来预测新数据的类别。这些模型在二分类或多分类问题中非常有用。
5. 关联规则模型
关联规则模型如Apriori算法，用于发现大数据集中的物品或事件之间的有趣关系。例如，超市购物篮分析可以发现顾客购买某些商品的倾向。
6. 时间序列模型
时间序列模型如ARIMA和季节性分解时间序列预测（SARIMA），用于分析和预测数据随时间的变化趋势。
7. 异常检测模型
异常检测模型如孤立森林和高斯混合模型，用于识别数据集中的异常值或离群点。这些模型在欺诈检测和安全监控等领域非常重要。
8. 协同过滤模型
协同过滤模型通过分析用户行为和偏好，为用户推荐物品。这种模型广泛应用于电影、音乐和商品推荐系统中。
9. 主题模型
主题模型如隐含狄利克雷分配（LDA），用于文本数据的分析，以识别文档集合中的主题分布。
10. 路径和归因模型
路径分析、漏斗分析和归因模型，用于理解用户如何通过一系列步骤达成特定目标或完成转化。这些模型在在线营销和用户行为分析中尤为重要。
这些模型各自有不同的应用场景和优势，它们在数据分析和挖掘领域中扮演着关键角色。

Ⅱ 07_推荐系统算法详解

基于人口统计学的推荐与用户画像、基于内容的推荐、基于协同过滤的推荐。

1、基于人口统计学的推荐机制( Demographic-based Recommendation)是一种最易于实现的推荐方法，它只是简单的根据系统用户的基本信息发现用户的相关程度，然后将相似用户喜爱的其他物品推荐给当前用户。

2、对于没有明确含义的用户信息(比如登录时间、地域等上下文信息)，可以通过聚类等手段，给用户打上分类标签。

3、对于特定标签的用户，又可以根据预设的规则(知识)或者模型，推荐出对应的物品。

4、用户信息标签化的过程一般又称为用户画像 ( User Profiling）。

（1）用户画像( User Profile)就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后，完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。

（2）用户画像为企业提供了足够的信息基础，能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

（3）作为大数据的根基，它完美地抽象出一个用户的信息全貌，为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息，提供了足够的数据基础。

1、 Content- based Recommendations(CB)根据推荐物品或内容的元数据，发现物品的相关性，再基于用户过去的喜好记录，为用户推荐相似的物品。

2、通过抽取物品内在或者外在的特征值,实现相似度计算。比如一个电影,有导演、演员、用户标签UGC、用户评论、时长、风格等等，都可以算是特征。

3、将用户(user)个人信息的特征(基于喜好记录或是预设兴趣标签)，和物品(item)的特征相匹配，就能得到用户对物品感兴趣的程度。在一些电影、音乐、图书的社交网站有很成功的应用,有些网站还请专业的人员对物品进行基因编码/打标签(PGC）。

4、相似度计算：

5、对于物品的特征提取——打标签(tag)

- 专家标签(PGC）

- 用户自定义标签(UGC)

- 降维分析数据,提取隐语义标签(LFM)

对于文本信息的特征提取——关键词

- 分词、语义处理和情感分析(NLP)

- 潜在语义分析(LSA）

6、基于内容推荐系统的高层次结构

7、特征工程

（1）特征( feature)：数据中抽取出来的对结果预测有用的信息。

特征的个数就是数据的观测维度。

特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。

特征工程一般包括特征清洗(采样、清洗异常样本)，特征处理和特征选择。

特征按照不同的数据类型分类，有不同的特征处理方法：数值型、类别型、时间型、统计型。

（2）数值型特征处理

      用连续数值表示当前维度特征，通常会对数值型特征进行数学上的处理，主要的做法是归一化和离散化。

        * 幅度调整归一化：

        特征与特征之间应该是平等的，区别应该体现在特征内部。

        例如房屋价格和住房面积的幅度是不同的，房屋价格可能在3000000~15000000(万)之间,而住房面积在40-300(平方米)之间，那么明明是平等的两个特征，输入到相同的模型中后由于本身的幅值不同导致产生的效果不同，这是不合理的



* 数值型特征处理——离散化

离散化的两种方式：等步长——简单但不一定有效；等频——min -> 25% -> 75% -> max

两种方法对比：

          等频的离散化方法很精准，但需要每次都对数据分布进行一遍从新计算，因为昨天用户在淘宝上买东西的价格分布和今天不一定相同，因此昨天做等频的切分点可能并不适用，而线上最需要避免的就是不固定，需要现场计算，所以昨天训练出的模型今天不一定能使用。

        等频不固定，但很精准，等步长是固定的，非常简单，因此两者在工业上都有应用。

（3）类别型特征处理

      类别型数据本身没有大小关系，需要将它们编码为数字，但它们之间不能有预先设定的大小关系，因此既要做到公平，又要区分开它们，那么直接开辟多个空间。

    One-Hot编码/哑变量：One-Hot编码/哑变量所做的就是将类别型数据平行地展开，也就是说，经过One-Hot编码哑变量后，这个特征的空间会膨胀。

（4）时间型特征处理

        时间型特征既可以做连续值,又可以看做离散值。

连续值：持续时间(网页浏览时长)；间隔时间(上一次购买/点击离现在的时间间隔)。

        离散值：一天中哪个时间段；一周中的星期几；一年中哪个月/星期；工作日/周末。

（5）统计型特征处理

      加减平均：商品价格高于平均价格多少，用户在某个品类下消费超过多少。

        分位线：商品属于售出商品价格的分位线处。

        次序性：商品处于热门商品第几位。

    比例类：电商中商品的好/中/差评比例。

8、推荐系统常见反馈数据：

9、基于UGC的推荐

用户用标签来描述对物品的看法，所以用户生成标签(UGC)是联系用户和物品的纽带，也是反应用户兴趣的重要数据源。

一个用户标签行为的数据集一般由一个三元组(用户,物品,标签)的集合表示，其中一条记录(u,i,b)表示用户u给物品打上了标签b。

一个最简单的算法：

- 统计每个用户最常用的标签

    - 对于每个标签,统计被打过这个标签次数最多的物品

- 对于一个用户，首先找到他常用的标签，然后找到具有这些标签的最热门的物品，推荐给他

- 所以用户u对物品i的兴趣公式为，其中使用户u打过标签b的次数，是物品i被打过标签b的次数。

简单算法中直接将用户打出标签的次数和物品得到的标签次数相乘，可以简单地表现出用户对物品某个特征的兴趣。

    这种方法倾向于给热门标签(谁都会给的标签,如“大片”、“搞笑”等)、热门物品(打标签人数最多)比较大的权重，如果一个热门物品同时对应着热门标签,那它就会“霸榜”，推荐的个性化、新颖度就会降低。

    类似的问题,出现在新闻内容的关键字提取中。比如以下新闻中,哪个关键字应该获得更高的权重?

10、 TF-IDF：词频逆文档频率 ( Term Frequency- -Inverse Document Frequency,TF-DF)是一种用于资讯检索与文本挖掘的常用加权技术。

      TFDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

                  TFIDF=TF IDF

     TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

    TF-DF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

       词频( Term Frequency,TF) ：指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数的归一化，以防止偏向更长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。），其中表示词语 i 在文档 j 中出现的频率，表示 i 在 j 中出现的次数，表示文档 j 的总词数。

         逆向文件频率( Inverse Document Frequency,IDF) ：是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文档数目除以包含该词语之文档的数目，再将得到的商取对数得到，其中表示词语 i 在文档集中的逆文档频率，N表示文档集中的文档总数，表示文档集中包含了词语 i 的文档数。

（11） TF-IDF对基于UGC推荐的改进：，为了避免热门标签和热门物品获得更多的权重，我们需要对“热门进行惩罚。

借鉴TF-IDF的思想，以一个物品的所有标签作为“文档”，标签作为“词语”，从而计算标签的“词频”(在物品所有标签中的频率)和“逆文档频率”(在其它物品标签中普遍出现的频率）。

由于“物品i的所有标签” 应该对标签权重没有影响，而 “所有标签总数” N 对于所有标签是一定的，所以这两项可以略去。在简单算法的基础上,直接加入对热门标签和热门物品的惩罚项：，其中，记录了标签 b 被多少个不同的用户使用过，记录了物品 i 被多少个不同的用户打过标签。

（一）协同过滤（Collaborative Filtering, CF）

1、基于协同过滤(CF)的推荐：基于内容( Content based,CB)主要利用的是用户评价过的物品的内容特征，而CF方法还可以利用其他用户评分过的物品内容。

CF可以解决CB的一些局限：

- 物品内容不完全或者难以获得时,依然可以通过其他用户的反馈给出推荐。

- CF基于用户之间对物品的评价质量，避免了CB仅依赖内容可能造成的对物品质量判断的干。

- CF推荐不受内容限制，只要其他类似用户给出了对不同物品的兴趣，CF就可以给用户推荐出内容差异很大的物品(但有某种内在联系)

    分为两类：基于近邻和基于模型。

2、基于近邻的推荐系统：根据的是相同“口碑”准则。是否应该给Cary推荐《泰坦尼克号》?

（二）基于近邻的协同过滤

1、基于用户（User-CF）：基于用户的协同过滤推荐的基本原理是，根据所有用户对物品的偏好，发现与当前用户口味和偏好相似的“邻居”用户群，并推荐近邻所偏好的物品。

在一般的应用中是采用计算“K-近邻”的算法；基于这K个邻居的历史偏好信息，为当前用户进行推荐。

User-CF和基于人口统计学的推荐机制：

- 两者都是计算用户的相似度，并基于相似的“邻居”用户群计算推荐。

- 它们所不同的是如何计算用户的相似度：基于人口统计学的机制只考虑用户本身的特征，而基于用户的协同过滤机制可是在用户的历史偏好的数据上计算用户的相似度，它的基本假设是，喜欢类似物品的用户可能有相同或者相似的口味和偏好。

2、基于物品（Item-CF）：基于项目的协同过滤推荐的基本原理与基于用户的类似，只是使用所有用户对物品的偏好，发现物品和物品之间的相似度，然后根据用户的历史偏好信息，将类似的物品推荐给用户。

Item-CF和基于内容(CB)的推荐

- 其实都是基于物品相似度预测推荐，只是相似度计算的方法不一样，前者是从用户历史的偏好推断，而后者是基于物品本身的属性特征信息。

同样是协同过滤，在基于用户和基于项目两个策略中应该如何选择呢?

- 电商、电影、音乐网站,用户数量远大于物品数量。

- 新闻网站，物品(新闻文本)数量可能大于用户数量。

3、 User-CF和Item-CF的比较

同样是协同过滤，在User-CF和ltem-CF两个策略中应该如何选择呢？

Item-CF应用场景

- 基于物品的协同过滤( Item-CF ) 推荐机制是 Amazon在基于用户的机制上改良的一种策略因为在大部分的Web站点中，物品的个数是远远小于用户的数量的，而且物品的个数和相似度相对比较稳定，同时基于物品的机制比基于用户的实时性更好一些，所以 Item-CF 成为了目前推荐策略的主流。

User-CF应用场景

- 设想一下在一些新闻推荐系统中，也许物品一一也就是新闻的个数可能大于用户的个数，而且新闻的更新程度也有很快，所以它的相似度依然不稳定，这时用 User-cf可能效果更好。

所以，推荐策略的选择其实和具体的应用场景有很大的关系。

4、基于协同过滤的推荐优缺点

（1）基于协同过滤的推荐机制的优点：

    它不需要对物品或者用户进行严格的建模，而且不要求对物品特征的描述是机器可理解的，所以这种方法也是领域无关的。

这种方法计算出来的推荐是开放的，可以共用他人的经验，很好的支持用户发现潜在的兴趣偏好。

（2）存在的问题

    方法的核心是基于历史数据，所以对新物品和新用户都有“冷启动”的问题。

        推荐的效果依赖于用户历史好数据的多少和准确性。

    在大部分的实现中，用户历史偏好是用稀疏矩阵进行存储的，而稀疏矩阵上的计算有些明显的问题，包括可能少部分人的错误偏好会对推荐的准确度有很大的影响等等。

    对于一些特殊品味的用户不能给予很好的推荐。

（三）基于模型的协同过滤

1、基本思想

（1）用户具有一定的特征，决定着他的偏好选择

（2）物品具有一定的特征，影响着用户需是否选择它。

（3）用户之所以选择某一个商品，是因为用户特征与物品特征相互匹配。

    基于这种思想，模型的建立相当于从行为数据中提取特征，给用户和物品同时打上“标签”；这和基于人口统计学的用户标签、基于内容方法的物品标签本质是一样的，都是特征的提取和匹配。

有显性特征时(比如用户标签、物品分类标签)我们可以直接匹配做出推荐；没有时，可以根据已有的偏好数据，去发据出隐藏的特征,这需要用到隐语义模型(LFM)。

2、基于模型的协同过滤推荐，就是基于样本的用户偏好信息，训练一个推荐模型,然后根据实时的用户喜好的信息进行预测新物品的得分，计算推荐

    基于近邻的推荐和基于模型的推荐

- 基于近邻的推荐是在预测时直接使用已有的用户偏好数据，通过近邻数据来预测对新物品的偏好(类似分类)

- 而基于模型的方法，是要使用这些偏好数据来训练模型，找到内在规律，再用模型来做预测(类似回归)

训练模型时，可以基于标签内容来提取物品特征，也可以让模型去发据物品的潜在特征；这样的模型被称为隐语义模型 ( Latent Factor Model,LFM)。

（1）隐语义模型(LFM)：用隐语义模型来进行协同过滤的目标：

- 揭示隐藏的特征,这些特征能够解释为什么给出对应的预测评分

    - 这类特征可能是无法直接用语言解释描述的,事实上我们并不需要知道,类似“玄学”

        通过矩阵分解进行降维分析

- 协同过滤算法非常依赖历史数据，而一般的推荐系统中，偏好数据又往往是稀疏的；这就需要对原始数据做降维处理。

- 分解之后的矩阵，就代表了用户和物品的隐藏特征

        隐语义模型的实例：基于概率的隐语义分析(pLSA)、隐式迪利克雷分布模型(LDA)、矩阵因子分解模型(基于奇异值分解的模型,SVD)

（2）LFM降维方法——矩阵因子分解

（3）LFM的进一步理解

    我们可以认为，用户之所以给电影打出这样的分数，是有内在原因的，我们可以挖掘出影响用户打分的隐藏因素，进而根据未评分电影与这些隐藏因素的关联度，决定此未评分电影的预测评分。

应该有一些隐藏的因素，影响用户的打分，比如电影：演员、题材、年代…甚至不定是人直接可以理解的隐藏因子。

找到隐藏因子，可以对user和Iiem进行关联(找到是由于什么使得user喜欢/不喜欢此Item,什么会决定user喜欢/不喜欢此item)，就可以推测用户是否会喜欢某一部未看过的电影。

（4）矩阵因子分解

（5）模型的求解——损失函数

（6）模型的求解算法——ALS

  现在，矩阵因子分解的问题已经转化成了一个标准的优化问题，需要求解P、Q，使目标损失函数取最小值。

最小化过程的求解，一般采用随机梯度下降算法或者交替最小二乘法来实现交替最小二乘法( Alternating Least Squares,ALS)

ALS的思想是，由于两个矩阵P和Q都未知,且通过矩阵乘法耦合在一起，为了使它们解耦，可以先固定Q，把P当作变量，通过损失函数最小化求出P，这就是一个经典的最小二乘问题；再反过来固定求得的P，把Q当作变量，求解出Q：如此交替执行，直到误差满足阅值条件，或者到达迭代上限。

（7）梯度下降算法

Ⅲ 大数据分析领域有哪些分析模型

数据角度的模型一般指的是统计或数据挖掘、机器学习、人工智能等类型的模型，是纯粹从科学角度出发定义的。
1. 降维
在面对海量数据或大数据进行数据挖掘时，通常会面临“维度灾难”，原因是数据集的维度可以不断增加直至无穷多，但计算机的处理能力和速度却是有限的；另外，数据集的大量维度之间可能存在共线性的关系，这会直接导致学习模型的健壮性不够，甚至很多时候算法结果会失效。因此，我们需要降低维度数量并降低维度间共线性影响。
数据降维也被成为数据归约或数据约减，其目的是减少参与数据计算和建模维度的数量。数据降维的思路有两类：一类是基于特征选择的降维，一类是是基于维度转换的降维。
2. 回归
回归是研究自变量x对因变量y影响的一种数据分析方法。最简单的回归模型是一元线性回归（只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示），可以表示为Y=β0+β1x+ε，其中Y为因变量，x为自变量，β1为影响系数，β0为截距，ε为随机误差。
回归分析按照自变量的个数分为一元回归模型和多元回归模型；按照影响是否线性分为线性回归和非线性回归。
3. 聚类
聚类是数据挖掘和计算中的基本任务，聚类是将大量数据集中具有“相似”特征的数据点划分为统一类别，并最终生成多个类的方法。聚类分析的基本思想是“物以类聚、人以群分”，因此大量的数据集中必然存在相似的数据点，基于这个假设就可以将数据区分出来，并发现每个数据集（分类）的特征。
4. 分类
分类算法通过对已知类别训练集的计算和分析，从中发现类别规则，以此预测新数据的类别的一类算法。分类算法是解决分类问题的方法，是数据挖掘、机器学习和模式识别中一个重要的研究领域。
5. 关联
关联规则学习通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则，它是从大量数据中发现多种数据之间关系的一种方法，另外，它还可以基于时间序列对多种数据间的关系进行挖掘。关联分析的典型案例是“啤酒和尿布”的捆绑销售，即买了尿布的用户还会一起买啤酒。
6. 时间序列
时间序列是用来研究数据随时间变化趋势而变化的一类算法，它是一种常用的回归预测方法。它的原理是事物的连续性，所谓连续性是指客观事物的发展具有合乎规律的连续性，事物发展是按照它本身固有的规律进行的。在一定条件下，只要规律赖以发生作用的条件不产生质的变化，则事物的基本发展趋势在未来就还会延续下去。
7. 异常检测
大多数数据挖掘或数据工作中，异常值都会在数据的预处理过程中被认为是“噪音”而剔除，以避免其对总体数据评估和分析挖掘的影响。但某些情况下，如果数据工作的目标就是围绕异常值，那么这些异常值会成为数据工作的焦点。
数据集中的异常数据通常被成为异常点、离群点或孤立点等，典型特征是这些数据的特征或规则与大多数数据不一致，呈现出“异常”的特点，而检测这些数据的方法被称为异常检测。
8. 协同过滤
协同过滤（Collaborative Filtering，CF)）是利用集体智慧的一个典型方法，常被用于分辨特定对象（通常是人）可能感兴趣的项目（项目可能是商品、资讯、书籍、音乐、帖子等），这些感兴趣的内容来源于其他类似人群的兴趣和爱好，然后被作为推荐内容推荐给特定对象。
9. 主题模型
主题模型（Topic Model），是提炼出文字中隐含主题的一种建模方法。在统计学中，主题就是词汇表或特定词语的词语概率分布模型。所谓主题，是文字（文章、话语、句子）所表达的中心思想或核心概念。
10. 路径、漏斗、归因模型
路径分析、漏斗分析、归因分析和热力图分析原本是网站数据分析的常用分析方法，但随着认知计算、机器学习、深度学习等方法的应用，原本很难衡量的线下用户行为正在被识别、分析、关联、打通，使得这些方法也可以应用到线下客户行为和转化分析。

Ⅳ 在大数据分析中机器学习通常用于什么目的

在大数据分析中，机器学习的主要目的是从海量数据中自动提取有用的信息、模式和趋势，以便进行预测和决策。
机器学习在大数据分析中的应用主要体现在以下几个方面：
1. 数据分类与预测：机器学习算法可以根据历史数据训练出分类模型或预测模型，用于对新数据进行分类或预测。例如，在信用卡欺诈检测中，机器学习模型可以学习历史上的正常交易和欺诈交易的模式，然后对新交易进行实时分类，以识别可能的欺诈行为。
2. 数据聚类：在无监督学习的情况下，机器学习算法可以用来发现数据中的自然分组或聚类。这对于市场细分、客户群划分等问题非常有用。例如，电商网站可以利用用户的购物历史数据，通过聚类算法识别出不同的用户群体，以便进行个性化的商品推荐。
3. 特征提取与降维：在大数据分析中，数据的维度往往非常高，直接处理既困难又耗时。机器学习算法（如主成分分析、自动编码器等）可以用来提取数据的关键特征或降低数据的维度，从而简化后续的分析过程。
4. 数据关联与推荐：机器学习还可以用来发现数据之间的关联规则或推荐项。这在零售业尤为常见，例如“啤酒与尿布”的经典案例就是通过关联规则学习发现的。此外，现在的音乐、电影等娱乐平台也大量使用推荐算法（如协同过滤、内容推荐等），根据用户的历史行为和喜好，为用户提供个性化的推荐内容。
综上所述，机器学习在大数据分析中的应用是多样且广泛的，它极大地提高了数据分析的效率和准确性，为现代社会的各个领域带来了深远的影响。

导航:首页 > 净水问答 > 降维协同过滤

降维协同过滤

与降维协同过滤相关的资料