博客
关于我
机器学习入门研究(十七)— Instacart Market用户分类
阅读量:518 次
发布时间:2019-03-07

本文共 1994 字,大约阅读时间需要 6 分钟。

1. 获取数据

本文将围绕如何通过分析Instacart的市场篮蔬果订单数据,预测用户的购物行为展开。为此,我们首先需要获取并整合相关数据集。

  • order_products__prior.csv:该文件包含订单与商品信息,字段包括order_idproduct_idadd_to_cart_orderreordered。我们可以使用Pandas读取该数据,为:
  • order_products = pd.read_csv("order_products__prior.csv")
    1. products.csv:该文件包含商品信息,字段包括product_idproduct_nameaisle_iddepartment_id。读取方式如下:
    2. products = pd.read_csv("products.csv")
      1. orders.csv:该文件包含用户订单信息,字段包括order_iduser_ideval_setorder_number等。读取代码为:
      2. orders = pd.read_csv("orders.csv")
        1. aisles.csv:该文件描述了商品所属具体分类,字段包括aisle_idaisle。读取代码如下:
        2. aisles = pd.read_csv("aisles.csv")

          通过上述步骤,我们成功获取了订单数据、商品数据以及用户及订单信息。在实际应用中,这些数据需要分别存储,并确保字段一致性,以便于后续操作。

          2. 合并数据

          为了使用户的购物行为能够与商品分类关联起来,我们需要将用户信息与商品类别进行整合。为此,可以按照以下步骤进行:

        3. 合并aisles和products表:两个表都包含aisle_id字段,可以通过merged函数进行内连接:

          tab1 = pd.merge(aisles, products, on=["aisle_id"])

          合并后的表将包含aisle_idproduct_idaisleproduct_name等字段。

        4. 将order_products与tab1表合并:目标是将商品与用户的历史订单信息关联起来:

          tab2 = pd.merge(tab1, order_products, on=["product_id"])

          此时,tab2表中将包含aisle_idaisleuser_id(该字段需要进一步关联)等信息。

        5. 关联orders表:用户的订单信息(user_id)和商品的分类信息(aisle_id)还需要通过order_id进行关联。可以通过以下步骤完成:

          tab3 = pd.merge(tab2, orders, on=["order_id"])

          这样我们就能将用户ID与商品类别直接关联起来。

        6. 生成交叉表:最终目标是将用户ID作为行标签、商品类别作为列标签,生成一个用户-商品类别的频率矩阵。可以使用pandas.crosstab进行操作:

          table = pd.crosstab(tab3["user_id"], tab3["aisle"])

          这将生成一个矩阵,其中行为用户ID,列为商品类别,值为对应类别的购买频率。

        7. 3. 数据降维

          在现有的134个特征中,许多特征的值可能存在冗余或为零。因此,我们可以通过PCA(主成分分析)对数据进行降维。

        8. 实例化转换器:首先需要选择保留的主成分数量,通常建议超过95%的方差:

          from sklearn.decomposition import PCA# 实例化转换器,设置保留的主成分数量transfer = PCA(n_components=0.95)
        9. 应用转换器:使用fit_transform方法将数据转换过去:

          data_new = transfer.fit_transform(table)

          经过转换后,数据将降低维度至44个。

        10. 4. 使用K-means进行分类

          由于我们的目标是无监督分类,我们将使用K-means算法,将用户分为若干类别。假设我们选择将用户分为3类,具体步骤如下:

        11. 实例化K-means模型

          from sklearn.cluster import KMeansestimator = KMeans(n_clusters=3)
        12. 训练模型并预测

          estimator.fit(data_new)y_predict = estimator.predict(data_new)

          这将为每个用户分配一个类别标签,0、1或2。

        13. 评估模型:通过查看预测结果,验证模型的性能。此外,可以进一步计算中心点,以了解各类别的代表性。

        14. 总结

          通过以上步骤,我们成功地将用户的购物行为数据转化为了可分析的特征,并通过降维技术将复杂度降低为更少的维度。随后,K-means算法实现了用户的无监督分类,为后续的精度优化和应用提供了基础。

    转载地址:http://pjejz.baihongyu.com/

    你可能感兴趣的文章
    Mysql学习总结(76)——MySQL执行计划(explain)结果含义总结
    查看>>
    Mysql学习总结(77)——温故Mysql数据库开发核心原则与规范
    查看>>
    Mysql学习总结(78)——MySQL各版本差异整理
    查看>>
    Mysql学习总结(79)——MySQL常用函数总结
    查看>>
    Mysql学习总结(7)——MySql索引原理与使用大全
    查看>>
    Mysql学习总结(80)——统计数据库的总记录数和库中各个表的数据量
    查看>>
    Mysql学习总结(81)——为什么MySQL不推荐使用uuid或者雪花id作为主键?
    查看>>
    Mysql学习总结(82)——MySQL逻辑删除与数据库唯一性约束如何解决?
    查看>>
    Mysql学习总结(83)——常用的几种分布式锁:ZK分布式锁、Redis分布式锁、数据库分布式锁、基于JDK的分布式锁方案对比总结
    查看>>
    Mysql学习总结(84)—— Mysql的主从复制延迟问题总结
    查看>>
    Mysql学习总结(85)——开发人员最应该明白的数据库设计原则
    查看>>
    Mysql学习总结(8)——MySql基本查询、连接查询、子查询、正则表达查询讲解
    查看>>
    Mysql学习总结(9)——MySql视图原理讲解与使用大全
    查看>>
    Mysql学习笔记 - 在Centos7环境下离线安装Mysql
    查看>>
    MySQL学习笔记十七:复制特性
    查看>>
    Mysql学习第一课-mysql的定义及sql语句
    查看>>
    mysql学号的字符长度_MYSQL--2
    查看>>
    mysql安全模式: sql_safe_updates
    查看>>
    mysql安装,卸载,连接
    查看>>
    MySQL安装之没有配置向导
    查看>>