【深度学习】Pytorch项目实战-基于协同过滤实现物品推荐系统

news/2025/2/23 0:25:38

一、推荐系统的了解

1. 定义

推荐系统是一个信息过滤系统,旨在为用户提供个性化的内容推荐。它利用用户的历史行为、偏好以及其他相关数据来推测用户可能感兴趣的项目或信息。推荐系统广泛应用于电子商务、社交媒体、流媒体服务等领域,帮助用户发现商品、电影、音乐、文章等。

2. 推荐系统的基本类型

推荐系统主要可以分为以下几类:

2.1 基于内容的推荐(Content-based Filtering)
  • 基于用户过去喜欢的物品的特征,推荐具有相似特征的新物品。
  • 例如,如果用户在看电影时对科幻类电影表现出偏好,系统会推荐其他科幻电影。
  • 使用特征提取技术(如词袋模型、TF-IDF等)来分析物品内容。
2.2 协同过滤推荐(Collaborative Filtering)

基于用户与其他用户之间的互动和偏好,推荐相似用户喜欢的物品。
(1)有两种主要的协同过滤方法:

  • 用户协同过滤:寻找与目标用户相似的用户,推荐这些用户喜爱的物品。
  • 物品协同过滤:寻找与目标物品相似的物品,推荐用户已喜欢的物品。

优点是无需了解物品的具体内容,只需关注用户行为。

2.3 混合推荐(Hybrid Methods):
  • 结合多种推荐方法来产生更准确和强大的推荐结果。
  • 例如,可以结合内容过滤和协同过滤,以弥补各自的不足。

3. 推荐系统在实际应用中面临一些挑战

(1)冷启动问题:新用户或新项目没有足够的数据来生成推荐。
(2)用户隐私:如何在不泄漏用户隐私的情况下收集和使用数据。
(3)多样性与新颖性:避免过于集中于用户过去的偏好,提供更多样化和新颖的推荐。
(4)数据稀疏性:特别是在大规模用户和物品的情况下,数据稀疏会影响推荐质量。

二、推荐系统项目实战

在本例中,使用矩阵分解(Matrix Factorization) 方法来实现协同过滤。这种方法通过将用户-物品交互矩阵分解为两个低维矩阵(用户嵌入和物品嵌入),从而预测用户对未评分物品的偏好。以下是实现步骤:

1. 数据准备

我们需要一个用户-物品交互数据集。例如:
用户 ID
物品 ID
评分(或点击次数)
示例数据:

python">import pandas as pd
# 创建模拟数据
data = {
    "user_id": [0, 0, 1, 1, 2, 2, 3, 3],
    "item_id": [0, 1, 0, 2, 1, 2, 0, 1],
    "rating": [5, 3, 4, 2, 5, 1, 3, 4]
}
df = pd.DataFrame(data)
print(df)

输出:

python">   user_id  item_id  rating
0        0        0       5
1        0        1       3
2        1        0       4
3        1        2       2
4        2        1       5
5        2        2       1
6        3        0       3
7        3        1       4

2. 数据预处理

我们需要将用户 ID 和物品 ID 转换为连续的索引,并创建训练数据集。
数据预处理代码:

python">from torch.utils.data import Dataset, DataLoader
class RatingDataset(Dataset):
    def __init__(self, df):
        self.users = df["user_id"].values
        self.items = df["item_id"].values
        self.ratings = df["rating"].values
    def __len__(self):
        return len(self.users)

    def __getitem__(self, idx):
        return {
            "user_id": self.users[idx],
            "item_id": self.items[idx],
            "rating": self.ratings[idx]
        }
# 创建数据集和数据加载器
dataset = RatingDataset(df)
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

3. 模型设计

我们使用矩阵分解方法,将用户和物品映射到低维嵌入空间,并通过点积计算预测评分。
模型代码:

python">import torch
import torch.nn as nn
class MatrixFactorization(nn.Module):
    def __init__(self, num_users, num_items, embedding_dim):
        super(MatrixFactorization, self).__init__()
        self.user_embedding = nn.Embedding(num_users, embedding_dim)
        self.item_embedding = nn.Embedding(num_items, embedding_dim)
    def forward(self, user_ids, item_ids):
        user_embeds = self.user_embedding(user_ids)
        item_embeds = self.item_embedding(item_ids)
        ratings = (user_embeds * item_embeds).sum(dim=1)
        return ratings

4. 训练模型

定义损失函数和优化器,并训练模型。
训练代码:

python"># 初始化模型、损失函数和优化器
num_users = df["user_id"].nunique()
num_items = df["item_id"].nunique()
embedding_dim = 8
model = MatrixFactorization(num_users, num_items, embedding_dim)
criterion = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
# 训练循环
num_epochs = 10
for epoch in range(num_epochs):
    total_loss = 0
    for batch in dataloader:
        user_ids = batch["user_id"]
        item_ids = batch["item_id"]
        ratings = batch["rating"]
        # 前向传播
        predicted_ratings = model(user_ids, item_ids)
        loss = criterion(predicted_ratings, ratings.float())
        # 反向传播
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
    print(f"Epoch {epoch+1}, Loss: {total_loss:.4f}")

5. 模型评估

我们可以使用测试数据集评估模型性能,或者直接预测用户对未评分物品的偏好。
预测代码:

python"># 测试预测
test_user_id = torch.tensor([0])  # 用户 ID
test_item_id = torch.tensor([2])  # 物品 ID
predicted_rating = model(test_user_id, test_item_id)
print(f"Predicted rating for user {test_user_id.item()} and item {test_item_id.item()}: {predicted_rating.item():.4f}")

6. 推荐物品

根据预测评分,为用户推荐评分最高的物品。
推荐代码:

python">def recommend_items(model, user_id, num_items, top_k=3):
    item_ids = torch.arange(num_items)
    user_ids = torch.full_like(item_ids, user_id)
    predicted_ratings = model(user_ids, item_ids)
    # 获取评分最高的物品
    top_items = torch.topk(predicted_ratings, top_k).indices
    return top_items.tolist()
# 为用户 0 推荐物品
recommended_items = recommend_items(model, user_id=0, num_items=num_items, top_k=3)
print(f"Recommended items for user 0: {recommended_items}")

三、总结

3.1 实现推荐系统核心步骤

  • 数据准备:收集用户-物品交互数据。
  • 数据预处理:将数据转换为 PyTorch 数据集。
  • 模型设计:使用矩阵分解方法构建推荐模型。
  • 模型训练:定义损失函数和优化器,训练模型。
  • 模型评估:测试模型性能,预测用户对物品的评分。
  • 推荐物品:根据预测评分生成推荐列表。

通过上述步骤,你可以快速实现一个基于 PyTorch 的推荐系统,并根据需求进一步扩展功能。

3.2 扩展方向

  • 多模态推荐:结合文本、图像等信息提升推荐效果。
  • 深度学习模型:使用神经协同过滤(NeuMF)或 Transformer 模型。
  • 在线学习:支持实时更新用户行为数据。

http://www.niftyadmin.cn/n/5862871.html

相关文章

linux下查看当前用户、所有用户的方法

一、查看当前用户 1、shell终端中输入:who当前用户为:book,使用tty7的终端,后面是登陆的时间 2、shell终端中输入:whoami当前用户为:book,很精简输出结果 3、shell终端中输入:w当…

【C#】无法安装程序包“DotSpatial.Symbology 4.0.656”

C#代码:NaturalNeighbor nn new NaturalNeighbor(); 错误:无法安装程序包“DotSpatial.Symbology 4.0.656”。你正在尝试将此程序包安装到目标为“.NETFramework,Versionv4.7.2”的项目中,但该程序包不包含任何与该框架兼容的程序集引用或…

线程与进程的深入解析及 Linux 线程编程

在操作系统中,进程和线程是进行并发执行的两种基本单位。理解它们的区别和各自的特点,能够帮助开发者更好地进行多任务编程,提高程序的并发性能。本文将探讨进程和线程的基础概念,及其在 Linux 系统中的实现方式,并介绍…

Hutool - Extra:功能丰富的扩展模块

一、简介 Hutool - Extra 作为 Hutool 工具包的扩展模块,对众多第三方库和功能进行了封装,极大地丰富了 Hutool 的功能体系。它涵盖了模板引擎、邮件发送、Servlet 处理、二维码生成、Emoji 处理、FTP 操作以及分词等多个方面,为开发者在不同…

es6的Generator函数用法

目录 基本概念语法特性使用场景异步应用高级用法最佳实践 基本概念 什么是 Generator 函数? Generator 函数是 ES6 提供的一种异步编程解决方案,它可以让函数执行过程中被暂停和恢复。Generator 函数通过 function* 声明,内部使用 yield …

【练习】【回溯:组合:一个集合 元素可重复】力扣 39. 组合总和

题目 组合总和 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target ,找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 ,并以列表形式返回。你可以按 任意顺序 返回这些组合。 candidates 中的 同一个 数字可以 无限制重…

网页制作05-html,css,javascript初认识のhtml表格的创建

一、创建表格 1、表格的基本构成: Table, Tr,td 1)简介: 表格是由行列和单元格三部分组成的,一般通过三个标记来创建: Table,表格标记 Tr,行标记 td,单元格标记 2&#xff09…

vue和微信小程序处理markdown格式数据

【1】Vue处理markdown数据 在Vue项目中展示Markdown格式的数据,比如通义千问模型返回的数据,你可以借助一些Markdown解析库将Markdown文本转换为HTML,然后在页面上渲染。以下为你详细介绍几种常用的实现方式。 方法一:使用marke…