原创

Mahout实现推荐系统示例-基于7.2万用户对1万部电影的百万级评价和10万个标签数据

温馨提示：

本文最后更新于 2020年05月08日，已超过 1,929 天没有更新。若文章内的图片失效（无法正常加载），请留言反馈或直接联系我。

Mahout简介

地址：https://mahout.apache.org/

用于创建可扩展的高性能机器学习应用程序。

其实就是封装了机器学习的一些算法，供我们使用和扩展。

推荐示例：7.2万用户对1万部电影的百万级评价和10万个标签数据

数据下载地址：https://grouplens.org/datasets/movielens/10m/

数据说明：
ratings.dat：

所有评级都包含在文件中ratings.dat。该文件的每一行代表一个用户对一部电影的评级，其格式如下：

UserID::MovieID::Rating::Timestamp

该文件中的各行首先按UserID排序，然后在用户中按MovieID排序。

评分等级为5星级，以半星级为增量。

时间戳表示自1970年1月1日午夜协调世界时（UTC）起的秒数。

tags.dat：

所有标签都包含在文件中tags.dat。此文件的每一行代表一个用户将一个标签应用于一部电影，并具有以下格式：

UserID::MovieID::Tag::Timestamp

该文件中的各行首先按UserID排序，然后在用户中按MovieID排序。

标签是用户生成的有关电影的元数据。每个标签通常是一个单词或简短短语。特定标签的含义，价值和目的由每个用户确定。

时间戳表示自1970年1月1日午夜协调世界时（UTC）起的秒数。

movies.dat：

电影信息包含在文件中movies.dat。该文件的每一行代表一部电影，并具有以下格式：

MovieID::Title::Genres

MovieID是真实的MovieLens ID。

根据政策，电影标题的输入应与IMDB中的相同，包括发行年份。但是，它们是手动输入的，因此可能存在错误和不一致之处。

流派是用管道分隔的列表，并从以下列表中选择：

行动
冒险
动画
儿童的
喜剧
犯罪
记录
戏剧
幻想
黑色电影
恐怖
音乐
神秘
浪漫
科幻
惊悚片
战争
西

引入依赖：

    <dependencies>
        <!-- 示例mahout-examples包已经包含了以下的这些包，但是，还是正式开发肯定不是加这个包 -->
        <dependency>
            <groupId>org.apache.mahout</groupId>
            <artifactId>mahout-examples</artifactId>
            <version>${mahout.version}</version>
        </dependency>

        <!-- 需要引入mahout的包 -->
        <dependency>
            <groupId>org.apache.mahout</groupId>
            <artifactId>mahout-hdfs</artifactId>
            <version>${mahout.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.mahout</groupId>
            <artifactId>mahout-mr</artifactId>
            <version>${mahout.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.mahout</groupId>
            <artifactId>mahout-hdfs</artifactId>
            <version>${mahout.version}</version>
            <type>test-jar</type>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.mahout</groupId>
            <artifactId>mahout-math</artifactId>
            <version>${mahout.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.mahout</groupId>
            <artifactId>mahout-integration</artifactId>
            <version>${mahout.version}</version>
        </dependency>
        <!-- //需要引入mahout的包 -->
    </dependencies>

基于物品的推荐

package com.lzhpo.ma1.test2.movie;

import org.apache.mahout.cf.taste.impl.recommender.GenericItemBasedRecommender;
import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity;
import org.apache.mahout.cf.taste.model.DataModel;
import org.apache.mahout.cf.taste.recommender.RecommendedItem;
import org.apache.mahout.cf.taste.similarity.ItemSimilarity;
import org.apache.mahout.cf.taste.similarity.precompute.example.GroupLensDataModel;

import java.io.File;
import java.util.List;

/**
 * 基于物品的推荐
 * <p>
 * 数据类别：7.2万用户对1万部电影的百万级评价和10万个标签数据。
 * 数据模型下载地址：https://grouplens.org/datasets/movielens/10m/
 * </p>
 *
 * @author lzhpo
 */
public class BaseItemRecommender {
    public static void main(String[] args) throws Exception {
        //准备数据 这里是电影评分数据
        File file = new File("E:\\JavaCode\\MyProject\\Algorithm-Java\\mahout\\ma_demo1\\src\\main\\resources\\testFile\\movieData\\ml-10M100K\\ratings.dat");
        //将数据加载到内存中，GroupLensDataModel是针对开放电影评论数据的
        DataModel dataModel = new GroupLensDataModel(file);
        //计算相似度，相似度算法有很多种，欧几里得、皮尔逊等等。
        ItemSimilarity itemSimilarity = new PearsonCorrelationSimilarity(dataModel);
        //构建推荐器，协同过滤推荐有两种，分别是基于用户的和基于物品的，这里使用基于物品的协同过滤推荐
        GenericItemBasedRecommender recommender = new GenericItemBasedRecommender(dataModel, itemSimilarity);
        //给用户ID等于5的用户推荐10个与2398相似的商品
        List<RecommendedItem> recommendedItemList = recommender.recommendedBecause(5, 2398, 10);
        //打印推荐的结果
        System.out.println("使用基于物品的协同过滤算法");
        System.out.println("根据用户5当前浏览的商品2398，推荐10个相似的商品");
        for (RecommendedItem recommendedItem : recommendedItemList) {
            System.out.println(recommendedItem);
        }
        long start = System.currentTimeMillis();
        recommendedItemList = recommender.recommendedBecause(5, 34, 10);
        //打印推荐的结果
        System.out.println("使用基于物品的协同过滤算法");
        System.out.println("根据用户5当前浏览的商品34，推荐10个相似的商品");
        for (RecommendedItem recommendedItem : recommendedItemList) {
            System.out.println(recommendedItem);
        }
        System.out.println(System.currentTimeMillis() - start);
    }
}

运行结果：

 使用基于物品的协同过滤算法
根据用户5当前浏览的商品2398，推荐10个相似的商品
RecommendedItem[item:326, value:6.8727612]
RecommendedItem[item:919, value:6.829988]
RecommendedItem[item:920, value:6.7896104]
RecommendedItem[item:527, value:6.227647]
RecommendedItem[item:926, value:6.2026863]
RecommendedItem[item:1235, value:6.1972055]
RecommendedItem[item:1096, value:6.1763406]
RecommendedItem[item:1104, value:6.1685]
RecommendedItem[item:538, value:6.1250587]
RecommendedItem[item:412, value:5.929688]
使用基于物品的协同过滤算法
根据用户5当前浏览的商品34，推荐10个相似的商品
RecommendedItem[item:919, value:6.6934185]
RecommendedItem[item:1225, value:6.2523694]
RecommendedItem[item:926, value:6.244406]
RecommendedItem[item:1104, value:6.2245407]
RecommendedItem[item:923, value:6.187429]
RecommendedItem[item:1219, value:6.1394296]
RecommendedItem[item:527, value:6.1108875]
RecommendedItem[item:920, value:6.078272]
RecommendedItem[item:608, value:6.0102806]
RecommendedItem[item:538, value:5.8557873]
14

基于用户的推荐

package com.lzhpo.ma1.test2.movie;

import org.apache.mahout.cf.taste.common.TasteException;
import org.apache.mahout.cf.taste.impl.neighborhood.NearestNUserNeighborhood;
import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender;
import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity;
import org.apache.mahout.cf.taste.model.DataModel;
import org.apache.mahout.cf.taste.neighborhood.UserNeighborhood;
import org.apache.mahout.cf.taste.recommender.RecommendedItem;
import org.apache.mahout.cf.taste.recommender.Recommender;
import org.apache.mahout.cf.taste.similarity.UserSimilarity;
import org.apache.mahout.cf.taste.similarity.precompute.example.GroupLensDataModel;

import java.io.File;
import java.io.IOException;
import java.util.List;

/**
 * 基于用户的推荐
 * <p>
 * 数据类别：7.2万用户对1万部电影的百万级评价和10万个标签数据。
 * 数据模型下载地址：https://grouplens.org/datasets/movielens/10m/
 * </p>
 *
 * @author lzhpo
 */
public class BaseUserRecommender {
    public static void main(String[] args) throws IOException, TasteException {
        System.out.println("==================================================================");
        System.out.println("------------------------使用基于用户的协同过滤算法---------------------");
        System.out.println("==================================================================");
        //准备数据 这里是电影评分数据
        File file = new File("E:\\JavaCode\\MyProject\\Algorithm-Java\\mahout\\ma_demo1\\src\\main\\resources\\testFile\\movieData\\ml-10M100K\\ratings.dat");
        //将数据加载到内存中，GroupLensDataModel是针对开放电影评论数据的
        DataModel dataModel = new GroupLensDataModel(file);

        //计算相似度，相似度算法有很多种，欧几里得、皮尔逊等等。
        UserSimilarity similarity = new PearsonCorrelationSimilarity(dataModel);
        //计算最近邻域，邻居有两种算法，基于固定数量的邻居和基于相似度的邻居，这里使用基于固定数量的邻居
        UserNeighborhood userNeighborhood = new NearestNUserNeighborhood(100, similarity, dataModel);
        //构建推荐器，协同过滤推荐有两种，分别是基于用户的和基于物品的，这里使用基于用户的协同过滤推荐
        Recommender recommender = new GenericUserBasedRecommender(dataModel, userNeighborhood, similarity);

        //给用户ID等于99的用户推荐6部电影
        List<RecommendedItem> recommendedItemList = recommender.recommend(99, 6);
        //打印推荐的结果
        System.out.println("开始为用户ID为99的用户推荐 " +recommendedItemList.size() +"部电影......");
        for (RecommendedItem recommendedItem : recommendedItemList) {
            System.out.println(recommendedItem);
        }
    }
}

运行结果：

==================================================================
------------------------使用基于用户的协同过滤算法---------------------
==================================================================
开始为用户ID为99的用户推荐 6部电影......
RecommendedItem[item:703, value:5.0]
RecommendedItem[item:88, value:5.0]
RecommendedItem[item:215, value:5.0]
RecommendedItem[item:61, value:5.0]
RecommendedItem[item:82, value:5.0]
RecommendedItem[item:102, value:5.0]

所属分类：Java

本文标签： Java 数据结构与算法机器学习
本文链接： http://www.lzhpo.com/article/118
版权声明： 本文由lzhpo原创发布，转载请遵循《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权

Mahout实现推荐系统示例-基于7.2万用户对1万部电影的百万级评价和10万个标签数据

Mahout简介

推荐示例：7.2万用户对1万部电影的百万级评价和10万个标签数据

基于物品的推荐

基于用户的推荐

热门推荐

相关文章

关于我

本文目录

近期评论

标签云