课程大纲

课程大纲

网络数据挖掘

课程编码:091M5042H 英文名称:Web Data Mining 课时:40 学分:2.00 课程属性:专业普及课 主讲教师:徐君等

教学目的要求
本课程为计算机科学专业研究生一年级上开设的专业普及课,其目的是使学生初步掌握数据挖掘的基本方法及其在网络数据上的应用。本课程聚焦于数据挖掘基础理论及其在推荐系统、社交网络、互联网搜索、互联网广告中的应用及最新进展,授课与编程相结合,培养学生使用数据挖掘技术解决实际问题的能力,并逐步积累独立学习和研究的经验。

预修课程
数据结构与算法

教材

主要内容
第一部分:数据挖掘基础(9学时)
1. 网络数据挖掘的概念与发展简介(1学时)
1.1. 本课程介绍情况介绍
1.2. 网络数据挖掘简介
2. 关联规则(1学时)
2.1. 关联规则基本概念介绍
2.2. Apriori算法
3. 监督学习(4学时)
3.1. 有监督学习问题定义、结果评价、应用场景
3.2. 决策树
3.3. 感知机与支持向量机
3.4. 集成学习(Boosting)
3.5. 结构化输出学习(structured output learning)
4. 无监督学习(3学时)
4.1. 无监督学习问题定义、评价
4.2. K-Means算法、距离定义
4.3. 矩阵分解与话题模型(LSI、NMF)
4.4. 深度表达模型(word2vec)
第二部分:网络数据挖掘(27学时)
5. 推荐系统(9学时)
5.1. 推荐系统介绍
5.1.1. 推荐系统分类
5.1.2. 现实中的推荐系统
5.1.3. 推荐系统的评测
5.2. 推荐技术
5.2.1. 非个性化推荐
5.2.2. 基于内容的推荐
5.2.3. 用户间的协同过滤
5.2.4. 基于物品的推荐
5.3. 推荐系统进级
5.3.1. 冷启动问题
5.3.2. 单类系统过滤问题
5.3.3. 推荐中的信任模型
6. 图数据挖掘(9学时)
6.1. 图数据挖掘基础 (3学时)
6.1.1. 复杂网络
6.1.2. 网络结构特性
6.1.3. PageRank算法
6.2. 图聚类(3学时)
6.2.1. 网络社区发现
6.2.2. 网络压缩表示
6.2.3. 随机分块模型
6.3. 网络建模和预测(3学时)
6.3.1. 网络链路预测
6.3.2. 用户表达学习
6.3.3. 信息传播预测
7. 互联网搜索与计算广告(9学时)
7.1. 信息检索系统介绍(1学时)
7.2. 传统排序模型(2学时)
7.2.1. 相关性排序:布尔模型、VSM、BM25、LM4IR
7.2.2. 多样化排序
7.3. 用于互联网搜索的排序学习(2学时)
7.3.1. 排序学习问题定义
7.3.2. 排序学习算法(point-wise/pair-wise/list-wise)
7.4. 查询-文档匹配(1学时)
7.4.1. 互联网搜索中的查询-文档失配问题
7.4.2. 基于隐空间的匹配模型
7.4.3. 最新进展(深度匹配模型)
7.5. 计算广告(3学时)
7.5.1. 计算广告问题介绍
7.5.2. 搜索广告与上下文广告
7.5.3. 程序化交易广告
7.5.4. 广告排序与定价
7.5.5. 点击率预估

第三部分:专题讲座(3学时)
8. 网络数据挖掘专题讲座
8.1. 拟邀请互联网企业研究人员讲座一次,关注于互联网企业应用网络数据挖掘算法解决实际问题的过程中所遇到的困难和解决方案

作业、考核方式与成绩评定
考核采取平时考核与考试相结合的方式。平时成绩为40%,考试为60%。
平时成绩包括(40%):4次作业(各为5%)、1次大作业(20%)、课堂纪律、考勤、讨论等。
闭卷考试包括(60%):分别针对数据挖掘基础(20%)、推荐系统(10%)、社交网络(10%)、互联网搜索(10%)、互联网广告(10%)5个方面。
首次课程时,明确作业纪律、考试纪律、打分标准。力求考核严格、公正、透明。

参考文献
数据挖掘基础部分:Bing Liu. Web Data Mining. Springer, 2007.
互联网搜索部分:Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.

课程教师信息