数据挖掘-第七章 关联规则
7.1 项集与规则Frequent Itemsets
item 商品
transaction(basket) 交易:一组商品,商品的非空子集
cross selling
bundle discount
shop layout design
“baskers” & “items” <—> sentences & words
Association Rules
定义
$T=\{i_a,i_b,…,i_t\}$ 交易:商品的非空子集
$T$是$I$的子集,$I$是所有商品的集合
D是一组交易的集合,即数据集
关联规则:$P \Rightarrow Q\ where\ P \subset I,Q\subset I\ and\ P\cap Q = \varnothing$举例:买了牛奶和面包可能会去买黄油和果酱
itemset:商品的集合
k-itemset:k件商品的集合
Sequential Patterns
🎓A Linguistic Study on Relevance Modeling in Information Retrieval
1. ABSTRACTIR已经成为许多现实世界应用中的核心任务,例如网络搜索引擎,问题应答系统,会话机器人等IR任务中的相关性的定义和建模在信息科学和计算机科学研究领域始终是一直是关键挑战。具体来说,我们试图研究以下两个问题1、三种相关性统一模型(对应三种信息检索任务)在 对于文本的自然语言理解层面真的有不同吗?2、如果确实不同,如何将三种IR任务的内在异质性应用到 相关性模型中,并提高相关性模型的表现?
2. Introduction3. Retrieval tasks in information retrieval3.1 Document Retrieval查询和文档之间的长度异质性。用户查询通常很短,而且不明确的意图,在大多数情况下仅包括几个关键词。平均查询长度约为2.35个词这些文件通常从万维网收集,并且具有更长的文本长度,从多个句子到几个段落。
3.2 Answer Retrieval问题通常是自然语言,这些语言是良好的句子,并具有更明确的意图描述答案通常是短文本答案不仅应该与局部相关但也正确解决问题早期的统计方法专注于复杂的特征工程近年来,端到端的神经模型已应用于相关性 ...