推荐问题中ID类特征的处理办法

推荐问题中ID类特征的处理办法

ID类特征处理办法

什么是id类特征

onehot

tfidf

ID类特征embedding

embedding直接嵌入到模型中

ids通过上下文关系转化为embedding

什么是id类特征

举腾讯2020年的广告大赛为例子

如上图所示:原始数据经过脱敏之后是一些id数字类的特征,这些每一个creative_id代表一种广告,若将id类特征onehot之后将会得到很大的类矩阵,接近300万维,这是不可能做后续工作的。因此需要通过id2embedding方法将id类特征变成低维稠密的embedding向量。

onehot

非正常人做法QAQ

tfidf

首先什么是tfidf: 词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。) t f w , i = 文 本 i 中 词 w 出 现 的 次 数 文 本 i 中 所 有 词 的 个 数 tf_{w,i}=\frac{文本i中词w出现的次数}{文本i中所有词的个数} tfw,i​=文本i中所有词的个数文本i中词w出现的次数​ i d f w = 文 本 的 总 数 包 含 词 w 的 文 本 总 数 + 1 : + 1 是 为 了 避 免 分 母 为 0 − 平 滑 idf_{w}=\frac{文本的总数}{包含词w的文本总数+1}:+1是为了避免分母为0-平滑

相关推荐

如何设置无线中继?
365亚洲体育投注

如何设置无线中继?

📅 07-05 👁️ 4064
科比生涯20个赛季,科比在NBA一共打了多少年的球
beat365中国官方网站

科比生涯20个赛季,科比在NBA一共打了多少年的球

📅 07-17 👁️ 1061
soul怎么发不了图片 soul无法发布图片解决方法