点开工具、字典、anything


内容推荐大概思路

<p>暂时我个人的思路是这样的: 暂时使用的是素材的标题来实现文章关联推荐: 1:先给文章的标题进行分词处理。</p> <p>2:先给所有文章的分词进行过滤,(自家过滤词+百度过滤词)</p> <p>3:分词过滤后筛选出关键词,关键词筛选规则现在的想法是: 使用tf-idf算法求出每一篇文章的关键词(tf-idf所求出的值越大可以认为其实是该文章的关键词,暂定是筛选其中的1-2个(并列的大小随机选))</p> <p>4:根据第三步提取的每篇文章的关键词,每两两文章进行关键词比较(余弦相似度)求出相似度,相似度范围定在(0-1),得分越高的相似度越高。</p> <p>(注:每两篇文章进行比较流程:针对第三步求出的关键词,求出两两文章关键词的向量,在用余弦相似度求出相似度)</p> <hr /> <p>当前问题:</p> <p>两两文章的比较这种效率是否能够优化</p> <p>对相似度文章的排重还没定下来 (算,还是存)</p> <p>最终的处理结果的格式?(数据结构)</p> <p>存放方式?(数据库选型是 hbase 吗?)</p> <p>以及利用形式?(在哪个接口下发,如何上报和对比?)</p> <hr />

页面列表

ITEM_HTML