2. 构建特征集 特征集包含了不同方面信息——例如URL、title、description、keywords 等信心 —— 这些都能帮助我们去打到相应内容上去。一、简介
文章排名是指在网页中,根据关键词的相关性和重要性来对文章进行排序。它可以帮助用户快速找到有用的信息,也可以帮助企业节省时间和资金。而百度作为国内最大的搜索引擎之一,如何将文章进行正确的排序就显得尤为重要了。二、 百度是如何给文章进行正确的排名
1. 分词处理 首先,当用户在输入关键字时(例如“浅谈文章”),会使用分词处理工具将它分割成单独的语义单位——“浅”、 “谈”、 “文章”三部分。然后根据不同情况对它们进行特征化处理并构建出一套特征集。
2. 构建特征集 特征集包含了不同方面信息——例如URL、title、description、keywords 等信心 —— 这些都能帮助我们去打到相应内容上去。
3. 运用PageRank PageRank 是 Google 发明出来的一套数学方法, 只要能够将 Web 页面之间相互引用(link) 的情况考虑在内, 就可以通过 PageRank 技术来对 Web 页面作出正确地评估, 最后根据 PageRank 进行 web page ranking (web page rank).
4. BM25 BM25 是 Bose-Einstein Model 25 的意思, 是一个 IR (Information Retrieval) 领域中使用最广泛的 TF-IDF (Term Frequency - Inverse Document Frequency) 的变形版本, 合起来就是 BM25 ,BM25 能够根据 query term frequency (query term frequency: query terms in the document/total number of words in the document )and inverse document frequency (inverse document frequency: logarithm of total number of documents/number of documents containing the word )来生成 score .
5. LDA LDA(Latent Dirichlet Allocation )是一个隐变量生成式 topic model ,LDA能够将document collection中documents partitioned into topics and each topic is represented by a distribution over words .LDA能够带来topic relevance scores for each docuemnts and topics .
6. Word Embedding Word embedding是word representation technique that maps words to vectors in a high dimensional space using neural networks or other machine learning algorithms .Word embeddings can capture semantic relationships between words which can be used to improve search engine results and help users find relevant information quickly and accurately .三、总结
通过上述方法:利用PageRank\BM25\LDA\Word Embedding四大方法对Webpage content with keywords \ URL \ title \ description \ keywords etc..to generate feature set for ranking purpose; we can get accurate result from search engine like Baidu when user input keyword such as "article".
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 成都快上网