www dfrobot com dfrobot官网下载


www dfrobot com dfrobot官网下载

文章插图
大家好,小甜来为大家解答以下的问题,关于dfrobot官网下载,www dfrobot com这个很多人还不知道,现在让我们一起来看看吧!
1、1.关键词的提取,取一篇网页的源文件(例如通过浏览器的“查看源文件”功能),我们可以看到其中的情况纷乱繁杂 。
2、从认识和实践来看,所含的关键词即为这种特 征最好的代表 。
3、于是,作为预处理阶段的一个基本任务 , 就是要提取出网页源文件的内容部分所含的关键词 。
4、对于中文来说,就是要根据一个词典Σ,用一个所谓 “切词软件” , 从网页文字中切出Σ所含的词语来 。
5、在那之后 , 一篇网页主要就由一组词来近似代表了,p = {t1,t2,…,tn} 。
6、一般来讲,我们可能得到很多词,同一个词可能在一篇网页中多次出现 。
7、从效果(effectiveness)和效率(efficiency)考虑,不应该让所有的词都出现在网页的表示中,要去掉诸如“的” , “在”等没有内容指示意义的词,称为“停用词”(stopword) 。
8、这样,对一篇网页来说,有效的词语数量大约在200个左右 。
9、 2.重复或转载网页的消除,与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来了便利,因此我们看到Web上的信息存在大量的重复现象 。
10、这种现象 对于广大的网民来说是有正面意义的,因为有了更多的信息访问机会 。
11、但对于搜索引擎来说 , 则主要是fu/mian的;它不仅在搜集网页时要消耗机器时间和网 络带宽资源,而且如果在查询结果出现,无意义地消耗了计算机显示屏资源,也会引来用户的抱怨,“这么多重复的,给我一个就够了” 。
12、因此,消除内容重复或主 题内容重复的网页是搜索引擎抓取网页阶段的一个重要任务 。
13、 3、链接分析,大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇 。
14、从信息检索的角度讲 , 如果系统面对的仅仅是内容的文字,我们能 依据的就是“共有词汇假设”(shared bag of words),即内容所包含的关键词集合,最多加上词频(term frequency或tf、TF)和词在文档集合出现的文档频率(document frequency或df、DF)之类的统计量 。
【www dfrobot com dfrobot官网下载】本文分享完毕,希望对大家有所帮助 。

    推荐阅读