发新话题
打印

网页抓取优先策略

网页抓取优先策略

网页抓取优先策略也称为“页面选择问题”(page Selection),通常是尽可能地首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。那么哪些网页才是重要性高的呢?如何量化重要性呢?


重要性度量由链接欢迎度、链接重要度和平均链接深度这个方面决定。


定义链接欢迎度为IB(P),它主要由反向链接(Backinks)的数目和质量决定。首先考察数目,直观地讲,一个网页有越多的链接指向它(反向链接数多),那么表示其他网页对其的认可。同时这个网页被网民访问的机会就大,推测出其重要性也就越高;其次考察质量,如果被越多的重要性高的网指向,那么其重要性也就越高。如果不考虑质量,就会出现局部最优,而不是全局最优的问题。最典型的就是作弊网页,人为地在一些网页中设置了大量反策链接指向其自身的网页,以提高该网页的重要性。如果不考虑链接质量,就会被这些作弊者所利用。


定义链接重要度为IL(P),它是一个关于URL字符串的函数,仅仅考察字符串本身。链接重要度主要通过一些模式,比如认为包含“.COM”或者“HOME”的URL重要度高,以及具有较少斜杠(Slash)的URL重要度高等。


定义平均链接深度为ID(P),此为笔者所创。ID(P)表示在一个种子站点集合中,每个种子站点如果存在一条链路(宽度优先遍历规则)到达该网页,那么平均链接深度就是这个网页的又一个重要性指标。因为距离种子站点越近,说明被访问的机会越多,离种子站点越远,重要性越低。事实上,按照宽度优先的遍历规则即可满足这种重要性高的网页被优先抓取的需要。


最后,定义网页重要性的度量为I(P),它由以上两个量化值线性决定,即:
I(P)=a*IB(P)+β*IL(P)


平均链接深度同宽度优先的遍历规则保证,因此不作为重要性评价的指标。在抓取能力有限的情况下,如果能够把重要性高的网页尽可能地抓完,是合理科学的,最终被用户查询到的网页也往往是那些重要性高的网页。


尽管这样看来已经足够完美,事实上,还是忽视了一个重要的要素--时间。时间导致万维网动态变化的一面。如何抓取那些新增的网页呢?如何重访那些被修改了的网页呢?如何发现那些被删除了的网页呢?为了保持和万维网网页的同步变化,就必须有网页重访策略。通过该策略可以识别增加、修改及删除网页这3种网页变化的情况。

TOP

好外挂

当初QQ华夏外挂|QQ华夏下载第一次降价时,金币与人民币的兑率不过是6000J=100元人民币,本人适逢其时,在四个服务器上做起倒买倒卖的生意。四天时间挣得人民币1600元整。其实挣钱的方法很简单:价值100元人民币的点券能换40个武魂,每个190J出手甩了,得J实为7600J。去除6000J卖成人民币,还剩1600J在手。用网银充值打8。8折优惠,在5173卖J扣10元手续费。实际算来就是:我用88元充值,换成天龙八部外挂卖了,能挣2元钱和1600J。每做4笔生意我就净挣人民币90元还带零。(新买的佳能数码相机就是这样挣出来的)

后来J换RMB的兑率升到7000J了,本人剩两个单子没卖出去,在某一地下城与勇士外挂寄售里转了一圈,发现三品的价格还是12J上下,真便宜,海魂才5J一个,更便宜。于是无声无息间收了两天不到5J的海魂,第三天突然发力,将三品和7J以下的海魂全吃了。然后屯货,继续吃。一直吃到冒险岛外挂格升到近8J才以7J的价格甩放。成功完成一次海魂的操盘。离开这个服务器时,海魂的价格已经涨到了近9J,远远超出我当初想把它抬到7J的预想。可见人是贪婪的,追求的永远是利益,我是这样,所有人也是这样。

那个时候口袋西游外挂真是阳光灿烂,觉得挣钱不过如此。简单至极。

TOP

看帖不顶不厚道~~我顶~~~~

TOP

.

路过留个脚印  呵呵~




























做个广告容易不咯!office手机QQ金山词霸下载金山翻译金山毒霸

TOP

24

TOP

98

TOP

98

TOP

68

TOP

96

TOP

96

TOP

98

TOP

发新话题