google开始可以抓取框架内容

杜晶晶大好人°

杜晶晶大好人°

2016-02-19 17:53

下面,图老师小编带您去了解一下google开始可以抓取框架内容,生活就是不断的发现新事物,get新技能~

  google开始可以抓取框架内容,这个话在以前会有很多人不相信,可是随着GOOGLE读取和抓取技术的深入

  发展,到今天已经是件完全可以的事情!

  框架页是什么?

  就是使用一个frame src=http://具体路径/frameset实现调用其他网站/网页

(本文来源于图老师网站,更多请访问http://m.tulaoshi.com/webkaifa/)

  当你浏览a页包含了frame src=http://B/frameset这个时,看见的是B网页

  框架型网页优化技巧谈

  从一开始,框架型网站对于即使是专业的搜索引擎优化也成了一个挑战。是否该用框架技术去设计一个新网页,也已成了大家争论不休的话题。在这篇文章中,我们为你提供了一些基本的优化技术,同时你也能够了解到:如何让一个使用框架的网页为主要搜索引擎正确索引及如何对其进行优化。

  首先,让我们来看看使用框架设计的网站具有哪些好处。它的优越性体现在整个网页设计的整体性的保持及更新上。这也是为什么有相当多网站设计者都倾向于使用框架技术来进行网站的设计。尤其对于那些大型网站(至少500页以上的内容)而言,框架结构的使用可以使网站的维护变的相对容易。

  什么是框架型网页?

  如果一个网页的左边导航菜单是固定的,而页面中间的信息可以上下移动,这一般就可以认为是一个框架型网页。此外,一些框架型站点的模板在其页面上方放置了公司的Logo或图片。不过这一块也是位置固定的。而页面的其它部分则可以上下左右移动。有的框架型站点模板还会在其固定区域中放入链接或导航按钮。另外,在框架型网页中,深层页面的域名通常不会在URL中体现出来(这就意味着在浏览器的URL一栏中,不会显示你当前所看的深层页面,而是主页的URL)。 这种问题在一般结构的网站中是不存在的。

  无论是在一些内容比较好的书籍里还是在网上,你都能看到很多关于搜索引擎优化方面的文章。在这些文章当中,基本上都认为网站用框架来设计是极不可取的。这是由于大多数的搜索引擎都无法识别网页中的框架,或者无法对框架中的内容进行遍历或搜索。

  在这种情形下,又有人可能会告诉你使用框架的网站永远不可能为搜索引擎索引, 也不可能得到好的优化。这种论调对错参半。倘若框架使用得当,这种论调是站不住脚的。但对于框架的错误使用,或在网站设计时压根不考虑今天搜索引擎技术的方方面面,那么这句话又是有一定道理的。

  07年以前为什么使用框架的网页无法被正确索引?

  在此,我们将向大家解释为何使用框架的网页无法被使用网络蜘蛛(spiders)或网络爬虫(crawlers) 的主要搜索引擎(如Google)正确索引的主要原因。在一个框架网页的后台代码中,我们一般能够看到的是网页的标题标记(Meta Title)、描述标记(Meta Description)、关键字标记(Meta Keywords)及其它原标记(Meta Tags),同时你还会看到一个框架集标记(Frameset Tag)。框架中的内容在后台代码中是无法被体现的,而对于那些主要搜索引擎的搜索程序来说,如Google的GoogleBot和Freshbot,其设计思路都是完全忽略某些HTML代码,转而直接锁定网页上的实际内容进行索引。这样一来,网络蜘蛛在那些一般性的框架网页上根本找不到要搜索的内容。这是由于那些具体内容都被放到我们称之为内部网页中去了。

  现在大家都清楚了,无论对于任何网站及任何页面,真实的页面内容才是达到成功优化的一个重要因素。因此很显然,一个使用框架的网站是几乎不可能在搜索引擎中取得较好的页面等级的。现今的搜索引擎期待的只有一件事情,那就是网站的内容。这里的内容指无格式或文本格式的内容,也就是网页上所写的词和短语。

  使用Noframes标记进行优化

  使用了框架型网页并不意味着就完全无法对其网页进行优化。实际上在HTML标记中,有一个叫做NOFRAME的标记,如果使用得当的话我们就可以有效地对页面进行优化了,从而使得搜索引擎能够正确索引你框架网页上的内容信息。也有网站这样使用NOFRAMES标记:他们在NOFRAMES标记里放上这么一段话:本网页使用了框架,但您的浏览器不支持框架。请下载新的浏览器观看。

  让我们看看那些专业的搜索引擎优化公司是怎么做的吧。他们在使用了框架的网页中,有效的提供含有丰富关键字和关键短语的重要文字和内容,从而有效帮助网站在SERP(搜索引擎搜索结果页)中取得较高的排名(页面等级)。

  这样优化的结果,其实就是让主要搜索引擎不但读取了你的网页后台代码中的标题和其它原标记,而且对那些不支持框架的浏览器所无法显示的页面内容信息,也进行了索引。如果你出于某种原因非要使用框架结构,那么请紧记:在你的后台代码中一定要正确的使用NOFRAMES标记,这一点非常重要。

  很显然,我们所说的这些优化措施,只有对那些网页内容经过精心撰写,并且在内容中充分使用了重

  (_灬飘哥℡ 01:43:36

  要关键字和关键短语的网站才起作用。

  其它相关问题

  上面我们针对一个使用了框架结构的网站主页如何进行优化做出了详细的分析。我相信现在大家应该学会怎样对使用框架的其它内部页面怎样进行正确优化了吧。

  框架型网站在信息查找,建立网站正规化概念等方面有着非常显著的优势。很多使用框架技术的网站开发与设计人员,就是看上了它浏览清晰且容易维护的优点,而且还能使整个网站保持良好的一致性与整体性。

  07年我们看见以下新的情况:

  google在07年前至少飘哥没发现他可以读取框架内容,这种做法是一般SEO作弊使用和一般SEO杜绝使用的

  方法。使用恰当可以得到很好的效果,可是使用不好就是作弊!

  可是在07年的今天这个做法后,你搜索这样页面的关键字,发现爪取的内容不再是框架外A站(index.htm

  /index.html....)的内容,而是框架内B网站/页的内容!

  测试效果如下:

  http://www.google.com/search?hl=zh-CN&newwindow=1&q=site%3Asohu.net&lr=

  随便打开一个企业站(河北新鸿禧文化传播有限公司 sjzxhx.sohu.net/),

  你发现代码是:

  HTML

  TITLE河北新鸿禧文化传播有限公司/TITLE

  meta http-equiv='content-type' content='text/html;charset=GB2312'

  /HEAD

  frameset cols='0,*' frameborder=NO border=0 framespacing=0

  frame scrolling=NO noresize

  frame src=http://b2b.sohu.com/company/coms70/yp350235.html

  /framesetnoframes

  body

  script language='JavaScript'

  window.top.location.replace('http://b2b.sohu.com/company/coms70/yp350235.html');

  /script

  /body

  /noframes

  /HTML

  也就是在当前 A站:http://sjzxhx.sohu.net/的网页http://sjzxhx.sohu.net/index.html"index.html

(本文来源于图老师网站,更多请访问http://m.tulaoshi.com/webkaifa/)

  "是没有内容的只有标题"河北新鸿禧文化传播有限公司"。而我们打开站点看见的包含的B网页:http:

  //b2b.sohu.com/company/coms70/yp350235.html的内容!

  但是返回到搜索结果你发现到他竟然抓取的内容是"河北新鸿禧文化传播有限公司是一家致力于国内、国

  际文化传播,会议展览,营销策划的服务性机构。始终奉行"为客户创造最大价值"的服务宗旨。公司与

  中国各地政府部门、贸促会系统、外经贸系统、商会、各行业协会、国际展览公司、各种媒体等进行了广

  泛友好的 ...

  "sjzxhx.sohu.net/ - 43k - 网页快照 - 类似网页

  也就是B网页内容!

  再次测试是否搜索的到,随便抽查一个针对此页的关键字"公司与意大利对外贸易委员会ICE和中国意大

  利商会有着良好的合作关系"

  http://www.google.com/search?q=%E5%85%AC%E5%8F%B8%E4%B8%8E%E6%84%8F%E5%A4%A7%E5%88%A9%E5%AF%

  B9%E5%A4%96%E8%B4%B8%E6%98%93%E5%A7%94%E5%91%98%E4%BC%9AICE%E5%92%8C%E4%B8%AD%E5%9B%BD%E6%84

  %8F%E5%A4%A7%E5%88%A9%E5%95%86%E4%BC%9A%E6%9C%89%E7%9D%80%E8%89%AF%E5%A5%BD%E7%9A%84%E5%90%8

  8%E4%BD%9C%E5%85%B3%E7%B3%BB&btnG=%E6%90%9C%E7%B4%A2&hl=zh-CN&newwindow=1

  抓取的是B页面的内容,收录路径也是!

  再次测试:河北新鸿禧文化传播有限公司

  http://www.google.com/search?q=%E6%B2%B3%E5%8C%97%E6%96%B0%E9%B8%BF%E7%A6%A7%E6%96%87%E5%8C%

  96%E4%BC%A0%E6%92%AD%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8&hl=zh-CN&newwindow=1

  还是B网页内容!

  再再次测试:site:sjzxhx.sohu.net

  http://www.google.com/search?hl=zh-CN&newwindow=1&q=site%3Asjzxhx.sohu.net&btnG=Google+%E6%9

  0%9C%E7%B4%A2&lr=

  因为"sjzxhx.sohu.net域下没有其他页所以就是这么一个结果!

  但是你还是看家他爪取的内容是框架里的B页内容!

  以上几个测试还是最后这个测试更具备代表性!

  在百度:site:sjzxhx.sohu.net

  http://www.baidu.com/s?ie=gb2312&bs=iis+%D6%D0%CE%C4%D3%F2%C3%FB&sr=&z=&cl=3&f=8&wd=site%3As

  jzxhx.sohu.net&ct=0

  也实现了此技术!

  搜索:河北新鸿禧文化传播有限公司

  看见抓取的内容是B页的内容。显示的路径却是sjzxhx.sohu.net,在GOOGLE则是舍弃了sjzxhx.sohu.net

  而显示的是框架里的页的绝对路径!

  以上测试你发现了什么?和知道怎么去做了吗?

  你需要研究下哪个筐架代码至少!

  以前会发现搜索后的内容显示部分是"......"

  比如:http://www.baidu.com/s?ct=0&ie=gb2312&bs=%BF%A7%B7%C8%BC%D3%C3%CB&sr=&z=&cl=3&f=8&wd=%

  CE%DE%CE%FD%D0%C5%CF%A2%B8%DB

  至少也是"本网页使用了框架,但您的浏览器不支持框架。请下载新的浏览器观看。"

  想想是不是呢?

  现在你要优化框架型网页,那么你的方法该怎么执行,飘哥不用多说你也该明白了吧,有不理解的咨询QQ:19379458

  转载请著明出处:http://www.piaoge.cn/article.asp?id=84

展开更多 50%)
分享

猜你喜欢

google开始可以抓取框架内容

Web开发
google开始可以抓取框架内容

远程抓取GOOGLE的自动翻译结果

Web开发
远程抓取GOOGLE的自动翻译结果

s8lol主宰符文怎么配

英雄联盟 网络游戏
s8lol主宰符文怎么配

自适应高度框架 ----属个人收藏内容

Web开发
自适应高度框架 ----属个人收藏内容

RealPlayer的抓取速度是否可以提高

电脑入门
RealPlayer的抓取速度是否可以提高

lol偷钱流符文搭配推荐

英雄联盟 网络游戏
lol偷钱流符文搭配推荐

QQ空间开始使用 Google Gears 加速

电脑入门
QQ空间开始使用 Google Gears 加速

下面真正开始讲事件的内容

电脑网络
下面真正开始讲事件的内容

lolAD刺客新符文搭配推荐

英雄联盟
lolAD刺客新符文搭配推荐

网页W3C验证失败的10个常见原因

网页W3C验证失败的10个常见原因

提升网页打开速度的八个实用方法

提升网页打开速度的八个实用方法
下拉加载更多内容 ↓