无须将您的网站提交给 Google 就可以加入 Google 搜索结果,而且还有一点可能更让您感到满意,就是加入 Google 搜索结果是完全免费的。Google 是一个完全自动的搜索引擎,它通过使用称为"Spider"的软件定期抓取 Web,从而找到加入索引的网站。列入索引的绝大多数网站都不是人工提交的,而是在 Spider 抓取 Web 时找到并将其自动添加进来。
要确定您的网站当前是否已包含在我们索引中,可以对此网站的整个网址进行查询。例如,搜索 [ site:www.google.com] 将返回以下结果: http://www.google.com/search?hl=en&q=site%3Awww.google.com+
虽然 Google 可抓取超过几十亿网页,但丢失几个网站也在所难免。造成 Spider 丢失网站的常见原因有:
– 此网站未通过多个链接牢靠连接到 Web 上的其它网站。
– 在 Google 的最新抓取完成后此网站才启动。
– 网站的设计使 Google 很难有效抓取其内容。
公平准确地展示互联网的内容是我们的宗旨。为了实现此目标,我们提供了建立"便于抓取"网站的指南: http://www.google.com/webmasters/guidelines.html
我们无法保证 Spider 能找到某特定网站,但遵循以下指南应该可以增加您的网站显示在搜索结果中的机会。
您需要在网页上提供高品质的内容 — 特别是在主页上。这是您应该做的最重要的工作。如果您的网页包含有用的信息,其内容就可以吸引许多访问者并使网站管理员乐于链接到您的网站。要创建具有实用性且信息丰富的网站,网页文字应清晰、准确地表述要传达的主题。想一想,用户会使用哪些字词来查找您的网页,然后尽量使这些字词包括在网站上。
确保有网站链接到您的网站上。链接可帮助我们的抓取工具找到您的网站,并提高您的网站在我们的搜索结果中的展示率。返回搜索结果时,Google 会将 PageRank(我们对网页重要性的评测)与先进的文字匹配技术合并使用,以显示对每个搜索结果都兼具重要性与相关性的网页。Google 会计算一个网页收到的投票数量,以确定其 PageRank,其计算方法是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。自身"重要"的网页所投的票会更具分量,有助于提高其它网页的"重要性"。请注意,网站在我们的搜索结果中的排名是完全自动的,我们并不人工地为网站指定关键字。
以合理的链接结构建立您的网站。每个网页应至少可以通过一个静态文本链接打开。如果某些区域未链接,您就可能把较低版本的浏览器、某些用户、甚至 Google 排除在外。
使用文本浏览器(如 Lynx)检查您的网站。大部分 Spider 查看网站的方式与 Lynx 一样。如果因应用了 JavaScript、Cookie、会话 ID、框架、DHTML 或 Macromedia Flash 等技术,而造成在文本浏览器中无法看到整个网站,则 Spider 在抓取此网站时可能也会遇到麻烦。
考虑创建动态网页的静态复本。虽然 Google 索引中包括动态网页,但它们只占索引的一小部分。如果您怀疑您的动态生成的网页(例如包含问号的网址)给我们的抓取工具带来了麻烦,可以为这些网页创建静态复本。如果要创建静态复本,不要忘记将动态网页添加到您的 robots.txt 文件,以防止我们将其当成重复内容。
需要避免的事项
不要使用关键字列表填写网页、尝试将网页"隐藏"起来或建立"仅供抓取"页。如果您的网站上包含您不希望访问者看到的网页、链接或文字,Google 会认为这些内容具有欺诈性并可能撇开您的网站。
您并不是非购买搜索优化服务不可。有些公司声明可以"保证"您的网站在 Google 搜索结果中享有高排名。合法的咨询公司可以改善您网站的流量和内容,但其它公司会采用欺骗性手段来骗过搜索引擎。请务必小心;如果您的网域与这些欺诈性服务相关,我们可能禁止其加入我们的索引。
不要使用图片来显示重要的名称、内容或链接。我们的抓取工具无法识别图形中所含的文字。如果网页上的重要内容和关键字不能以普通的 HTML 格式显示,请使用 ALT 标记。
不要为不同网址下的一个网页创建多个复本。许多网站提供纯文本的或易于打印的网页,其包含的内容与相应的图形丰富的网页不相上下。为了确保您需要的网页包括在我们的搜索结果中,您应使用 robots.txt 文件拦截我们的 Spider 抓取到的重复内容。有关使用 robots.txt 文件或元标记的信息,请访