Googleはnoindex robots.txtディレクティブのサポート終了|2019年9月1日から

Googleはnoindex robots.txtディレクティブ2019年9月1日以降、
サポート終了
をすることを発表しました。

サポートされていない未公開のルール(noindexなど)を
処理するすべてのコードを2019年9月1日で廃止するとのことです。

※ディレクティブとは:プログラム上の命令をする「指示文」のようなもの

「we’re retiring all code that handles unsupported and unpublished rules (such as noindex) on September 1, 2019.」
(2019年9月1日に、サポートされていない未公開のルール(noindexなど)を処理するすべてのコードを廃止します。)

※引用 Googleの公式発表:Googleウェブマスターセントラルブログ
「A note on unsupported rules in robots.txt」

noindex robots.txtディレクティブのサポート終了に関するTwitterでの公式発表

Today we’re saying goodbye to undocumented and unsupported rules in robots.txt
If you were relying on these rules, learn about your options in our blog post.

※Google翻訳
本日、robots.txtで文書化されておらず、サポートされていないルールに別れを告げています。
これらのルールに依存している場合は、ブログ投稿でオプションについて学習してください。

noindex robots.txtディレクティブとは

ちょっと、難しく感じるかもしれませんが、
闇雲に慌てないためにも、大事なことなので、
よく理解しておいてくださいね。

noindexタグは検索結果に表示したくない時に使用するタグです。

どうして、検索結果に表示したくないかというと、
そのページがデザインを考えるために仮に作ったものである場合や、
同じ内容のページを複数公開する必要がある時に作る”ミラーページ”の場合などです。

検索結果に表示するためにGoogleは我々のサイトのページを
「index(インデックス)」といって、
まず、Googleのサーバの中に登録します。

その登録(=index)されなくするのが、
「noindex」タグというわけです。

そして、noindexタグで登録されないように指示する方法として、
「robots.txt」と「robotsメタタグ」があると思って下さい。

今まで、noindex robots.txtディレクティブを使用することによって、
Googleの検索結果に設定したページを表示しないようにすることは可能でした。

しかし、noindex robots.txtディレクティブは
元々は公式のディレクティブではありません。

ですので、
Googleはrobots.txtのnoindexディレクティブにほぼ従って、
有効に機能させてくれていましたが、

それをやめたからと言って、
文句は言えない的な感じですね。

好意で有効にしてくれていたというところでしょうか。

以前から、いつサポートを終了するかもしれないし、
インデックスを削除する方法としては、noindex robots.txtディレクティブは
推奨しないと言っていました。

「robots.txt でファイルをブロックしてはいけないのはなぜですか?」

「ウェブサイトで robots.txt ファイルを使用すると、そのページは Google によってクロールされなくなります。しかし、別のサイトでそのページへのリンクと説明が見つかると、それに基づいて検索結果が生成される場合があります。ページに noindex タグが含まれている場合、Google がそれを見ることはありません。noindex タグを検出するためには、ページをクロール(取得)する必要があるためです。しかし、robots.txt ファイルでブロックしている場合、Google はページを取得しません。つまり、Google にページをクロールさせて、noindex タグ(またはヘッダー)を見せる必要があるのです。直感的に理解しづらいかもしれませんが、(たとえばパスワード保護を利用して)Google にページを取得させて失敗させるか、noindex タグを検出させて検索結果から除外させる必要があるということです。

ただし、この方法は画像には適用されません。画像の場合は、robots.txt を使用して検索結果から除外してください。」

※引用:Search Consoleヘルプ「Google から情報を削除する」

クロールとかインデックスって何?

クロール、インデックスとは、
GoogleはGooglebot(グーグルボット)という、クローラ(Webロボット=ソフトウェア)によって、世界中のWebサイトを登録するために巡回します。この巡回することをクロールといいます。クロールしてWebサイトを登録していくことをインデックスといいます。

※参考:Google検索の仕組み|Googleのクロールやインデックスの仕組みを動画でわかりやすく解説

【SEO対策情報】Google検索の仕組み|Googleはどのようにして様々な情報を検索しているのか?

インデックスされなくする(Googleの検索結果にページを表示されなくする)方法は?

ここで間違えないでほしいのは、
インデックスされなくする方法がなくなるわけではありません。

また、修正する必要があるのは、

「noindex robots.txtディレクティブ」
を使用していた場合だけです。

「robotsメタタグ」を使用している場合は、
そのままで大丈夫です。

  • robots.text
  • robotsメタタグ

これらは別物なので注意が必要です。

9/1からサポートが中止されるのは
「Robots.txt Noindex」の方。

「robotsメタタグ」は
代替手段として推奨されています。

「For those of you who relied on the noindex indexing directive in the robots.txt file, which controls crawling, there are a number of alternative options:(クロールを制御するrobots.txtファイルのディレクティブには、多数の代替オプションがあります。)」

「Noindex in robots meta tags: Supported both in the HTTP response headers and in HTML, the noindex directive is the most effective way to remove URLs from the index when crawling is allowed.(robotsメタタグ内のNoindex: HTTP応答ヘッダーとHTMLの両方でサポートされているため、クロールが許可されている場合にインデックスからURLを削除する最も効果的な方法はnoindexディレクティブです。)」

引用:Googleの公式発表:Googleウェブマスターセントラルブログ
「A note on unsupported rules in robots.txt」

SIRIUSで入力する「noindex」タグは大丈夫?

例えば、アフィリエイターには定番のサイト作成ツールである
「SIRIUS」で、検索結果に表示したくない場合に使用する
ワンボタンで自動的に表示され、<head>タグ内に記載する以下のタグ。

<meta name=”robots” content=”noindex,nofollow,noarchive”>

これは大丈夫ですので安心して下さい。

また、このタグそのものは、
SIRIUS以外のサイトに設置しても問題ありません。
その場合、<head>~</head>タグの間に設置して下さい。

SIRIUSの場合、
エントリーページやカテゴリページから以下の設定です。
「ページ設定」>上級者向け設定タブ>定型文ボタン>検索エンジン拒否(Noindex)

SIRIUSでのnoindex設定

「noindex」だけ指示したい場合は、以下のタグになります。

<meta name=”robots” content=”noindex”>

<head>タグ内に記載します。

Googleが推奨する、その他のインデックスさせない方法は?

Googleはインデックスさせない方法を
いくつか推奨しています。

  • noindex メタタグ
  • 404 または 410 の HTTP ステータスコード
  • パスワード保護
  • robots.txt の Disallow
  • Search Console の URL 削除ツール

ですが、クロールさせつつ、
インデックスさせないという意味では、

一番一般的なのは、ひとつめの
「noindex メタタグ」だと思います。

nofollowとは?

よく似ているタグに「nofollow」タグがあります。

上記のSIRIUSのタグにも含まれていましたよね。
「noindex」だけでイイはずなのに、これなに?
って感じですよね。

<meta name=”robots” content=”noindex,nofollow,noarchive”>

「nofollow」とは、
noindexを設置したページにあるリンクから、
クローラーに、その先のページに移動させたくない場合に使用します。

一般的には、自分のWebサイトの評価を他のサイトに渡したくない場合に
使用することが多いです。

「nofollow」だけ指示したい場合は、以下のタグになります。

<meta name=”robots” content=”nofollow”>

<head>タグ内に記載します。

noarchiveとは?

これまたよく似たタグで「noarchive」があります。

Googleはインデックスする際に、
キャッシュといって、対象のページのコピーのようなものを作成します。

このキャッシュは普通に検索結果画面から見ることが出来ますので、
このようにコピーであるキャッシュページも見られたくない場合
noarchiveタグを設置します。

「noarchive」だけ指示したい場合は、以下のタグになります。

<meta name=”robots” content=”noarchive”>

<head>タグ内に記載します。

ご参考になれば幸いです。

追記

2019年7月30日ころから、当てはまるサイトのウェブマスターに対しては、
サーチコンソールから警告が送られています。確認しておきましょう。

SERCH ENGINE ROUNDTABLE「Google Search Console Notices For Removing Noindex Robots.txt」

https://www.seroundtable.com/google-search-console-notices-noindex-robots-27955.html

参考記事

SERCH ENGINE ROUNDTABLE「Google To Drop Any Support For crawl-delay, nofollow, and noindex in robots.txt」
https://www.seroundtable.com/google-noindex-in-robots-txt-dead-27824.html

Search Engine Journal「Google Cancels Support for Robots.txt Noindex」
https://www.searchenginejournal.com/google-robots-txt-noindex/314961/

Search Consoleヘルプ「Google から情報を削除する」
https://support.google.com/webmasters/answer/6332384?ref_topic=1724262

Google Webmaster Central Blog「A note on unsupported rules in robots.txt」
https://webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html