サイトマップ結合プラグインからサイトマップページを作成してみよう

SOY CMSでサイトマップ結合プラグインを作成しましたで、SOY CMSとSOY Shopで作成した各々のサイトマップのXMLファイルを統合して、一枚のXMLファイルを生成するプラグインを紹介しました。

このプラグインを活用して、サイトマップのページを作成したいという要望がありましたので、

SOY CMSのモジュールを活用して、サイトマップのページを作成してみます。

モジュールについては下記の記事をご覧ください。

SOY CMSでどのページでも使えるブログのサイドバーを作ってみた

SOY CMS/ShopでPHPモジュールに使用の制限を設けました

はじめに

sitemap_module

サイトマップ用のモジュールを作成します。

このモジュールのタグをサイトマップを表示したいページに貼り付けます。

ページにタグを貼り付けたら、モジュールのエディタを開き、コードを書いていきます。

コードを作成するに当たって行わければならないことは、

・サイトマップ統合プラグインで作成したXMLファイルを読み込む

・読み込んだサイトマップから各ページへのリンクを生成する

リンクの生成に関して、一点程問題が生じる。

それは、

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
	<url>
		<loc>http://example.com/</loc>
		<priority>1</priority>
		<lastmod>2016-09-10T11:48:51+09:00</lastmod>
	</url>
</urlset>

生成されるXMLを読むと、ページ名が登録されていないということ。

読み込んだXMLからリンク一覧を作成する際、ページ名を取得する処理を加えなければならない。

ページ名の取得を考えてみたところ、

ページ名を取得するときは、対象となるページのHTMLを取得して、head内にあるtitleタグの値を取得すれば良さそうなので、この処理を追加することにしよう。

これらを踏まえてコードを書いてみた。

//サイトマップ統合プラグインで生成したXMLファイルを取得する。
$xml = simplexml_load_string(file_get_contents("http://example.com/merge.xml"));

$htmls = array();

//念の為にXMLファイルにURLが格納されているか調べてからHTMLに出力する
if(count($xml->url)){
	$htmls[] = "<ul>";
	foreach($xml->url as $obj){
		//XMLに記述されている各ページのHTMLを取得する
		$html = @file_get_contents($obj->loc);

		//HTMLを取得出来なかった場合はスルー
		if(is_null($html)) continue;

		//titleタグに記述されている文字列を取得して、リンクを生成する
		if(preg_match('/<title>(.*)<\/title>/', $html, $tmp)){
			$htmls[] = "<li><a href=\"" . $obj->loc . "\">" . htmlspecialchars($tmp[1], ENT_QUOTES, "UTF-8") . "</a></li>";
		}
	}
	$htmls[] = "</ul>";
}

echo implode("\n", $htmls);

これでなんとか出来そうだと実行してみたところ無限ループにハマった。

どこでハマった調べてみたら、

XMLに記述されている各ページのURLからHTMLファイルを取得する処理で、

今回のモジュールのタグを設置したページからHTMLを取得する際、再起みたいに何度もこのモジュールが発生するらしい。

この問題を避けるために、

//GETでxml_searchというindexがある場合は処理を行わない
if(isset($_GET["xml_search"])) return;

$xml = simplexml_load_string(file_get_contents("http://example.com/merge.xml"));

$htmls = array();
if(count($xml->url)){
	$htmls[] = "<ul>";
	foreach($xml->url as $obj){
		//HTMLを取得する際、URLの末尾に?xml_searchを追加しておく
		$html = @file_get_contents($obj->loc . "?xml_search");

		if(is_null($html)) continue;

		if(preg_match('/<title>(.*)<\/title>/', $html, $tmp)){
			$htmls[] = "<li><a href=\"" . $obj->loc . "\">" . htmlspecialchars($tmp[1], ENT_QUOTES, "UTF-8") . "</a></li>";
		}
	}
	$htmls[] = "</ul>";
}

echo implode("\n", $htmls);

上記の様にHTMLを取得する際に、xml_searchというGETのパラメータを追加しておき、このパラメータがあるページでは、今回のモジュールは実行しないという処理を追加することで、再起っぽい関数の実行を避けることができた。

※タグを設置したページを最初から除外しておく方法もある

とりあえず表示の確認をしてみると、

sitemap_module_dsp