こちらのページ ttp://blogs.yahoo.co.jp/tsus_h/56007316.html
にて、解説されているサイトの復元を行うスクリプトの制作をお願いできないでしょうか?
当方、スクリプトとかプログラムは全く詳しくないので、使い方も含めて丁寧に説明してもらえると助かります。
■サイト復元の要点
※ 参照サイトの方法にこだわる必要はありません。
※ きちんと要点を踏まえてたサイト復元が出来ればOKです。
・トップページだけでは無く、下層のページも復元できる方法である。
・ボタン一つというか簡単な設定で復元できること。
・画像の復元は無理だと思うので、こちらは復元なくても大丈夫です。
・HTMLファイルの形式で復元する方法であること。
・復元したHTMLファイルは基本的にそのままウェブ上にUPするので追加作業がほとんど必要ではない方法であること。(要は元のファイルをそっくりそのまま復元)
要は、サクッと復元して、さくっとWEB上にUP出来る方法であればOKということになります。
宜しくお願いします!!!
コメントにも書きましたがどこかのアーカイブサービスにキャッシュが残っていることが前提条件です。
GUI操作なら巡集
お気に入りのテキストサイトの過去ログをローカルで保存しておきたい。 :教えて君.net
コマンドライン
archive.orgやgoogleなど、どこのキャッシュをぶっこぬくかで条件を調べる必要がありますがwget
連絡いただいたサイトはほとんど情報が残っていなかったため、warrick では
一部しか再構築できませんでした。
また、warrick は実行してみると、設定手順は意外とシンプルだったので
一応ご自身の手でwarrick を使用できるように回答します。
基本的には既に warrick のサイトで説明されている内容を実行するだけなので、
英語や情報量に臆さず順番にやっていくだけですが、大まかな手順をまとめてみました。
(1)まず下記から warrick をダウンロードし、解凍します。
(説明の便宜上、解凍したフォルダを C:\warrick に置くことを想定します。)
http://warrick.cs.odu.edu/warrick.html#downloading
(2)次に使っているPCが Windows であれば下記の右側にある青いボタンを押して、
インストーラをダウンロードして、実行します(ファイルを実行でも可です)。
http://www.activestate.com/activeperl/downloads
注)インストール中に、表示される下記のオプションにチェックをつけてください。
□ Add Perl to the PATH environment variable □ Create .pl script mapping to Perl
(3)インストールが完了したら、Windows の「スタート」から下記を起動し、1~5の手順を実施します。
「すべてのプログラム」⇒「ActivePerl 5.12.4....」 ⇒ Perl Package Manager
- 「View」メニューから「All Packages」をクリックします。
- リストから「SOAP Lite」を右クリックし、「Install SOAP Lite 0.714」を選択します(数字はその時によって変わります。)
- リストから「Class Inspector」を右クリックし、「Install Class Inspector 1.25」を選択します(数字はその時によって変わります。)
- 「File」メニューから「Run Marked Actions 」をクリックします。
- 下のDetails にインストール完了したメッセージが出たら Perl Package Manger を終了します。
以上で Perl の設定は終了です。以下 Warrick の実行ですが、
(4)Windowsの「スタート」の「アクセサリ」からで「コマンドプロンプト」を実行します。
(5)黒いウィンドウが表示されるので、下記のように入力してください。
C:\Users\xxxxx>cd \Warrick C:\Warrick>warrick.pl -r -d -c "http://www.foo.bar/"
注1)入力する文字は>より後ろの部分だけです。
注2)http://www.foo.bar は実際に再構築したい URL
で処理が始まります。
ここで頼むのが一番です。
しっかりとものを確認してから報酬が払えます。
http://www.atsoho.com/jobinfo/detail/no-37350.html
もし、どうしても自分でというなら
これらを参考に
http://office.microsoft.com/ja-jp/office-live/HA010195977.aspx
http://blogs.yahoo.co.jp/tsus_h/56007316.html
http://jmemo.hiroba.de/joomla/ja/jacomp/akeeba/19-akeeba/40-ksabi.html
自分はできないって言っている人はなぜここに出てくるんですか
出来る人を探しているのに
http://www.go2group.jp/pages/viewpage.action?pageId=34865324
気がつくのが遅れて(高いポイントに)、質問と回答をざっと流して読んで、こういうことを答えれば良いのかと、回答を入れてしまいました。すみません。
それからよく読んでみたら、質問キャンセルして、ある程度Mookさんにつけたりするのが良いような感じの質問になっている事に気がつきました。
質問キャンセルというのは認められているので、そうされるのが良いと思います。
ツールの使い方は説明しつくされていると思いますので、今後の進め方について検討してみます。
以上のような手順が良いと思います。
成功を祈っております。がんばってください!
コメント(14件)
ロストしたページの方は出来れば非公開で行きたいですっ。
すいませんっ。
>warrick 自体がスクリプトなので、スクリプトの作成という依頼はピントが少しずれているように思います。
なるほどです。
と言いならがちょっと意味が分かっていないです。
サイトを復元するには、僕の方のPCで色々とインストールしたり、スクリプトを実行する必要があると思うのですが、その辺りを個別メールなどで100%サポートしてもらうというのはどうでしょうか?
(2サイトぐらい復元すればやり方を覚えられると思っています。)
一応、今後も他のサイトを定期的に復元していきたいので、僕の方で操作できるようにお願いしたいです。
どうでしょう?
自分でやってみましたが、例のヤフーブログの説明は難しすぎて僕には無理でした。
warrickはDLできましたが解凍ソフトで展開したところで「google_key.txt」というものが出てこず、この時点でアウトです。(Google Maps API キーは取得済みですが)
もしかしたらヤフーブログの記事自体が古いものですので、warrickの仕様自体が変わっているかもしれません。
僕の希望としては、
全部段取りが整った状態の「warrick」をファイアーストレージで送ってもらって、あとは、必要なPerlスクリプトのDLの方法、warrickの具体的な使い方などを説明&サポートしてもらえればと思っています。
もちろん正式にサポートしてもらうことが決まった場合には、復元サイトのURLはお伝えする予定です。
どうでしょうか?
つまり、MookさんにURLを教えて復元してもらった方が早いということですよね。
取りあえず2サイトあるのですが、何ポイントでお願いできますか?
Internet Archive, Google, Bing, and Yahoo
にキャッシュがあるか確認してからのほうがいいのではないでしょうか。
http://www.archive.org/
ありがとうございます。
インターネットアーカイブですね。
これは知ってます。
例えば、数十ページ以上のページ構成のサイトを復元するときだと手動だと時間が掛かりまくるので、今回の相談になったという訳ですっ。
お騒がわせしておりますっ。
Mookさん
了解です。
取りあえず後程メールさせて頂きますっ。
宜しくお願いします。
せっかくせっかく調べたのですが、No.5の方と回答が同じでした…。
希望者さんとお話が進んでいるようなので参考までに。
warrickの使い方のページ上げる方がほとんどなので
http://frankmccown.blogspot.com/2011/08/warricks-status.html
作者のブログよりwarrickの現状です。
要旨1:web archiveのインターフェースが変わった→ warrickはもう機能しないので新規でスクレイピング用のスクリプト製作が必要です。
要旨2:google web API が終了しました。あと,http経由での機械的なリクエストに過敏になりましたのですぐにspam扱いでブロックされます。
google経由は(機械では)ほぼ取ってこれません。現在 google ajax APIというのがあり従来とは異なる方法で検索結果の取得が可能ですが,このあたりのノウハウや技術提供が予算的にどこまで可能かという問題だと思います。また,動作をどこまで保証できるかも不透明です。→ここもwarrickでは対応できない
要旨3:bingの検索結果がyahooの検索と統合された。→ 取得元が丸々減ったということです。
とにかく,取ってくる元が少なくなっています。
warrickは6年前,他の回答者様のあげられるページも2006年とか2008年のものです。
***********
以上を踏まえまして,要件の再検討をおすすめします。
たとえば,
InternetArchiveから 指定URLのデータを取ってきて再構築 とか
Yahoo検索APIでキャッシュ検索してくれるスクリプト
などでしょうか・・・。
ちなみに私が昨年製作したものは,とある検索エンジンから数百時間かけて(リクエスト制限対応)収集してくるものでした。
サクッは難しいと思いますよ。
No1さんの
「コメントにも書きましたがどこかのアーカイブサービスにキャッシュが残っていることが前提条件です。」
が全てだと思います。
その前提条件が大きく崩れている世界だとお考えください。
10000pで作ります!という回答ができず申し訳ないですが不幸な発注者さんも開発者さんも作りたくないのです。
最後にまともなコメントが付いたようですが、warrick は今回の解決案としては
難しそうな気がします。
回答が遅れております。
本日中に、とりあえず全部に目を通させてもらいますっ。
すみません。
このような高額質問をして自動終了だと、今後の質問でも同様の回答者が押し寄せますよ。
今回の質問が自管理サーバではない(あるいはレンタルサーバのように直接触れない)
サーバ上の WEB サイトをネット上のキャシュから再構築したいという趣旨でしたら、
私の回答を含めて実際の解決につながる回答はないと思います。
キャンセルした方が良いと思いますが。
・初期ポイントは後から減らすことはできません。またポイントの多少は募集する回答数には関係ありません。
・回答が自動終了してしまうと、無条件で回答に等配分されてしまいます。それを望まない場合は手動終了してポイントを割り当ててください。
・手動終了時には、質問登録時に指定したトータルポイントを超えて配分することも可能ですし、ポイント付きメッセージ送信でポイントを送ることも可能です。
・自動終了の場合も予めポイントを割り当てない質問を指定することができます。
・上記でふるいにかけて残った優秀回答に対して配分するポイントが質問主さんの期待するコストパフォーマンスに合わない場合はキャンセルも可能です。
以上、お知らせします。
当方の回答も直接解決できるものではありませんので、どうぞ遠慮なくポイント配分を決めてください。
不運にも自動終了で配分されてしまった場合には、人力検索を盛り上げるために有料質問に使用させていただきます。
これは質問を開始した後からでも変更することが可能です。