Yahoo! JAPAN
URLはダミーです。
表になっている部分をドラッグして選択して「編集」-「コピー」したものをExcelにて「編集」-「貼り付け」というのではだめなのでしょうか?
(右クリックしてコピー、右クリックして貼り付けなどでも可)
http://www.hi-ho.ne.jp/i-soft/programming/oprg005.htm
HTMLテーブル→CSV変換プログラム
こんなのはどうでしょ。
このページは、弊要件を満たすと思しきソフトウェアの作成プランについて書かれたもの、つまり
、このプログラムは、未完成なんですよね?
だったら使えないですね。
ここはどうでしょうか。htmlファイルをcsvファイルに変換するプログラムがダウンロードできます。
ここも、さっきと同様ですね。未完成のプログラムの「作成プラン」が書いてあるだけ。
CNN.com - Breaking News, U.S., World, Weather, Entertainment & Video News
私の場合、一度印刷して、OCRソフト(読んでココなど)で読み込みエクセルに落としています。あまり能率的ではないかもしれませんが、紙に印刷されてしまっている場合でも使えるので実用的ではあります。
なるほどねー。これは次善の策にはなりますね。
単純に、ブラウザに表示されたテーブルをコピーしてExcelシートに貼り付け、では不充分でしょうか? 恥ずかしながら、私は普段からそうしています。
うーん、昨日は「1」さんに「そんな答は自明だよー」なんて申しましたが、
この方法が良いのかなー?
1さん、スミマセンでした。
んん? これは「html ファイルそのものをエクセルで直接読み込める」ということですか??
http://www.nsgd.co.jp/nsd/NSDGoods/mswin_tl/HPOH2.htm
日本システム開発株式会社でございます
シェアウェアですがこんなものがありました。
試用状態では用意されたサンプルしか変換できなかったので、いまいち評価できませんでした。
ご購入前の確認のために、お客様のファイルをこのプログラムで変換するサービスがございます。
メールでnsd@nsgd.co.jpにファイルをお送りください。
変換して返送します。
ってあったので、よかったら試してみて下さい。
なーるほど、元テーブルのサイズや複雑さによって、
変換できたりできなかったりする、ということなんでしょうね。
情報、どうも有り難うございました。
航空管制協会のWebPageへようこそ
URLはダミーです。
私の場合、ソースをコピーし、エディタで</TD>をタブに変換、</TR>を改行に変換しています。
その後、<>で囲まれた部分を(置換で)一括削除。
できたテキスト文をEXCELで開いています。
なるほど、これは面白い方法ですね。
ただ「その後、<>で囲まれた部分を(置換で)一括削除」
というのは、もしかして、正規表現??とかを使うのでしょうか??
できましたら、その正規表現につき、当例に則して、もう少し教えてください。
(追加ポイントを謹呈させていただきます)
すみません、説明不足でした。
先ほどのとおり、ExcelでWWW上のHTMLファイルを直接読むことができます。
一旦対象ファイルのURLをコピーして、ファイル(F)⇒開く(O)... のファイル名欄にカーソルを合わせてCtrl+Vで貼り付け、そのまま開く(O)を押せばExcelがサーバから取って来てエンコードまでしてくれます。
レイアウトに使っているような場合は崩れることもありますが、統計資料のようなものでしたら十分実用に耐うえると思います。
おお、これは良い。スマートですね。
さっそく試してみます。
はてなダイアリー - 快適、安心、シンプルなはてなのブログ
htmlをファイルに保存して、
そのファイルを右クリックして、
「アプリケーションから開く」
で、Excel を選ぶと、ちゃんと表のまま読み込めました。
なるほど!
http://www.hatena.ne.jp/1087023443#
国際機関や官庁などのホームページでは、有益な統計データが、<TABLE>タグで一覧表になっています。これを要領よくエクセル・データに変換するための、ソフトウェアやコツ.. - 人力検索はてな
URLはダミーです。
遅くなりました。
具体的には(Word2003WINの場合)、
(1)ブラウザでソースを表示
(2)表の部分(大体でも可)をコピー
(3)新規文書に貼り付け
(4)「置換」で「</td>」を「^t」に全て変換
(5)「置換」で「</tr>」を「^p」に全て変換
(6)「置換」で「¥<*¥>」を「(何もなし)」に全て変換(ワイルドカードを有効にする)
(7)出来た文書をEXCELで開く
以上のような手順になります。
Word2000やMac版(2002以前)では(6)の¥は不要だったかもしれません。
御意見、どうも有り難うございました。
http://software.fujitsu.com/jp/ocr/socr/
表OCR/文書OCR for Excel&Word : 富士通
表OCRというソフトはいかがでしょうか?
「表OCR for Excel V5.0」は、お使いのExcel上からスキャナを 呼び出してスキャンするだけで、紙原稿の表の罫線 や文字を読み取り、 Excelに再現するExcel専用日本語活字OCRソフトウェアです。
http://www.smfknife.com/ht/hc95.php
須釜俊一ソフトウェア / HC95
エクセル形式へ直変換ではなくCSVですがこんなのはいかがでしょう。
colspan(横方向への複数セル結合)には対応してるそうですがrowspan(縦方向への結合)はしていないそうです。
こちらのソフトでも可能のようですが、こちらは複数セル結合には両方対応していないようです。
http://www.hajimeteno.ne.jp/html32/12/28.html
逆引きHTML-12.テーブル-28.セルの結合(列方向)
問題のrawspanについての解説です。
試してみたところexcel2000ではファイルを開くからwebページを指定して開くことは可能なようですがやはり複数セル結合の部分は不自然な表示になってしまうようです。
正規表現についての解説です。
秀丸エディタを用いたタグの除去が例としてあげられています。
正規表現の練習ページです。
上のテキストボックスに正規表現を、下に文章を入力して実行するとマッチした部分が色分けして表示されるようです。
正規表現も知っておくと便利ですよね。
勉強させて頂きます。
「コピー&ペースト」という方法は、もう15年近く
前からある手法ですから、そんなことは、ここで
わざわざ質問しなくても自明なことです。
そういう自明な答ではなく、もっと斬新で
効率の良い答えを求めています。