あるﾃﾞｨﾚｸﾄﾘ以下全て(同一ﾃﾞｨﾚｸﾄﾘということではなく､ﾃﾞｨﾚｸﾄﾘ以下で階層は不明)の同じ拡張子のﾌｧｲﾙ(例えばxxx.html)を一つのﾌｧｲﾙに結合する(…

人力検索はてな

ﾓﾊﾞｲﾙ版を表示しています｡PC版はこちら

あるﾃﾞｨﾚｸﾄﾘ以下全て(同一ﾃﾞｨﾚｸﾄﾘということではなく､ﾃﾞｨﾚｸﾄﾘ以下で階層は不明)の同じ拡張子のﾌｧｲﾙ(例えばxxx.html)を一つのﾌｧｲﾙに結合する(ｱﾌﾟﾘまたはｺﾏﾝﾄﾞ)をｱﾄﾞﾊﾞｲｽいただけますでしょうか？結合するにあたってﾌｧｲﾙの順番は問いません｡一つのﾌｧｲﾙに格納されれば構いません｡

ﾌｧｲﾙ結合にあたって文字ｺｰﾄﾞが異なっている可能性もあり､その文字ｺｰﾄﾞも統一する前処理作業も必要なことはわかっているのですが､

Windows8又は､Macintoshでできる方法をお教えいただけると｡
(ﾌﾟﾛｸﾞﾗﾑを書けばいいのは分かるのですが､結構例外が多そうなので､まず出来上がったｻﾝﾌﾟﾙﾌｧｲﾙを作り､評価をしてからﾌﾟﾛｸﾞﾗﾐﾝｸﾞをしたいと思いまして)

●質問者: owada
●ｶﾃｺﾞﾘ:ｳｪﾌﾞ制作
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

▽1 ● POGPI
●25ﾎﾟｲﾝﾄ

PHPだとこんな感じですかね｡ｻｲｽﾞが大きいと､うまく行かないかも知れません｡
$data = "";

$files = dir(ﾊﾟｽ);
while (($filename = $files->read()) != FALSE) {
$filepath = (ﾊﾟｽ) . "/" . $filename;

$data = $data . file_get_contents($filepath);

}
file_put_contents(ﾊﾟｽ,$data);

POGPIさんのｺﾒﾝﾄ
Rubyを使えば､ﾃﾞｨﾚｸﾄﾘ内を再帰的に処理できるようです｡ Find.find(ﾊﾟｽ)で取得できます｡

owadaさんのｺﾒﾝﾄ
ありがとうございます｡ Rubyが一番良さそうな気がして､Rubyを勉強始めています｡丁度やりたいこと全部を出来ることを紹介している本も見つけました｡

▽2 ● hissssa
●25ﾎﾟｲﾝﾄ

ﾍﾞｽﾄｱﾝｻｰ

一回だけの処理なら､単にhtmlﾌｧｲﾙ名を列挙して､1つにまとめるﾊﾞｯﾁを作ることで対処できます｡
Windowsでｺﾏﾝﾄﾞﾌﾟﾛﾝﾌﾟﾄからdirｺﾏﾝﾄﾞを使うとﾌｧｲﾙのﾘｽﾄが得られますが､このときに/b /sｵﾌﾟｼｮﾝをつけると､ｻﾌﾞﾃﾞｨﾚｸﾄﾘも含めた対象ﾌｧｲﾙのﾌﾙﾊﾟｽ名を得られます｡

dir /b /s (列挙したいﾙｰﾄﾃﾞｨﾚｸﾄﾘ)\*.html

上記ｺﾏﾝﾄﾞの出力を適当なﾌｧｲﾙに出力させ､その各行について適当なﾃｷｽﾄｴﾃﾞｨﾀの置換処理を使って､結合ﾌｧｲﾙに追記するようなﾊﾞｯﾁにして実行すればOKです｡

type (HTMLﾌｧｲﾙのﾌﾙﾊﾟｽ名) >> (結合ﾌｧｲﾙ)
type (HTMLﾌｧｲﾙのﾌﾙﾊﾟｽ名) >> (結合ﾌｧｲﾙ)
type (HTMLﾌｧｲﾙのﾌﾙﾊﾟｽ名) >> (結合ﾌｧｲﾙ)
･
･
･

定期的に行う必要がある場合は､上記処理を行うﾊﾞｯﾁを作ることも可能です｡以下のﾊﾞｯﾁﾌｧｲﾙを作って適当なﾃﾞｨﾚｸﾄﾘから実行すれば､そのﾃﾞｨﾚｸﾄﾘ以下の全htmlﾌｧｲﾙを結合したconnect.txtが生成されます｡

@echo off
for /F "delims=" %%F in ('dir /b /s *.html') do (
type %%F >> connect.txt
)

ku__ra__geさんのｺﾒﾝﾄ
自分も質問のような作業が必要な場合､この手法を使いますね｡付け加えるなら｢dir *.html /s /b | clip｣とやると､結果がｸﾘｯﾌﾟﾎﾞｰﾄﾞに入るので作業用ﾌｧｲﾙが不要になります｡

▽3 ● siachan
●25ﾎﾟｲﾝﾄ

Perlでやってみました｡ｽｸﾘﾌﾟﾄはUTF-8で保存してください｡

use utf8;
use strict;
use warnings;
use Encode;

use Path::Class;

binmode STDOUT,':encoding(cp932)';
binmode STDERR,':encoding(cp932)';

my $sjis = find_encoding('cp932');
my $out = 'c:/output.txt';#出力ﾌｧｲﾙ名

open my $fo,'>:encoding(utf-8)',$out or die "cannot create file<$out>:$!";

my $target = $ARGV[0] || Cwd::getcwd;#引数で指定されなければｶﾚﾝﾄﾃﾞｨﾚｸﾄﾘが対象

print "target directory is <$target>\n";

dir($target)->recurse(callback => sub {
my $fi = file(shift);
my $name = $sjis->decode($fi);
return if $name !~ /\.html$/ or -d $name;
print "$name\n";
my $buf = $fi->slurp(iomode => '<:encoding(eucjp)');
print $fo $buf;
});

close $fo;
exit;

ここでは例として､入力ﾌｧｲﾙがEUCで書かれていることを想定しています｡出力はUTF-8です｡画面表示はWindowsということでShiftJISにしています｡

文字ｺｰﾄﾞが統一されていないのであれば､それの判別が一番のﾈｯｸでしょうね｡

一応､HTMLﾌｧｲﾙの文字ｺｰﾄﾞ宣言を読み取ってそれを返してくれるHTML::Encodingなるﾓｼﾞｭｰﾙもあるようですが､試してはいないのでどれほどのものかはわかりません｡

owadaさんのｺﾒﾝﾄ
ありがとうございます｡ perlがこの手の処理にもっとも向いているのは分かるのですが､なかなか私には敷居が高いですが､最後はここに挑戦してみたいと思います｡勉強になります｡ありがとうございました｡

▽4 ● a-kuma3
●25ﾎﾟｲﾝﾄ

Mac では､ﾀｰﾐﾅﾙからだと､こんな感じでしょうか｡

find /hoge -type f -name "*.html" -print | xargs cat >> output.txt

例外がいろいろあるとのことなので､細かい制御をするなら､bash のｽｸﾘﾌﾟﾄで｡

#! /bin/bash
files=`find /hoge -type f -name "*.html" -print`
for f in $files
do
  # 例外は､ここではじく
 if ...
 then
 continue
 fi

 cat $f >> output.txt
done

文字ｺｰﾄﾞを変換する必要があるなら､nkf を使う感じでしょうか｡

#! /bin/bash
files=`find /hoge -type f -name "*.html" -print`
for f in $files
do
  # 例外は､ここではじく
 ...

  # UTF-8 に変換して出力
 nkf -w $f >> output.txt
done

owadaさんのｺﾒﾝﾄ
ありがとうございます｡こういう方法があったのですね｡ｽｸﾘﾌﾟﾄでほぼ問題解決できるということ､大変勉強になりました｡ (自分の不勉強を恥じるとも言いますか･･･)｡