テキスト抽出　正規表現　GREP？について質問です。

Question

tokyosmash

115

114もっと見る

100pt

コンピュータインターネット

テキスト抽出　正規表現　GREP？について質問です。

東京都/千代田区/千代田/１－１－１
東京都/中央区/日本橋/１－１－２
東京都/中野区/中央/１－１－３
東京都/渋谷区/神宮前/１－１－４

このようなテキストが並ぶファイルがあるとします。
これの「区」の箇所だけを自動的に抽出したいのです。
以上のテキストが、以下のようになるイメージです。

千代田区
中央区
中野区
渋谷区

「テキスト抽出ソフト」「正規表現」「GREP」というものを使えばできるのかもと考えております。

まず、
１.「東京都/」を消す
２．残ったテキストのうち、「/」の前までを残して後は消去
（ただし改行コードは残す）

これでできると思いますが、実際にどのソフトを使って、どういった正規表現を指定すればいいのかがわかりません。

どなたかよろしくお願い致します。

回答の条件

1人2回まで

登録：2007/03/02 17:16:06
終了：2007/03/09 17:20:02

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

eggplantbb · Answer 1 · 2007-03-02T17:38:37+09:00

正規表現に対応したテキストエディタで

1.「東京都/」を「」に置換する(＝消す)

2.「区/.*$」を「区」に置換する

という作業をすれば実現できるかと思います。

bigorange · Answer 2 · 2007-03-02T17:39:38+09:00

GREPってのはプログラム言語の関数名のことでしょうか？(UNIXのコマンド？)

tokyosmashの知識がどの程度かわからないのでとりあえず簡単な方法を

1：Microsoft　Excelでファイルから開く

2：ファイルを開くウィンドウの下にファイルの種類があるのですべてのファイルにする

3：テキストファイルを選択できるようになる(一覧に出てくる)ので選択

4：テキストファイルウィザードってのが出てくるので"元のデータ形式"をカンマやタブなどの区切り文字によってフィールドごとに区切られたデータにチェック(多分最初からなってる)

5：次へ

6：区切り文字のその他にチェックして右にあるボックスに/を入力

完了すると元のファイルが/でセルごとに区切られてるので～区の列だけ選択してコピーするなりご自由に。

自動的ってのは全部自動ですかね？だったらごめんなさい。

kn1967 · Answer 3 · 2007-03-02T17:50:50+09:00

GREPは行を表示するだけなので、部分的に抽出したいのであればPERLなどのテキスト処理スクリプトで行う必要がありますので、敷居は少し高くなりますよ。

Excelを使うなどはダメですか？

　　Ａ列に住所が並んでいるとして、

　　Ｂ１に =MID(A1,5,SEARCH("/",A1,5)-5)

　　Ｂ２以下はＢ１をコピー

でお望みの一覧が出来ますけど、、、

kurukuru-neko · Answer 4 · 2007-03-02T19:10:15+09:00

Windowsでの作業として

1.

Excelでそのファイルを"/"を区切り文字として読み込めば

あとは切り貼り

2. gawkを使う

http://www.vector.co.jp/soft/win95/util/se376460.html

http://infoshako.sk.tsukuba.ac.jp/ShakoDoc/GNU/AWK/jgawk-jman/ht...

入力ファイルをaddr.txtで漢字がシフト

ＪＩＳの場合

以下をファイルに保存する ku.awk

#
# BEGINは処理開始時に処理される
#
BEGIN {
 # 区切り文字を設定する。
 FS="/";
}

#
# １行単位に処理される
#
# データ個数が　N以上で N番目の文字が区で終わる文字を保存する
#
# NF: 区切り文字で区切ったときの項目数
# node: 区の住所の個数を数えて保存する 
#
{

        if( NF>=2 && match($2,".*区$") > 0 ) {
    node[$1","$2]++; 
 } else if( NF>=3 && match($3,".*区$") > 0 ) {
    node[$1","$2","$3]++; 
 } else if( NF>=4 && match($4,".*区$") > 0 ) {
    node[$1","$2","$3","$4]++; 
 };
}

#
# ENDは処理終了時に処理される
# データを抽出したものを表示する。
#

END {
  for( dat in node ) {
    printf("%s,%d\n",dat,node[dat]);
  }
}

保存したファイル ku.awkとgawkをつって抽出する

したものをソートして ku.csvに保存する

gawk -f ku.awk addr.txt |sort > ku.csv

ku.csvは、住所の区単位に件数を数えたデータ

なのでExcel等で読み込み加工する。

j_kimi · Answer 5 · 2007-03-03T00:17:20+09:00

こんな感じ？

http://td200wr.zapto.org/html/work/test07.cgi

貼り付けて変換押してください。

テキスト抽出　正規表現　GREP？について質問です。

回答（5件）

eggplantbb4522007/03/02 17:38:37

bigorange4612007/03/02 17:39:38

kn196729153012007/03/02 17:50:50

kurukuru-neko18441552007/03/02 19:10:15

j_kimi3242007/03/03 00:17:20

コメント（0件)

この質問への反応（ブックマークコメント）

テキスト抽出 正規表現 GREP？について質問です。

回答（5件）

eggplantbb4522007/03/02 17:38:37

bigorange4612007/03/02 17:39:38

kn196729153012007/03/02 17:50:50

kurukuru-neko18441552007/03/02 19:10:15

j_kimi3242007/03/03 00:17:20

コメント（0件)

この質問への反応（ブックマークコメント）

テキスト抽出　正規表現　GREP？について質問です。