UTF-8 の日本語部分と中国語(簡体文字)の部分の一覧をRuby を使ってそれぞれ出力(日本語と中国語を別々のファイル保存)したいのですが、コードはどのように書くといいのでしょうか?

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2009/05/10 15:58:24
  • 終了:2009/05/15 06:59:09

回答(1件)

id:angemaries No.1

angemaries回答回数80ベストアンサー獲得回数22009/05/13 01:02:58

ポイント60pt

どこに出力したいのかがよくわかりませんが、出力先がUTF-8がOKで、両方に対応しているフォントがあるのであれば、普通に処理すれば表示できます。

Windowsであれば、フォントはMS UI ゴシックを選ぶと日本語と中国語の両方が一度に表示できます。

f = open("foo")

print f.read

f.close

http://www.yahoo.co.jp

  • id:ardarim
    日本語と中国語を分けるといっても、Unicode(UTF-8)のレベルでは一部の漢字は共通化(統合)されていて、同じ文字コードを使用しています。
    つまりUTF-8に含まれる漢字には、大雑把に言って
    (1)日本語で使われて、中国語(簡体圏)では使われない漢字。例えば「語」「簡」
    (2)日本語で使われず、中国語(簡体圏)だけで使われる漢字。例えば「语」「简」
    (3)日本語、中国語(簡体圏)のどちらでも使われる漢字。例えば「日」「中」
    が存在します。

    そのため文字コードだけを見て、意味のある文章単位で日本語と中国語の文章を分離するのは困難、というか無理だと思います。
    文章レベルでなく、使われてる漢字をばらばらに抜き出したい(保存されるファイルは意味のある文章にならない)、ということならできるかもしれません。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません