これから統計分析や人工知能を学びたいのですが、おすすめの【サイトや書籍】、【ツール・環境作り】を教えて頂けますでしょうか。


PHPやMysqlはある程度使えますが、システムを0から開発できるエンジニアレベルではなく改変出来る程度のスキルです。

ですのでこれから覚えていきたいという形なのですが、子育てや仕事で時間が取りにくいため古い知識や覚えてもあまり意味が無いものは省いて効率化を図れたらと思っています。

具体的には例えば下記のような事や、
http://gigazine.net/news/20150116-buzzfeed-headlines-analysis/

1000種類のキーワードで、SEOで上位表示されているサイト上位1~10位の共通点等を洗い出す作業に使いたいと思っています。

もちろんすぐにとは思っていませんし、楽をするつもりもありませんが、忙しい中で極力最短の道を進むための情報、ヒントを教えてください。

環境はWin7 64Bit CPU3.4Ghz、メモリ32GBです。
メモリなどは置いておいて、入門の際は取り急ぎWin7で行いたいと思っています。
入門でさえも最初からLinuxなどのほうがよければそれも検討致しますので、環境やインストールすべきツール、簡単な理由なども教えてください。

回答の条件
  • 1人1回まで
  • 登録:
  • 終了:2015/02/03 11:25:04
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答8件)

id:rafting No.1

回答回数2652ベストアンサー獲得回数176

ポイント125pt


『統計学が最強の学問である』ビジネス書大賞2014「大賞」受賞記念記事

35万部を突破し、知的教養書としては異例のベストセラーとなった『統計学が最強の学問である』が、このたび「ビジネス書大賞2014」にて「大賞」を受賞しました。
選考会でも力強いタイトルが話題になったようですが、そもそも、なぜ「統計学が最強の学問である」といえるのでしょうか? この問いに、著者である西内啓氏が、『統計学が最強の学問である』で“述べなかった理由”も含めて回答します。(※本記事はダイヤモンド社配布の書店用小冊子に寄稿いただいたものを一部改編したものです。)
http://diamond.jp/articles/-/52085

id:iori753

申し訳ありません。
本などは一応調べてはいますので存在は存じ上げているのですが、単純な本のURL、環境づくりのオススメや解説サイトURL、オススメの理由などもお願い致します。

恐れ入りますが希望の回答がなかった場合はキャンセルさせて頂きます事をお許しくださいませ。

2015/01/27 19:33:10
id:dilutionist No.2

回答回数154ベストアンサー獲得回数51

ポイント125pt

とりあえずRを試してみてはいかがでしょうか。
統計分析・グラフィックス・いろいろなライブラリを使用してテキストマイニングや機械学習も扱えます。

R on Windows

http://www.slideshare.net/mobile/langstat/osakar7

Rでデータマイニング - RjpWiki

Rによるテキストマイニング入門

Rによるテキストマイニング入門



#質問キャンセル、気にしませんのでガンガンやっちゃって下さい。

id:hacosato No.4

回答回数34ベストアンサー獲得回数18

ポイント125pt

こんにちは。統計と機械学習をお勉強中の者です。

統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!
ここで紹介されている本に取り組むのがよいと思います。
この記事を書いたあんちべさんは、
進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!
こういった記事を書いておられます。
私はこの進撃の巨人の記事を見てえらく感動し、同じ道を志しました!
刀剣乱舞集計速報_20150121 - あんちべ!
あんちべさんは最近この記事をアップされました。

統計に関する本の紹介としては他に
書籍20選?効率よく目的別に統計分析を書籍から学ぶ? | ビッグデータマガジン
統計学の初心者が入門として最初に読むべき一冊|Colorless Green Ideas
こういったものがあります。
でも見ていただければわかると思いますが、共通点が非常に多いので、
あんまりたくさんまとめに手を出す必要はないかと思います。
要は、

マンガでわかる統計学

マンガでわかる統計学

これを読むべきってことです。

データを収集するには、スクレイピングという技術が必要です。
PythonのScrapyかRubyのNokogiriを使うのがトレンドって感じがします。
Scrapyはやったことがないのですが、id:iori753さんPHPおできなら
問題なく使えるんじゃないでしょうか…?
PythonとかScrapyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - orangain flavor
このへんが詳しそうです。

Nokogiriを使うなら
Nokogiri を使った Rubyスクレイピング [初心者向けチュートリアル] - 酒と泪とRubyとRailsと
こことかよさそうです。
私は、

この本を読んでお勉強中です。
ほうぼうで言いふらしていますが、この本はやりながら手ごたえある成果を簡単に出せるので最高です!

データを解析するには、PythonかRかExcelを使うのがいい感じします。
Pythonの場合はNumPyを使うことになりそうです。
英語圏ではPythonを使うのが定番っぽいんですが…英語読めないのでわかりません…。
Pythonの数値計算ライブラリ NumPy入門 « Rest Term
このへんを読むとよいのかも。

Rの場合はid:dilutionistさんがご紹介されている本でもいいですが、

Rで学ぶ日本語テキストマイニング

Rで学ぶ日本語テキストマイニング

こちらのほうが同じ著者さんの新しい本です。
私はこの本でお勉強中です。

Excelの場合はたくさん本がありますが、このジャンルに特化しているのは

言語研究のための統計入門

言語研究のための統計入門

この本です。Seagull Statというものと組み合わせてExcelを活用しています。
Excel使わなくても言語研究と統計の絡みという点でとても役に立ちます。

私はRubyとRを使っていますが、理由は単純によい本に出会ったからです。
いまゼロから始めるならPythonで最初から最後まで貫くのがトレンドかもしれません。
その場合はいまひとつちゃんとしたご紹介ができないです…すみません。

最後に私の場合を。
私の趣味は歌詞を読むことですが、最近は統計的な手法での歌詞分析にも挑戦しています。
【統計とかテキストマイニングとか】今年の私が、歌詞読みのお勉強のために読んだ本まとめ - 5日と20日は歌詞と遊ぼう。
私が読んだ本は上記の記事にまとめました。
まだ統計分析しかできず、機械学習には手を広げ切れていないのですが、
最近の成果はこんな感じです。
2014年のオリコンとボカロのベスト100をテキストマイニングしました! - 5日と20日は歌詞と遊ぼう。
よろしければお楽しみください。

追記:
ディープラーニングまで私は全然たどり着けていませんが、
もしそこまで手を伸ばすなら、
機械学習を初めて勉強する人におすすめの入門書 - old school magic
こういう本を読んでいくことになるのだろうと思います
(上記リンクのコメント欄も参考にしてください)。
ここに載っている本はどれもほかのまとめでもよく見るものなので、
ある程度頼っていいものだと思っています。
ただし、私はすべて未読なので詳細はわかりません…。

環境のことも、私は詳しくないのであまりお力にはなれないようです…。
私はMacを使っていますが、いまのところ環境の面で大きくつまづいたことはありません。
お詳しい方からの追記があるとよいのですが。

id:anan6245 No.5

回答回数11ベストアンサー獲得回数0スマートフォンから投稿

ポイント125pt

アマゾン 書籍から統計学を検索されますと、ベストセラーなど数多くの書籍がでてくると思います。ネットで検索して勉強されますとかなりの時間を要するため、書籍のレビューを見て、自分に合ったものを見つけるのが一番だと思います。

レビューを書かれている人は実践して役にたったか立たなかったか、詳しく知っておられるので良いと思います。頑張って下さい。

id:mugihika No.6

回答回数330ベストアンサー獲得回数40

ポイント125pt

お持ちの環境で十分だと思いますよ。

こちらなどが参考になれば。
http://www.oreilly.co.jp/books/4873112168/

人工知能概論 第2版 ―コンピュータ知能からWeb知能まで

人工知能概論 第2版 ―コンピュータ知能からWeb知能まで

イラストで学ぶ 人工知能概論 (KS情報科学専門書)

イラストで学ぶ 人工知能概論 (KS情報科学専門書)

id:iori753

http://qiita.com/icoxfog417/items/65e800c3a2094457c3a0

ディープラーニングをしたいのですが、上記のようにWindowsですと地獄門とあるように、入門者には厳しいでしょうか。

また、GPUを使うかCPUを使うかなど、WInでも選べるのでしょうか。

id:gizmo5 No.7

回答回数504ベストアンサー獲得回数141

ポイント125pt

統計学を学ぶのであれば、以下の2冊をお勧めします。

基本統計学

基本統計学

基本的な数学はある程度理解されているとして、こちらは公式の導出がていねいに書かれていたり、例題が豊富に掲載されていたりと、統計学を正しく体系的に理解できる一冊です。

こちらは教科書というのではなくどういった場面でどのように統計学が使われてきたのかということを学べる読み物です。数式などは出てきませんので肩肘を張らずに読めます。先のテキストと合わせて読むことでより理解を深めることができると思います。



Deep Learning をやりたいとのことですが、基本的なところは抑えておいた方が良いと思います。
環境としては R が良いと思います。
R で H2O というパッケージを使って Deep Learning をされている方のブログがありましたので、参考まで。
http://tjo.hatenablog.com/entry/2014/10/23/230847

id:H58 No.8

回答回数6ベストアンサー獲得回数0

ポイント125pt

まず、統計分析ですが、

(A). 統計分析の前に、データ全体の分布を図にすることが、大切だと言われています。(http://www.si.gunma-u.ac.jp/staffs/kodo/aoki.html

(B). Rという統計解析ソフトを利用する。
(1). まず、R Studioという開発環境(IDE)を使う。
Rの初歩
http://oku.edu.mie-u.ac.jp/~okumura/stat/first.html
統計用言語Rの使い方
https://www.library.osaka-u.ac.jp/doc/TA_2014_01.pdf
phpを書くときには、何をお使いですか。
入力補完、syntax表示をしてくれる便利な開発環境です。

(2). データの編集自体をRで行う。
Excelででの操作でも良いのですが、 表データの操作をRで行う。
https://sites.google.com/site/webtextofr/operating
phpやmysqlから、必要なデータをcsvファイルにエキスポートできるのであれば、すっ飛ばしても、いいことだと思います。


(4). データを視覚化する。R のggplotでグラフを書く。
そこで、何かのレポートを専門外の人、顧客にお見せするならば、ggplotが、オススメです。公式ドキュメントを当たるのは、もちろんですが、導入として、下のリンクは参考になります。
非常に美しいグラフが非常に効率的に作れるRのパッケージ“ggplot2”の紹介。
http://id.fnshr.info/2011/10/22/ggplot2/
ggplot Cookbook
http://www.cookbook-r.com/Graphs/

(5). 細かいことは、他の資料を当たります。
http://matome.naver.jp/odai/2135003580165010301?page=2
(6). Rでの機械学習も、オライリーから本が出ています。
 
(C). python に手を出すならば、
Python環境の構築 (Windows)が、参考になると思います。
http://www.sd.seikei.ac.jp/blog/?page_id=1815 
フリーでのpythonのパッケージ管理ソフト(Canopy)を使います。
https://enthought.com/products/canopy/
Canopyを通じて、numpy, scipy, matplolib, pandasなどをインストールです。
でも、Rやphp, mysqlが使えるならば、必要ないと思います。

# 理由は、インストールで、ドツボにハマり余計な時間を消費する危険性が少ないからです。

*(D). 線形代数などの数学の基礎は学んでおくと良いようです。
コメントのURLを参考にして下さい。

  • id:H58
     回答することが出来ないのですが、次の記事は、参考になるかもしれません。『データサイエンティストに必要な3つのスキル』
    http://j.ktamura.com/archives/19706
  • id:hacosato
    補足を拝読し、回答に追記しました!

    私よりお詳しい方がもっといらっしゃるといいのですが…。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません