PHPやMysqlはある程度使えますが、システムを0から開発できるエンジニアレベルではなく改変出来る程度のスキルです。
ですのでこれから覚えていきたいという形なのですが、子育てや仕事で時間が取りにくいため古い知識や覚えてもあまり意味が無いものは省いて効率化を図れたらと思っています。
具体的には例えば下記のような事や、
http://gigazine.net/news/20150116-buzzfeed-headlines-analysis/
1000種類のキーワードで、SEOで上位表示されているサイト上位1~10位の共通点等を洗い出す作業に使いたいと思っています。
もちろんすぐにとは思っていませんし、楽をするつもりもありませんが、忙しい中で極力最短の道を進むための情報、ヒントを教えてください。
環境はWin7 64Bit CPU3.4Ghz、メモリ32GBです。
メモリなどは置いておいて、入門の際は取り急ぎWin7で行いたいと思っています。
入門でさえも最初からLinuxなどのほうがよければそれも検討致しますので、環境やインストールすべきツール、簡単な理由なども教えてください。
『統計学が最強の学問である』ビジネス書大賞2014「大賞」受賞記念記事
35万部を突破し、知的教養書としては異例のベストセラーとなった『統計学が最強の学問である』が、このたび「ビジネス書大賞2014」にて「大賞」を受賞しました。
選考会でも力強いタイトルが話題になったようですが、そもそも、なぜ「統計学が最強の学問である」といえるのでしょうか? この問いに、著者である西内啓氏が、『統計学が最強の学問である』で“述べなかった理由”も含めて回答します。(※本記事はダイヤモンド社配布の書店用小冊子に寄稿いただいたものを一部改編したものです。)
http://diamond.jp/articles/-/52085
とりあえずRを試してみてはいかがでしょうか。
統計分析・グラフィックス・いろいろなライブラリを使用してテキストマイニングや機械学習も扱えます。
R on Windows
http://www.slideshare.net/mobile/langstat/osakar7
Rでデータマイニング - RjpWiki
#質問キャンセル、気にしませんのでガンガンやっちゃって下さい。
こんにちは。統計と機械学習をお勉強中の者です。
統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!
ここで紹介されている本に取り組むのがよいと思います。
この記事を書いたあんちべさんは、
進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!
こういった記事を書いておられます。
私はこの進撃の巨人の記事を見てえらく感動し、同じ道を志しました!
刀剣乱舞集計速報_20150121 - あんちべ!
あんちべさんは最近この記事をアップされました。
統計に関する本の紹介としては他に
書籍20選?効率よく目的別に統計分析を書籍から学ぶ? | ビッグデータマガジン
統計学の初心者が入門として最初に読むべき一冊|Colorless Green Ideas
こういったものがあります。
でも見ていただければわかると思いますが、共通点が非常に多いので、
あんまりたくさんまとめに手を出す必要はないかと思います。
要は、
これを読むべきってことです。
データを収集するには、スクレイピングという技術が必要です。
PythonのScrapyかRubyのNokogiriを使うのがトレンドって感じがします。
Scrapyはやったことがないのですが、id:iori753さんPHPおできなら
問題なく使えるんじゃないでしょうか…?
PythonとかScrapyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - orangain flavor
このへんが詳しそうです。
Nokogiriを使うなら
Nokogiri を使った Rubyスクレイピング [初心者向けチュートリアル] - 酒と泪とRubyとRailsと
こことかよさそうです。
私は、
Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例
この本を読んでお勉強中です。
ほうぼうで言いふらしていますが、この本はやりながら手ごたえある成果を簡単に出せるので最高です!
データを解析するには、PythonかRかExcelを使うのがいい感じします。
Pythonの場合はNumPyを使うことになりそうです。
英語圏ではPythonを使うのが定番っぽいんですが…英語読めないのでわかりません…。
Pythonの数値計算ライブラリ NumPy入門 « Rest Term
このへんを読むとよいのかも。
Rの場合はid:dilutionistさんがご紹介されている本でもいいですが、
こちらのほうが同じ著者さんの新しい本です。
私はこの本でお勉強中です。
Excelの場合はたくさん本がありますが、このジャンルに特化しているのは
この本です。Seagull Statというものと組み合わせてExcelを活用しています。
Excel使わなくても言語研究と統計の絡みという点でとても役に立ちます。
私はRubyとRを使っていますが、理由は単純によい本に出会ったからです。
いまゼロから始めるならPythonで最初から最後まで貫くのがトレンドかもしれません。
その場合はいまひとつちゃんとしたご紹介ができないです…すみません。
最後に私の場合を。
私の趣味は歌詞を読むことですが、最近は統計的な手法での歌詞分析にも挑戦しています。
【統計とかテキストマイニングとか】今年の私が、歌詞読みのお勉強のために読んだ本まとめ - 5日と20日は歌詞と遊ぼう。
私が読んだ本は上記の記事にまとめました。
まだ統計分析しかできず、機械学習には手を広げ切れていないのですが、
最近の成果はこんな感じです。
2014年のオリコンとボカロのベスト100をテキストマイニングしました! - 5日と20日は歌詞と遊ぼう。
よろしければお楽しみください。
追記:
ディープラーニングまで私は全然たどり着けていませんが、
もしそこまで手を伸ばすなら、
機械学習を初めて勉強する人におすすめの入門書 - old school magic
こういう本を読んでいくことになるのだろうと思います
(上記リンクのコメント欄も参考にしてください)。
ここに載っている本はどれもほかのまとめでもよく見るものなので、
ある程度頼っていいものだと思っています。
ただし、私はすべて未読なので詳細はわかりません…。
環境のことも、私は詳しくないのであまりお力にはなれないようです…。
私はMacを使っていますが、いまのところ環境の面で大きくつまづいたことはありません。
お詳しい方からの追記があるとよいのですが。
アマゾン 書籍から統計学を検索されますと、ベストセラーなど数多くの書籍がでてくると思います。ネットで検索して勉強されますとかなりの時間を要するため、書籍のレビューを見て、自分に合ったものを見つけるのが一番だと思います。
レビューを書かれている人は実践して役にたったか立たなかったか、詳しく知っておられるので良いと思います。頑張って下さい。
お持ちの環境で十分だと思いますよ。
こちらなどが参考になれば。
http://www.oreilly.co.jp/books/4873112168/
http://qiita.com/icoxfog417/items/65e800c3a2094457c3a0
ディープラーニングをしたいのですが、上記のようにWindowsですと地獄門とあるように、入門者には厳しいでしょうか。
また、GPUを使うかCPUを使うかなど、WInでも選べるのでしょうか。
統計学を学ぶのであれば、以下の2冊をお勧めします。
基本的な数学はある程度理解されているとして、こちらは公式の導出がていねいに書かれていたり、例題が豊富に掲載されていたりと、統計学を正しく体系的に理解できる一冊です。
こちらは教科書というのではなくどういった場面でどのように統計学が使われてきたのかということを学べる読み物です。数式などは出てきませんので肩肘を張らずに読めます。先のテキストと合わせて読むことでより理解を深めることができると思います。
Deep Learning をやりたいとのことですが、基本的なところは抑えておいた方が良いと思います。
環境としては R が良いと思います。
R で H2O というパッケージを使って Deep Learning をされている方のブログがありましたので、参考まで。
http://tjo.hatenablog.com/entry/2014/10/23/230847
まず、統計分析ですが、
(A). 統計分析の前に、データ全体の分布を図にすることが、大切だと言われています。(http://www.si.gunma-u.ac.jp/staffs/kodo/aoki.html)
(B). Rという統計解析ソフトを利用する。
(1). まず、R Studioという開発環境(IDE)を使う。
Rの初歩
http://oku.edu.mie-u.ac.jp/~okumura/stat/first.html
統計用言語Rの使い方
https://www.library.osaka-u.ac.jp/doc/TA_2014_01.pdf
phpを書くときには、何をお使いですか。
入力補完、syntax表示をしてくれる便利な開発環境です。
(2). データの編集自体をRで行う。
Excelででの操作でも良いのですが、 表データの操作をRで行う。
https://sites.google.com/site/webtextofr/operating
phpやmysqlから、必要なデータをcsvファイルにエキスポートできるのであれば、すっ飛ばしても、いいことだと思います。
(4). データを視覚化する。R のggplotでグラフを書く。
そこで、何かのレポートを専門外の人、顧客にお見せするならば、ggplotが、オススメです。公式ドキュメントを当たるのは、もちろんですが、導入として、下のリンクは参考になります。
非常に美しいグラフが非常に効率的に作れるRのパッケージ“ggplot2”の紹介。
http://id.fnshr.info/2011/10/22/ggplot2/
ggplot Cookbook
http://www.cookbook-r.com/Graphs/
(5). 細かいことは、他の資料を当たります。
http://matome.naver.jp/odai/2135003580165010301?page=2
(6). Rでの機械学習も、オライリーから本が出ています。
(C). python に手を出すならば、
Python環境の構築 (Windows)が、参考になると思います。
http://www.sd.seikei.ac.jp/blog/?page_id=1815
フリーでのpythonのパッケージ管理ソフト(Canopy)を使います。
https://enthought.com/products/canopy/
Canopyを通じて、numpy, scipy, matplolib, pandasなどをインストールです。
でも、Rやphp, mysqlが使えるならば、必要ないと思います。
# 理由は、インストールで、ドツボにハマり余計な時間を消費する危険性が少ないからです。
*(D). 線形代数などの数学の基礎は学んでおくと良いようです。
コメントのURLを参考にして下さい。
申し訳ありません。
2015/01/27 19:33:10本などは一応調べてはいますので存在は存じ上げているのですが、単純な本のURL、環境づくりのオススメや解説サイトURL、オススメの理由などもお願い致します。
恐れ入りますが希望の回答がなかった場合はキャンセルさせて頂きます事をお許しくださいませ。