記憶とは儚いもので． - Elaboration in, Garbage out

だから記録しましょうっていうこと．記憶していても引き出せなければ意味が無いので，ちゃんと引き出せるように．

そういやクローラーのデータを貯める所考えてなかった．RelationalDataBase の一つの列に生テキストをそのまま突っ込むっていう方法もある*1のだが，せっかくなのでなうでやんぐなやり方をしたい．テキスト系を保存するデータベースといえば， MongoDB か CouchDB ですね．

<a href="http://mojix.org/2011/06/15/couchdb-mongodb">CouchDBとMongoDBの使い分け - モジログ</a>

自分で比較するの面倒だったんで，こっち参照←

で，クエリ文はどちらも MongoDB の場合はあまりないんだけど，NoSQL と呼ばれているものはだいたい癖があるもの．MongoDB だけならまだましも，~~老害データベースやら老害 csv ファイルやら~~ JSON やら RDB やら HDFS やらいろんな所からデータ引っ張ってきて〜とかまじめにやると大変だし，うらの MapReduce の動き方を意識するの面倒．そんな大規模ごちゃまぜアーキテクチャから短時間でデータひっぱってこれるお！っていう感じに Apache Drill *2を理解．同じようなものに Cloudera の Impala もあるらしいけど，どちらも発展段階のようで，特に，RDB につながる部分が Impala には（現時点では？将来的にも？）無いよう．

Apache Drill from Ted Dunning

まあ，ある一つのサイトをクロールしてぐりぐり分析する程度だけなら，必要ないなーと思ったところでした←

*1:実際，SQL Server に HTML の生テキストを一つの項目につっこんでた方がいたし，余計な知識覚えずに楽

*2:現時点では version 0.5