Elaboration in, Garbage out

Twitt*r ではメモできない何かそれ的なモノ・コトを

記憶とは儚いもので.

だから記録しましょうっていうこと.記憶していても引き出せなければ意味が無いので,ちゃんと引き出せるように.

そういやクローラーのデータを貯める所考えてなかった.RelationalDataBase の一つの列に生テキストをそのまま突っ込むっていう方法もある*1のだが,せっかくなのでなうでやんぐなやり方をしたい.テキスト系を保存するデータベースといえば, MongoDB か CouchDB ですね.

自分で比較するの面倒だったんで,こっち参照←

で,クエリ文はどちらも MongoDB の場合はあまりないんだけど,NoSQL と呼ばれているものはだいたい癖があるもの.MongoDB だけならまだましも,老害データベースやら老害 csv ファイルやら JSON やら RDB やら HDFS やらいろんな所からデータ引っ張ってきて〜とかまじめにやると大変だし,うらの MapReduce の動き方を意識するの面倒.そんな大規模ごちゃまぜアーキテクチャから短時間でデータひっぱってこれるお!っていう感じに Apache Drill *2を理解.同じようなものに Cloudera の Impala もあるらしいけど,どちらも発展段階のようで,特に,RDB につながる部分が Impala には(現時点では?将来的にも?)無いよう.

まあ,ある一つのサイトをクロールしてぐりぐり分析する程度だけなら,必要ないなーと思ったところでした←

*1:実際,SQL Server に HTML の生テキストを一つの項目につっこんでた方がいたし,余計な知識覚えずに楽

*2:現時点では version 0.5