Elaboration in, Garbage out

Twitt*r ではメモできない何かそれ的なモノ・コトを

Docker

同僚に Chef はもう古い!Docker のほうがいいじゃないか!と言われたので,ガーッと調べた.

Docker の部分は OS とミドルウェアの間に仮想化レイヤーが入る形.だから,論理的にはそこにリソースがすこーーし食われるわけで,CPU を大量に消費する Deep Learning とか SVM とかいった機械学習系はそれに乗っけるのはあんまり良くないなーと.そもそもリソース面を考えるなら Google によって最適化されてるライブラリ (Numpy) 使うとか,R 使わず C/C++/Java*1 で組めよっていう話ですが.

で,こんな記事を発見.

CoreOSが「Docker」と決別--独自のコンテナ実装「Rocket」を公開 - ZDNet Japan
意外と OS 依存な所あるんだねーってわかって,安定性も大事だし.そもそも UNIX 哲学が私の中に通じるものがあって,いろいろ考えるとやっぱ Chef かなーって.デプロイ・実行とかには Jenkins 爺ちゃん使えばいいわけだし*2.やっぱりひとつでまるっとかいけつってのはなんか性に合わないなーって思いましたとさまる.

*1:意外と知られてないけど,python で下手に組むより Java の方がさくさく動く.GUI 作った瞬間遅くなるし,Intel Compiler で作った C/C++ プログラムには負けるけど.

*2:cron とか expect でやれよっていうツッコミは喜んでお受けします.

環境の面倒見るのめんどくさくなって

自宅の MacMini 2011 をサーバ代わりに使っていたんだけど,OS が上がるたびにいろいろ設定とかいろいろしないといけなくて,めんどくさくなった.Rails うごかねくなってるー!等.

というわけで,クラウド*1で色々管理しよっかなー思いいたる.色々やっても高々 2000 円/月*2で済むし,バージョン管理をさすがに Dropbox に任せるのは死ぬし(もちろんジョーク).まじめに,「家に HDD 1TB で 4-bay-RAID6 NAS サーバ構築して,ネットワーク設定して,DDNS とか契約して…」とか考えると,2000 円でデータ管理済まされるのはいい話.HDD 吹っ飛ぶの怖いアル.

とりあえず,本当に 3 分間クッキング *3 でできる gitbucket をでっち上げて,プライベート的に管理することにした.ディスク容量はデフォルトで 15 GB で,コードだけで 1 GB を超えることはさすがにない(データ入れるとよゆーでこえる).だんだんとナウでヤングなやり方になれないとガラパゴス研究室で慣れた方法で横行しちゃいそう,っていう心配から GItFlow もとりいれよーかなーとか.

諸方面から GItHub でええやん!っていうツッコミはあるかもなー.オープンにしてもいいけど,なんとなく不安があるなー.

*1:cloudn;うどんとも言う.

*2:700MHz vCPU;Mem 500MB;HDD 15GB のサーバ 3 つ+ HDD 40GB + 自作 VM テンプレート 15GB 1 つで 2045 円(税込,執筆時点)

*3:慣れたら 1 分インストールも夢ではない

yosemite

yosemite と聞くと,Yosemite National Park を真っ先に思いつくのは私だけかな.おそらく,中学の英語教育で教わった単語だと思う.オソロシヤ,教育.教育とは「キョウセイ」なり.「教育はキョウセイ」とかそんなわけねーだろ協調的にやってこそ教師じゃねーか JK *1 とか思ってたんだが,最近は「キョウセイ」が私に必要だとひしひしと感じてきた.ありがたや.

で,変な話にいっちゃったのを矯正すると,OSX をアップデートしたよっていう話です.相変わらず janetter 使えません.brew は事前対策したので問題なし.最初,フラットデザインきm (ry) とか思ってたんだけど,何故か一日で馴染んでしまいました.おそろしや.

例の暗めのデザインにする機能,便利ではあるが, safari とか Finder が明るいから意味ないっていう.結局暗くするために Brightness Slider 使ってます.以上 Brightness Slider の宣伝でした.

Brightness Slider

Brightness Slider

  • ACT Productions
  • Utilities
  • Free

*1:死語?

記憶とは儚いもので.

だから記録しましょうっていうこと.記憶していても引き出せなければ意味が無いので,ちゃんと引き出せるように.

そういやクローラーのデータを貯める所考えてなかった.RelationalDataBase の一つの列に生テキストをそのまま突っ込むっていう方法もある*1のだが,せっかくなのでなうでやんぐなやり方をしたい.テキスト系を保存するデータベースといえば, MongoDB か CouchDB ですね.

自分で比較するの面倒だったんで,こっち参照←

で,クエリ文はどちらも MongoDB の場合はあまりないんだけど,NoSQL と呼ばれているものはだいたい癖があるもの.MongoDB だけならまだましも,老害データベースやら老害 csv ファイルやら JSON やら RDB やら HDFS やらいろんな所からデータ引っ張ってきて〜とかまじめにやると大変だし,うらの MapReduce の動き方を意識するの面倒.そんな大規模ごちゃまぜアーキテクチャから短時間でデータひっぱってこれるお!っていう感じに Apache Drill *2を理解.同じようなものに Cloudera の Impala もあるらしいけど,どちらも発展段階のようで,特に,RDB につながる部分が Impala には(現時点では?将来的にも?)無いよう.

まあ,ある一つのサイトをクロールしてぐりぐり分析する程度だけなら,必要ないなーと思ったところでした←

*1:実際,SQL Server に HTML の生テキストを一つの項目につっこんでた方がいたし,余計な知識覚えずに楽

*2:現時点では version 0.5

memo: BeautifulSoup

BeutifulSoup べんりなんだろなー(・ー・)と思って pip install beautifulsoup とかやると,二段階で躓いた.

  1. python2.7 しか動かない→ pip2.7
  2. ライブラリが BeautifulSoup と BeautifulSoup4 と二種類ある.(もちろん 4 をいれる)

とりあえず,面白そう.

さっきのサイトを見つつ気になったことをメモ

※さっき

食べログに似たサイト - Elaboration in, Garbage out
※さっき終わり

イギリスにおける著作権と統計解析

イギリスで著作権を含めいろいろなんか動いているらしい(適当),

第310回:イギリスの著作権法改正案(私的複製の拡充、パロディのための権利制限の創設など): 無名の一知財政策ウォッチャーの独言

で,研究図書館関連では,次のような改正があるらしい.

The Copyright and Rights in Performances (Research, Education, Libraries and Archives) Regulations 2014

で,本題.ドラフト段階ではあるが,日本で言う「電子計算機による統計解析」に相当する部分が追記されるらしい.

(2) After section 29 insert—

“29A Copies for text and data analysis for non-commercial research

(1) The making of a copy of a work by a person who has lawful access to the work does not infringe copyright in the work provided that—

(a)the copy is made in order that a person who has lawful access to the work may carry out a computational analysis of anything recorded in the work for the sole purpose of research for a non-commercial purpose, and
(b)the copy is accompanied by a sufficient acknowledgement (unless this would be impossible for reasons of practicality or otherwise).

The Copyright and Rights in Performances (Research, Education, Libraries and Archives) Regulations 2014

斜め読み段階ではあるが,商用ではなければ割りと自由が効きそうだ.

日本における著作権と統計解析

例えばアマゾンのレビューデータを収集したとしよう.電子計算機を用いた統計解析のためだけに使うのならば著作権的に問題はない(著作権以外の問題はあるかもしれないが,とりあえず無いということにしておく).

で,いざという時に「俺統計解析のためだけに使ってるし!!!!1」という主張はどうやって行うのか,という点がびみょーらしく,どこかにデータ永続化する場合は,Bag of words 形式にしとくとか 3-gram model に使えるようにしとくとかいった統計的な処理をして保存しておいたほうが無難らしい.ふーん.

食べログに似たサイト

意外とあるらしい.

食べログサイトと同様のサービスが海外にあるかどうかのご質問で… - 人力検索はてな

で,ここに載ってるのが
アメリカとか,
Yelp Captcha
Citysearch® restaurants
Tabelog
ヨーロッパとか,
Restaurants and Restaurant Bookings | OpenTable - Formerly toptable
あと台湾も.
2013異國美食 - iPeen 愛評網

あと韓国もあるけど興味なし←