めもめも

このブログに記載の内容は個人の見解であり、必ずしも所属組織の立場、戦略、意見を代表するものではありません。

2010-07-01から1ヶ月間の記事一覧

ピアソンのカイ二乗検定の基礎となる定理

mimetex の練習がてらに。。。。 定義 : 確率 に従う母集団からのランダムサンプルここに、は、の開集合とする。 : 尤度関数ここに、 を帰無仮説の範囲とする。(つまり、 が帰無仮説。) 定理 すなわち、、もしくは、 とする時、証明、および、成立条件は、…

MapReduce デザインパターン (6)

"Graph algorithms" を考えます。下図の S, A, B, C, D は 5 つの Web ページで、矢印は、Web リンクを表しているとします。(このような関係は、『有向グラフ』と捉えることができます。)このとき、ページ S からスタートして、最低、何クリックで、A 〜 D…

MapReduce デザインパターン (5)

"Inverted Indexing" を行います。これは、文書番号がついた複数の文書がある時に、単語から文書を検索するための辞書を作成するものですが、最も簡単な辞書としては、 (Key, Value) = (単語, その単語を含む文書の文書番号のリスト)というデータの集まりが…

MapReduce デザインパターン (4)

"word co-occurrence problem" の Pairs パターンの応用問題を考えます。例えば、(You, are), (You, don't) ・・・など You から始まる単語のペアが全部で 120 回出現しており、その中で、(You, are) が 80 回だとすると、全体に対する割合は、80 / 120 * 10…

MapReduce デザインパターン (3)

"word co-occurrence problem" (文書内の近くにペアで出現する単語の数をカウントする処理)の2つの基本パターンである "Pairs" と "Stripes" から、Stripes を見てみます。 ソースコード 今度は、1つのレコード(1行)の中に同時に含まれる単語のペアの…

MapReduce デザインパターン (2)

"word co-occurrence problem" (文書内の近くにペアで出現する単語の数をカウントする処理)の2つの基本パターンである "Pairs" と "Stripes" から、まずは、Pairs を見てみます。 事前準備 「カラマーゾフの兄弟」のテキストを HDFS に保存しておきます。…

MapReduce デザインパターン (1)

はじめに この一連のメモは、Data-Intensive Text Processing with MapReduceに掲載されている Pseudo-code を実際に Hadoop で実行可能な Java クラスとして書いてみることを目的としています。Java のソースコードを掲載するついでに、各デザインパターン…