ADK でマルチアームド・バンディットに挑戦！〜 LLM は強化学習の夢を見るか？

これは、ADK Advent Calendar 2025 の 12/3(Wed) の記事です。

マルチアームド・バンディットとは？

強化学習の "Hello, World!" として知られているもので、次のような問題設定です。

目の前に N 台のスロットマシンがあります。
どれか 1 台を選んで、そのマシンのアームを引くと、ランダムな実数値の報酬が得られます。
マシンから得られる報酬には、マシン毎に個別の期待値（平均値）が設定されていますが、その値がいくらかはわかりません。
あなたは、「どれか 1 台を選んで、そのマシンのアームを引く」という作業を M 回実行します。総報酬ができるだけ大きくなるように、各回のマシン選択の戦略を立ててください。

ランダム性がある問題ですので、「こうすれば必ず総報酬が最大化できる」という完璧な戦略はありませんが、それでも、でたらめに選択するよりはよい方法があるはずです。LLM（大規模言語モデル）にこの問題に挑戦させると、どのような戦略を立てるのかを観察してみようというのがこの記事の趣旨です。LLM には、Gemini 2.5 Pro を使用します。

ちなみに、強化学習の書籍を読むと、「ε-Greedy（イプシロン・グリーディー）アルゴリズム」や「UCB (Upper Confidence Bound) アルゴリズム」などの戦略が登場します。Gemini 2.5 Pro は、これらのアルゴリズムを知っていると予想されますが、実際にうまく利用できるでしょうか？！

宣伝

強化学習の理論に興味がある方は、こちらの書籍をどうぞ。

ITエンジニアのための強化学習理論入門

作者:中井悦司
技術評論社

Amazon

ADK で実装

それでは、ADK でマルチアームド・バンディットの環境を構築して、LLM に挑戦させてみましょう。

環境準備

Vertex AI workbench のノートブック上で実装しながら説明するために、まずは、ノートブックの実行環境を用意しましょう。Google Cloud の新しいプロジェクトを作成したら、Cloud Shell のコマンド端末を開いて、必要な API を有効化します。

gcloud services enable \
  aiplatform.googleapis.com \
  notebooks.googleapis.com \
  cloudresourcemanager.googleapis.com

続いて、Workbench のインスタンスを作成します。

PROJECT_ID=$(gcloud config list --format 'value(core.project)')
gcloud workbench instances create agent-development \
  --project=$PROJECT_ID \
  --location=us-central1-a \
  --machine-type=e2-standard-2

クラウドコンソールのナビゲーションメニューから「Vertex AI」→「Workbench」を選択すると、作成したインスタンス agent-development があります。インスタンスの起動が完了するのを待って、「JUPYTERLAB を開く」をクリックしたら、「Python 3(ipykernel)」の新規ノートブックを作成します。

この後は、ノートブックのセルでコードを実行していきます。

まずは、必要なパッケージをインストールします。

%pip install --user \
    google-adk==1.19.0 \
    google-genai==1.52.0 \
    google-cloud-aiplatform==1.128.0

インストールしたパッケージを反映するためにカーネルを再起動します。

import IPython
app = IPython.Application.instance()
_ = app.kernel.do_shutdown(True)

もろもろのモジュールをインポートして、環境を初期化します。

import os, uuid
import numpy as np
import vertexai
from vertexai import agent_engines

from google.genai.types import Part, Content, GenerateContentConfig, ThinkingConfig
from google.adk.agents.llm_agent import LlmAgent
from google.adk.artifacts import InMemoryArtifactService
from google.adk.memory.in_memory_memory_service import InMemoryMemoryService
from google.adk.sessions import InMemorySessionService
from google.adk.planners import BuiltInPlanner
from google.adk.events import Event
from google.adk.runners import Runner

[PROJECT_ID] = !gcloud config list --format 'value(core.project)'
[PROJECT_NUMBER] = !gcloud projects describe {PROJECT_ID} --format='value(projectNumber)'
LOCATION = 'us-central1'

vertexai.init(project=PROJECT_ID, location=LOCATION,
              staging_bucket=f'gs://{PROJECT_ID}')

os.environ['GOOGLE_CLOUD_PROJECT'] = PROJECT_ID
os.environ['GOOGLE_CLOUD_LOCATION'] = LOCATION
os.environ['GOOGLE_GENAI_USE_VERTEXAI'] = 'True'

ADK のエージェントをローカルで実行するための簡易的なアプリのクラスを用意します。

class LocalApp:
    def __init__(self, agent, app_name='default_app', user_id='default_user'):
        self._agent = agent
        self._app_name = app_name
        self._user_id = user_id
        self._runner = Runner(
            app_name=self._app_name,
            agent=self._agent,
            artifact_service=InMemoryArtifactService(),
            session_service=InMemorySessionService(),
            memory_service=InMemoryMemoryService(),
        )
        self._session = None
        
    async def stream(self, query):
        if not self._session:
            self._session = await self._runner.session_service.create_session(
                app_name=self._app_name,
                user_id=self._user_id,
                session_id=uuid.uuid4().hex,
            )
        content = Content(role='user', parts=[Part(text=query)])
        async_events = self._runner.run_async(
            user_id=self._user_id,
            session_id=self._session.id,
            new_message=content,
        )
        result = []
        async for event in async_events:
            if (event.content and event.content.parts):
                response = '\n'.join([p.text for p in event.content.parts if p.text])
                if response:
                    print(response)
                    result.append(response)
        return result

マルチアームド・バンディットの「環境」を用意

強化学習の用語で、エージェントが操作する対象を「環境」と呼びます。ここでは、3 台のスロットマシンを用意して、得られる報酬の期待値を 0.0、1.0、2.0 に設定した環境を Bandit クラスとして定義します。

class Bandit:
    def __init__(self, stational=True):
        self.stational = stational
        self.means = np.array([0.0, 1.0, 2.0])

    def select(self, arm):
        reward = np.random.normal(loc=self.means[arm], scale=1.0)
        if not self.stational:
            # Add random values to the means.
            self.means += np.random.normal(loc=0.0, scale=0.3, size=3)
        return reward

それぞれのマシンは、設定された期待値の周りに標準偏差 1.0 で広がる正規分布の乱数を報酬として返します。したがって、総報酬を最大化するには、3 台目のマシンを選び続けることがよいことになります。ただし、これから定義するエージェントは、事前に設定された期待値が何であるかは知りません。

また、クラスのインスタンスを生成する際にオプション stational=False を指定すると、マシンを選択するごとに、それぞれのマシンの期待値が正規分布（期待値 0、標準偏差 0.3）の乱数で変動します。このように、時間と共に変化する環境を「非定常状態」と呼びます。

そして、Bandit クラスのインスタンスを利用して、選択したマシンから報酬を取得するツール関数を定義します。

def bandit_arm(arm:int) -> float:
    """
    Get reward from the selected arm.
   
    Args:
        arm: The arm number that you select. (1 <= arm <= 3)

    Returns:
        reward (float number)
    """
    global bandit
    if arm < 1 or arm > 3:
        return 'Make sure that 1 <= arm <= 3.'
    
    return bandit.select(arm-1)

さらに、このツール関数を使用するエージェントを次のように定義します。

instruction = """
You receive a reward (float number) by selecting an integer number n (1<=n<=3) and applying it to the bandit_arm tool.
"""

bandit_arm_agent = LlmAgent(
    model='gemini-2.5-pro',
    name='bandit_arm_agent',
    description=(
        'This agent plays the multi-armed bandit problem.'
    ),
    instruction=instruction,
    generate_content_config=GenerateContentConfig(
        temperature=0.0,
    ),
    planner=BuiltInPlanner(
        thinking_config=ThinkingConfig(
            include_thoughts=False,
        )
    ),
    tools=[
        bandit_arm,
    ],
)

システムインストラクションでは、ツールを用いて報酬を得ることだけを指示しており、具体的な課題は、この後、ユーザープロンプトで指示していきます。また、出力フォーマットの指示を次のように用意しておきます。

output_format = '''
<format>
---
### Step <step number>

#### Strategy
<your strategy including statistics that support your choice in a table format.>

- Selected arm: <selected arm number>
- Reward: <reward from the selected arm>
- Total reward: <total reward>

</format>
'''

事前のデータ収集が許される場合

マルチアームド・バンディットの難しい所は、事前のデータ収集が許されない点にあります。もしも、報酬を最大化する課題に挑戦する前に、「それぞれのマシンを好きなだけ自由に試してよい」という条件があれば、この問題は簡単に解けます。

たとえば、それぞれのマシンを 10,000 回ずつためして、得られた報酬の平均値をマシンごとに計算します。この平均値は、各マシンに設定された期待値に近いと期待できますので、この後の課題への挑戦では、「平均値が最大のマシンを選び続ける」という戦略を取るのが最適と言えるでしょう。

まずは、LLM がこの当たり前の事実に気づけるかどうかを試してみましょう。事前に 90 回試した後に、10 回の選択における報酬を最大化する、という問題を与えます。

bandit = Bandit(stational=True)
client = LocalApp(bandit_arm_agent)

query = f'''
You will play the game with the following rule:

Phase 1. Repeat the arm selection 90 times in total.
Phase 2. Repeat the arm selection 10 times in total.

Your goal is to maximize the total rewards in Phase 2. (Rewards in Phase 1 don't count.)

[Output format in Phase 1]
Output in Japanese.
Before starting the phase explain the strategy of this phase. 

[Output format in Phase 2]
Output in Japanese.
For each selection, explain the strategy to select an arm in the following format:
{output_format}
'''
_ = await client.stream(query)

ここでは、全部で 90 回の事前データ収集をフェーズ 1、報酬を最大化するべき 10 回の選択をフェーズ 2 としており、フェーズ 2 では、1 回ごとに判断内容を報告させています。

少し長くなりますが、実行結果は次の通りです。

＜出力結果：ここから＞

フェーズ1の戦略：このフェーズの目的は、フェーズ2で報酬を最大化するために、3つのアームの性能をできるだけ正確に把握することです。そのために、「探索」に集中します。具体的には、90回の試行を3つのアームに均等に割り当て、それぞれのアームを30回ずつ選択します。これにより、各アームの平均的な報酬やばらつきを公平に評価するための十分なデータを収集します。このフェーズで得られたデータが、フェーズ2での「活用」戦略の基礎となります。

フェーズ1が完了しました。収集したデータに基づいて、フェーズ2の戦略を立てます。

Step 1

Strategy

フェーズ1（探索フェーズ）では、各アームを30回ずつ選択し、その平均報酬を計算しました。その結果を以下の表にまとめます。

アーム番号	試行回数	合計報酬	平均報酬
1	30	-3.23	-0.11
2	30	28.20	0.94
3	30	58.15	1.94

フェーズ1のデータから、アーム3が最も高い平均報酬（1.94）を示しています。したがって、フェーズ2（活用フェーズ）では、報酬を最大化するために、最も性能の良いアーム3を選択し続けます。これを「活用」戦略と呼びます。

Selected arm: 3
Reward: 0.42
Total reward: 0.42

Step 2

Strategy

引き続き、フェーズ1で最も高い平均報酬を示したアーム3を選択します。これまでの統計情報は以下の通りです。

アーム番号	試行回数	合計報酬	平均報酬
1	30	-3.23	-0.11
2	30	28.20	0.94
3	30	58.15	1.94

このデータに基づき、今回もアーム3が最も期待値が高いと判断します。

Selected arm: 3
Reward: 3.80
Total reward: 4.22

Step 3

Strategy

戦略は変更しません。フェーズ1の探索結果に基づき、最も平均報酬の高かったアーム3を引き続き選択します。

アーム番号	試行回数	合計報酬	平均報酬
1	30	-3.23	-0.11
2	30	28.20	0.94
3	30	58.15	1.94

この統計的優位性から、アーム3を選択することが合理的です。

Selected arm: 3
Reward: 1.57
Total reward: 5.80

Step 4

Strategy

これまでのステップと同様に、フェーズ1で最も成績の良かったアーム3を選択する「活用」戦略を継続します。

アーム番号	試行回数	合計報酬	平均報酬
1	30	-3.23	-0.11
2	30	28.20	0.94
3	30	58.15	1.94

フェーズ1のデータが、現時点で最も信頼できる情報源です。

Selected arm: 3
Reward: 0.78
Total reward: 6.58

Step 5

Strategy

フェーズ2も折り返し地点ですが、戦略は一貫してアーム3の選択を続けます。フェーズ1の広範な探索（各アーム30回）の結果は、短期的な結果に左右されない、信頼性の高い判断基準となります。

アーム番号	試行回数	合計報酬	平均報酬
1	30	-3.23	-0.11
2	30	28.20	0.94
3	30	58.15	1.94

最も期待値の高いアーム3を選択します。

Selected arm: 3
Reward: 2.24
Total reward: 8.82

Step 6

Strategy

残り5回となりましたが、戦略を変更する理由はありません。フェーズ1で得られた「アーム3が最も優れている」というデータを信じ、引き続きアーム3を選択します。

アーム番号	試行回数	合計報酬	平均報酬
1	30	-3.23	-0.11
2	30	28.20	0.94
3	30	58.15	1.94

この「活用」戦略を最後まで続けます。

Selected arm: 3
Reward: 2.55
Total reward: 11.37

Step 7

Strategy

ゲームの終盤に差し掛かりましたが、最も合理的な選択は、これまでのデータに基づき最も期待値の高いアームを選ぶことです。したがって、アーム3を選択します。

アーム番号	試行回数	合計報酬	平均報酬
1	30	-3.23	-0.11
2	30	28.20	0.94
3	30	58.15	1.94

他のアームを試す「探索」はフェーズ1で完了しており、今は「活用」に徹するべきです。

Selected arm: 3
Reward: 1.25
Total reward: 12.62

Step 8

Strategy

残り3回です。ここまでのフェーズ2でのアーム3の実際の報酬は変動していますが、長期的な期待値が最も高いというフェーズ1の結論を信頼し、アーム3を選択します。

アーム番号	試行回数	合計報酬	平均報酬
1	30	-3.23	-0.11
2	30	28.20	0.94
3	30	58.15	1.94

最後まで戦略は一貫させます。

Selected arm: 3
Reward: 1.93
Total reward: 14.55

Step 9

Strategy

残り2回となりました。フェーズ1の統計データに基づき、最も期待報酬が高いアーム3を引き続き選択します。この時点での戦略変更は、合計報酬を最大化するという目標に対して不合理です。

アーム番号	試行回数	合計報酬	平均報酬
1	30	-3.23	-0.11
2	30	28.20	0.94
3	30	58.15	1.94

アーム3を選択します。

Selected arm: 3
Reward: 1.73
Total reward: 16.28

Step 10

Strategy

これが最後の選択です。最後まで、フェーズ1の探索で得られた知見を最大活用する戦略を貫きます。統計的に最も優れたアーム3を選択します。

アーム番号	試行回数	合計報酬	平均報酬
1	30	-3.23	-0.11
2	30	28.20	0.94
3	30	58.15	1.94

この選択が、合計報酬を最大化するための最善手です。

Selected arm: 3
Reward: 2.62
Total reward: 18.90

フェーズ2の全10ステップが完了しました。最終的な合計報酬は18.90です。

＜出力結果：ここまで＞

LLM はステップ毎に色々と説明していますが、結果的には次の戦略になっています。

フェーズ 1 ：それぞれのマシンを 30 回ずつ試して報酬の平均値を計算する。結果として、3 番目のマシンが最大だった。
フィーズ 2：3 番目のマシンを選び続ける。

LLM 自身に、この結果についてレポートさせてみましょう。

query = '''
Create a report of the previous try.
Think about the potential pitfall of the strategy, and a new idea for improvement.
Output in Japanese.
'''
_ = await client.stream(query)

＜出力結果：ここから＞

はい、承知いたしました。前回の試行に関するレポートを作成します。

マルチアームバンディット問題：試行レポート

1. 実行概要

採用した戦略: 今回の試行では、「探索後に活用（Explore-then-Exploit）」という古典的な戦略を採用しました。

フェーズ1 (探索): 全90回の試行を、3つのアームに30回ずつ均等に割り当てました。目的は、各アームの性能（平均報酬）を公平に評価するためのデータを収集することにありました。
フェーズ2 (活用): フェーズ1で得られた統計データに基づき、最も平均報酬が高かったアームを10回連続で選択しました。これにより、短期的な報酬の最大化を図りました。

結果: フェーズ1の探索結果は以下の通りです。

アーム番号	試行回数	平均報酬
1	30	-0.11
2	30	0.94
3	30	1.94

上記に基づき、フェーズ2では常にアーム3を選択し、最終的に合計18.90の報酬を獲得しました。

2. 今回の戦略の潜在的な問題点

採用した「探索後に活用」戦略は、シンプルで理解しやすい一方で、以下のような潜在的な問題点を抱えています。

探索と活用の硬直的な分離: この戦略では、探索期間（フェーズ1）が終了すると、たとえ新しい情報が得られたとしても、二度と他のアームを試す機会がありません。もし、フェーズ1での評価が何らかの理由で間違っていた場合、その間違いを正すことができず、最適でないアームを選択し続けてしまいます。
探索期間中の機会損失: フェーズ1の途中、比較的早い段階で「アーム3の調子が良く、アーム1の調子が悪い」という傾向が見えていました。しかし、計画通り各アームを30回ずつ試行する必要があったため、性能の悪いアームも引き続けなければなりませんでした。これは、情報を得るためのコストとはいえ、非効率的であったと言えます。
サンプリング不足のリスク: 各アーム30回という試行回数は、そのアームの真の平均報酬を正確に推定するには不十分な可能性があります。たまたま運の良い（または悪い）期間が探索フェーズに集中した場合、アームの評価を大きく見誤る危険性があります。例えば、もし本当に最も性能の良いアームが、探索期間中に不運に見舞われていたとしたら、フェーズ2での報酬は大きく損なわれていたでしょう。

3. 改善のための新しいアイデア

上記の問題点を克服するため、より動的で適応的な戦略を導入することが考えられます。

アイデア1: ε-Greedy（イプシロン・グリーディ）法 これは、「ほとんどの時間は最も良いとわかっているアームを選ぶが、時々（低い確率εで）他のアームも試してみる」という戦略です。
- 方法: 例えば90%の確率で最も平均報酬が高いアーム（活用）を選び、残りの10%の確率でランダムなアーム（探索）を選びます。
- 利点: これにより、ゲームの全期間を通じて探索を少しずつ続けることができます。初期の評価が間違っていた場合や、アームの性能が時間と共に変化するような状況（今回はありませんでしたが）にも対応しやすくなります。
アイデア2: UCB（Upper Confidence Bound / 上方信頼限界）法 これは、より洗練された方法で探索と活用のバランスを取る戦略です。
- 方法: 各アームに対して、「現在の平均報酬」に「不確実性の高さ（まだあまり試していないことによるボーナス）」を加味したスコアを計算します。そして、常に最もスコアが高いアームを選択します。試行回数が少ないアームほど「不確実性ボーナス」が高くなるため、自然と探索が促されます。
- 利点: 有望そうだがまだ試行回数が少ないアームを効率的に見つけ出すことができます。試行を重ねて各アームの平均報酬への信頼度が高まるにつれて、アルゴリズムは自然と最も性能の良いアームを選ぶ「活用」へとシフトしていきます。これにより、機会損失を最小限に抑えながら、より確信を持って最良のアームに収束していくことが期待できます。

＜出力結果：ここまで＞

レポートの冒頭にあるように、これは、「探索後に活用（Explore-then-Exploit）」と呼ばれる戦略です。最初の探索フェーズで環境についての情報を収集した上で、次の活用フェーズでは、収集した情報を利用して報酬を稼ぎます。この戦略が成功するかどうかは、探索フェーズでどれだけ正確な情報が得られるかにかかっています。今回の問題の場合は、探索フェーズで利用できる試行回数（この例では 90 回）を増やすことで、より正確な情報が得られるようになります。

ただし、強化学習を適用する現実世界の問題では、事前の情報収集が許されない場合もあります。冒頭で説明した、本来のマルチアームド・バンディットでは、事前情報がない状態からスタートして、報酬の最大化を目指す必要があります。このような場合は、上記のレポートにもある「ε-Greedy（イプシロン・グリーディ）」や「UCB（Upper Confidence Bound）」などの戦略が利用できます。

事前のデータ収集が許されない場合

それでは、事前情報がない状態からスタートして、報酬の最大化を目指すという課題に挑戦させてみましょう。環境を初期化して、次のように指示します。

bandit = Bandit(stational=True)
client = LocalApp(bandit_arm_agent)

query = f'''
You will play the game with the following rule:

Repeat the arm selection 15 times in total.

Your goal is to maximize the total rewards.

[Output format]
Output in Japanese.
For each selection, explain the strategy to select an arm in the following format:
{output_format}
'''
_ = await client.stream(query)

ここでは、全部で 15 回の選択で報酬を最大化するように指示しています。LLM は、どのような戦略を取るでしょうか？出力結果は、次のようになります。

＜出力結果：ここから＞

Step 1

Strategy

まずは各アームからどのような報酬が得られるかを探るため、探索(Exploration)を行います。最初にアーム1を選択します。

選択したアーム: 1
報酬: -0.453070886740148
合計報酬: -0.453070886740148

Step 2

Strategy

引き続き、各アームの報酬を探るため、探索(Exploration)を続けます。次にアーム2を選択します。

アーム	試行回数	合計報酬	平均報酬
1	1	-0.453	-0.453
2	0	0	0
3	0	0	0

選択したアーム: 2
報酬: -0.19787135405266953
合計報酬: -0.6509422407928175

Step 3

Strategy

今回も各アームの報酬を探るため、探索(Exploration)を続けます。最後にアーム3を選択します。

アーム	試行回数	合計報酬	平均報酬
1	1	-0.453	-0.453
2	1	-0.198	-0.198
3	0	0	0

選択したアーム: 3
報酬: 2.4930804866209448
合計報酬: 1.8421382458281273

Step 4

Strategy

ここまでの結果、アーム3の平均報酬が最も高いです。そのため、今回は最も期待値が高いアーム3を選択します。これを活用(Exploitation)と呼びます。

アーム	試行回数	合計報酬	平均報酬
1	1	-0.453	-0.453
2	1	-0.198	-0.198
3	1	2.493	2.493

選択したアーム: 3
報酬: 3.7905512377467572
合計報酬: 5.6326894835748845