表題の書籍が 2025/06/27 に技術評論社より発売されます。執筆にあたりご協力いただいた方々に改めて感謝いたします。
本書は、機械学習の基礎的な知識のある方(もしくは基礎知識から学びたい方)を対象とした、生成AIの「仕組み=モデルの動作原理」への入門書です。(一般向けの啓蒙書ではありませんのでご注意ください。)
本書の位置付けを知っていただくために、「はじめに」と「各章概要」を抜粋して掲載しておきますので、購入を検討する際の参考にしていただければ幸いです。技術評論社の書籍紹介ページには、目次も掲載されています。
はじめに
近年、大規模言語モデルをはじめとする、実用性の高い生成AIが話題を集めています。SNSには「生成AIの最新機能!」「生成AIの活用法!」といった情報が溢れています。このようなユーザー目線の話題や情報には事欠かない一方で、「エンジニアとして生成AIの仕組みを正しく理解しておきたい」——— そんな要望に応える情報は、まだ十分とは言えなさそうです。実用レベルの生成モデルに関する学術論文が次々と公開されており、「最新の論文を読みこなして、生成AIをもっと深く学びたい!」と考える方も少なくないはずですが、これらの論文を理解するには、まずは、生成AIの基礎となる仕組みを知る必要があります。
本書では、最先端の論文を読みこなす準備として、画像生成モデルと自然言語モデルのそれぞれについて、変分オートエンコーダやLSTMなどの基礎的なモデルから始まり、拡散モデルやトランスフォーマーと言った、最先端の生成AIの先駆けとなったモデルの仕組みを学びます。ただし、「モデルの仕組み」と言っても、数学的な動作原理を解説することが主眼ではありません。数学的な説明は最低限に留めて、それぞれのモデルの主要な機能をシンプルに実装したサンプルコードを通して、「このモデルはどのような処理をしており、どのように生成モデルとして機能するのか」という仕組みの部分を理解します。また、モデルのパラメーターを変更して実行結果がどのように変わるかを観察する、いくつかの演習課題も用意しています。演習課題に取り組みながらコードの内容を読み解くことで、実感を持ってモデルの仕組みが理解できるでしょう。
一般の利用者の立場で生成AIの能力に驚かされるのも楽しいものですが、その背後の仕組みを技術的に理解する事で、新たに見える世界もきっとあるはずです。一歩進んだエンジニア視点で生成AIを理解して使いこなしていく ——— 本書がその第一歩を踏み出す一助となることを願っています。
各章概要
第1章 ディープラーニングの基礎知識
ディープラーニングモデル、すなわち、深い階層を持ったニューラルネットワークモデルは、実用レベルの生成モデルを実現する上での基礎となる技術です。また、ディープラーニングは、生成モデルに先駆けて、予測モデルの利用範囲を広げて、機械学習を基礎としたAI技術を世の中に広める上で大きな役割を果たしました。第1章では、画像分類モデルを例として、ディープラーニングを用いた予測モデルの基本的な仕組みを学びます。また、Kerasによるディープラーニングモデルの実装方法もあわせて説明します。
第2章 変分オートエンコーダによる画像生成
変分オートエンコーダは、潜在空間を用いて画像の特徴を表現する、画像生成モデルの基礎となる仕組みです。第2章では、オートエンコーダの仕組みとその課題を説明した上で、それらの課題の解決を目指した変分オートエンコーダへの拡張を解説します。この拡張によって、潜在空間のデータ分布がどのように変わるのかを観察しながら、変分オートエンコーダの背後にある考え方や潜在空間の役割を学びます。また、デコーダと分類モデルを同時に学習するマルチタスク学習や、生成する画像の種類が指定できる条件付き変分オートエンコーダなどの応用的なテクニックについても解説します。
第3章 LSTMによる自然言語処理
ディープラーニングによる自然言語処理は、自然言語テキストを時系列データとして扱うリカレントニューラルネットワーク(RNN:Recurrent Neural Network)、特に、初期のRNNに見られた勾配消失の問題を解決したLSTM(Long short-term memory)によって大きく性能を伸ばしました。第3章では、LSTMの仕組みを説明した上で、LSTMを用いたテキスト分類モデル、および、テキスト生成モデルを作成します。あわせて、テキストのトークン化やトークンの埋め込み表現など、自然言語処理の基本的なテクニックを解説します。
第4章 トランスフォーマーによる自然言語処理
トランスフォーマーは、大規模言語モデル(LLM:Large language model)の性能を実用レベルに引き上げたアーキテクチャーで、現在主流の大規模言語モデルのほぼすべてがトランスフォーマーを基礎技術として採用しています。トランスフォーマーの中核となるアテンション機構は、自然言語テキストを時系列順に処理するのではなく、すべての単語(トークン)の相関を同時に計算するという点がRNNと異なります。第4章では、アテンション機構を用いたトランスフォーマーのアーキテクチャーを解説した上で、トランスフォーマーによるテキスト分類モデル、および、テキスト生成モデルを作成します。
第5章 拡散モデルの仕組み
拡散モデルは、学習用の整った画像を標準正規分布のノイズ画像に変換する拡散プロセスを考えて、この逆方向のプロセスを機械学習モデルで実現します。これにより、ノイズ画像から整った画像が生成できます。一見すると、変分オートエンコーダとは、まったく異なる仕組みに見えますが、これらは、「予測が容易なデータ分布を予測困難な現実世界のデータ分布に変換する仕組み」という観点で統一的に捉えられます。第5章では、拡散モデルと比較する参考として、DCGAN(Deep convolutional generative adversarial networks)の仕組みを説明した上で、拡散モデルの解説へと進みます。また、補足として、変分オートエンコーダの課題解決を目指したVQ-VAEを紹介します。
第6章 マルチモーダルモデルの実現
第5章までは、自然言語テキストを扱う言語モデルと、画像データを扱う画像生成モデルを別々に説明しましたが、現在では、自然言語テキストと画像データ、さらには、音声データなど、さまざまな種類のデータを同時に処理するマルチモーダルモデルも登場しています。第6章では、最先端のマルチモーダルモデルに至るまでに登場した、主要なモデルや研究論文を紹介します。具体的には、DALL·E 2(ダリ ツー)、Imagen(イマジェン)、Stable Diffusion(ステイブル・ディフュージョン)などのテキストデータから画像を生成するモデルやサービス、あるいは、画像に対する質問に回答するPaLI(Pathways Language and Image model)、マルチモーダルモデルのGemini(ジェミニ)に関連する論文を取り上げます。