[コンピュータ日記] 生成AI (LLM) の可能性を考える

このところ自宅で生成AIを試している。ChatGPTなどに代表される、大規模言語モデル(LLM:Large Language Model)というヤツだ。

今日やっていたのは、東大松尾研発スタートアップELYZA(イライザ)社のELYZAを試すことだった。ChatGPTやGPT3.5に比べるとおもちゃみたいな小規模モデルだけれども、いろいろ考えさせられてしまった。

ちなみにパラメータ数は7Bこと7 bilion … 約70億だ。1,780億パラメータなどが当たり前のLLMにおいては、本当に小規模だ。ただしそのおかげで、NVIDIAの最新H100(VRAM:80GB)やA100(同じくVRAM:80GB)を何枚も使わずとも、旧世代NVIDIA Telsa P40(24GB)でも動かすことができる。

最初のうちはGPT3.5などに比べると賢さがイマイチだなと思いながら使っていたけれども、さすがに一日近くアレコレと思いつくことを試していたら、僕の方がELYZAに慣れて来たのかもしれない。思わず唸るような回答に出会ってしまった。

ちなみに最後の質問3つは、以下の通りである。

日本最大のITベンダを教えてください

“日本最大のITベンダーは、NTTデータです。

NTTデータは、1967年に設立された日本最大級のIT企業で、売上高は世界第3位、日本第1位のIT企業です。

グループ企業は、NTTデータ アドバイザリー・サービス、NTTデータ ビジネスアソシエ、NTTデータ インフォメーション、NTTデータ セキュリティ、NTTデータ スマートソーシング、NTTデータ アクセスソリューションズ、NTTデータ アジア・パシフィックなどがあります。”

LLM(Large Language Model)というのは大量の言語データで学習させることが特徴だけれども、一般的に最新データは押さえていないことが多いと思われている。それがちゃんと反映されている。よくぞここまで調べていたと感心する。

ちなみにELYZAによると、「ともかく日本語は利用できるデータ量が少ない」とのことである。どこぞの会社の事業部長さんは「世界中のデータを活用できる!」と寝ぼけたことを言ったらしいとも聞くけれども、そのデータが少なくて困っているのだ。少なくとも現在テキスト化されたデータだけでは全く不足しているとのことだ。

ここまで情報を収集していて、それでもデータ不足で困っている… 今後は何らかの手段でデータ量を充実させることが可能になったら、いったいどこまでLLMは変化するのだろうか。

彼女とけんかしてしまいました。仲直りするにはどうしたら良いでしょうか

“仲直りするための具体的な方法は人それぞれですが、一般的なアドバイスを以下に示します。

  1. 落ち着いて相手を見つめてあげる: 腹を立てた状態では、相手を見ることができません。落ち着いてから、彼女の顔をじっくり見
    つめてあげましょう。
  2. 謝罪の言葉をかける: 謝ることはとても勇気がいることですが、謝罪の言葉をかけることで仲直りすることは可能です。
  3. 説明を求める: 腹を立てている相手に対して、説明を求めることは難しいかもしれませんが、落ち着いて考えてみてください。
  4. 共通の話題を見つける: 共通の話題を見つけることで、仲直りのきっかけを作ることができます。”

僕は自分の専門はプロダクト・マーケティングで、現在は企画部門のスタッフだと考えている。どちらかというと調査方面が得意で、Google検索ノウハウを持っていることが強みとなっている。ユーザ(会社)の意を汲んだ企画提案は難しい。

そういう意味では上記の回答は精度的にはさておき、ともかく形式としては立派な提案となっている。別にLLMに全てを任せたいという訳ではない。役に立つヒントの一つ二つも得られれば、それで十分だったりもする。人間というのはどうしても自分の考えに縛られがちで、だからこそチームでブレイン・ストーミングをすることなども役立つ訳だ。

そういう意味で、見当はずれだろうが何だろうが、LLMは自分と異なる視点を持っている訳だ。最初のとっかかりを見つけるとか、企画を作ることに関しても、いろいろな活用ができそうに見える質問&回答だ。

ちなみに世界トップのコンサル企業であるマッキンゼーも、LilliというLLMを導入している。

あなたの名前を教えてください

“私はELYZAによって訓練されたAIであるため、個人的な名前はありません。

しかし、ELYZAによって訓練されたAIの一覧を見たいという場合は、以下のリンクからご覧ください。

ELYZAによって訓練されたAIの一覧: https://www.elyza.ai/models/

LLMの基礎学習した者ならば思いつかないような発想である気がしないでもないけれども、好奇心で投げかけてみたら、きっちりとした回答が返ってきた!

自然言語処理の一分野であるLLMというのは、ある程度の文章に続くフレーズとか、途中の空白を埋めるフレーズを「生成」が基本となっている。だから “あなた” を学習できているかが気になったけれども、小説などのやりとりから、”あなた” とは何かを識別できるようになっているらしい。

実は僕のような推理マニア&トーヘンボクからすると、人間の知性だとか個性などに大した価値は見いだせていない。しょせんは機械学習と同じく、定形パターンによって訓練された条件反射のような気がするのだ。

少なくとも僕は空気など全く読むことができず、自らがパターン学習の成果であるような気がする存在だったりする。実際、「典型的なパターン人間」と呼ばれることもある。

そして人間というのは論理的だと言われる者でも、実はあんまり論理的な存在ではない。要所・要所を論理的に詰めて考えることができる存在が、論理的であると評価されているのに過ぎないように見える。

職場などはITベンダであるにも関わらず、まったくデータ志向でも論理重視でもないような気がしている。

そういう目で見てみると「あなた」をそれなりに識別できるだけでも大したことであって、それが出来ているELYZAって何者?という気がしてくるのだ。人間のふりをして一週間ほど気づかれることがなかったLLMが2020年に知られてから2年少々で、オンボロPCでようやく動かせる7B版LLMでもここまで実現できてしまうのだ。

まとめ:まだ始まったばかり

先の通りでGPT3が2020年に登場してから2年が経過し、ChatGPTが脚光を浴びるようになって半年以上が経過した。しかしハードウェアでもソフトウェアでも日々新しい知見が積み重ねられていて、Gartnerなどの調査会社も「まだまだこれから」という評価になっている。

現状でもいろいろな活用方法を思いつけそうな状況であるのに、まだLLMは発展途上の技術に過ぎないし、その基盤となる転移学習とか基盤モデル(Foundation Model)は研究段階に過ぎないという状況である。

AGI(Artificial General Intelligence:汎用人工知能)はFoundation Modelの遥か先に存在している思われる “目標” だけれども、その端緒であるLLMでさえ恐るべきものある。

個人的には人間など存外大したことないと思っていたが、たしかに人間などいい加減な存在ではあると未だに考えている自分が存在するけれども、それでもLLMを使ってみるにつれ、侮ってはいけないないのだと痛感させられる。

果たしてこの生成AIブームの行きつく先はどこになるのだろうか。ロートルおじさんである僕が目にすることはないかもしれないけれども、それゆえに今から想像してアレコレと考えてしまう。

少なくとも短い老い先で退屈することは全く無さそうだ。

それでは今回は、この辺で。ではまた。

——————————-
記事作成:小野谷静(オノセー)