無駄な多様性をふるい落とす深層学習


国立研究開発法人産業技術総合研究所・副連携室長の中田亨氏に、アイソス2021年10月号から2022年3月号まで「多様性工学へのいざない」というテーマで連載記事をご執筆いただきました。本稿は、その中から連載第3回「無駄な多様性をふるい落とす深層学習」(2021年12月号)の記事全文を掲載しています。無駄な多様性をいかにして削ぎ落とし、役立つ情報に仕立てていくかを、自動符号化器の仕組みや機械学習の事例を使って分かりやすく解説いただきました。


1. 路面電車はなぜ曲がれるのか



自動車では、前進後退と左右の舵切りという2つの自由度を制御できます。こうして2次元の平面上を縦横無尽に移動します。しかし、制御自由度は2しかありませんから、3次元空間を自由に飛び回ることはできません。対象を完全に制御するには、その自由度以上の制御自由度が必要となります。これを「アシュビーの必要多様性の法則」と呼びます。

路面電車には、舵取りハンドルは無く、前進後退しか制御できません。その制御自由度は1で、線路という1本道に沿ってしか移動できません。しかし実際には、線路の分岐点で運転手は自分が望む方向に進路を選べています。一見すると、これはアシュビーの必要多様性の法則に反しているように見えます。

実は、路面電車の分岐点では、電車が特定の位置に進入するタイミングを選ぶことによって、転轍機の分岐の方向を切り替えられるのです。タイミングを守らなければならないという制約がありますが、実用上は十分に役に立ちます。このように、手持ちの制御自由度が不足していても、タイミングに工夫をすれば、制約はあるものの、自由度以上の次元を制御できます。

アシュビーの必要多様性の法則は、当然の理に見えますが、実用上は絶対の法則ではありません。不足する多様性を時間軸にたたみ込んで同居させて解決するという、裏技的な策があるのです。これはエンジニアリングの世界では常套手段となっています。

テレビの画像信号は電波に乗せて送られますが、各時点では電波は電位という1つの値しか運べません。これでは1画素は描けても、2次元の広がりを持つ絵全体を描くには足りません。そこで、動画の時間連続性は諦めて、パラパラ漫画の要領で間引きして描いています。人間の目にはあたかも時間の飛びがない動画像に見えます。

光学顕微鏡は光の半波長より短い寸法のものを観察することができないという、「回折限界」があると、昔は教わったものでした。しかし今では、超解像度顕微鏡が発明されています。光照射のタイミングを工夫することで、従来の限界を乗り越えました。

とはいえ時間軸たたみ込みという技が使えない場合は、必要多様性に応じて制御自由度を増やさなければならないことになります。日本のスーパーマーケットの棚を見ると、A社の商品が置いてある真横に、B社による競合品が並べられ、さらにその横にはC社の競合品が置いてあります。棚でのわずかな幅を争って、商品配置を制御しているのです。  これは消費者にとっては商品選択の多様性が大きくなるので、ありがたい話です。その裏では、需要予測や、物流手配、価格交渉、賞味期限管理といった膨大な努力がなされています。

月交代で「今月はA社だけ、来月はB社だけ」とできれば楽でしょうが、そういう雑な売り方では勝てません。日本の消費者は、商品多様性を強く求めます。かたや外国のスーパーマーケットでは、「うちの店ではパスタはA社の商品だけ」と、多様性をあきらめる場合も見受けられます。



2. 無駄な多様性



打って変わって、多様性が有り余っていて困るという題材も多々あります。

世の中の物事は、一見、素朴と思えるものでも、実は途方もない多様性を含んでいるものです。

ロボット工学の権威の金出武雄博士が興味深い事実を指摘しています。図表1のように、縦10列、横10列の100マスに並んだ、白黒の画素からなるビットマップの絵を考えて見ましょう。画面が狭く、色も無く、濃淡もないという、素朴この上ないものです。このような厳しい制約では、絵をあれこれ描き分けられませんから、多様性は乏しいように思えます。



この100マスの白黒絵のパターンは、2の100乗通りあります。これは約10の30乗という巨大な数です。宇宙は140億年前に誕生したと言われますが、それは秒数でいえば約10の17乗に過ぎません。つまり、宇宙開始から今までの時間をかけて、毎秒1パターンのペースで絵を見ていったとしても、全パターンの100兆分の1もまだ見終えてない勘定になります。こんな小さな絵ですら、その多様性は事実上の無限大です。

囲碁や将棋のゲームでは、手順の分岐をあれこれ考えて、それらの先を読んでいきます。しかし、少し先を読もうとすると、たちまち候補の分岐の数が爆発して、大型コンピュータでも取り扱うことができなくなります。結局、試合展開の全ての分岐を結末まで読むことはできず、途中で読みを打ち切るという不完全な判断をせざるを得ません。

世の中の物事は、多様すぎて、全てを網羅して管理することができないことが普通なのです。



3. 自己符号化器のしくみ



「猫が写っている写真」や「札幌の写真」を検索したいとします。かつては画像認識技術が未熟でしたから、人間がアルバムをめくって探すしか方法がありませんでした。2012年に人工知能の深層学習が突如として飛躍的に進化を遂げたおかげで、最近のスマートフォンは自動で検索してくれます。人工知能の画像認識能力は強烈で、猫の全身が写っている模範的な写真だけでなく、顔が半分だけ写っているような半端なものでも認識できます。

一番安直な画像認識の方法は、答えを丸暗記することです。猫が写っている写真を全て覚えておけばよいわけです。しかし、上述した小さなサイズの絵ですら、手に負えないほど多数存在するのですから、写真の丸暗記作戦は成功しません。

次に考えられたのは、概念を数式で定義するという作戦です。「赤い円形ならリンゴ」などと写真データの数値的特徴と概念とを結びつけます。ですが、概念の数だけ定義を考えねばならず大変です。ましてや、「赤い円形でもリンゴとトマトは違う」と判定するには、よほど精巧な定義を編み出さねばなりません。ましてや「札幌の写真」の定義に至っては難問すぎます。

膨大で精巧な定義を人力で編み出すことは不可能なので、自動化しようということになります。そこでは自己符号化器という、実に簡単ながら効果絶大であるアイデアが使われています。

自己符号化器の仕組みを、図表2のように、3つの層をつくって並んでいる人々のモデルで説明しましょう。何か識別すべき対象のデータが入力されたとします。図の例では4画素の画像データです。第1層に並んだ人々はそれぞれ、自分が観察する画素が割り振られていて、担当の画素のデータを読み上げるだけで仕事は終わりです。



第2層の人々は、第1層の人々が何と言ったかを観察し、それらの値を特定の計算式に代入して数値を算出し、読み上げます。この計算式は、第2層の人ごとに設定されています。自己符号化器では、第2層の人数が他の層と比べて、わずかに少なくなるように作られています。砂時計のように中央がくびれているのです。

第3層は、第2層とやることが似ています。第3層の人々は、第2層の人々が出した数字を、それぞれが持っている計算式に代入して数値を算出し、出力データとして読み上げるのです。第3層の人数は、第1層と同じに設定してあります。  この伝言計算ゲームで最終的にどんな値になるかは途中で使う計算式次第です。自己符号化器では、この計算式をうまく調整して、どんな入力データがやってきても、第1層の答えと第3層の答えとがなるべく一致するようになっています。

散々計算した挙げ句、入力と同じものを出力にて復元するという、「元の木阿弥」です。徒労のように思えますが、実はこれが画期的だったのです。



4. 無駄な多様性情報を捨てる



入出力の一致は、自然に成り立つわけではありません。様々な入力データで試し、いつでも一致するようになるまで、計算式の修正を繰り返します。こうした修正の繰り返し(「機械学習」と言います)の結果、一致が達成できるのです。

しかし、第2層が狭いため、情報の取りこぼしが起きます。よって、第1層と第3層とがいつでも一致されられるかといえば、理論的には不可能です。

ところが実際上は、一致を達成できる場合が多いのです。入力データとして、「エリザベス」という5文字のデータが来たとしましょう。第1層に5人いるとすれば、彼らは入力データそのまま「エリザベス」と読み上げます。第2層には4人しかいないとしましょう。しょうが無いので「エザベス」と略して答えます。それを聴いた第3層の5人は、「元データはエリザベスに違いない」と気を利かせて復元します。世の中にはエリザベスという文字列が多いことを、機械学習の際に学んでいるわけです。また、第2層も、どの文字を略したら復元の邪魔になりにくいかというコツを学習しています。

このように、人間の書いた文章から1文字が欠けてしまっても、深い経験を持つ読者ならば推理して復元することは簡単です。これは実写写真データでも同じです。写真から1画素だけ欠けてしまっても、周辺の絵柄から推定して、その画素を精度よく復元できます。

狭い第2層には、入力データを復元するのにポイントとなる情報が濃縮されていると言えます。捨てても後から推定がつく情報は、第2層はふるい落とします。自己符号化器は、情報の重要部分を濃縮する装置なのです。

自己符号化器の真骨頂は、入れ子にして濃縮度を上げることにあります。第2層の位置に、もう1個自己符号化器を割り込ませるのです。つまり「エリザベス→エザベス→エリザベス」とやっていたところを、「エリザベス→エザベス→エザベ→エザベス→エリザベス」と、真ん中を絞り込みます。絞っても、無駄な多様性の情報が落ちるだけで、必要な情報が残る限りは、復元は可能です。



5. 深層学習と認識



濃縮度を上げるために、自己符号化器を何十個も入れ子にして機械学習をすると、全体としては分厚い層の情報処理過程になります。層が深いことから、「深層学習」と呼びます。

絞り込んだ層には、データ復元に欠かせない本質的な情報が集まります。これは入力データの意味内容と関連することが多いのです。「入力が猫の写真ならば中間層の1番目の人が大きな数字を算出しがちである」といった、数値と概念のシンプルな関係が自ずと生じると期待できます。写真のアングルが違っても、猫が写っている写真同士は、中間層でのデータも似ているのです。人工知能はこうして、被写体の概念を認識しているのです。

最近の人工知能は、囲碁や将棋でも人間を凌駕するようになりましたが、ここでも深層学習が大きな役割を果たしています。盤面を見て、それが有利か不利かを即座に形勢判断できれば、強いことこの上なしでしょう。しかし、可能な盤面のパターンは膨大すぎて覚えきれません。深層学習を使えば、細部に違いはあっても、本質的に勝負の状況が似ている盤面同士ならば、同類だと判別できます。こうして、未知の盤面であっても形勢判断ができるのです。

我々人間の脳も、高度な認識能力を持っています。それは、役に立たない多様性を無視する能力が支えていると言えます。図表3のように、100マスのビットマップを何枚も見ていくと、細部に差はあっても、どれもこれも砂嵐の模様にしか見えません。生活の役に立たない情報は、区別せず、自動的に捨てるように、我々の脳はでき上がっているのです。



【中田亨氏の連載概要】
・連載第1回「多様性工学とは何か」(アイソス2021年10月号掲載)
・連載第2回「多様性の尺度」(アイソス2021年11月号掲載)
・連載第3回「無駄な多様性をふるい落とす深層学習」(アイソス2021年12月号掲載)
・連載第4回「言語データは多様性の王者」(アイソス2022年1月号掲載)
・連載第5回「未知の新種とブラックスワン」(アイソス2022年2月号掲載)
・連載第6回・最終回「実務における多様性の活用」(アイソス2022年3月号掲載)




執筆者: 中田亨

産業技術総合研究所 副連携室長
中央大学客員教授。内閣府消費者安全調査委員会専門委員。専門分野は安全工学、特にヒューマンエラー対策。著書に『多様性工学−個性を活用するデータサイエンス−』(日科技連出版)、『「マニュアル」をナメるな!』(光文社), 『トコトンやさしい人工知能の本』 (共著、日刊工業新聞社)、『防げ現場のヒューマンエラー』(朝日文庫)など。