表を読む魔法の眼鏡「TabPFN」の秘密
みなさんは、カードゲームで相手の次の手を予想したり、給食の残りを見て明日のメニューを当てたりしたことがありますか?そんな「予想する力」は、とても役に立ちますよね。今日は、科学者たちが開発した「TabPFN」という、表を見て驚くほど正確に予想できる魔法の眼鏡についてお話しします!
表ってなに?データの整理整頓箱!
学校の成績表や、家族の買い物リスト、好きな電車の時刻表など、私たちの身の回りには「表」がたくさんあります。科学者たちは、この表のことを「表形式データ」と呼んでいます。
表形式データは、まるで引き出し付きの整理箱のようなもの。横の列には「名前」「点数」「科目」など、同じ種類の情報が入っています。縦の行には、一人ひとりの生徒や、一つひとつの商品についての情報がまとめて入っています。
科学者や医者、会社の人たちは、こういった表から大事な情報を見つけたり、未来の出来事を予測したりしようとしています。例えば、病院では患者さんの検査データから病気になるリスクを予測したり、会社では過去の売上データから来月の売上を予測したりします。
今までの「予測マシン」と新しい「魔法の眼鏡」
これまで、表から予測するための最強の方法は「決定木」という方法でした。これは、「もし体温が38度以上なら、風邪かもしれない」というように、「もし〜なら、こうだ」を木の枝のようにたくさん組み合わせる方法です。
でも今回、科学者たちは「TabPFN」という新しい魔法の眼鏡を発明しました!この眼鏡をかけると、表の中の穴(わからない部分)を、とても速く、とても正確に埋めることができるんです。
魔法の眼鏡はどうやって作られた?
普通の眼鏡を作るには、レンズを研磨して形を整えますよね。でも、TabPFNという魔法の眼鏡は、「何百万もの表」を見せて訓練することで作られました!
ただし、本物の表をたくさん集めるのは大変です。そこで科学者たちは、「合成データ」という、コンピューターが作った架空の表をたくさん作りました。それは、まるでゲームのシミュレーションのようなもの。「こんな表があったら、答えはこうなるはずだ」というデータを、何百万個も作り出したのです!
図1の説明: 上の絵(a)はTabPFNがどうやって訓練されて使われるかを示しています。まず、科学者たちが何百万もの練習用の表を作ります。次に、TabPFNはそれらの表から「予測する力」を学びます。そして最後に、新しい表が来たときに、答えを予測します。下の絵(b)はTabPFNの内部構造です。表の縦と横、両方向からデータを見ることで、より良い予測ができるようになっています。
どうやって「魔法の眼鏡」は表を読むの?
TabPFNは、「文脈内学習」という方法を使います。これは、まるで新しいカードゲームをするときに、最初に誰かのプレイを何回か見てからルールを理解するようなものです。
TabPFNは、表の一部(訓練データ)を見て、「なるほど、この表ではこんな関係があるんだな」と理解します。そして、未知の部分(テストデータ)に対して予測を行います。
TabPFNの特別なところは、表を縦にも横にも見ることができること。まるで、縦のめがねと横のめがねの両方をかけているようなものです。縦の列(特徴)の関係と、横の行(サンプル)の関係、両方を同時に理解できるんです!
図2の説明: (a)まず、表の大きさや難しさなどの基本設定を決めます。(b)次に、「因果モデル」という関係図を作ります。これは、「天気→気温→アイス売上」のように、データ同士の影響関係を表したものです。(c)最終的に作られた表の例。色付きの点は、それぞれ異なるグループを表しています。
魔法の眼鏡と普通の眼鏡を比べてみよう!
TabPFNがどれだけすごいか、いくつかの簡単な例で見てみましょう。
例えば、直線の関係、波のような関係、階段のような関係など、いろいろなパターンの数字の関係があります。従来の方法はそれぞれ得意なパターンと苦手なパターンがありました。でも、TabPFNはどんなパターンでも上手に理解できるんです!
さらにすごいのは、TabPFNは「不確かさ」も表現できること。例えば、「明日の天気は70%の確率で晴れ、30%の確率で雨」というように、確率で答えを出せるんです。
図3の説明: (a)いろいろな形の関係を予測する実験です。オレンジ色の線が本当の関係で、青色の線や点が各方法の予測です。TabPFNはどんな形の関係でも上手に予測できています。(b)二重スリット実験という物理現象も予測できます。これは光が波のような性質で広がる現象で、複雑なパターンになりますが、TabPFNはそれも正確に予測します!
本当に魔法の眼鏡は強いの?競争してみよう!
科学者たちはTabPFNと従来の予測方法を、57個の実際の表データを使って比較しました。その結果、驚くべきことに、TabPFNはたった2.8秒で、他の方法が4時間かけて調整したときよりも良い予測ができたんです!
これは、運動会で「練習なし」のTabPFNが、「4時間も練習した」他のランナーを簡単に追い抜いてしまったようなものです。その速さは、なんと5,140倍!
図4の説明: (a)いろいろな予測方法の性能比較です。棒が高いほど性能が良く、TabPFNが最も高いことがわかります。(b)各データセットごとの比較。ほとんどのデータでTabPFNが勝っています。(c)調整時間と性能の関係。TabPFNは調整なしでも、他の方法が4時間調整したよりも良い性能を出しています!
魔法の眼鏡は何に強い?何に弱い?
TabPFNは、「外れ値」(とても変な値)や「無関係な特徴」(予測に役立たない情報)があっても、ほとんど影響を受けません。これは、人間が「この情報は関係ないな」と判断できるのと同じです。
また、データの種類(数値や分類など)や、データの抜け(欠損値)があっても問題なく働きます。
ただし、現在のTabPFNは10,000行・500列までの表に対応しています。それより大きな表は、まだ苦手なんです。
図5の説明: (a)外れ値や無関係な特徴を追加しても、TabPFNの性能はあまり下がりません。(b)様々なデータの特徴ごとの性能比較。TabPFNはどんな種類のデータでも安定して良い性能を出しています。(c,d)他の予測方法との比較。TabPFNは少ない時間でも高い性能を発揮します。
魔法の眼鏡は予測以外にも使える!
TabPFNは予測だけでなく、「基盤モデル」として様々なことができます。基盤モデルとは、いろいろな能力を持った「万能選手」のようなものです。
例えば、次のようなことができます:
-
データの生成 - 本物そっくりの架空のデータを作り出せます。これは、「こんな人がいたらどうだろう?」とシミュレーションできるので、プライバシーを守りながら研究できます。
-
異常検出 - とても変わったデータを見つけられます。これは、詐欺や故障、医療緊急事態などを発見するのに役立ちます。
-
特徴表現 - データの本質を捉えた表現を学べます。これは、似たデータをグループ化するのに役立ちます。
-
微調整 - 特定の分野のデータで追加訓練できます。これで、医療や金融など特定の分野での性能がさらに良くなります。
図6の説明: (a)データの分布を推定する能力。(b)新しい架空のデータを生成する能力。(c)データの特徴をうまく捉える能力。異なる数字(0〜9)が明確に分かれています。(d)特定の分野で微調整する能力。特殊なデータに合わせて予測が良くなっています。
この研究はなぜスゴイの?
この研究は、「アルゴリズム自体を学習する」という新しい方法を示しました。従来は人間がアルゴリズム(計算方法)を設計していましたが、TabPFNはアルゴリズム自体を自動的に学習するのです!
これは、将棋で「定石」を教えるのではなく、「勝つための考え方」そのものを学ばせるようなものです。
この技術は、医学研究、薬の開発、気候研究など、様々な科学分野で役立ちます。少ないデータからでも良い予測ができるので、データ収集が難しい分野でも使えるのです。
まとめ:この研究でわかったこと
- TabPFNは表形式データのための新しい「魔法の眼鏡」で、従来の方法より速く正確に予測できます。
- TabPFNは何百万もの合成データで訓練され、表の「予測する力」を身につけました。
- TabPFNは縦と横の両方から表を読み取る特別な構造を持っています。
- TabPFNはわずか2.8秒で、他の方法が4時間かけて調整したときよりも良い予測ができます。
- TabPFNは不確かさも表現でき、確率で答えを出せます。
- TabPFNは基盤モデルとして、予測以外にもデータ生成や異常検出などができます。
- この技術は医学研究や薬の開発など様々な科学分野で役立ちます。
原論文の引用情報
Hollmann, N., Müller, S., Purucker, L., Krishnakumar, A., Körfer, M., Hoo, S. B., Schirrmeister, R. T., & Hutter, F. (2025). Accurate predictions on small data with a tabular foundation model. Nature, 637(7948), 319–326. https://doi.org/10.1038/s41586-024-08328-6