- 【1】A Generalist Agent (担当: ELYZA Yuuri Kurashima)
- 論文情報
- 概要
- 先行研究: Decision Transformer
- 提案手法
- 結果
- 実験
- まとめ
- 参考文献
- 【2】Building Machine Translation Systems for the Next Thousand Languages (担当: ELYZA Ryo Misawa)
- 論文情報
- 一言説明
- 先行研究との比較
- 技術や手法のキモ
- 要点
- 要素技術の解説
【1】A Generalist Agent (担当: ELYZA Yuuri Kurashima)
論文情報
タイトル | A Generalist Agent |
学会 | arxiv |
発表日 | May, 12, 2022 |
URL | |
備考 | DeepMind |
概要
DeepMind は汎用人工知能 (AGI) 研究として汎用エージェント (Generalist Agent)『Gato』を開発した。Gato は単一の Transformer 系モデル (1.2B) で、同一のモデル重みに対し prompt を切り替え、会話・Atari・ロボット操作等の複数モーダル・複数タスクをこなす
- リアルタイム制御系タスクにおける計算速度制限よりモデルサイズは1.18Bに抑えられた
先行研究: Decision Transformer
- TransformerにOffline RLと呼ばれる、制御系タスクをリアルタイムではなく、過去に集めたデータを用いて、強化学習を用いず、言語モデルと同様に教師あり学習の枠組みを用いて学習することを可能な手法を提案した
- GatoではこのDecision Transformerモデルをベースにマルチモーダルなタスクへ適応を試みた
提案手法
- 引用: https://www.slideshare.net/harmonylab/a-generalist-agent
全てのデータをフラットなシーケンスに直列化しGPT architectureなTransformerに入力することで、大規模言語モデルと同様に学習・サンプリングが可能にした。
各モーダル・エンボディメント毎に次の対応する手法で整数化
テキスト | SentencePieceで32000のサブワード系列に変換 |
画像 | Visual Transformerと同様の手法。
非重複の16*16サイズのバッチに分割後、バッチ毎に位置コーディングを施し、2次元画像を1次元的なフラットなシーケンスに変換され、線形射影を用いてEmbedding |
離散値(ex. Atariのボタン押下) | 各要素は[0,1024]の整数型に対応 |
連続値(ex. 固有受容入力や関節トルク) | μ-law encodingと呼ばれる手法で[-1, 1]の範囲に変換後、1024個の値に離散化し[32000, 33024]の範囲にシフト |
損失関数
ただし、以下の通り
- :シーケンスの各トークン
- b:シーケンスBのトレーニングバッチのインデックス
- は番目のインデックスがテキストまたはログされたアクションの場合
プロンプト
初めに、デモ的なプロンプトがトークン化され、初期シーケンスが生成される
- 引用: https://www.slideshare.net/harmonylab/a-generalist-agent
結果
シミュレーション制御系タスク
604タスク中450以上のタスクがExpertスコアの50%以上を達成
- Expert Score: 現在のSOTAモデルを教師信号としたスコア
ロボティクス系タスク
RGB Stacking robotics benchmark(色のついたブロックを積むタスク)において、このタスクに特化したベースラインモデル(BC-IMP)と同程度の結果
画像のキャプション・対話
ドメイン特化なモデルには劣るものの、ある程度的確
実験
スケール性
モデルサイズの増加に従い、平均性能も向上する傾向
few-shotでの汎化性能
シミュレーション制御系タスク
事前学習データと視覚的に類似した画像を扱うDMLab order of apples forge simpleタスクにおいて、制御系の学習データを含まないモデルがfew-shotで十分高い性能を達成している。
一方、視覚的に類似た画像の少ないAtari boxingタスクにおいては有意な影響はなかった。
ロボティクス系タスク
サイズが大きいほど、少ないfine-tuningで良い結果
まとめ
- マルチモーダル・マルチ操作エージェントのタスクを単一のモデル・パラメタで解くためのトークン化の手法を提案
- ドメイン特化モデルには及ばないが、604ものマルチモーダルなタスクに一定以上の性能を発揮
- 歴史的に汎用モデルはドメイン特化モデルを追い越す傾向があり、今後計算効率やメモリ制約の改善により、モデルサイズをスケールすることで、より汎用的なモデルを実現することが期待される
参考文献
【2】Building Machine Translation Systems for the Next Thousand Languages (担当: ELYZA Ryo Misawa)
論文情報
- タイトル:Building Machine Translation Systems for the Next Thousand Languages
- 学会:
- 発表年:2022
- URL
一言説明
先行研究との比較
※ 先行研究との比較というよりは問題意識
- 課題意識
- ボトルネック
技術や手法のキモ
要点
- Transformer ベースの LangID モデルと独自のフィルタリングによって単一言語のコーパスを収集
- zero-shot 翻訳モデルの新しい学習パラダイムを提案
- その他
要素技術の解説
- MASS とは?
- Term Frequency-Inverse Internet Frequency (TF-IIF)とは?