🎹

NLP News #5

【1】A Generalist Agent (担当: ELYZA Yuuri Kurashima)

論文情報

タイトル
A Generalist Agent
学会
arxiv
発表日
May, 12, 2022
URL
備考
DeepMind

概要

ELYZA tweet

DeepMind は汎用人工知能 (AGI) 研究として汎用エージェント (Generalist Agent)『Gato』を開発した。Gato は単一の Transformer 系モデル (1.2B) で、同一のモデル重みに対し prompt を切り替え、会話・Atari・ロボット操作等の複数モーダル・複数タスクをこなす

- リアルタイム制御系タスクにおける計算速度制限よりモデルサイズは1.18Bに抑えられた

image

先行研究: Decision Transformer

  • TransformerにOffline RLと呼ばれる、制御系タスクをリアルタイムではなく、過去に集めたデータを用いて、強化学習を用いず、言語モデルと同様に教師あり学習の枠組みを用いて学習することを可能な手法を提案した
    • GatoではこのDecision Transformerモデルをベースにマルチモーダルなタスクへ適応を試みた

提案手法

image
image

- 引用: https://www.slideshare.net/harmonylab/a-generalist-agent

全てのデータをフラットなシーケンスに直列化しGPT architectureなTransformerに入力することで、大規模言語モデルと同様に学習・サンプリングが可能にした。

各モーダル・エンボディメント毎に次の対応する手法で整数化

テキスト
SentencePieceで32000のサブワード系列に変換
画像
Visual Transformerと同様の手法。 非重複の16*16サイズのバッチに分割後、バッチ毎に位置コーディングを施し、2次元画像を1次元的なフラットなシーケンスに変換され、線形射影を用いてEmbedding
離散値(ex. Atariのボタン押下)
各要素は[0,1024]の整数型に対応
連続値(ex. 固有受容入力や関節トルク)
μ-law encodingと呼ばれる手法で[-1, 1]の範囲に変換後、1024個の値に離散化し[32000, 33024]の範囲にシフト

損失関数

image

ただし、以下の通り

  • s1:Ls_{1:L}:シーケンスの各トークン
  • b:シーケンスBのトレーニングバッチのインデックス
  • m(b,l)m(b, l)ll番目のインデックスがテキストまたはログされたアクションの場合

プロンプト

初めに、デモ的なプロンプトがトークン化され、初期シーケンスが生成される

image
image

- 引用: https://www.slideshare.net/harmonylab/a-generalist-agent

結果

シミュレーション制御系タスク

604タスク中450以上のタスクがExpertスコアの50%以上を達成

- Expert Score: 現在のSOTAモデルを教師信号としたスコア

image

ロボティクス系タスク

RGB Stacking robotics benchmark(色のついたブロックを積むタスク)において、このタスクに特化したベースラインモデル(BC-IMP)と同程度の結果

image

画像のキャプション・対話

ドメイン特化なモデルには劣るものの、ある程度的確

image

実験

スケール性

モデルサイズの増加に従い、平均性能も向上する傾向

image

few-shotでの汎化性能

シミュレーション制御系タスク

事前学習データと視覚的に類似した画像を扱うDMLab order of apples forge simpleタスクにおいて、制御系の学習データを含まないモデルがfew-shotで十分高い性能を達成している。

一方、視覚的に類似た画像の少ないAtari boxingタスクにおいては有意な影響はなかった。

image

ロボティクス系タスク

サイズが大きいほど、少ないfine-tuningで良い結果

image

まとめ

  • マルチモーダル・マルチ操作エージェントのタスクを単一のモデル・パラメタで解くためのトークン化の手法を提案
  • ドメイン特化モデルには及ばないが、604ものマルチモーダルなタスクに一定以上の性能を発揮
  • 歴史的に汎用モデルはドメイン特化モデルを追い越す傾向があり、今後計算効率やメモリ制約の改善により、モデルサイズをスケールすることで、より汎用的なモデルを実現することが期待される

参考文献

Offline Reinforcement Learning特集!第一弾

3つの要点✔️ 過去に集めたデータのみを利用して方策を学習するOffline RL✔️ Offline RLは、ヘルスケア、ロボティクスなど様々な分野の応用に期待されている✔️ Offline RLの問題点として主にdistribution shiftが挙げられるOffline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problemswritten by Sergey Levine, Aviral Kumar, George Tucker, Justin Fu(Submitted on 4 May 2020)Comments: Subjects: Machine Learning (cs.LG), Artificial Intelligence (cs.AI), Machine Learning (stat.ML)はじめに近年、学習と同時にデータを集めるオンライン学習の方法ではなく、過去に集めたデータだけを利用して強化学習を行うoffline reinforcement learning (offline RL)に関する研究が盛んに行われるようになっています。学習と同時に環境に対して行動を実行しデータを集める場合だと、学習時間がとてもかかる等などの問題がありますが、このOffline強化学習では、過去に集めた大きなデータセットを利用することで効率よく学習することが出来るなどの利点があります。このoffline RLは、ヘルスケアや教育、そしてロボティクスなど様々な分野に対して効果的だと思われる点から注目されています。しかし、現状、offline RLは、様々な問題点から未だにこれを可能としておらず、様々な研究がなされています。このoffline RL特集では、現状何が問題で、それに対してどのよな研究が過去になされ、そして今後に対する展望などを3回に分けて紹介します。第一弾である本記事では、まずOffline強化学習とは何か、そして想定される具体的な応用例、そして何故Offline RLが難しいのかなどを詳しく説明してきます。

Offline Reinforcement Learning特集!第一弾

【2】Building Machine Translation Systems for the Next Thousand Languages (担当: ELYZA Ryo Misawa)

論文情報

一言説明

💡
高性能な言語識別モデルや様々なWebデータのフィルタリング方法を活用し低リソース言語の単言語コーパスを収集。それによる自己教師ありタスクと高リソース言語での翻訳を同時に学習し,低リソース言語での zero-shot 翻訳を実現。そのうち24言語が Google 翻訳に追加された。

先行研究との比較

※ 先行研究との比較というよりは問題意識

  • 課題意識
  • ボトルネック

技術や手法のキモ

要点

  • Transformer ベースの LangID モデルと独自のフィルタリングによって単一言語のコーパスを収集
  • zero-shot 翻訳モデルの新しい学習パラダイムを提案
  • その他

要素技術の解説

  • MASS とは?
  • Term Frequency-Inverse Internet Frequency (TF-IIF)とは?