🎹

NLP News #5

  • 【1】A Generalist Agent (担当: ELYZA Yuuri Kurashima)
  • 論文情報
  • 概要
  • 先行研究: Decision Transformer
  • 提案手法
  • 結果
  • 実験
  • まとめ
  • 参考文献
  • 【2】Building Machine Translation Systems for the Next Thousand Languages (担当: ELYZA Ryo Misawa)
  • 論文情報
  • 一言説明
  • 先行研究との比較
  • 技術や手法のキモ
  • 要点
  • 要素技術の解説
  • 実験
  • 実験設定
  • 定量評価
  • 興味深い分析
  • 議論
  • 読んだ所感
  • 【3】RANKGEN: Improving Text Generation with Large Ranking Models (担当: ELYZA Akira Sasaki)
  • 論文情報
  • 一言説明
  • 先行研究との比較
  • 技術や手法のキモ
  • 実験
  • 議論
  • 読んだ所感
  • 【4】ここ一ヶ月のそのほかのNLPニュース

【1】A Generalist Agent (担当: ELYZA Yuuri Kurashima)

論文情報

タイトル
A Generalist Agent
学会
arxiv
発表日
May, 12, 2022
URL
https://arxiv.org/abs/2205.06175
備考
DeepMind

概要

ELYZA tweet

DeepMind は汎用人工知能 (AGI) 研究として汎用エージェント (Generalist Agent)『Gato』を開発した。Gato は単一の Transformer 系モデル (1.2B) で、同一のモデル重みに対し prompt を切り替え、会話・Atari・ロボット操作等の複数モーダル・複数タスクをこなす

- リアルタイム制御系タスクにおける計算速度制限よりモデルサイズは1.18Bに抑えられた

image

先行研究: Decision Transformer

  • TransformerにOffline RLと呼ばれる、制御系タスクをリアルタイムではなく、過去に集めたデータを用いて、強化学習を用いず、言語モデルと同様に教師あり学習の枠組みを用いて学習することを可能な手法を提案した
    • GatoではこのDecision Transformerモデルをベースにマルチモーダルなタスクへ適応を試みた

提案手法

image
image

- 引用: https://www.slideshare.net/harmonylab/a-generalist-agent

全てのデータをフラットなシーケンスに直列化しGPT architectureなTransformerに入力することで、大規模言語モデルと同様に学習・サンプリングが可能にした。

各モーダル・エンボディメント毎に次の対応する手法で整数化

テキスト
SentencePieceで32000のサブワード系列に変換
画像
Visual Transformerと同様の手法。 非重複の16*16サイズのバッチに分割後、バッチ毎に位置コーディングを施し、2次元画像を1次元的なフラットなシーケンスに変換され、線形射影を用いてEmbedding
離散値(ex. Atariのボタン押下)
各要素は[0,1024]の整数型に対応
連続値(ex. 固有受容入力や関節トルク)
μ-law encodingと呼ばれる手法で[-1, 1]の範囲に変換後、1024個の値に離散化し[32000, 33024]の範囲にシフト

損失関数

image

ただし、以下の通り

  • s1:Ls_{1:L}:シーケンスの各トークン
  • b:シーケンスBのトレーニングバッチのインデックス
  • m(b,l)m(b, l)ll番目のインデックスがテキストまたはログされたアクションの場合

プロンプト

初めに、デモ的なプロンプトがトークン化され、初期シーケンスが生成される

image
image

- 引用: https://www.slideshare.net/harmonylab/a-generalist-agent

結果

シミュレーション制御系タスク

604タスク中450以上のタスクがExpertスコアの50%以上を達成

- Expert Score: 現在のSOTAモデルを教師信号としたスコア

image

ロボティクス系タスク

RGB Stacking robotics benchmark(色のついたブロックを積むタスク)において、このタスクに特化したベースラインモデル(BC-IMP)と同程度の結果

image

画像のキャプション・対話

ドメイン特化なモデルには劣るものの、ある程度的確

image

実験

スケール性

モデルサイズの増加に従い、平均性能も向上する傾向

image

few-shotでの汎化性能

シミュレーション制御系タスク

事前学習データと視覚的に類似した画像を扱うDMLab order of apples forge simpleタスクにおいて、制御系の学習データを含まないモデルがfew-shotで十分高い性能を達成している。

一方、視覚的に類似た画像の少ないAtari boxingタスクにおいては有意な影響はなかった。

image

ロボティクス系タスク

サイズが大きいほど、少ないfine-tuningで良い結果

image

まとめ

  • マルチモーダル・マルチ操作エージェントのタスクを単一のモデル・パラメタで解くためのトークン化の手法を提案
  • ドメイン特化モデルには及ばないが、604ものマルチモーダルなタスクに一定以上の性能を発揮
  • 歴史的に汎用モデルはドメイン特化モデルを追い越す傾向があり、今後計算効率やメモリ制約の改善により、モデルサイズをスケールすることで、より汎用的なモデルを実現することが期待される

参考文献

DeepMind の「万能モデル」 Gato と Flamingo の技術を解説

先週、DeepMind から、単一のモデル・パラメータで、Atari のゲームを制御したり、画像のキャプションを生成したり、テキストで対話をしたり、現実のロボットアームを用いてブロックを積み上げたりできる最新の「超マルチモーダル・マルチタスクモデル Gato」が発表され、ネット上で「汎用人工知能に近づいたか」と話題になりました。また同時に、「GPT-3 の視覚×言語版」とも言える ...

DeepMind の「万能モデル」 Gato と Flamingo の技術を解説
【DL輪読会】"A Generalist Agent"

2022/06/03 Deep Learning JP: http://deeplearning.jp/seminar-2/

【DL輪読会】"A Generalist Agent"
A Generalist Agent

公開URL:https://arxiv.org/abs/2205.06175 出典:Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gim...

A Generalist Agent
Offline Reinforcement Learning特集!第一弾

3つの要点✔️ 過去に集めたデータのみを利用して方策を学習するOffline RL✔️ Offline RLは、ヘルスケア、ロボティクスなど様々な分野の応用に期待されている✔️ Offline RLの問題点として主にdistribution shiftが挙げられるOffline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problemswritten by Sergey Levine, Aviral Kumar, George Tucker, Justin Fu(Submitted on 4 May 2020)Comments: Subjects: Machine Learning (cs.LG), Artificial Intelligence (cs.AI), Machine Learning (stat.ML)はじめに近年、学習と同時にデータを集めるオンライン学習の方法ではなく、過去に集めたデータだけを利用して強化学習を行うoffline reinforcement learning (offline RL)に関する研究が盛んに行われるようになっています。学習と同時に環境に対して行動を実行しデータを集める場合だと、学習時間がとてもかかる等などの問題がありますが、このOffline強化学習では、過去に集めた大きなデータセットを利用することで効率よく学習することが出来るなどの利点があります。このoffline RLは、ヘルスケアや教育、そしてロボティクスなど様々な分野に対して効果的だと思われる点から注目されています。しかし、現状、offline RLは、様々な問題点から未だにこれを可能としておらず、様々な研究がなされています。このoffline RL特集では、現状何が問題で、それに対してどのよな研究が過去になされ、そして今後に対する展望などを3回に分けて紹介します。第一弾である本記事では、まずOffline強化学習とは何か、そして想定される具体的な応用例、そして何故Offline RLが難しいのかなどを詳しく説明してきます。

Offline Reinforcement Learning特集!第一弾

【2】Building Machine Translation Systems for the Next Thousand Languages (担当: ELYZA Ryo Misawa)

論文情報

  • タイトル:Building Machine Translation Systems for the Next Thousand Languages
  • 学会:
  • 発表年:2022
  • URL
    • paper:
      • Building Machine Translation Systems for the Next Thousand Languages
    • blog
      • Google Translate learns 24 new languages
      • Unlocking Zero-Resource Machine Translation to Support New Languages in Google Translate
    • 主に参照された関連・先行研究
      • zero-shot 翻訳モデルの新しい学習パラダイムを提案(本論文の研究の一部)
        • Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning
      • zero-shot での多言語翻訳のための自己教師ありタスク MASS を提案
        • Zero-Resource Translation with Multi-Lingual Neural Machine Translation
      • MASS と Big Transformer を利用した LangID と TF-IIF を提案
        • Language ID in the Wild: Unexpected Challenges on the Path to a Thousand-Language Web Text Corpus
      • back-translation, self-training によってデータ拡張し学習する手法を提案
        • Exploiting Source-side Monolingual Data in Neural Machine Translation

一言説明

💡
高性能な言語識別モデルや様々なWebデータのフィルタリング方法を活用し低リソース言語の単言語コーパスを収集。それによる自己教師ありタスクと高リソース言語での翻訳を同時に学習し,低リソース言語での zero-shot 翻訳を実現。そのうち24言語が Google 翻訳に追加された。

先行研究との比較

※ 先行研究との比較というよりは問題意識

  • 課題意識
    • ヨーロッパの言語が主流で 1 % 程度しかサポートされていない
  • ボトルネック
    • Language Identification (LangID) の性能が低く,Web 上で見つけるのが困難
    • 対訳データが不足しており,単言語データから翻訳を学習する必要がある

技術や手法のキモ

要点

  • Transformer ベースの LangID モデルと独自のフィルタリングによって単一言語のコーパスを収集
    • LangIDモデルは Transformer Big で MAsked Sequence-to-Sequence (MASS) という自己教師ありタスクも解く
    • フィルタリングには Term Frequency-Inverse Internet Frequency (TF-IIF) を使用し,他言語にも共通するような単語を含む文を破棄
      • e.g. トク・ピシンという言語では収集したデータのうち99.7 % が英語なのでフィルタリングが必要
    • 更に,Google や他機関所属のネイティブの協力で言語特化のフィルタリングの適用
      • 違いが曖昧な言語の区別など
      • そのほかにも色々とネイティブの手を借りたらしい
    • その他にもフィルタリングがあるが割愛
  • zero-shot 翻訳モデルの新しい学習パラダイムを提案
    • 翻訳タスクを学習するため,高リソース言語の対訳データを利用
    • 低リソース言語については同時に MASS を解いて学習
    • 合計で1138言語の単言語データ,112言語の対訳データで学習
    • 翻訳タスクとMASSを区別させるため,<2task>(翻訳時には<2translation>,MASSでは<2mass>)を指示文に入れる
  • その他
    • 学習したモデルを使って back-translation と self-training により対訳データを生成し,それで fine-tuning
    • デプロイのため蒸留

要素技術の解説

  • MASS とは?
    • 説明よりも Raffel et al. (2019) から引用した表の方がわかりやすい!
    • Raffel et al. (2019) より。様々な事前学習 objective の比較。
      Raffel et al. (2019) より。様々な事前学習 objective の比較。
    • T5で採用された span corruption は計算効率のためマスクされたトークンのみを出力していたが,今回適用したいのは翻訳タスクなので,原文を全て復元するMASSが望ましい
  • Term Frequency-Inverse Internet Frequency (TF-IIF)とは?
    • TF-IDF の document(idf の d)部分をインターネットに変えたもの
    • 要は,インターネット内で頻出するような他の言語にも共有するような単語を除外したい
    • TFIIFt,l=TFt,lIIFt=f(t,Dl)max(f(t,internet),α)\mathrm{TFIIF}_{t, l} = \mathrm{TF}_{t, l} * \mathrm{IIF}_{t} = \frac{f(t, D_l)}{\max{(f(t, \mathrm{internet}), \alpha)}}
    • 名前通り,特定言語のコーパスでの単語の頻度とインターネットでの頻度の逆数の積
    • clipping factor α\alphaα=f(wκ)\alpha = f(w_\kappa)wκw_\kappaκ\kappa番目に高頻度なトークン)に設定
      • つまり,低頻度の単語に対しては wκw_\kappaを同じ重みを与える
      • 逆数をかけているので,κ\kappaを小さくするとコーパスに現れない(=out-of-vocaburalyな)単語のスコアが高くなってしまうため調整が必要
    • TF-IIFの高い単語を含むような文を利用
    • その他ヒューリスティクも適用

実験

実験設定

  • モデル
    • 15億,60億パラメータの Transformer ベースの encoder-decoder モデル
  • 評価指標
    • CHRF
      • character n-gram F-score
    • ROUGE
  • 蒸留先のモデル
    • Google Docs の要約モデルや Meta 翻訳で取り入れられているアーキテクチャを利用
    • encoder が Transformer,decoder が LSTM

定量評価

  • xx → en の方向の翻訳は,モデルサイズとともに性能がスケールするが,en → xx の方向はむしろ悪化
    • 翻訳ではなく入力をコピーする傾向にあり,それによる性能劣化
    • 112言語の対訳データ,206言語の単言語データで学習した際の15億パラメータ,60億パラメータのモデルの性能比較。en → xx, xx → en の翻訳タスクでの chrF。
      112言語の対訳データ,206言語の単言語データで学習した際の15億パラメータ,60億パラメータのモデルの性能比較。en → xx, xx → en の翻訳タスクでの chrF。
  • 言語数を増やすと全体的に性能改善する
  • 60億パラメータのモデルの12言語の対訳データ,206言語また1000言語の単言語データで学習した際の性能比較。en → xx, xx → en の翻訳タスクでの chrF。
    60億パラメータのモデルの12言語の対訳データ,206言語また1000言語の単言語データで学習した際の性能比較。en → xx, xx → en の翻訳タスクでの chrF。
  • 教師モデルが生成したデータで学習した生徒モデルは, en → xx の方向では平均して 1.1 ポイント,xx → en では0.2ポイントの改善
    • 自然な英語の文を翻訳して作成した評価データなので,翻訳ちっくなデータで学習した生徒モデルの方がスコアが出やすいため注意が必要
    • 教師モデルが生成したデータで学習した生徒モデルとの性能比較。en → xx, xx → en の翻訳タスクでの chrF。
      教師モデルが生成したデータで学習した生徒モデルとの性能比較。en → xx, xx → en の翻訳タスクでの chrF。

興味深い分析

  • 自己教師あり故に分布的に似通った単語を区別することができない
    • 動物や色,時間情報などは似通った文脈で現れるため教師データが十分ないと正確な単語の対応関係を理解できない
    • 図の2段目のように,lion は別の動物に間違えられがち
  • 一方で,上手く翻訳できる色とできない色がある
    • 図の赤色の翻訳には強く,黄色はそこそこ,橙色には弱い
    • これは,色の言語としての発生段階が普遍的であるという知見と整合している
    • 赤色は Stage II,黄色は Stage III,橙色は Stage IV
image
  • 単一の単語を入力したとき,冗長な翻訳をする
    • 図の上半分は,追加の定義を括弧などで出力している
    • 下半分では,完全な定義を出力している
    • 学習データからコピーしていることを示唆
    • image
  • 蒸留後のモデルは,蒸留に用いたデータ(教師モデルが生成した翻訳データ)のノイズによって特徴的なエラーを起こす
      • ナイジェリア・ピジン語は攻撃的な英語のスラングに翻訳されることがある
        • “She said to herself” → “da b***** say ta da b*****self.”
      • デンマーク語への翻訳のはずがグリーンランド語への翻訳になることが多い
      • ヒンディー語への翻訳のはずがサンスクリット語になることが多い
    • ノイズの多い英語のクローリングデータを教師モデルで翻訳しそれを訓練データとする場合のデータの質が低い

議論

展望として以下の3つ

  • 意味的に近い単語を区別するための辞書の作成
    • 上述した自己教師ありタスクに起因する分布的に似通った単語を区別することができない問題への対処
  • 言語特化の研究
    • 今回のようなWeb上の単言語テキストを使った研究を補完するような取り組み
    • 例えば,翻訳データセットを作成するなど
  • マルチモーダルな情報の活用とモデルの開発
    • 言語がテキストとして存在しない言語に対しては,音声とテキストのマルチモーダルを扱う必要がある (textless NLP)

読んだ所感

  • 言語に依存しない翻訳という「タスクの性質に関する理解」は言語を超えて転移できることが示唆されている点は興味深かった(多言語モデル論文大体そうではあるが)
    • 意味的に近い単語を区別できはしないものの構造は理解できていそうなため
    • 一方で,性質の近い言語の対訳データがある場合には性能が出やすいことから,言語的な知識の寄与の方が大きそう。日本語のような似た言語が乏しい言語では厳しい?

【3】RANKGEN: Improving Text Generation with Large Ranking Models (担当: ELYZA Akira Sasaki)

論文情報

  • タイトル:RANKGEN: Improving Text Generation with Large Ranking Models
  • 学会:arxiv
  • 発表年:2022
  • URL:https://arxiv.org/abs/2205.09726

一言説明

  • 直近の言語モデルには “likelihood trap” (See+ 2019, Zhang+ 2021) という、高い尤度の生成結果が退屈だったり繰り返し気味だったりという課題があった
  • また言語モデルは局所的な文脈に頼りがちなせいで、大局的な一貫性が崩れがち
  • RANKGENという、contrastive learningベースで言語モデル出力を並び替える手法を提案
    • ある入力系列 (prefix) に関して、そのprefixの直後に来る系列を正例、そうでないものを負例として学習
    • これにより言語モデルによる複数の生成結果を、prefixから見たときの一貫性に基づきランキング可能
image

先行研究との比較

  • likelihood trapへの対処のため、sampling手法が盛んに研究されていた
    • top-k (Fan+ 2018), nucleus (top-p) (Holtzman+ 2020), typical (Meister+ 2022), …
    • とはいえ、一貫性に乏しかったりhallucinationを含んでいたりという課題は残っていた

技術や手法のキモ

  • 基本的な発想は上記「一言説明」を参照
  • アーキテクチャとしてはT5のencoder部分を利用してfine-tuning
  • 負例作成方法: 特徴の異なる以下2パターンを検証
    • INBOOK Negative
      • prefixと同一ドキュメント中のランダムな系列を負例とする
      • 流暢かつprefixに対するトピックやentityのoverlapはあるが、prefixとの関係が薄かったりする
    • GENERATIVE Negative
      • 言語モデルによりprefixから生成された系列を負例とする
      • prefixへの関係性は強かったりするが、hallucinationやrepetitionの問題がある
  • 推論時の手法は以下2パターンを検証
    • 手法1: 言語モデルで余分に候補を出力し、最後にreranking
      • 論文中では20候補を出力
    • 手法2: beam searchに組み込む
      • beam searchでprefixから長さ LL の系列を NN 件生成してそのうち上位 BB 件を選び、それをprefixに再度加えてまた長さ LL の系列を出力し、… というやり方
      • 論文中では N=10,B=2,L=20N=10, B=2, L=20 としている
      • image

実験

  • RANKGENによりMAUVE大幅改善
    • MAUVE
      • https://arxiv.org/abs/2102.01454
      • NeurIPS 2021のOutstanding Paper
      • 生成されたテキストの品質を自動評価するための指標
      • 既存指標に比べて人手評価との相関が高い
    • …ただモデルサイズが大きくなればなるほど影響は小さくなる?
    • 負例作成方法としてはINBOOK Negativeのほうが良好だが、組み合わせることでより強い
    • image
  • 既存手法に比べて、人手評価でも望ましい結果に
    • ↓ 既存手法とRANKGENそれぞれの出力結果を提示し、人間がRANKGEN側を望ましいと答えた割合 ↓
    • image
    • ↓評価者がRANKGENの出力を好んだ理由の集計結果↓
    • image
  • 推論時間はいくらか余分にかかってしまう
    • ここでRANKGENによるリランキングはそこまで問題でなく、どちらかというとover-generationのほうがボトルネック
    • image
      image

議論

  • 残課題
    • 推論時間 (上記の通り)
    • あくまでランキングする手法のため、もととなる言語モデルの性能にも依存する
    • 論文中では自由な生成のみを行っていたが、要約/QA/翻訳などの他タスクでも使えるかは未知

読んだ所感

  • 手法としては非常にシンプルなので、日本語でも & どのデータでもそこそこワークしそう
  • beam searchとの組み合わせた生成のあたりが、いろいろと掘りどころありそう?
    • 効率化観点やら、毎回固定長 LL で生成せずに状況に応じて可変にするとか…

【4】ここ一ヶ月のそのほかのNLPニュース

  • ※ SlackリンクはNLP Hacks Slackへのログインが必要です
  • ※ ページの都合上、やや内容の表示が遅れることがあるようです…!その場合はのちほど再度ご確認ください 🙇
  • 👀 などが2コ以上付いていたものを時系列順に並べています
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1651886750675539
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1652104656772169
  • We Raised $100 Million for Open & Collaborative Machine Learning 🚀

    Today we have some exciting news to share! Hugging Face has raised $100 Million in Series C funding 🔥🔥🔥 led by Lux Capital with major participations from Sequoia, Coatue and support of existing investors Addition, a_capital, SV Angel, Betaworks, AIX Ventures, Kevin Durant, Rich Kleiman from Thirty Five Ventures, Olivier Pomel (co-founder & CEO at Datadog) and more.

    We Raised $100 Million for Open & Collaborative Machine Learning 🚀
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1652310120554949
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1652677123205199
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1652694680889999
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1652930408172589
  • Introduction to Diffusion Models for Machine Learning

    Diffusion Models are generative models which have been gaining significant popularity in the past several years, and for good reason. A handful of seminal papers released in the 2020s alone have shown the world what Diffusion models are capable of, such as beating GANs[6] on image synthesis.

    Introduction to Diffusion Models for Machine Learning
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1652930475469219
  • Complete Machine Learning Package

    Interactive * Comprehensive * Practical stuffs * Beginner friendly Every notebook was basically created with the learners in the mind! Complete Machine Learning Package contains 35 end-to-end and interactive notebooks on most data science and machine learning topics.

    Complete Machine Learning Package
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1653032838932579
  • ACL 2022 | 60th Annual Meeting of the Association for Computational Linguistics | Ireland

    We are delighted to announce the ACL 2022 best and outstanding papers: Best Special Theme Paper Requirements and Motivations of Low-Resource Speech Synthesis for Language Revitalization (Aidan Pine, Dan Wells, Nathan Brinklow, Patrick William Littell and Korin Richmond) ​Evaluating Factuality in Text Simplification (By Ashwin Devaraj, William Berkeley Sheffield, Byron

    ACL 2022 | 60th Annual Meeting of the Association for Computational Linguistics | Ireland
    Annual Meeting of the Association for Computational Linguistics (2022) - ACL Anthology

    Show all abstracts Hide all abstracts Pre-trained language models have shown stellar performance in various downstream tasks. But, this usually comes at the cost of high latency and computation, hindering their usage in resource-limited settings. In this work, we propose a novel approach for reducing the computational cost of BERT with minimal loss in downstream performance.

  •  https://nlp-hacks.slack.com/archives/C02STU653GV/p1653216083944489
    • Hugging Faceで使える医療分野のモデルまとめ
    • hiromu-nlp.com
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1653624934499839
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1653656267444169
  • フリーで使える日本語の主な大規模言語モデルまとめ

    個人的なまとめです。 企業または研究機関が公表しているモデルのみ掲載する予定です。 Multilingual(多言語)モデルは掲載しない予定です。 言語モデルに限らず、日本語の自然言語処理全般に関するツールを調べたい場合は、以下のリポジトリをご参照下さい。 2022-05-13: rinna株式会社の日本語CLIP、日本語CLOOBの情報を追加しました。 モデル 事前学習テキスト 開発元 HuggingFace ですぐ使える? 東北大BERT BERT (base, large) 日本語 Wikipedia (base (v1): 約1,700万文 (2.6GB), base (v2) & large: 約3,000万文 (4.0GB)) 東北大 乾研 ◯ ( base (v1), base (v2), large) rinna RoBERTa RoBERTa (base) 日本語 Wikipedia + Japanese CC-100 rinna ◯ 早大RoBERTa RoBERTa (base,

    フリーで使える日本語の主な大規模言語モデルまとめ
  •  https://nlp-hacks.slack.com/archives/C02STU653GV/p1653740308137409
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1653882004758869
  • 新しく日本語BERTのトークナイザを学習するときは limit_alphabet に気をつけよう

    huggingface/tokenizers を使って日本語BERTのトークナイザを新しく作りたい場合、色々な実装方法が考えられるが、BERT 向けにカスタマイズされた実装を持つクラスである BertWordPieceTokenizer を使うのが一番楽な実装である。例えば、以下の記事はとても参考になる。 コードにすると、以下のような感じになるだろう。 さて、ここで train_from_iterator() の中で指定した limit_alphabet というオプションが非常に重要である。値は別に 30000 ちょうどである必要はないのだが、 何も指定しないのではダメである 。この件について説明しよう。 そもそも limit_alphabet とは何かというと、 トークナイザが使える文字の種類の上限である。 BERT の WordPiece というアルゴリズムは、まずはじめに全ての単語を文字単位に一度バラバラにしたものを初期トークンとし、その後、塊として現れやすいトークンを結合して新しいトークンに追加することを繰り返す( 参考記事)。この最初の文字単位にバラバラにするフェーズにおいて、低頻度の文字まで語彙に含まれるのが困るという考えから、使える文字の種類の上限として limit_alphabet が設定されているのである。 さて、BERT のオリジナル実装の対象言語は英語である。英語圏において、アルファベットはたった 26 文字しかなく、その他記号類と合わせても大した数ではない。というわけで、 limit_alphabet のデフォルトの値は 1,000 に設定されている。 ・・・もうお分かりいただけただろうか。 膨大な種類の漢字を使う日本語では、1,000種類しか文字が使えないのではダメなのである! 例えば、2022年5月現在、常用漢字の個数は2,136字もある。よって、 limit_alphabet をきちんと設定しないと、常用漢字の半分が [UNK] トークンになってしまう。 これを考えると、低めに見積もっても limit_alphabet は 3,000 くらいには設定した方がよいと思われる(個人的には、語彙数と同じ値を設定して全部の文字を使うのでも良い気がするが...) なお、これは BertWordPieceTokenizer というBERT向けにカスタマイズされたクラスを使った場合に生じる問題であり、自分で WordPiece クラスから訓練する場合は問題がない(ただし、この場合には BERT向けに特殊トークンを追加したり、サブワードの前に ## の prefix を付けたりする設定が必要になるなど、実装に手間がかかる)。 その際には、以下の BertWordPieceTokenizer の中身を参考にしつつ、 WordPieceTrainer の引数の limit_alphabet の部分は値を入れずに None のままにしておくのがよいだろう。 なお、この件について、tokenizers ライブラリの作者の一人である @Narsil さんとの議論がとても参考になったので、合わせて掲載しておく。

    新しく日本語BERTのトークナイザを学習するときは limit_alphabet に気をつけよう
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1653943511541599
  • KoichiYasuoka/deberta-large-japanese-aozora · Hugging Face

    Edit model card This is a DeBERTa(V2) model pre-trained on 青空文庫 texts. You can fine-tune deberta-large-japanese-aozora for downstream tasks, such as POS-tagging, dependency-parsing, and so on. from transformers import AutoTokenizer,AutoModelForMaskedLM tokenizer=AutoTokenizer.from_pretrained("KoichiYasuoka/deberta-large-japanese-aozora") model=AutoModelForMaskedLM.from_pretrained("KoichiYasuoka/deberta-large-japanese-aozora") This model can be loaded on the Inference API on-demand.

    KoichiYasuoka/deberta-large-japanese-aozora · Hugging Face
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1654061114628459
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1654068991216409
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1654135277494049
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1654209611565469
  • 東京大学深層学習(Deep Learning基礎講座2022)深層学習と自然言語処理

    東京大学深層学習(Deep Learning基礎講座2022)https://deeplearning.jp/lectures/dlb2022/ 「深層学習と自然言語処理」の講義資料です。

    東京大学深層学習(Deep Learning基礎講座2022)深層学習と自然言語処理
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1654293135011599
  • 【AI論文解説】Imagen:GLIDE・DALL-E 2を超えた! 文章に沿った画像をさらに高品質に生成!

    GLIDE・DALL-E 2に続き、文章に沿った画像をさらに高品質に生成することが可能なImagenについて紹介しています。確率拡散モデルに関する解説はこちら:* 【AI論文解説】物理学の知識を背景とした画像生成手法 Part1 Diffusion Probabilistic Modelshttps://www....

    【AI論文解説】Imagen:GLIDE・DALL-E 2を超えた! 文章に沿った画像をさらに高品質に生成!
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1654567276022829
  • Diffusion-LM Improves Controllable Text Generation

    Controlling the behavior of language models (LMs) without re-training is a major open problem in natural language generation. While recent works have demonstrated successes on controlling simple sentence attributes (e.g., sentiment), there has been little progress on complex, fine-grained controls (e.g., syntactic structure).

    Diffusion-LM Improves Controllable Text Generation
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1654567374562229
  • Introducing multipage apps! 📄

    So, you built a Streamlit app that became super useful, but then you got overloaded with feature requests. You kept adding more and more features until it felt too cluttered. You tried splitting the content across several pages by using st.radio or st.selectbox to choose which "page" to run. It worked!

    Introducing multipage apps! 📄
  • https://nlp-hacks.slack.com/archives/C02STU653GV/p1654733653338549
    • IPA情報処理推進機構
    • 自然言語処理技術の進化:AI による「ことば」の処理から汎用AI へ 最新の動向について
    • www.ipa.go.jp