🍉

NLP News #6

  • ※ 試験的に、前回までの形式から少し変更しています。ご意見等ありましたら今回のNLP Hacksのアンケートなどで教えていただけますと幸いです 🙇
    • 前回まで: 1情報に5〜10分程度かけて深ぼる形
    • 今回: 1情報にかける時間を短くして、多めに情報掲載
  • Parti
  • YaLM 100B
  • NLLB-200
  • BLOOM
  • DALL·E 2 Prompt Book
  • 日本語映画推薦対話データセット (JMRD)
  • そのほかの主なニュース

Parti

  • Pathways Autoregressive Text-to-Image Model
  • paper: https://arxiv.org/abs/2206.10789
  • repo: https://github.com/google-research/parti (上記URL、paper以上の情報はまだないかも)
  • 自己回帰ベースのtext-to-imageモデル
    • ViT-VQGANにより画像をトークン化
    • image
  • PartiPrompts (P2)
    • 1,600件超えの、多様なカテゴリ・難易度のpromptを含むベンチマーク
  • モデルサイズが大きくなるほど高品質な画像が生成可能
  • image
  • 拡散モデルとの比較
  • image

YaLM 100B

  • Yandex Publishes YaLM 100B. It’s the Largest GPT-Like Neural Network in Open Source
  • code: https://github.com/yandex/YaLM-100B
  • huggingface: https://huggingface.co/yandex/yalm-100b
  • 商用利用可能 (Apache2.0)
  • 100Bパラメータの言語モデル (英語対象)
  • もともとYandexは、Aliceというボイスアシスタントやら検索サービスやらで大規模言語モデルを使っていたとのこと
  • 大規模言語モデル学習にあたってのもろもろの知見も上記ブログで紹介されている
    • PyTorchのprofilerで性能改善しよう
    • image
    • 型を適切に選ぼう
    • image
    • etc…

NLLB-200

  • 200 languages within a single AI model: A breakthrough in high-quality machine translation
  • huggingface: https://huggingface.co/facebook/nllb-200-3.3B
  • github: https://github.com/facebookresearch/fairseq/tree/nllb
    • こちらには54.5Bパラメータのモデルもあるが、337GB程度あるので注意…
  • paper: https://research.facebook.com/publications/no-language-left-behind/
  • demo1: https://nllb.metademolab.com/
    • Meta公式の、各言語で書かれた物語を翻訳して読めるデモ
  • demo2: https://huggingface.co/spaces/Geonmo/nllb-translation-demo
    • 非公式?っぽいが、600Mパラメータのモデルをパッと触れるデモ
  • ライセンスはCC-BY-NCなので、商用利用はNG
  • NLLB: No Language Left Behind
    • https://ai.facebook.com/research/no-language-left-behind/
    • low-resourceな言語も含め機械翻訳したい
  • 単一モデルで200言語を翻訳できる
  • 評価データセットFLORES-200も開発
  • どうやって?
    • LASER https://engineering.fb.com/2019/01/22/ai-research/laser-multilingual-sentence-embeddings/
    • Research SuperCluster https://ai.facebook.com/blog/ai-rsc/
系譜
  • 100言語を扱えるモデルに比べても高い性能
image

BLOOM

  • 🌸Introducing The World’s Largest Open Multilingual Language Model: BLOOM🌸
  • huggingface: https://huggingface.co/bigscience/bloom
  • transformersでも4.20.0から使えるようになった
    • https://github.com/huggingface/transformers/releases/tag/v4.20.0
  • ライセンスについては以下を参照
    • https://bigscience.huggingface.co/blog/the-bigscience-rail-license
  • BigScience製の、176Bパラメータのモデル
  • 各種知見は以下のNotionにまとまっている
    • https://bigscience.notion.site/bigscience/BigScience-214dc9a8c1434d7bbcddb391c383922a
  • 学習データに含まれる言語の分布
    • コードも10.8%含まれる
    • 日本語は含まれない…
    • image
  • モデルの詳細はhuggingface上に記載あり
    • Megatron-LM GPT2ベース
    • decoder only
    • フランス政府が提供しているJean Zayというスパコンで学習
      • http://www.idris.fr/eng/jean-zay/jean-zay-presentation-eng.html
    • etc…

DALL·E 2 Prompt Book

  • The DALL·E 2 Prompt Book
  • DALL·E 2に思い通りに画像を生成させるための、promptの教科書
image
image

日本語映画推薦対話データセット (JMRD)

  • data: https://github.com/ku-nlp/JMRD
  • paper
    • 言語処理学会
    • DialDoc
  • 推薦者が外部知識を参照しながら、被推薦者に映画をおすすめするような対話データセット
image

そのほかの主なニュース

  • NAACL2022のベストペーパー発表
  • Transformerの最前線 〜 畳込みニューラルネットワークの先へ 〜
  • Neural Networks and the Chomsky Hierarchy
  • VaporettoのWasm版
  • poetryでpytorch辛い問題の解決の話
  • StanfordのTransformer講義
  • Transformerのfine-tuning tips (KaggleのU.S. Patent Phrase to Phrase Matchingコンペのdiscussionに貼られた内容)
  • NHK技研R&D189号「自然言語処理技術特集」
  • 自然言語処理とVision-and-Language
  • 【書籍】Python Transformers実装ハンズオン101本ノック: huggingface transformersでALBERT/ViT/BigBird他最新モデルを高速実装 Kindle版
  • spancat
  • 分析モデル入門
  • 最適輸送チュートリアル
  • PyTorchのJITコンパイル