🍉

NLP News #6

※ 試験的に、前回までの形式から少し変更しています。ご意見等ありましたら今回のNLP Hacksのアンケートなどで教えていただけますと幸いです 🙇

前回まで: 1情報に5〜10分程度かけて深ぼる形
今回: 1情報にかける時間を短くして、多めに情報掲載

Parti
YaLM 100B
NLLB-200
BLOOM
DALL·E 2 Prompt Book
日本語映画推薦対話データセット (JMRD)
そのほかの主なニュース

Parti

Pathways Autoregressive Text-to-Image Model
paper: https://arxiv.org/abs/2206.10789
repo: https://github.com/google-research/parti (上記URL、paper以上の情報はまだないかも)

自己回帰ベースのtext-to-imageモデル

ViT-VQGANにより画像をトークン化

PartiPrompts (P2)

1,600件超えの、多様なカテゴリ・難易度のpromptを含むベンチマーク

モデルサイズが大きくなるほど高品質な画像が生成可能

拡散モデルとの比較

YaLM 100B

Yandex Publishes YaLM 100B. It’s the Largest GPT-Like Neural Network in Open Source
code: https://github.com/yandex/YaLM-100B
huggingface: https://huggingface.co/yandex/yalm-100b
商用利用可能 (Apache2.0)

100Bパラメータの言語モデル (英語対象)
もともとYandexは、Aliceというボイスアシスタントやら検索サービスやらで大規模言語モデルを使っていたとのこと
大規模言語モデル学習にあたってのもろもろの知見も上記ブログで紹介されている

PyTorchのprofilerで性能改善しよう

型を適切に選ぼう

etc…

NLLB-200

200 languages within a single AI model: A breakthrough in high-quality machine translation
huggingface: https://huggingface.co/facebook/nllb-200-3.3B
github: https://github.com/facebookresearch/fairseq/tree/nllb

こちらには54.5Bパラメータのモデルもあるが、337GB程度あるので注意…

paper: https://research.facebook.com/publications/no-language-left-behind/
demo1: https://nllb.metademolab.com/

Meta公式の、各言語で書かれた物語を翻訳して読めるデモ

demo2: https://huggingface.co/spaces/Geonmo/nllb-translation-demo

非公式？っぽいが、600Mパラメータのモデルをパッと触れるデモ

ライセンスはCC-BY-NCなので、商用利用はNG

NLLB: No Language Left Behind

https://ai.facebook.com/research/no-language-left-behind/
low-resourceな言語も含め機械翻訳したい

単一モデルで200言語を翻訳できる
評価データセットFLORES-200も開発
どうやって？

LASER https://engineering.fb.com/2019/01/22/ai-research/laser-multilingual-sentence-embeddings/
Research SuperCluster https://ai.facebook.com/blog/ai-rsc/
…

‣

系譜

100言語を扱えるモデルに比べても高い性能

BLOOM

🌸Introducing The World’s Largest Open Multilingual Language Model: BLOOM🌸
huggingface: https://huggingface.co/bigscience/bloom
transformersでも4.20.0から使えるようになった

https://github.com/huggingface/transformers/releases/tag/v4.20.0

ライセンスについては以下を参照

https://bigscience.huggingface.co/blog/the-bigscience-rail-license

BigScience製の、176Bパラメータのモデル
各種知見は以下のNotionにまとまっている

https://bigscience.notion.site/bigscience/BigScience-214dc9a8c1434d7bbcddb391c383922a

学習データに含まれる言語の分布

コードも10.8%含まれる
日本語は含まれない…

モデルの詳細はhuggingface上に記載あり

Megatron-LM GPT2ベース
decoder only
フランス政府が提供しているJean Zayというスパコンで学習

http://www.idris.fr/eng/jean-zay/jean-zay-presentation-eng.html

etc…

DALL·E 2 Prompt Book

The DALL·E 2 Prompt Book
DALL·E 2に思い通りに画像を生成させるための、promptの教科書

日本語映画推薦対話データセット (JMRD)

data: https://github.com/ku-nlp/JMRD
paper

推薦者が外部知識を参照しながら、被推薦者に映画をおすすめするような対話データセット

そのほかの主なニュース