NLP News #2

【1】AlphaCode (担当: ＠ELYZA_inc fujiki)

概要・書誌情報

preprint: URL

73ページある大作。

DeepMind の競技プログラミングAI
平均的な競技プログラミング競技者程度。

1. 問題

競技プログラミング

問題文が与えられて、その問題を解く解法としてのプログラムを提出する。
テストケースがある。

テストケースの一部は一般に公開されていない。

<> 自然言語をプログラムに翻訳。

= 仕様が与えられてプログラムを書く。

2. 提案・方法

モデル

非対称な Encoder-Decoder モデル

Decoder 層 ~= 6x Encoder 層
Encoder: 入力は 1,526 tokens。MLM で訓練
Decoder: 入力は 768 tokens。CausalLM で訓練

モデルサイズ: 基本 1B オーダ。最大 41B

‣

効率の良いサンプリングための multi-query attention

全体像を端的に表した図

図左: DATA - 事前学習・fine-tuning の学習パラダイム

事前学習:

GitHub 上の code
715.1 GB

fine-tuning:

競プロ用に整備された CodeContests データセットを作成 (→ 公開)

= 既存のデータセット (e.g. Description2Code, CodeNet) + Codeforces

Description2Code: ~7764 programming challenges
CodeNet: 4053 problems

データ数: 10kオーダ → 比較的リーズナブル

時系列 split
cleansing

‣

Appendix. B.2 に詳細

学習には、更なる工夫を追加。

Tempering - 正則化

(論文読む限り) 温度付き Softmax の温度 $T$ に同じ概念。
学習時には $T = 0.2 < 1$ とすることで分布を急峻にし、fine-tuning 用データセットへの過学習を防ぐことができた。

Value conditioning & prediction

正解・不正解などの追加情報も得られているため、それらの情報で条件付ける。
また、その値の予測を補助タスクとして訓練。

GOLD - オフライン強化学習

“重み付き損失で学習” といったイメージ。

モチベーションとしては、”recall” よりも “precision” を高めたい。

学習データの分布をまんべんなく捉えてほしいというよりかは、他のソリューションがハズレていても、1つは正解を確実に生成してほしい。よって importance weight を導入している、という感じ。

全体像を端的に表した図 (再掲)

図右: SAMPLING & EVALUATION - 推論時の工夫

大規模なサンプリング

多様さを確保

プログラミング言語 - Python, C++
高い temperature
問題タグ・レーティングをランダムに → 改善が見られた

Filtering

テストケースをフィルタとして使い、通ったものを採用

テストケースに通るプログラム生成自体難しく、10% 程度の問題に対しては解法を生成することができなかった。

Clustering

さらに、追加のテストケースで、その入力に対して同じ解答をするサンプルをクラスタリング

擬似的なテストケースも使用

テスト入力を生成するモデル: 説明文 → テスト入力

3. 結果

論文は Codeforces で Top 54% に入る程度と報告。ミドルレベル。
公開後、CodeForces で実際のコンテストに参加する予定だったが、サブミットせず撤退。

今後の成長が期待されるかもしれない。

以上は実際のコンテストの話で、今回作成したデータセットでの評価は以下の通り。

解答率はまだまだ高くはないので、やはり “今後に期待” か。

4. 関連

AlphaCode 特設サイト https://alphacode.deepmind.com/

attention を可視化、coding に取り組む AlphaCode の作業風景が見られる。

Podcast - 著者に聞いてみた。

オフィシャルツイート

新たな GitHub code データセット

AlphaCode のものを拡張し、それより大きいデータセット。
misawa さんより紹介。

【2】SimCTG (担当: ＠ELYZA_inc fujiki)

概要

Simple Contrastive Text Generation から命名。
ケンブリッジ大・テンセント AI Lab・DeepMind・香港大
大規模言語モデルの自然言語生成の性能を上げる「学習方法」と「生成方法」を提案。

1. 問題

自然言語生成には大きく2つ、1. 最尤的な生成方法、2. 確率的な生成方法がある。

自然言語生成をする「言語モデル」とは？

学習データにある単語列の出現確率を近似した「確率分布」

つまり、「言語を生成するでっかいサイコロ」！
学習によって、出やすい目 = 言葉が決まる。

最尤的な生成方法

“最も出やすい言葉を生成する方法”
問題: 不要な繰り返しが発生。

下の例について、

(3) では、「樹齢は...、樹高は...。樹高が...、」
(4) では、「岐阜県高山市一宮町一宮(いちのみやちょういちのみや)は、...。岐阜県高山市一宮町一宮(いちのみやちょういちのみや)は、岐阜県高山市一宮町一宮(いちのみやちょういちのみや)は、...」

colorfulscoop/gpt2-small-ja を使用した生成例。以下同じ。

確率的な生成方法

“言語サイコロを振って、出た目を採用して生成する方法”

まれなものも生成される可能性がある。

good: 多様性は出てくる。
bad: 多様なのはいいが...。不思議な言葉も出てくる。

上位の単語に限定したり、既出の単語の生成にペナルティを与えるなど、いろいろな調整が可能だが、それでも一貫性に欠けうる。

問題: 一貫性に欠ける

下の例 (2) について、

「雪見の藩お抱え家臣、... が祭っている「月輪寺」には手水鉢が2つあり、長久氏の勢力が強まると同時に関連する寺もあり、山を挟むように ... 樹齢250年を越してきたが、...」

途中で主語が迷子...？

2. 提案

(先出し) 提案手法 SimCTG を使うと、

「樹齢400年を越す日本さくら名所100選に選定されている。...。岐阜県飛騨地方 ... に生育し、...。「花の本」とも称され、開花期は5月上旬から下旬までで、桜の枝張りは濃緑色である。花は ... 八重咲きで、花弁の色は ...、雄しべは4本、...」

問題 の原因

各トークンの (潜在) 表現が不適切な類似関係にある。

図左: どのトークンも似通った表現になってしまっている。
図右: こちらのように、「自身とは近く、他とは遠く」なってほしい。

仮説: 高次元の潜在表現空間での分布が「異方性」を持っていることが原因ではないか？

あるいは、表現の「コントラスト」が効いていないということ。

⇒ ならば、コントラストを効かせればいい!

⇒ Contrastive Learning (対照学習) の出番

提案は、

自然言語生成での「Contrastive Learning」
生成時にもコントラストを効かせる「Contrastive Search」

Contrastive Learning

(文字通り) 対照的な学習方法

同じトークン $x_{i}$ の表現の類似度は高くし、異なるトークンどうし $x_{i}, x_{j}$ の表現の類似度は低くする。

Contrastive Search

対照的な生成方法

こちらも素直なやり方。
「今生成したいトークンの確率値」から「すでに生成したトークンとの類似度」を差し引く。

3. 結果

文書生成と対話生成で好成績と報告。

特に、自動評価だけではなく、人手評価も高い。

文書生成

人手評価結果 (Table 2) を抜粋。
「SimCTG？強いよね。一貫性・流暢性・情報性、隙がないと思うよ」

対話生成

LCCC: 中国語での対話
DailyDialog: 英語での対話
LCCC については、Contrastive Search (対照的な生成方法) だけでも効果あり。

言語によっては、従来の最尤法 (MLE) でも「等方」的な表現空間が獲得されているのかもしれない。

中国語での対話の生成例

【3】chiTra (担当: ＠ELYZA_inc fujiki)

概要

国立国語研究所及び株式会社ワークスアプリケーションズが提供。
Sudachi を使った日本語の事前学習済みモデル chiTra が公開。

Sudachi Transformer より命名。
引用

詳細は言語処理学会年次大会(PT1-6)

データ

「国語研日本語ウェブコーパス（NWJC）」

258億語
引用

『国語研日本語ウェブコーパス』は検索系『梵天』に格納して公開なお、『梵天』は 2021年12月24日を持ってサービスを停止

GitHub

Embed GitHub

Qiita 記事

chiTra事前学習モデルを使って評判分析を行う - Qiita

chiTra はワークス徳島人工知能 NLP 研究所が開発する、形態素解析器 Sudachi を言語モデル技術へ応用するための OSS です。 2022/02/25 に chiTra を用いて事前学習を行った BERT モデルが公開されました。本記事では評判分析タスクを題材にして、chiTra モデルのファインチューニングからテストデータでの評価までを行う手順を紹介します。評判分析タスクとして Multilingual Amazon Reviews Corpus を使用します。各言語での Amazon の商品レビュー情報を集めたデータセットですが、chiTra モデルは日本語の処理を対象としているので、今回は日本語のものに絞って扱うことにします。レビューの本文を入力として、評価として付与された星の数を推定してみましょう。このデータセットは Hugging Face Hub にも登録されており、スクリプトからダウンロードを含めて処理を行うことができるので、事前準備は特に必要ありません。 Hugging Face は各種の言語モデルとその周辺技術を扱う OSS です。 chiTra は Hugging Face のライブラリ群と連携できるように作成されており、それらを使用することで chiTra モデルも手軽に利用することができます。本記事でも簡単のため Hugging Face Transformers

qiita.com

【4】GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models （担当: ELYZA Ryo Misawa）

URL

paper: https://arxiv.org/abs/2112.10741
code: Embed GitHub

colab で安全性に考慮したデータセットで学習した small モデル（3億パラメーター）を使って遊べます

概要

35 億パラメーターの classifier-free guidance 付き拡散モデルを使って，高品質なテキストからの画像生成と画像編集を実現

反復的に prompt を与えて編集することで複雑な prompt に対応したいというモチベーション

人手評価において，パラメーター数が3倍以上大きい DALL-E（120億パラメーター）よりも高い性能を達成

拡散モデル

データにノイズを加え，それを復元するように学習する

What are Diffusion Models?

Updated on 2021-09-19: Highly recommend this blog post on score-based generative modeling by Yang Song (author of several key papers in the references)]. So far, I've written about three types of generative models, GAN, VAE, and Flow-based models. They have shown great success in generating high-quality samples, but each has some limitations of its own.

lilianweng.github.io

Guidance

拡散モデルがクラス・テキストに基づいて画像生成させるための手法
classifier guidance

ノイズを加えた入力からクラスを予測する分類モデルを使う

Dhariwal & Nichol (2021) から引用

classifier-free guidance

分類モデルを使わずに，クラス・テキストあり・なしで学習したモデルを使う
分類モデルを使う場合，ノイズ入りのデータで学習する必要があり，事前学習モデルが使えなかったり，訓練が複雑になる

提案手法

guided diffusion model をテキストからの画像生成と画像編集に適用

先行研究は class-conditional image synthesis，本研究は text-conditional

結果

定性評価

SOTA の XMC-GAN や DALL-E よりも高品質な画像を生成できていることが分かる
CLIP guided よりも classifier-free guided の方が良い
（cherry-picking はしていないらしい）

影や反射も追加したり，周囲とスタイルの合うように編集できている

定量評価

CLIP による reranking なしの場合・DALL-E の結果のみに reranking をする場合・DALL-E の結果のみに reranking かつ discrete-VAE で GLIDE の結果をぼかした場合を比較

その他

DeepFake など悪用されないように，データセットをフィルタリングし，small モデルのみを公開

フィルタリング: 人が現れるデータは使わないなど

【5】JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension（担当: ELYZA Ryo Misawa）

URL

paper: https://arxiv.org/abs/2202.01764v1
code:

概要

日本語版の SQuAD 1.1

詳細

データ規模

901 本の日本語 Wikipedia 記事
39,696 データ

作成方法

SQuAD 1.1 に準拠
記事は，秀逸な記事・良質な記事から選択

解答，質問のタイプ

SQuAD 1.1 形式なので，答えのないデータは作らられていない

他の QA データセットとの比較

運転ドメインQAデータセット

the documents of the dataset come from driving-blogs which limits its domain and patterns

paper: https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/B1-4.pdf
dataset: https://nlp.ist.i.kyoto-u.ac.jp/?Driving+domain+QA+datasets

解答可能性付き読解データセット

this dataset has a shortcoming that the majority of contexts and corresponding questions are contrived, and that they could be biased by the original competition in some ways

abc/EQIDEN というクイズ大会の問題に対して，Elasticsearch を使って自動的にコンテキストを Wikipedia から収集し，それに対して解答可能性をスコアリングしたデータセットなので不自然なペアリングがされている，と主張
paper: https://www.anlp.jp/proceedings/annual_meeting/2018/pdf_dir/C4-5.pdf
dataset: http://www.cl.ecei.tohoku.ac.jp/rcqa/

【6】ライティング支援のための文法誤り訂正（担当: ELYZA Ryo Misawa）

URL

speaker-deck: https://speakerdeck.com/chemical_tree/raiteinguzhi-yuan-falsetamefalsewen-fa-wu-riding-zheng

概要

文法誤り訂正ついて，歴史的な流れや評価指標などについて簡単にまとめた概要と最新動向についてのまとめ

特に興味深かった話

Sakaguchi et al.(2016) の提唱がきっかけで文法誤り訂正のゴールにシフトがあった

機械翻訳の手法を援用するのが主流だが，入出力がほとんど同じという点で異なる

系列編集タスクとして解くことで効率化

その他

日本語の文法誤り訂正データセットも紹介されていた

git: https://github.com/koyama-aomi/TEC-JL/
解説ブログ: https://qiita.com/mamorlis/items/59befe0815bef99da4b9

【7】WRIME: 主観と客観の感情分析データセット (担当: ELYZA Akira Sasaki (hikomimo))

repo: https://github.com/ids-cv/wrime
paper:

宮内裕人, 鈴木陽也, 秋山和輝, 梶原智之, 二宮崇, 武村紀子, 中島悠太, 長原一. 主観と客観の感情極性分類のための日本語データセット. 言語処理学会第28回年次大会, 2022.
Tomoyuki Kajiwara, Chenhui Chu, Noriko Takemura, Yuta Nakashima, Hajime Nagahara. WRIME: A New Dataset for Emotional Intensity Estimation with Subjective and Objective Annotations. In Proceedings of the 2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2021), pp.2095-2104, 2021.
梶原智之, Chenhui Chu, 武村紀子, 中島悠太, 長原一. 主観感情と客観感情の強度推定のための日本語データセット. 言語処理学会第27回年次大会, pp.523-527, 2021.

研究目的で利用可能なデータセットとのことです

日本語の感情分析の研究のために、以下の特徴を持つデータセットを構築しました。・主観（テキストの筆者1人）と客観（クラウドワーカ3人）の両方の立場から感情ラベルを付与しました。・Plutchikの基本8感情（喜び、悲しみ、期待、驚き、怒り、恐れ、嫌悪、信頼）を扱いました。・各感情の強度を4段階（0:無、1:弱、2:中、3:強）でラベル付けしました。・Ver.2では、感情極性（-2:強いネガティブ、-1:ネガティブ、0:ニュートラル、1:ポジティブ、2:強いポジティブ）も追加しました。

上記のようなデータが train/dev/test = 30000/2500/2500 件含まれています

【8】Generating Training Data with Language Models (担当: ELYZA Akira Sasaki (hikomimo))

paper: https://arxiv.org/abs/2202.04538
repo: https://github.com/yumeng5/SuperGen

大規模言語モデルを使えば訓練データ自動生成できるよね！という論文

※ 言語モデルのパラメータはアップデートせず、あくまで事前学習済みのものをそのまま使う

タスクごとに、ラベルごとのプロンプトを準備

$x^g$ が言語モデルで生成される部分
MNLIなどは文対に対してラベル付与するタスクなので、 $x^g$ でないほうの文を $x^s$ として事前学習コーパスからランダムサンプルしている

たとえば各タスクで以下のような生成がされる

zero-shotにおいてはpromptベースの既存手法を大きく上回り、かつ32事例程度を使ったfew-shot手法とどっこいどっこいの性能

【9】テキストデータのaugmentation (daaja, augmenty) (担当: ELYZA Akira Sasaki (hikomimo))

daaja

日本語NLPに特化したdata augmentationライブラリ

repo: https://github.com/kajyuuen/daaja

日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園

日本語自然言語処理のData Augmentationライブラリ daajaを作成しました。この記事では daaja が実装しているData Augmentation手法についての解説とその使い方について紹介します。ソースコードは以下のリポジトリで公開しています。また、このライブラリは PyPIに公開しているので pip install daaja でインストールが可能です。 Data Augmentationとは元のデータから新しいデータを生成し、データ数を増やす手法です。日本語ではデータ拡張という名前で知られています。ラベル付きデータを擬似的に増やすことによって、アノテーションコストを必要とせずにモデルの汎化性能や精度の向上が期待できます。現在 daaja は、次の2つの論文で紹介されているData Augmentation手法を実装しています。 EDA が文書分類タスク向け、SDAが固有表現抽出向けのData Augmentation手法です。それぞれの手法について、詳しく説明していきます。この論文では自然言語処理の分類タスクに使える4つのData Augmentation手法について紹介しています。それぞれの手法について、詳細と daaja を使った呼び出し方を記載します。これは文章中のストップワードを除いた$N$つの単語を同義語に置き換える手法です。ハイパーパラメータ$\alpha$と文章中の単語数$l$によって、この$N$は定まり、$N=l\alpha$と計算されます。$N$はこのあと紹介する手法のRandom Insertion, Synonym Replacementでも同じように算出されます。 from daaja.augmentors.sentence.synonym_replace_augmentor import \ SynonymReplaceAugmentor augmentor = SynonymReplaceAugmentor(alpha=0.1) text

kajyuuen.hatenablog.com

日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園

‣

以下ブログ記事から引用

その他、固有名詞の置き換えなどにも対応しているようです

augmenty

repo: https://github.com/KennethEnevoldsen/augmenty
spaCyベースの、多言語 (主に英語？) 向けdata augmentationライブラリ

どういったaugmentationが出来るかは以下ページにまとまっている

https://kennethenevoldsen.github.io/augmenty/augmenters_overview.html
文字置換、エンティティ置換、WordNetベースの類義語挿入、embeddingに基づく類似語への置換など...

日本語でも一部augmenterを使えたので試してみました

word_embedding.v1 は結構じゃじゃ馬な感じ。名詞だけに絞って置換などできれば...

wordnet_synonym.v1 はWordNetに含まれる単語のみが対象になりそうなので、 word_embedding.v1 よりはまとも (古風というか荘厳というか... な結果になってますが...)

その他のトークン並び替え、文字置換なども日本語で動作するようです

NLP News #2

【1】AlphaCode (担当: ＠ELYZA_inc fujiki)

1. 問題

2. 提案・方法

3. 結果

4. 関連

【2】SimCTG (担当: ＠ELYZA_inc fujiki)

1. 問題

2. 提案

3. 結果

【3】chiTra (担当: ＠ELYZA_inc fujiki)

概要

chiTra事前学習モデルを使って評判分析を行う - Qiita

関連

rinna社、日本語に特化した13億パラメータのGPT言語モデルを公開

【4】GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models （担当: ELYZA Ryo Misawa）

URL

概要

拡散モデル

What are Diffusion Models?

Guidance

提案手法

結果

定量評価

その他

【5】JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension（担当: ELYZA Ryo Misawa）

URL

概要

詳細

他の QA データセットとの比較

【6】ライティング支援のための文法誤り訂正（担当: ELYZA Ryo Misawa）

URL

概要

特に興味深かった話

その他

【7】WRIME: 主観と客観の感情分析データセット (担当: ELYZA Akira Sasaki (hikomimo))

【8】Generating Training Data with Language Models (担当: ELYZA Akira Sasaki (hikomimo))

【9】テキストデータのaugmentation (daaja, augmenty) (担当: ELYZA Akira Sasaki (hikomimo))

daaja

日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園

augmenty