見出し画像

Starling-RM-7B-alphaとZephyr-7B-betaを簡単に比較

今更ですが、Starling-RM-7B-alphaを試してみました。本モデルの詳細は下記でまとめらています。


ベンチマーク

MT Bench, AlpacaEval, MMLUのいずれでもZephyr-7B-betaを上回ります。私個人としてはAlpacaEvalのscoreが高い方が使い勝手が良いように感じています。

https://starling.cs.berkeley.edu/

0. 環境

OS:Windows
CPU:Intel(R) Core i9-13900KF
RAM:128GB
GPU:RTX 4090

1. arXivから論文取得

"super resolution"でhitした論文5件を取得します。

import arxiv
import pandas as pd
import glob
from tqdm.notebook import tqdm

arxiv_query = "super resolution"
search = arxiv.Search(
  query = arxiv_query,
  max_results = 5,
  sort_by = arxiv.SortCriterion.SubmittedDate
)

data = pd.DataFrame(columns = ["title","id",'arxiv_url','published'])
for r in search.results():
    eid = r.entry_id.split("/")[-1].split("v")[0]
    data.loc[len(data)] = {
        "title": r.title, "id": eid, "arxiv_url": r.links[0], "published": r.published, "abstract": r.summary}

out_path = "./super-resolution"
data.to_pickle(f"{out_path}/df.p")

PDFのダウンロード

for r in enumerate(search.results()):
    r.download_pdf(out_path)

PDFファイルから冒頭10,000文字のtextを抽出

texts = []
for i in tqdm(data.id):
    text = extract_text(glob.glob(f"{out_path}/{i}*.pdf")[0])
    texts.append(text[:10000])

2. key concepts抽出

モデルの読込

import torch
from transformers import pipeline

pipe = pipeline("text-generation", model="berkeley-nest/Starling-LM-7B-alpha", torch_dtype=torch.bfloat16, device_map="auto")

質疑

sum_texts = []
for i in tqdm(range(len(sum_texts), len(texts))):
    text = texts[i]
    try:
        messages = [
            {
                "role": "system",
                "content": "You are an excellent technician, and always give careful, accurate and clear replies.",
            },
            {"role": "user", "content": f"What are the objectives and key concepts of the paper presented next?\n-----\n{text}\n-----\n"},
        ]
        prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
        outputs = pipe(prompt, max_new_tokens=2048, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
        summary = outputs[0]["generated_text"][outputs[0]["generated_text"].rfind('\n-----\n')+45:]
        sum_texts.append(summary)
        pickle.dump(sum_texts, open(f"{path}/key concepts.pkl", 'wb'))
    except:
        sum_texts.append("")
        print(i)

3. 結果

下記の質問に対するZephyr-7B-betaとStarling-RM-7B-alphaの回答内容です。

質問:What are the objectives and key concepts of the paper presented next?

□ EAGLES: Efficient Accelerated 3D Gaussians with Lightweight EncodingS

Zephyr:
"EAGLES: Efficient Accelerated 3D Gaussians with Lightweight EncodingS" proposes a technique to reduce the memory storage requirements and improve training and rendering speeds for 3D Gaussian splatting (3D-GS), while maintaining reconstruction quality. The approach involves quantizing the color and rotation attributes of each Gaussian via a latent quantization framework, quantizing the opacity coefficients, and controlling the frequency of densification. Additionally, a coarse-to-fine training strategy is proposed to improve optimization and convergence speed. These components are evaluated through ablations, resulting in significant memory reduction and faster rendering and training times. The approach achieves comparable reconstruction quality to 3D-GS on a variety of datasets. Overall, the paper demonstrates the effectiveness of the proposed approach for compressing 3D Gaussian point clouds with lower memory usage and higher efficiency.

和訳:
"EAGLES: Efficient Accelerated 3D Gaussians with Lightweight EncodingS "は、3Dガウススプラッティング(3D-GS)において、再構成品質を維持しつつ、メモリストレージ要件を削減し、トレーニングおよびレンダリング速度を向上させる手法を提案する。この手法では、潜在量子化フレームワークを介して各ガウシアンの色と回転属性を量子化し、不透明度係数を量子化し、高密度化の頻度を制御する。さらに、最適化と収束速度を改善するために、粗から細への学習戦略を提案する。これらの構成要素はアブレーションによって評価されるため、メモリが大幅に削減され、レンダリングとトレーニングの時間が短縮される。このアプローチは、様々なデータセットにおいて、3D-GSと同等の再構成品質を達成した。全体として、本論文は、より少ないメモリ使用量と高い効率で3Dガウス点群を圧縮するための提案アプローチの有効性を実証する。

Starling:
The main objectives and key concepts of the paper presented are:

1. Efficient Accelerated 3D Gaussians with Lightweight EncodingS (EAGLES): The authors present a technique for reducing the memory footprint of Gaussian splatting (3D-GS) while offering faster training times and rendering speeds, all while maintaining reconstruction quality.
2. Quantized Embeddings: The authors utilize quantized embeddings to significantly reduce memory storage requirements for Gaussian splatting.
3. Coarse-to-Fine Training Strategy: The authors propose a coarse-to-fine training strategy for a faster and more stable optimization of Gaussian point clouds.
4. Fewer Gaussians and Quantized Representations: The authors' approach results in scene representations with fewer Gaussians and quantized representations, leading to faster training times and rendering speeds for real-time rendering of high-resolution scenes.
5. Reduction of Memory Footprint: The authors reduce the memory footprint of Gaussian splatting by an order of magnitude while maintaining reconstruction quality.
6. Effectiveness of the Approach: The authors validate the effectiveness of their approach on a variety of datasets and scenes, preserving visual quality while consuming 10-20 times less memory and faster training/inference speed.
7. Quantization of Attributes: The authors propose a simple yet powerful approach for compressing 3D Gaussian point clouds by quantizing per-point attributes, leading to lower storage memory.
8. Improved Optimization: The authors further improve the optimization of the Gaussians by quantizing the opacity coefficients, utilizing a progressive training strategy, and controlling the frequency of densification of the Gaussians.
9. Ablations of Components: The authors provide ablations of the different components of their approach to show their effectiveness in producing efficient 3D Gaussian representations.
10. Comparison with 3D-GS: The authors evaluate their approach on a variety of datasets, achieving comparable quality as 3D-GS while being faster and more efficient.

Overall, the paper presents a novel technique for reducing the memory and computational requirements of Gaussian splatting, while maintaining or even improving reconstruction quality, making it more practical for graphic systems with memory constraints or low-bandwidth applications.

和訳:
本稿の主な目的とキーコンセプトは以下の通りである:
1. Efficient Accelerated 3D Gaussians with Lightweight EncodingS (EAGLES): ガウシアンスプラッティング(3D-GS)のメモリフットプリントを削減し、トレーニング時間とレンダリング速度を高速化し、かつ再構成の品質を維持する技術を紹介する。
2. 量子化エンベッディング 著者らは、量子化エンベッディングを利用して、ガウス・スプラッティングに必要なメモリ・ストレージを大幅に削減する。
3. 粗目から細目への学習戦略: 著者らは、ガウス点群の最適化をより高速かつ安定的に行うために、粗から細への学習戦略を提案する。
4. より少ないガウシアンと量子化された表現: 著者らのアプローチにより、より少ないガウシアンと量子化された表現によるシーン表現が得られ、高解像度シーンのリアルタイムレンダリングのためのトレーニング時間とレンダリング速度の高速化につながる。
5. メモリフットプリントの削減: 著者らは、再構成品質を維持しながら、ガウススプラッティングのメモリフットプリントを1桁削減した。
6. アプローチの有効性 著者らは、様々なデータセットとシーンにおいて、10-20倍少ないメモリ消費量と高速な学習/推論速度で視覚的品質を維持しながら、アプローチの有効性を検証している。
7. 属性の量子化: 著者らは、3Dガウス点群を圧縮するための、シンプルかつ強力なアプローチを提案する。
8. 最適化の改善: 著者らは、不透明度係数を量子化し、漸進的学習戦略を利用し、ガウシアンの高密度化の頻度を制御することで、ガウシアンの最適化をさらに改善する。
9. 成分のアブレーション: 著者らは、効率的な3Dガウシアン表現の生成における有効性を示すために、彼らのアプローチの異なるコンポーネントのアブレーションを提供する。
10. 3D-GSとの比較: 著者らは、様々なデータセットでそのアプローチを評価し、3D-GSと同等の品質を達成しながら、より高速で効率的であることを示した。
全体として、本論文は、再構成の品質を維持あるいは向上させながら、ガウススプラッティングのメモリと計算機要件を削減するための新しい技術を提示しており、メモリ制約のあるグラフィックシステムや低帯域幅のアプリケーションにとってより実用的なものとなっている。

□ PrimDiffusion: Volumetric Primitives Diffusion for 3D Human Generation

Zephyr:
"PrimDiffusion: Volumetric Primitives Diffusion for 3D Human Generation," aims to introduce the first diffusion model for 3D human generation. The authors highlight the challenges of applying diffusion models to 3D human generation due to the intensive computational cost of 3D representations and the articulated topology of 3D humans. To tackle these challenges, the paper proposes representing 3D humans as a set of volumetric primitives, which models the human body as a number of tiny volumes with radiance and kinematic information. This representation fuses the capacity of volumetric representations with the efficiency of primitive-based rendering, resulting in compact and expressive parameter space for the diffusion model, flexible representation that inheres human prior, and efficient and straightforward decoder-free rendering. The paper also proposes an encoder tailored with cross-modal attention that learns volumetric primitives from images across identities without per-subject optimization. The paper demonstrates the superiority of PrimDiffusion over state-of-the-art methods for 3D human generation, including texture transfer and 3D inpainting, and supports real-time rendering of high-quality 3D humans at a resolution of 512 × 512 once the denoising process is done.

和訳:
"PrimDiffusion: 3D人間生成のための体積プリミティブ拡散 "は、3D人間生成のための最初の拡散モデルを紹介することを目的としている。著者らは、3D表現にかかる膨大な計算コストと、3D人間の関節トポロジーのために、拡散モデルを3D人間生成に適用することの課題を強調している。これらの課題に取り組むため、この論文では、3D人体を、放射輝度と運動学的情報を持つ多数の小さな体積としてモデル化する、体積プリミティブの集合として表現することを提案している。この表現は、体積表現の能力とプリミティブベースのレンダリングの効率性を融合し、拡散モデルのためのコンパクトで表現力豊かなパラメータ空間、人間の事前情報を包含する柔軟な表現、効率的でわかりやすいデコーダ不要のレンダリングを実現する。本論文はまた、被験者ごとの最適化を行うことなく、同一性を超えた画像からボリュームプリミティブを学習する、クロスモーダルな注意に合わせたエンコーダを提案する。本論文では、テクスチャ転送や3Dインペインティングを含む、3D人間生成のための最先端の手法に対するPrimDiffusionの優位性を示し、ノイズ除去処理が完了した後、512×512の解像度で高品質な3D人間のリアルタイムレンダリングをサポートする。

Starling:
The main objective of the paper presented is to introduce PrimDiffusion, the first diffusion-based framework for 3D human generation. The key concepts presented in the paper include:

1. Diffusion and denoising processes are performed directly on a set of volumetric primitives, which models the human body as a number of small volumes with radiance and kinematic informa
tion. This approach combines the capacity of volumetric representations with the efficiency of primitive-based rendering.
2. The proposed PrimDiffusion framework has three appealing properties:
a. Compact and expressive parameter space for the diffusion model, which enables efficient training and high-performance rendering.
b. Flexible 3D representation that inheres human prior, allowing for explicit pose, view, and shape control.
c. Decoder-free rendering for efficient novel-view and novel-pose synthesis, without the need for dense MLP decoder queries during rendering.
3. The paper presents extensive experiments that validate the superiority of PrimDiffusion over state-of-the-art methods for 3D human generation, both qualitatively and quantitatively. The contributions of the paper include:
a. The introduction of the first diffusion model for 3D human generation.
b. The proposal of representing 3D humans as volumetric primitives in a generative context, which enables efficient training and high-performance rendering.
c. The design of an encoder tailored with cross-modal attention, which accounts for learning volumetric primitives from images across identities without per-subject optimization.
d. The demonstration of applications of PrimDiffusion, including texture transfer and 3D inpainting, which can be naturally done without retraining.

In summary, the paper presents PrimDiffusion, a novel diffusion-based framework for 3D human generation that addresses the challenges of computational cost and articulated topology in 3D human representation. The framework offers a compact and expressive parameter space, a flexible 3D representation, and efficient decoder-free rendering, outperforming state-of-the-art methods in 3D human generation.

和訳:
本論文の主な目的は、3D人体生成のための初の拡散ベースのフレームワークであるPrimDiffusionを紹介することである。この論文で紹介される主なコンセプトは以下の通りです:
1. 拡散処理とノイズ除去処理は、人体を放射輝度と運動学的情報を持つ多数の小さな体積としてモデル化した体積プリミティブの集合に対して直接実行される。このアプローチは、体積表現の能力とプリミティブベースのレンダリングの効率性を兼ね備えている。
2. 提案するPrimDiffusionフレームワークには、以下の3つの魅力的な特性がある。 a. コンパクトで表現力豊かな拡散モデルのパラメータ空間により、効率的な学習と高性能なレンダリングが可能になる。 b. 人間の事前情報を取り込んだ柔軟な3D表現により、明示的なポーズ、ビュー、シェイプの制御が可能になる。 c. レンダリング中に高密度のMLPデコーダをクエリする必要がなく、効率的なノベルビューとノベルポーズの合成を可能にするデコーダフリーレンダリング。
3. 本論文では、PrimDiffusionが3D人物生成のための最先端の手法よりも優れていることを、質的にも量的にも検証する広範な実験を紹介する。c.被験者ごとの最適化を行うことなく、アイデンティティを横断して画像からボリュームプリミティブを学習することを考慮した、クロスモーダルアテンションに合わせたエンコーダの設計。 d.テクスチャ転送や3Dインペインティングを含むPrimDiffusionのアプリケーションの実証。
要約すると、本論文は、3D人物表現における計算コストと関節トポロジーの課題に対処する、3D人物生成のための新しい拡散ベースのフレームワークであるPrimDiffusionを提示する。このフレームワークは、コンパクトで表現力豊かなパラメータ空間、柔軟な3D表現、効率的なデコーダレスレンダリングを提供し、3D人物生成における最先端の手法を凌駕する。

□ Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve Aerial Visual Perception?

Zephyr:
"Multiview Aerial Visual RECognition (MAVREC): Can Multi-view Improve Aerial Visual Perception?", focuses on the limitations of existing aerial datasets for object detection in drone-based videos. The current datasets are small-scale, low-resolution, and primarily collected in Asian and North American geographies, leading to substandard generalizability across different geographic locations. The paper introduces the MAVREC dataset, which captures synchronized ground and aerial view videos in European landscapes, making it the largest ground and aerial-view dataset and the fourth largest among all drone-based datasets across all modalities and tasks. Through extensive benchmarking, the paper exposes the limitations of existing pre-trained object detectors in exhibiting bias towards data captured from ground perspectives. The paper proposes a curriculum-based semi-supervised object detection method that leverages labeled and unlabeled images to enhance detection performance from an aerial perspective. The method\'s superior performance shows the importance of training these types of models with ground-view images to learn geography-aware representations. The paper also analyzes the proclivity of existing pre-trained object detectors to exhibit a bias towards data captured from ground perspectives through benchmarking MAVREC in supervised and semi-supervised settings. In summary, the paper highlights the limitations of existing aerial datasets, introduces a new dataset, MAVREC, and proposes a curriculum-based semi-supervised object detection method to address the limitations.

和訳:
"マルチビュー空中視覚認識(MAVREC)": マルチビューは空中視覚認識を改善できるか?"は、ドローンベースのビデオにおける物体検出のための既存の空中データセットの限界に焦点を当てている。現在のデータセットは小規模で低解像度であり、主にアジアと北米の地域で収集されているため、異なる地理的な場所での一般化可能性が低い。MAVRECデータセットは、ヨーロッパの風景における地上と空撮映像を同期してキャプチャしたデータセットであり、地上と空撮映像のデータセットとしては最大であり、すべてのモダリティとタスクにおいて、すべてのドローンベースのデータセットの中で4番目に大きい。広範なベンチマークを通じて、本論文は、地上視点から撮影されたデータに偏りを示す、既存の事前訓練された物体検出器の限界を明らかにする。本論文では、ラベル付けされた画像とラベル付けされていない画像を活用し、上空からの視点での検出性能を向上させる、カリキュラムベースの半教師付き物体検出法を提案する。この手法の優れた性能は、地理を意識した表現を学習するために、地上視点画像でこの種のモデルを訓練することの重要性を示している。本論文はまた、教師あり設定と半教師あり設定におけるMAVRECのベンチマークを通じて、既存の事前訓練された物体検出器が、地上視点から撮影されたデータに偏りを示す傾向を分析する。要約すると、本論文は既存の航空データセットの限界を明らかにし、新しいデータセットMAVRECを紹介し、その限界に対処するためのカリキュラムベースの半教師付き物体検出法を提案する。

Starling:
The main objectives and key concepts of the paper presented are:

1. Introducing Multiview Aerial Visual Recognition (MAVREC), a large-scale ground and aerial-view dataset that captures time-synchronized aerial and ground view data, collected in the rural and urban European landscape. MAVREC consists of around 2.5 hours of industry-standard 2.7K resolution video sequences, more than 0.5 million frames, and 1.1 million annotated bounding boxes. This makes MAVREC the largest ground and aerial-view dataset and the fourth largest among all drone-based datasets across all modalities and tasks.
2. Assessing the hypothesis that the lack of diversity in current aerial datasets and the substandard generalizability of existing aerial visual models across different geographic locations are the main factors contributing to the performance gap between aerial and ground-view object detection models. The experimental analysis with MAVREC reveals that contextual information of the landscape vastly influences aerial object detection, and that transfer learning from ground to aerial view induces geography-aware representations in aerial object detection models.
3. Proposing a curriculum-based semi-supervised object detection approach that leverages labeled and unlabeled images to enhance the aerial detection performance. This approach outperforms the performance of object detectors pre-trained on alternative aerial or ground datasets, including advanced foundational models such as Grounding DINO.
4. The main technical contributions of the paper are:
a. Introducing MAVREC, which represents the most extensive dataset integrating time-synchronized ground and aerial images captured in the European landscape.
b. Exposing the proclivity of existing pre-trained object detectors to exhibit bias toward data captured from ground perspectives through benchmarking MAVREC in supervised and semi-supervised settings.
c. Proposing a curriculum-based semi-supervised object detection method, which demonstrates the importance of training these types of models with ground-view images to learn geography-aware representation, and achieving superior performance compared to existing methods.

和訳:
本稿の主な目的とキーコンセプトは以下の通りである:

1. マルチビュー空中視覚認識(MAVREC)は、ヨーロッパの農村および都市景観で収集された、時間と同期した空中および地上ビューデータをキャプチャした大規模な地上および空中ビューデータセットである。MAVRECは、約2.5時間の業界標準2.7K解像度のビデオシーケンス、0.5百万以上のフレーム、および110万の注釈付きバウンディングボックスで構成されています。このため、MAVREC は地上および空撮ビューのデータセットとしては最大であり、すべてのモダリティとタスクにおいて、すべてのドローンベースのデータセットの中で 4 番目に大きい。
2. 現在の空撮データセットの多様性の欠如と、異なる地理的位置にわたる既存の空撮視覚モデルの標準以下の一般化可能性が、空撮と地上視の物体検出モデル間の性能差の主な要因であるという仮説の評価。MAVRECを用いた実験分析により、風景の文脈情報が空中物体検出に大きく影響すること、地上から空中への転移学習が空中物体検出モデルにおいて地理を意識した表現を誘導することが明らかになった。
3. 空中物体検出性能を向上させるために、ラベル付き画像とラベルなし画像を活用するカリキュラムベースの半教師付き物体検出アプローチを提案する。このアプローチは、Grounding DINOのような高度な基礎モデルを含む、代替の空中または地上データセットで事前に訓練された物体検出器の性能を上回る。
4. 本論文の主な技術的貢献は以下の通りである:
a. MAVRECの紹介。MAVRECは、ヨーロッパの風景で撮影された、時間的に同期した地上画像と航空画像を統合した最も広範なデータセットである。
b. 教師ありおよび半教師ありの設定でMAVRECをベンチマークすることで、既存の事前訓練された物体検出器が地上から撮影されたデータに偏りを示す傾向を明らかにする。
c. カリキュラムベースの半教師付き物体検出法を提案し、地理認識表現を学習するために地上視点画像でこの種のモデルを訓練することの重要性を示し、既存の手法と比較して優れた性能を達成する。

4. 感想

Starlingは特に指定していないにも関わらず、箇条書きで答えてきました。今回の結果だけでは何とも言えませんが、GPT-4に近い形で返答してくれるように感じました。一方で、他の内容などで試していると、Zephyrは具体的な内容を引用してくれるに対し、Starlingは具体的な回答を避けがちであるように感じました。


この記事が気に入ったらサポートをしてみませんか?