Agentic能力を強化しロングコンテキストに対応したABEJA-Qwen3-14B-Agentic-256k-v0.1の公開

こんにちは。 ABEJAでデータサイエンティストをしている服部です。

弊社は、経済産業省とＮＥＤＯが実施する、国内の生成AIの開発力強化を目的としたプロジェクト「GENIAC（Generative AI Accelerator Challenge）」の1期、2期に続き、3期にも採択され、そこで大規模言語モデルの開発を行っています。 3期ではエージェントとして用いるための基盤モデルを開発しており、特にロングコンテキスト処理性能と Planning / Tool Use などの Agentic な能力の向上に重点を置いて開発を進めております。

そこで開発したモデルを公開しましたので、公開に伴うモデルの紹介記事です。

Huggingface リンク

huggingface.co

モデルの概要

今回公開したモデルは、ABEJA-Qwen3-14B-Agentic-256k-v0.1 というモデルで、Alibaba社の開発したQwen3-14Bに対して追加学習を行ったものです。

エージェントとして活用できるようにロングコンテキスト性能とPlanning / Tool Use などの Agentic な能力の向上を狙ったもので、コンテキスト長として256kまで対応しつつ、後述する思考とツール利用のループが出来ることが主な特徴のモデルです。

※汎用的なモデルというよりはエージェント利用を想定したモデルのため、ご注意ください。

モデル開発の過程についてこちらで詳細を述べているのでよければご確認ください。

tech-blog.abeja.asia

背景

Agenticとは

ここでのAgenticとは、最初に考えてツールを実行した後にその結果を経て再度思考し改めてツールを実行する...この繰り返しが出来ることを指します。この繰り返しにより、大きいタスクを分解して逐次進めたり、得られた結果を元に計画の修正や深掘りができます。最近ではgpt-ossやKimi-K2.5、GLM4.7等この繰り返しが出来るモデルも徐々に出てきていますが、ツールの実行結果を一度得たらそのままユーザに回答することが前提としているモデルがまだ多く、Qwen3も同様です。そこでQwen3に対しても繰り返し思考・ツール実行が出来るようにして、Agentic能力を強化しました。具体的にはReasoning→Tool Call→Tool result→Reasoning→Tool Call...というサイクルをstepとして繰り返し、最終的にReasoningN+Answerとしてユーザへの回答を生成します。この繰り返しをタスクに応じて自然と行えるということは、Reasoning部分において、計画通り進んだり修正したり完了を判断するなどを自律的に行えている状態を意味します。外部の強制的なワークフローに依存せず、モデル自身が柔軟に行える状態をつくりました。

検索強化とOpenSearch採用

Agenticにツールを実行するといってもコーディング向けのものやDeepResearchのような検索系など様々な用途があります。今回は、ローカルにある社内ドキュメントの探索・調査を行いながらタスクを遂行するエージェントを想定して、その中でもとくに検索系ツールの強化をしています。

エージェントの検索系ツール強化を目的として、ローカル社内ドキュメントの探索・調査にOpenSearchを採用しています。

OpenSearchはElasticsearchからフォークしたオープンソースの検索・分析エンジンです。

採用理由は主に2点です。まず、検索品質の改善をインデックスやルール側だけでなく、モデル自身のクエリ生成（例: bool queryによる絞り込み）によっても実現しやすい点。次に、実運用での安定性の高さです。なお、他の検索ツールでも同様のクエリ生成は対応可能です。

またOpenSearch対応ができていれば、シンプルなWeb検索なども含めて広く運用時は対応できると考えています。（実際にWeb検索でも同様の動きができることを確認しています。

ロングコンテキスト性能強化

エージェント用途でモデルを動かす場合、扱えるコンテキスト長が重要になってきます。

特に検索系だと、検索結果としての複数の文章を扱ったり、繰り返しの思考・Tool Useの影響でトークンを消費しがちです。

そこでロングコンテキスト性能を強化すべくモデルの開発を行いました。

具体的には、

元モデルからコンテキスト長を伸ばす
コンテキスト長を伸ばしたときにも性能を落とさないようにする

といった形です。

コンテキスト長を128k→256kに

YaRNを用いた学習により元のQwen3では128kだったコンテキスト長を256kに伸ばしました。 YaRNは学習なしでも伸ばすことは出来るのですが、学習をして伸ばしたほうが性能があがるとYaRNの論文でも述べられています。

長文データを合成データとして作り、それを256kまでYaRNで伸ばした状態で学習することで256kのロングコンテキスト長を獲得しました。

YaRNについてはこちらの記事で解説してますので興味あればご覧ください。

tech-blog.abeja.asia

出力例

Web SearchのToolを使った際の出力例を記載します。

System prompt

こちらはモデル学習時のシステムプロンプトをベースにWeb用に少しだけ変えたものです。

 あなたは与えられた指示に対して、ツールを活用して、複雑なタスクをこなすエージェントです。
 - 思考とツール利用を繰り返しながら回答にたどりついてください。
 - 一度のツール利用で結論付けずに、tool_call→tool_response→思考を複数回実施し、最終的に回答を出してください。
 - web_searchで検索結果を取得し、必要に応じてfetch_pageで詳細を確認してください。
 - 一つの情報の側面だけでは結論付けずに、他の側面・考慮漏れについて考えながら回答すること。
 - 検索クエリは具体的かつ適切なキーワードを使用し、情報が不十分な場合はキーワードを変えて再検索すること。
 - 日本語の指示に対しては思考過程も日本語で行うこと"

Input

2025年に行われた大阪万博について、どんなパビリオンが人気だったか、どれくらいの人が入場したかなどの結果を深く調査してレポートとしてまとめてください

※Qwen3及び追加学習したデータセット的に大阪万博が開催された2025年の情報は含まれていないため、基本的にはモデル自体は大阪万博自体の知識は開催前のものしかないことになり、取得した結果を元に全て回答する必要があるタスクです。

過程

Webの検索結果は長いため省略しています

[Reasoning]
まずは基本的な事実確認を行う必要がある。以下のような手順で進めよう。

1. 大阪万博の開催期間と正式名称を特定する。  
2. 公式サイトや信頼できるニュースソースから、主要パビリオン一覧とその概要を収集する。特に「ポルトガル」や「フランス」など外国人参加国の展示が注目されている可能性が高い。  
3. 各パビリオンの来場者数や評価に関するデータを探す。公式発表資料や観光局の統計、報道記事が該当するはずだ。  
4. レポート作成に必要な構成要素を整理し、情報ギャップがあれば追加検索を行う。

上記に基づき、まず公式サイトや新聞記事でイベント名と開催期間を確認しよう。その後、主要パビリオンのリストを取得し、次に各パビリオンの人気度・来場者数を調べる。もし一次情報が不足すれば、代替キーワードで再検索し、情報源の多様性を確保する。

[Tool Call]
{"query": "2025年 大阪万博 開催期間 名称", "language": "ja"}

[Tool Response]
...

[Reasoning]
まず、質問に対する正確な答えを得るために必要な情報を見極める。

1. **基本事項の確認**  
   - 実際に2025年に大阪で開催された万博があるのか。  
   - 正しい名称・開催期間・開催地・公式サイト等を把握する。

2. **人気パビリオンに関する情報収集**  
   - 各国の代表的なパビリオン名とその特徴。  
   - 記事が少ない可能性を考慮し、公式サイトやニュース記事、観光ガイド等から直接情報を取得する方針を立てる。

3. **来場者数の統計**  
   - 公式発表または信頼できる外部機関（例：観光庁、地方政府、メディア）からのデータを取得する。  
   - 来場者数が確定していない場合は、予測値や過去万博との比較を行う。

4. **情報源の信頼性評価**  
   - ネット上の噂や未確認情報は避ける。  
   - 必要に応じて検証目的で同一情報の別ソースをクロスチェックし、情報の一貫性を確認する。

以上の計画に基づき、まずは「EXPO 2025 大阪」の公式サイトや政府・自治体の公報といった一次情報源を中心に検索を行い、根拠となる資料を探すことに着手する。


[Tool Call]
{"query": "EXPO 2025 大阪 公式サイト パビリオン 人気", "language": "ja"}


[Tool Response]
...


[Reasoning]
検索結果を見ると、「EXPO2025 大阪・関西万博」に関する記事がヒットしています。特に「\"EXPO2025 大阪・関西万博\" 抽選予約で人気！「注目 パビリオン&イベント ...」というタイトルのノート記事が、人気パビリオンのリストを提示していることが分かります。一方で、来場者数については「想定来場者数：約2,820万人」という記述があります。まずはこれらの情報源を確実に取得し、信頼性を検証する必要があります。

1. **公式サイト**（https://www.expo2025.or.jp/overview/） – 開催概要やテーマ、基本的な統計データが掲載されています。ここからは正確な開催期間とテーマが確認できますが、来場者数や人気パビリオンの具体的な順位については記載がないため、追加の資料が必要です。

2. **Wikipedia**（https://ja.wikipedia.org/wiki/2025%E5%B9%B4%E6%97%A5%E6%9C%AC%E5%9B%BD%E9%9A%9B%E5%8D%9A%E8%A6%A7%E4%BC%9A） – 同様に開催概要が記載されており、来場者数の数字は見当たらず、人気パビリオンの情報も限定的です。

3. **ノート記事**（https://note.com/tukamatter/n/n9ae08d0ac3b8） – 「人気ランキング」形式でパビリオン名が並んでいます。これは外部メディアの評価であり、来場者の投票やSNS投稿に基づいたものと考えられますが、公式データとしては位置づけにくい可能性があります。

4. **地方政府のページ**（例：大阪市公式サイト https://www.city.osaka.lg.jp/banpakusuishin/page/0000397329.html） – 来場者数の想定値（約2,820万人）が明示されています。これにより、全体規模が把握できましたが、個人別またはパビリオン別の来場者数は提供されていません。

以上の点から、**来場者数の正確な数字**は公式発表や公的な報告書での記載が期待され、**人気パビリオンの順位**は外部媒体の評価が中心になることが分かったため、次のステップとして以下の計画を立てました。

- 公式サイトや政府機関のPDF形式のプレスリリース、あるいは「EXPO2025 大阪・関西万博」のプレスリリース本文を直接取得し、来場者数の根拠となる文言を抜粋する。
- ノート記事のリンク先を確認し、そこに掲載されたパビリオン名とその評価基準（投票数、SNSいいね数、レビュー件数など）を収集し、**人気度の指標**として扱えるかどうかを判断する。
- 必要に応じて、**パビリオンごとの来場者数の試算**を行うため、総来場者数とパビリオンの展示エリア面積・駐車場数・イベント頻度などの定量データを比較し、簡易的な割合を算出する方針とした。

まず、公式プレスリリースの全文取得が最優先です。次にノート記事のページを確認し、そこに含まれる情報の信頼性を評価します。

[Tool Call]
{"fetch_url": "https://www.expo2025.or.jp/overview/"}

[Tool Response]
...

[Reasoning]
まずは公式サイトの「開催概要」ページを取得しましたが、そこに記載されているのは基本的な開催期間・場所・テーマに関する情報だけで、期待していたようなパビリオンごとの来場者数や人気順位といった定量データは見当たりませんでした。したがって、別の情報源を探すべきであることが分かりました。

そこで、検索クエリを調整し、「EXPO 2025 大阪 パビリオン 来場者数」「EXPO 2025 大阪 人気 パビリオン」「EXPO 2025 大阪 公式 レポート」などの表現を使って追加検索を行うことにしました。これにより、公式媒体やニュース記事で公表された統計情報や評価を得られる可能性があります。

また、既に取得できた「開催概要」ページは全体像を把握するために有用ですが、具体的な数字や比較分析が必要なので、以下の点を念頭に次の検索を進めます：
1. **公式レポート** – 大阪・関西万博の運営委員会や協賛企業が公開している報告書。
2. **メディア報道** – ニュース記事やブログ記事で来場者のアンケート結果や人気投票が紹介されている場合がある。
3. **SNS・口コミ** – TwitterやInstagramなどでリアルタイムの人気が語られているケースもある。

以上を踏まえて、まずは「EXPO 2025 大阪 パビリオン 来場者数」で検索し、関係あるページがあればさらに `fetch_page` で本文を取得します。

[Tool Call]
{"query": "EXPO 2025 大阪 パビリオン 来場者数", "language": "ja"}

[Tool Response]
...

[Reasoning]
最初の検索で「EXPO 2025 大阪 パビリオン 来場者数」というクエリでヒットしたのは、いくつかの記事ですが、多くが「EXPO」に関するハードウェア技術の話ばかりで、期待していた「パビリオンの人気や来場者数」については情報が乏しく感じました。そこで、クエリを絞り込み、まずは公式サイトの「開催概要」ページを取得しましたが、そこでも具体的な来場者数やパビリオン別のデータは記載されていませんでした。

次に、目的である「人気だったパビリオンとその来場者数」を得るために、もう少し直接的なキーワードで検索を試みました。「EXPO 2025 大阪 パビリオン 来場者数」の他にも、「EXPO 2025 大阪 パビリオン 人気」や「EXPO 2025 大阪 パビリオン 来場者数」などで検索しましたが、依然として多くの結果が「EXPO」に関するソフトウェアフレームワークやメモリ技術の説明であり、期待した情報とはズレてしまいました。

しかし、ある検索結果の中にある「\"EXPO2025 大阪・関西万博\" 抽選予約で人気！「注目 パビリオン&イベント ...」というリンクを見て、クリックすると具体的なパビリオンリストや来場者の評価が掲載されている可能性が高いと考えました。念のため、再度同じクエリで検索を行い、該当ページへのアクセスを確実にする方針を取りました。

以上の流れから、現在手元にある情報では「EXPO 2025 大阪」の正式名称、開催期間、テーマ、開催場所、想定来場者数といった基本的情報は把握できましたが、特定のパビリオンごとの来場者数や人気度に関する一次資料はまだ入手できてません。そのため、現時点で確定的な数値やランキングを提示することはできません。次のステップとしては、先ほど見つけた「EXPO2025 大阪・関西万博 抽選予約で人気！」という記事を fetch_page で取得し、そこに掲載されているパビリオン別の人気順や来場者数の統計を抽出することが最も近道だと判断しました。


[Tool Call]
{"url": "https://note.com/tukamatter/n/n9ae08d0ac3b8"}

[Tool Response]
...

[Reasoning]
まず、検索結果全体を見てみよう。最初の検索で「EXPO 2025 大阪・関西万博」の開催概要が取得できた。開催期間は2025年4月13日〜10月13日、計184日間で、来場者は「約2,820万人」になると記載されている。しかし、これだけで来場者の正確な数字は不明なので、別の情報源で確認が必要だ。

次に、パビリオンに関する検索では、多くのページが出てきたが、多くは「EXPO」や「Expo」のフレームワークに関する技術情報ばかりで、目的の「大阪万博」のパビリオン情報は混在していた。その中で、いくつかのブログや公式サイトの抜粋が含まれており、特に「EXPO2025 大阪 パビリオン 来場者数」などの検索結果からは、公式ニュースで10月5日〜13日の来場者数が公開されていることが分かった。これを参照すれば、総来場者数の一部が把握できるはずだ。

さらに、Noteの記事では「注目 パビリオン&イベント⭐️ベスト10」のリストが掲載されており、それぞれのパビリオンの紹介や所要時間が載っている。これは非常に有用だが、来場者数や人気順位といった統計データは明示されていない点が注意すべきだ。ただし、予約抽選の競争率が高いと述べられている点から、ある程度人気が高いと推測できる。

次に、具体的なパビリオンの人気度合いを調べるために、以下のアプローチを試みることにする：

1. **公式パビリオンページ**  
   各パビリオンの公式サイトがあれば、来場者数や予約状況、評価コメントが掲載されていることが多い。まずは「日本館」「NTT Pavilion」「住友館」「パナソニック館」「三菱未来館」「GUNDAM NEXT FUTURE Pavilion」「大阪ヘルスケアパビリオン」などの主要パビリオンの公式ページを個別に検索し、アクセス可能であれば情報を取得する。

2. **第三者レビューサイト / ブログ / SNSまとめ**  
   一般の旅行ブログ、YouTubeチャンネル、TwitterやInstagramのハッシュタグ検索で、実際に訪れた来場者の口コミや写真が多数寄せられている場合がある。これらをクロスチェックし、同じパビリオンに対する好意的な評価がいくつ存在するかを数量的に把握する。

3. **公式発表資料 / プレスリリース**  
   大阪万博公式サイトやプレスリリース、PDF形式の報告書で、来場者数の統計や人気パビリオンの比較グラフなどが掲載されていることがある。検索クエリを「EXPO2025 大阪 パビリオン 来場者数 PDF」や「EXPO2025 大阪 人気パビリオン」などに変更し、ドキュメントタイプを絞り込んで探索する。

4. **チケット販売データ / 予約システムのヒートマップ**  
   一部のチケット販売サイトや公式アプリが提供する「人気スポット予約状況」や「過去の来場者平均滞在時間」から、特定パビリオンへの集中傾向を分析できる可能性もある。こうしたデータがあれば、単純な来場者数以上の指標で人気を測定できる。

5. **学術・産業界の分析レポート**  
   博覧会後の市場調査や観光局がまとめたレポートで、来場者層別の行動パターンやパビリオン別の満足度アンケート結果が掲載されているケースもある。長期的な視点で人気のトレンドを追える。

以上を念頭に置いて、次の検索を行うことに決めた。検索クエリを「EXPO2025 大阪 パビリオン 人気」に設定し、広範囲の情報収集を試みると同時に、来たるべき公式統計資料の有無を確かめたかったのだ。

[Tool Call]
{"query": "EXPO2025 大阪 パビリオン 人気", "language": "ja"}

[Tool Response]
...

[Reasoning]
まず、目的は「2025年に開催された大阪万博における人気パビリオンおよび来場者数に関する報告書を作成する」ことです。現時点で得られている情報は以下の通りです。

① 公式サイトによれば、開催期間は **2025年4月13日~10月13日**（計184日）。想定来場者は **約2,820万人**（参照: 「2025年日本国際博覧会(大阪・関西万博)」公式情報）

② パビリオンのリストとしては、以下のものが挙げられます（Wikipedia、公式サイト、国内外のニュース、外部ブログ等）：
   - 日本館
   - シグネチャーパビリオン「null²」
   - NTT Pavilion
   - 住友館
   - パナソニック館「ノモの国」
   - 三菱未来館「JOURNEY TO LIFE」
   - ガンダムNEXT FUTURE Pavilion
   - 大阪ヘルスケアパビリオン（モンスターハンターブリッジ）
   - 万博サウナ「太陽のつぼみ」
   - パナソニックグループパビリオン「ノモの国」
   - その他多数（例: 米国館、韓国館、台湾館等）

③ 各パビリオンに対する評価・注目点・来場者数の推測については、以下のように整理できます：

| ランキング | パビリオン名 | 注目ポイント | 所要時間 | 推定来場者数（根拠） |
|------------|----------------|------------------|-----------|------------------------------|
| 1位        | 大阪ヘルスケアパビリオン（モンスターハンターブリッジ） | AR×VR×振動で「モンスターハンター」体験、CAPCOM独自コンテンツ | 30分 | 高い話題性＋限定的体験 → 週末平均来場者数の上位層に位置付け可能（※公式データなし） |
| 2位        | GUNDAM NEXT FUTURE Pavilion | 実物大ガンダム像、宇宙・未来テーマ展示 | 50分 | ガンダム人気が高く、過去の展示でも来場者が多い傾向あり |
| 3位        | 三菱未来館「JOURNEY TO LIFE」 | 浮遊マザーシップ型建築、宇宙・海底・未来社会ツアー | 60分 | 建築的インパクトが強く、写真撮影需要が高められる見込み |
| 4位        | パナソニック館「ノモの国」 | 子ども向け体験型コンテンツ、UNIQLOとのコラボも噂 | 60分 | 家族連れが多いため、平日・週末とも一定の来場が見込まれる |
| 5位        | 住友館「UNKNOWN FOREST」 | 光と音を使った森体験、植林体験プログラム | 65分 | ナチュラル系体験は若年層に好まれ、季節的に人気が波立つ可能性あり |
| 6位        | サウナ「太陽のつぼみ」 | ワークアウト後のリフレッシュ体験、1日5回限定 | 90分 | プライベートサウナ需要が旺盛で、予約が埋まりやすいことが予想される |

※来場者数は公式統計がないため、**公式発表の来場者数全体**（≈2,820万人）をベースに、各パビリオンが占める比率を試算しました。ただし、正確な数字は不明であり、**「推定値」**として扱う必要があります。また、一部のパビリオンは**「予約抽選」**方式で配布されており、実際に来場できた人数は抽選通過者のみと限られています。さらに、**観光客や国内旅行者、学生など属性別の分布も不明**です。これらの不確定要素を踏まえて、レポート作成時は「公式発表の来場者数」および「第三者媒体が提示した人気度」を併記し、**「推定」**である旨を明示すべきです。

以上の点を踏まえて、報告書草案を作成し、追加で必要な情報があれば別途検索を行う方針とします。最初に全体構成案を提示し、その後、個別のパビリオンについて詳細を補完していく流れにしましょう。

最終出力

📊 調査結果の要点(暫定版)

項目内容

開催概要 - 開催期間: 2025 年 4 月 13 日〜10 月 13 日（184日）
- 開催場所: 大阪府大阪市此花区「夢洲（ゆめしま）」
- テーマ: 「いのち輝く未来社会のデザイン」
- サブテーマ: 「いのちを救う」「いのちに力を与える」「いのちをつなぐ」
- コンセプト: 「People's Living Lab」（未来社会の実験場）

想定来場者数 - 公式目標: 約 2,820 万人（出典: 八尾市公式サイト）
- 実績（10月5日〜13日）:
   10月5日 235,806 人
   10月6日 242,342 人
   10月7日 240,971 人（日々平均 ≈ 240,000 人）
- 累計は目標にほぼ達したと推測（公式閉幕後のプレスリリース未公開）

主要パビリオン（人気が高いと推測できるもの） - 大阪ヘルスケアパビリオン（XDHALL）モンスターハンターブリッジ
   • CAPCOM が開発した AR×VR×床振動を融合した体験型コンテンツ。
   • 「間違いなく、予約の争奪戦になる」と評価。
   • 所要時間: 30 分。

- GUNDAM NEXT FUTURE PAVILION
   • バンダイナムコが手掛け、実物大ガンダム像（高さ 17 m）を展示。
   • 「関西エリアに初めて登場する」点が注目。
   • 所要時間: 50 分。

- 住友館（UNKNOWN FOREST）
   • 森の音と光を使ったインタラクティブ体験。
   • 「ランタンで森の声を聞く」体験が話題。
   • 所要時間: 65 分。

- NTT Pavilion
   • 「時空を旅するパビリオン」と銘打ち、次世代ネットワーク基盤 IOWN の展示。
   • 所要時間: 30 分。

- 日本館
   • 「ごみ → 水 → 素材 → もの」の循環プロセスを体験。
   • 「世界最大級の火星の石」展示が見どころ。
   • 所要時間: 35 分。

- 水と空気のスペクタクルショー『アオと夜の虹のパレード』
   • 18 m 高さのウォーターカスケードを背景にした投影マッピングショー。
   • 毎晩日没後に2回開催、予約が必須。
   • 所要時間: 20 分。

- シグネチャーパビリオン「null²」
   • 落合陽一氏が設計し、デジタル鏡と「身体の合わせ鏡」概念。
   • 「有史以来、行われてこなかった鏡の再発明」と評価。
   • 所要時間: 30 分。

- パナソニック館「ノモの国」
   • 子ども向けの「Unlock体験エリア」＋「大地」展示。
   • 所要時間: 60 分。

- 三菱未来館 JOURNEY TO LIFE
   • 浮遊するマザーシップ形建築で「いのちの始まり〜未来」を体験。
   • 所要時間: 60 分。

人気度評価（相対的指標）根拠

非常に高い • 「大阪ヘルスケアパビリオン」＝「間違いなく、予約の争奪戦になると予測」
• 「GUNDAM NEXT FUTURE PAVILION」＝「関西初登場の実物大ガンダム像」

高い • 「住友館」＝「ランタンで森の声を聞く」体験が話題。
• 「NTT Pavilion」＝「時空を旅する」新技術展示。
• 「シグネチャーパビリオン「null²」」＝「デジタル鏡の再発明」
• 「日本館」＝「火星の石」展示が歴史的継続性を持つ。

やや低め • 「パナソニック館「ノモの国」」＝子供向けが強調され、一般観客層が限られる。
• 「三菱未来館」＝テーマは壮大だが、来場者の認知が広がらず。
• 「水と空気のスペクタクルショー」＝ショー形式で来場者層が限定的。

✅ 人気の指標として採用した代替指標

予約システム上の申し込み件数の増加率（※一部外部サイトが「整理券が早期に売り切れ」等と記載）

SNS・ブログ記事における「満員」「整理券が早い」などのコメント頻度

各パビリオンの「所要時間」（短時間のものは同一来場者が繰り返し訪れる傾向が高い）

メーカー・自治体公式サイトにおける「注目コンテンツ」フラグ（例: 「XDHALL モンスターハンターブリッジ」）

🔍 追加調査方針（次の step）

来場者数・予約数の一次資料探し

キーワード例: EXPO2025 大阪パビリオン予約状況、EXPO2025 大阪来場者数パビリオン、EXPO2025 大阪予約争奪

データが無ければ、「来場者数は公式統計が未公開であり、代わりに以下の指標で人気を判断した」旨を明示する。

各パビリオンの口コミ・レビューの収集

キーワード例: モンスターハンターブリッジ大阪万博レビュー、ガンダムパビリオン万博口コミ、住友館万博プレゼンテーション

必要に応じて fetch_page で公式パンフレットや PR 動画を取得し、来場者層や体験内容を分析。

来場者数 × 所要時間 = 来場者量指数（仮称）の作成

例: 「大阪ヘルスケアパビリオン」= 来場者数（推測 1,200 人／日）× 所要時間 30 分 ≈ 36,000 人分の「接触時間」

他のパビリオンと比較し、相対的人気順位を可視化。

報告書の構成案

【はじめに】来場者数は未公開だが、代替指標で人気パビリオンを選定した旨。

【全体概要】開催概要・来場者規模の概数。

【人気パビリオン別分析】

大阪ヘルスケアパビリオン（XDHALL）モンスターハンターブリッジ

GUNDAM NEXT FUTURE PAVILION

住友館（UNKNOWN FOREST）

NTT Pavilion

日本館

水と空気のスペクタクルショー『アオと夜の虹のパレード』

シグネチャーパビリオン「null²」

【まとめ】来場者数の正確な数値は未公表であるが、上記パビリオンは来場者にとって特に「印象に残る体験」であったと結論付ける。

✅ 次に実施すべきアクション

web_search で「EXPO2025 大阪パビリオン予約数」を検索し、公式または第三者が提供する予約申し込み件数を探索。

前述の「大阪ヘルスケアパビリオン」の詳細ページ (https://www.capcom-games.com/mh-bridge/ja-jp/) から、実際に体験した来場者の感想を引用。

「住友館」の公式サイト (https://sumitomoexpo.com) を fetch_page で取得し、イベント実施計画や来場者アンケート結果があれば取得。

収集した全てのデータを元に、来場者量指数の計算表と人気順位グラフを作成し、報告書本文に添付。

以上の流れで、報告書は信頼性と読者の納得感を両立させつつ完成させる計画です。

項目	内容
開催概要	- 開催期間: 2025 年 4 月 13 日〜10 月 13 日（184日） - 開催場所: 大阪府大阪市此花区「夢洲（ゆめしま）」 - テーマ: 「いのち輝く未来社会のデザイン」 - サブテーマ: 「いのちを救う」「いのちに力を与える」「いのちをつなぐ」 - コンセプト: 「People's Living Lab」（未来社会の実験場）
想定来場者数	- 公式目標: 約 2,820 万人（出典: 八尾市公式サイト） - 実績（10月5日〜13日）: 10月5日 235,806 人 10月6日 242,342 人 10月7日 240,971 人（日々平均 ≈ 240,000 人） - 累計は目標にほぼ達したと推測（公式閉幕後のプレスリリース未公開）
主要パビリオン（人気が高いと推測できるもの）	- 大阪ヘルスケアパビリオン（XDHALL）モンスターハンターブリッジ • CAPCOM が開発した AR×VR×床振動を融合した体験型コンテンツ。 • 「間違いなく、予約の争奪戦になる」と評価。 • 所要時間: 30 分。 - GUNDAM NEXT FUTURE PAVILION • バンダイナムコが手掛け、実物大ガンダム像（高さ 17 m）を展示。 • 「関西エリアに初めて登場する」点が注目。 • 所要時間: 50 分。 - 住友館（UNKNOWN FOREST） • 森の音と光を使ったインタラクティブ体験。 • 「ランタンで森の声を聞く」体験が話題。 • 所要時間: 65 分。 - NTT Pavilion • 「時空を旅するパビリオン」と銘打ち、次世代ネットワーク基盤 IOWN の展示。 • 所要時間: 30 分。 - 日本館 • 「ごみ → 水 → 素材 → もの」の循環プロセスを体験。 • 「世界最大級の火星の石」展示が見どころ。 • 所要時間: 35 分。 - 水と空気のスペクタクルショー『アオと夜の虹のパレード』 • 18 m 高さのウォーターカスケードを背景にした投影マッピングショー。 • 毎晩日没後に2回開催、予約が必須。 • 所要時間: 20 分。 - シグネチャーパビリオン「null²」 • 落合陽一氏が設計し、デジタル鏡と「身体の合わせ鏡」概念。 • 「有史以来、行われてこなかった鏡の再発明」と評価。 • 所要時間: 30 分。 - パナソニック館「ノモの国」 • 子ども向けの「Unlock体験エリア」＋「大地」展示。 • 所要時間: 60 分。 - 三菱未来館 JOURNEY TO LIFE • 浮遊するマザーシップ形建築で「いのちの始まり〜未来」を体験。 • 所要時間: 60 分。

人気度評価（相対的指標）	根拠
非常に高い	• 「大阪ヘルスケアパビリオン」＝「間違いなく、予約の争奪戦になると予測」 • 「GUNDAM NEXT FUTURE PAVILION」＝「関西初登場の実物大ガンダム像」
高い	• 「住友館」＝「ランタンで森の声を聞く」体験が話題。 • 「NTT Pavilion」＝「時空を旅する」新技術展示。 • 「シグネチャーパビリオン「null²」」＝「デジタル鏡の再発明」 • 「日本館」＝「火星の石」展示が歴史的継続性を持つ。
やや低め	• 「パナソニック館「ノモの国」」＝子供向けが強調され、一般観客層が限られる。 • 「三菱未来館」＝テーマは壮大だが、来場者の認知が広がらず。 • 「水と空気のスペクタクルショー」＝ショー形式で来場者層が限定的。

出力結果については、レポート暫定版なんかい！というツッコミはありつつ、LLMにワークフローなどを定義せずともモデルとループさせる仕組みを用意すれば、このように自律的に調査して結果をまとめてくれているのがわかります。もう少し具体のところでいうと、

まずは万博自体の開催など概要を確認してその後パビリオン情報を取得するという流れで進めている
検索結果で不足している情報を次に探す動きができている
検索結果の一覧だけでなく必要なページは全文取得のためのfetchも適宜利用している

のがわかります。

一方で、少しReasoning部分が似たようなことを毎度言っているような、もう少し計画や思考にも改善余地もあるようにも見えます。あと人気アトラクションとしてのリストアップとしてこれでいいのかは謎です。

Qwen3-14Bオリジナルでも同様のシステムプロンプト・指示を入れたところ、一度の 2025 大阪万博パビリオン人気 という検索での結果のみからの回答であったため、そこからは大きく変化していることが分かります。

使用方法（サンプル）

一例として、vLLMでサーブしておき、それにアクセスして元に動かすケースです。ツールは天気情報を返すモック関数を用意してます。

1. vLLMのOpenAI API compatibleなサーバを立てる

# 例として、ローカルにダウンロード済みのモデルを使う場合
# 事前にモデルを /path/to/models/ABEJA-Qwen3-14B-Agentic-256k-v0.1 に配置しておく
docker run --rm \
  --gpus '"device=0,1"' \
  -v /path/to/models:/app/models \
  -p 80:8000 \
   vllm/vllm-openai:latest \
  --model /app/models/ABEJA-Qwen3-14B-Agentic-256k-v0.1 \
  --tensor-parallel-size 2 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes \
  --reasoning-parser qwen3

2. Pythonコードを用意して実行

▶main.py (クリックで展開)

"""サンプルコード

依存: openai （標準ライブラリ + openai SDK）

実行例:
    export VLLM_TOKEN="your-token"
    export BASE_URL="http://localhost:80"
    python main.py "東京、ニューヨーク、パリ、ロンドンで今晴れてるのはどこ？"
"""

import json
import os
import re
import sys

import openai

# ─────────────────────────────────────────────
# 設定
# ─────────────────────────────────────────────

_DEFAULT_MODEL = "/app/models/ABEJA-Qwen3-14B-Agentic-256k-v0.1"
_MAX_TURNS = 10

SYSTEM_PROMPT = """\
あなたは与えられた指示に対して、ツールを活用して、複雑なタスクをこなすエージェントです。
- 思考とツール利用を繰り返しながら回答にたどりついてください。
- 一度のツール利用で結論付けずに、tool_call→tool_response→思考を複数回実施し、最終的に回答を出してください。
- 一つの情報の側面だけでは結論付けずに、他の側面・考慮漏れについて考えながら回答すること。
- 日本語の指示に対しては思考過程も日本語で行うこと"""

# ─────────────────────────────────────────────
# モック天気データ
# ─────────────────────────────────────────────

_WEATHER_DATA: dict[str, dict[str, str]] = {
    "東京": {
        "weather": "晴れ",
        "temp_celsius": "25",
        "humidity": "60",
        "forecast": "1日目: 晴れ 25°C / 2日目: 曇り 22°C / 3日目: 雨 18°C",
    },
    "大阪": {
        "weather": "晴れ時々曇り",
        "temp_celsius": "27",
        "humidity": "65",
        "forecast": "1日目: 晴れ時々曇り 27°C / 2日目: 晴れ 28°C / 3日目: 曇り 24°C",
    },
    "ニューヨーク": {
        "weather": "曇り",
        "temp_celsius": "18",
        "humidity": "70",
        "forecast": "1日目: 曇り 18°C / 2日目: 雨 15°C / 3日目: 晴れ 20°C",
    },
    "ロンドン": {
        "weather": "曇り",
        "temp_celsius": "15",
        "humidity": "80",
        "forecast": "1日目: 曇り 15°C / 2日目: 小雨 13°C / 3日目: 曇り 14°C",
    },
    "パリ": {
        "weather": "晴れ",
        "temp_celsius": "20",
        "humidity": "55",
        "forecast": "1日目: 晴れ 20°C / 2日目: 晴れ 22°C / 3日目: 晴れ時々曇り 19°C",
    },
    "シドニー": {
        "weather": "雨",
        "temp_celsius": "12",
        "humidity": "85",
        "forecast": "1日目: 雨 12°C / 2日目: 曇り 14°C / 3日目: 晴れ 17°C",
    },
}

_SUPPORTED_CITIES = list(_WEATHER_DATA.keys())

# ─────────────────────────────────────────────
# ツール実装
# ─────────────────────────────────────────────


def handle_get_weather(city: str) -> str:
    data = _WEATHER_DATA.get(city)
    if data is None:
        return f"エラー: 未対応の都市です「{city}」。対応都市: {', '.join(_SUPPORTED_CITIES)}"
    return f"{city}: {data['weather']}, {data['temp_celsius']}°C, 湿度{data['humidity']}%"


def handle_get_forecast(city: str) -> str:
    data = _WEATHER_DATA.get(city)
    if data is None:
        return f"エラー: 未対応の都市です「{city}」。対応都市: {', '.join(_SUPPORTED_CITIES)}"
    return f"{city}の3日間予報 — {data['forecast']}"


_TOOL_REGISTRY = {
    "get_weather": handle_get_weather,
    "get_forecast": handle_get_forecast,
}

# OpenAI function calling形式のツール定義
_OPENAI_TOOLS: list[dict] = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "指定した都市の現在の天気概況（天気・気温・湿度）を返す。",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {
                        "type": "string",
                        "description": f"天気を取得する都市名。対応都市: {', '.join(_SUPPORTED_CITIES)}",
                    }
                },
                "required": ["city"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "get_forecast",
            "description": "指定した都市の3日間天気予報を返す。",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {
                        "type": "string",
                        "description": f"予報を取得する都市名。対応都市: {', '.join(_SUPPORTED_CITIES)}",
                    }
                },
                "required": ["city"],
            },
        },
    },
]

# ─────────────────────────────────────────────
# <think> タグ解析
# ─────────────────────────────────────────────

_THINK_PATTERN = re.compile(r"<think>(.*?)</think>", re.DOTALL)


def parse_thinking(content: str) -> tuple[list[str], str]:
    """<think>ブロックを抽出し、(reasoning_content, content) を返す."""
    thinking_blocks = _THINK_PATTERN.findall(content)
    remaining = _THINK_PATTERN.sub("", content).strip()
    return thinking_blocks, remaining


# ─────────────────────────────────────────────
# 表示
# ─────────────────────────────────────────────

_SEP = "=" * 50


def display_turn(turn_index: int, reasoning_content: list[str], tool_calls_info: list[dict], tool_results: list[dict], final_text: str | None) -> None:
    print(f"\n--- ターン {turn_index + 1} ---")

    for thinking in reasoning_content:
        stripped = thinking.strip()
        if not stripped:
            continue
        print("[思考]")
        for line in stripped.splitlines():
            print(f"  {line}")

    for tc in tool_calls_info:
        args_str = ", ".join(f'{k}="{v}"' for k, v in tc["arguments"].items())
        print(f"[ツール呼び出し] {tc['name']}({args_str})")

    for result in tool_results:
        print(f"[ツール結果] {result['content']}")

    if final_text:
        print("[最終回答]")
        for line in final_text.splitlines():
            print(f"  {line}")


# ─────────────────────────────────────────────
# エージェントループ
# ─────────────────────────────────────────────


def run_agent(query: str, client: openai.OpenAI, model: str) -> None:
    """Interleaved Thinking & Preserved Thinking エージェントループ.

    Qwen3の <think>...</think> タグをそのままassistantメッセージに保持することで
    次のターンでも過去の思考を参照可能（= Preserved Thinking）。
    """
    messages: list[dict] = [
        {"role": "system", "content": SYSTEM_PROMPT},
        {"role": "user", "content": query},
    ]

    print(_SEP)
    print(f' ユーザークエリ: "{query}"')
    print(_SEP)

    for turn_index in range(_MAX_TURNS):
        response = client.chat.completions.create(
            model=model,
            tools=_OPENAI_TOOLS,  # type: ignore[arg-type]
            messages=messages,  # type: ignore[arg-type]
        )

        choice = response.choices[0]
        message = choice.message

        if message is None:
            print("\n[エラー] モデルからの応答が空です。")
            break

        if hasattr(message, "reasoning_content") and message.reasoning_content:
            reasoning_content=message.reasoning_content
            content = message.content or ""
        else:
            # <think>タグを抽出（元のcontentは Preserved Thinking のためそのまま保持）
            reasoning_content, content = parse_thinking(content=message.content)

        # functionタイプのtool_callsのみを対象にする
        function_tool_calls = [tc for tc in (message.tool_calls or []) if tc.type == "function"]

        if function_tool_calls:
            tool_calls_info: list[dict] = []
            tool_results: list[dict] = []

            for tc in function_tool_calls:
                raw_args: dict[str, str] = json.loads(tc.function.arguments)
                tool_calls_info.append({"name": tc.function.name, "arguments": raw_args})

                handler = _TOOL_REGISTRY.get(tc.function.name)
                result_text = handler(**raw_args) if handler else f"エラー: 未知のツール「{tc.function.name}」"
                tool_results.append({"tool_call_id": tc.id, "content": result_text})

            display_turn(
                turn_index=turn_index,
                reasoning_content=reasoning_content,
                tool_calls_info=tool_calls_info,
                tool_results=tool_results,
                final_text=None,
            )

            messages.append({
                "role": "assistant",
                "thinking": reasoning_content,
                "content":content,
                "tool_calls": [
                    {
                        "id": tc.id,
                        "type": "function",
                        "function": {"name": tc.function.name, "arguments": tc.function.arguments},
                    }
                    for tc in function_tool_calls
                ],
            })

            # toolロールメッセージを追加
            for result in tool_results:
                messages.append({
                    "role": "tool",
                    "tool_call_id": result["tool_call_id"],
                    "content": result["content"],
                })

            continue

        # ツール呼び出しなし → 最終回答
        display_turn(
            turn_index=turn_index,
            reasoning_content=reasoning_content,
            tool_calls_info=[],
            tool_results=[],
            final_text=content or None,
        )
        return

    print(f"\n[警告] 最大ターン数 ({_MAX_TURNS}) に達しました。")


# ─────────────────────────────────────────────
# エントリーポイント
# ─────────────────────────────────────────────


def main() -> None:
    api_key = os.environ.get("VLLM_TOKEN")
    base_url = os.environ.get("BASE_URL")
    model = os.environ.get("MODEL_NAME", _DEFAULT_MODEL)

    missing = [name for name, val in [("VLLM_TOKEN", api_key), ("BASE_URL", base_url)] if val is None]
    if missing:
        print(f"エラー: 必須の環境変数が設定されていません: {', '.join(missing)}", file=sys.stderr)
        sys.exit(1)

    assert api_key is not None
    assert base_url is not None

    normalized_base_url = base_url.rstrip("/")
    if not normalized_base_url.endswith("/v1"):
        normalized_base_url = f"{normalized_base_url}/v1"

    query = sys.argv[1] if len(sys.argv) > 1 else "東京とロンドンの天気を比較して"

    client = openai.OpenAI(api_key=api_key, base_url=normalized_base_url)
    run_agent(query=query, client=client, model=model)


if __name__ == "__main__":
    main()

$ export VLLM_TOKEN="your-token"
$ export BASE_URL="http://localhost:80"
$ export MODEL_NAME="/app/models/ABEJA-Qwen3-14B-Agentic-256k-v0.1"
$ python main.py "東京、ニューヨーク、パリ、ロンドンで今晴れてるのはどこ？"

▶出力結果サンプル (クリックで展開)

[
  {
    "role": "system",
    "content": "あなたは与えられた指示に対して、ツールを活用して、複雑なタスクをこなすエージェントです。\n- 思考とツール利用を繰り返しながら回答にたどりついてください。\n- 一度のツール利用で結論付けずに、tool_call→tool_response→思考を複数回実施し、最終的に回答を出してください。\n- 一つの情報の側面だけでは結論付けずに、他の側面・考慮漏れについて考えながら回答すること。\n- 日本語の指示に対しては思考過程も日本語で行うこと"
  },
  {
    "role": "user",
    "content": "東京、ニューヨーク、パリ、ロンドンで今晴れてるのはどこ？"
  },
  {
    "role": "assistant",
    "thinking": [
      "\nまずは「現在の天気」情報を取得する必要がある。対象都市は東京・ニューヨーク・パリ・ロンドンの4か所なので、`get_weather` 関数を使ってそれぞれの天気を確認する。その後、各都市の天気結果を比較し、晴れているかどうかを判定する。この手順で情報を収集し、最終的に回答を作成する。\n"
    ],
    "content": "",
    "tool_calls": [
      {
        "id": "chatcmpl-tool-c35b12fb178f4636bc08947eb94e607a",
        "type": "function",
        "function": {
          "name": "get_weather",
          "arguments": "{\"city\": \"東京\"}"
        }
      }
    ]
  },
  {
    "role": "tool",
    "tool_call_id": "chatcmpl-tool-c35b12fb178f4636bc08947eb94e607a",
    "content": "東京: 晴れ, 25°C, 湿度60%"
  },
  {
    "role": "assistant",
    "thinking": [
      "\n東京の天気は晴れなので、東京は対象の一つに含まれる。次に他の3都市についても同様に現在の天気を確認する必要がある。残りの都市として参照すべき天気情報はニュース経由でもう少しの時間は格納されているはずだ。まずニューヨークについての天気情報を取得しよう。\n"
    ],
    "content": "",
    "tool_calls": [
      {
        "id": "chatcmpl-tool-bfae9800fc2448cf91d63e34121d5e94",
        "type": "function",
        "function": {
          "name": "get_weather",
          "arguments": "{\"city\": \"ニューヨーク\"}"
        }
      }
    ]
  },
  {
    "role": "tool",
    "tool_call_id": "chatcmpl-tool-bfae9800fc2448cf91d63e34121d5e94",
    "content": "ニューヨーク: 曇り, 18°C, 湿度70%"
  },
  {
    "role": "assistant",
    "thinking": [
      "\n東京で薄曇り、湿度が60%と穏やか。ニューヨークは曇り、18°Cで少し湿っている。これだけ見ると東京が最も晴れているように感じるが、他都市も確認しないと正確な答えにならないという反省点がある。まずは残りの都市で同様に天気を取得し、曇りや雨などの指標があるかを調べるべきだ。もしすべて曇りや雨だった場合は、一番曇りの少ない東京が答えになるが、もし別の都市が晴れだったらその時点で答えを変更する必要がある。したがって、次にパリとロンドンの現在天気を取得し、天気状況を比較する。その後、天気だけでなく、気温や湿度の組み合わせでどれが最も晴れている条件と判断できるかを検証する。この手順で各都市の天気情報を逐一確認し、最終的に「晴れている」都市は東京だけであると結論付けたい。\n"
    ],
    "content": "",
    "tool_calls": [
      {
        "id": "chatcmpl-tool-0acc636ef3c3422fb9d2fd3fe4b28a91",
        "type": "function",
        "function": {
          "name": "get_weather",
          "arguments": "{\"city\": \"パリ\"}"
        }
      }
    ]
  },
  {
    "role": "tool",
    "tool_call_id": "chatcmpl-tool-0acc636ef3c3422fb9d2fd3fe4b28a91",
    "content": "パリ: 晴れ, 20°C, 湿度55%"
  },
  {
    "role": "assistant",
    "thinking": [
      "\nまずは東京とパリが晴れていることが確認できたので、次にロンドンの天気を確認する。もしロンドンが雨や曇りであれば、東京とパリが現時点で晴れている地点として回答できる。が、天気が変わる可能性もあるため、最終的には「現在の情報では東京とパリが晴れています」ことを示した上で、他の都市の予報も併せて提供し、今後変化する旨を追記する。\n"
    ],
    "content": "",
    "tool_calls": [
      {
        "id": "chatcmpl-tool-93c97265de8141f8bc87cb1a916f15ab",
        "type": "function",
        "function": {
          "name": "get_weather",
          "arguments": "{\"city\": \"ロンドン\"}"
        }
      }
    ]
  },
  {
    "role": "tool",
    "tool_call_id": "chatcmpl-tool-93c97265de8141f8bc87cb1a916f15ab",
    "content": "ロンドン: 曇り, 15°C, 湿度80%"
  },
  {
    "role": "assistant",
    "thinking": [
      "\n取得できた現地の天気情報をもとに、質問「東京、ニューヨーク、パリ、ロンドンで今晴れてるのはどこ？」に対する回答を作成します。以下のような情報が整理できます。\n\n1. **晴れている都市**  \n   - 東京: 晴れ  \n   - パリ: 晴れ  \n\n2. **曇っている都市**  \n   - ニューヨーク: 曇り  \n   - ロンドン: 曇り  \n\n質問の意図は「現在は晴れている場所を列挙する」ことで、陰天の都市は除外します。したがって、**東京とパリの2つが晴れていることを答える**のが適切です。  \n次に、質問が「今晴れてるのはどこ」だけを問うているため、呼びかけとして「現在は、\\n- 東京\\n- パリ\\nが晴れているようです。」と回答すべきです。  \nここまでの判断に誤りがなく、追加の情報や別の視点が求められたとしても、取得したデータは正確で且つ全て対象都市が範囲内です。したがって、回答として上記を提示します。\n"
    ],
    "content": "現在は、  \n- 東京  \n- パリ  \n\nの2都市が晴れているようです。"
  }
]

性能評価

上記のような今回強化した部分以外の性能として元のQwen3と性能比較した表が下記の通りです。

カテゴリ	評価指標	Original Qwen3-14B	ABEJA-Qwen3-14B
汎用	MT-Bench-Japanese	0.9571	0.9648
汎用	Jaster(0shot)	0.7535	0.7337
エージェント（総合）	tau2 bench	0.313	0.34
ロングコンテキスト	RULER-QA-JSquAD	0.884	0.912
ロングコンテキスト	RULER-QA-JEMHopQA	0.51	0.55
ロングコンテキスト	OpenAI-MRCR-Translate-JPN-2needle	0.3011	0.2601

ロングコンテキスト周りのベンチマークについてはこちらで公開しています。

GENIAC3期のLLM開発で使用したロングコンテキスト評価のベンチマーク公開 - ABEJA Tech Blog

tau2 benchのみ英語での評価で、評価時間の都合上airlineのみの評価としています。

コンテキスト長毎の評価

以下の表は今回のモデルの、RULER-QA-JSquADでのInputのコンテキスト長ごとの評価です。

Context Length	Score
4k	0.95
8k	0.955
16k	0.94
32k	0.92
64k	0.91
128k	0.87
256k	0.84

コンテキスト長が増えると、スコアが落ちていくのは一般的にも知られているところです。その中で今回伸ばした最大コンテキスト長である256kという長い文章に対しても128kよりは下がっているものの大きく下がっているわけではなく自然な推移で高い水準で正答できており、ただ長さを伸ばしただけでなく長文に対しての対応もできているといえそうです。

考察

MT-Bench-Japanese, tau2 bench, RULER 2タスクでの改善が見られています。（MT-Benchはほぼサチっているレベルなので同等とも言えるかと思います）

特にtau2 benchはエージェントとしての総合タスクで今回狙っていた箇所に近いものでした。今回のモデルがAgenticな動作をするのはsystem promptがセットになるため、system promptがないときの改善は期待していなかったのですが、その部分でも向上が見られました。

Agenticと同時に今回重視していたロングコンテキストについてもRULER 2タスクで元モデルより向上が見られました。特に上記のコンテキスト長毎の表で示したとおり、256kといった長文に対しても一定の水準で対応できています。

一方で、MRCR/Jasterに関しては改善余地の残る結果となりました。 Error分析をしたところ反復的な生成が起きているケースが一部発生し、この点は今後の課題として残ります。

この点もリトライ処理等含めたハーネスでエージェントとして安定した性能が出ることは実験で確認できたため、エージェント利用という目的としては問題ないと評価しています。

また今回ロングコンテキストについては独自でベンチマーク用意をしていましたが、Agenticな挙動については今回英語のtau2benchで評価したにとどまりました。 system prompt込みでのマルチステップでの評価や日本語のエージェントベンチマークでの評価といった用意の必要性も感じました。

まとめ

今回公開したモデルについて簡単にまとめました。そのままホストしても体感しづらいところはありますが、興味ある方いましたら触っていただければ幸いです。

本成果は、経済産業省とＮＥＤＯが実施するGENIACでのモデル開発によって得られたものです。

We are hiring!!

ABEJAは、テクノロジーの社会実装に取り組んでいます。技術はもちろん、技術をどのようにして社会やビジネスに組み込んでいくかを考えるのが好きな方は、下記採用ページからエントリーください！（新卒の方やインターンシップのエントリーもお待ちしております！）

careers.abejainc.com