2025-11-21T20:16:16.286197

The Potential of LLMs in Automating Software Testing: From Generation to Reporting

Sherifi, Slhoub, Nembhard

Having a high quality software is essential in software engineering, which requires robust validation and verification processes during testing activities. Manual testing, while effective, can be time consuming and costly, leading to an increased demand for automated methods. Recent advancements in Large Language Models (LLMs) have significantly influenced software engineering, particularly in areas like requirements analysis, test automation, and debugging. This paper explores an agent-oriented approach to automated software testing, using LLMs to reduce human intervention and enhance testing efficiency. The proposed framework integrates LLMs to generate unit tests, visualize call graphs, and automate test execution and reporting. Evaluations across multiple applications in Python and Java demonstrate the system's high test coverage and efficient operation. This research underscores the potential of LLM-powered agents to streamline software testing workflows while addressing challenges in scalability and accuracy.

academic

LLMによるソフトウェアテスト自動化の可能性：生成からレポーティングまで

基本情報

論文ID: 2501.00217
タイトル: The Potential of LLMs in Automating Software Testing: From Generation to Reporting
著者: Betim Sherifi, Khaled Slhoub, Fitzroy Nembhard（フロリダ工科大学）
分類: cs.SE（ソフトウェア工学）、cs.AI（人工知能）
発表日: 2024年12月31日
論文リンク: https://arxiv.org/abs/2501.00217

要旨

ソフトウェア工学における高品質ソフトウェアの開発には、堅牢な検証および妥当性確認プロセスが必要である。手動テストは有効であるが、時間がかかり費用が高いため、自動化手法の需要が増加している。大規模言語モデル（LLM）の最近の進展はソフトウェア工学に大きな影響を与えており、特に要件分析、テスト自動化、デバッグなどの分野で顕著である。本論文は、LLMを活用して人的介入を削減し、テスト効率を向上させるエージェント指向の自動化ソフトウェアテスト手法を探索している。提案されたフレームワークは、LLMを統合して単体テストを生成し、呼び出しグラフを可視化し、テスト実行とレポーティングを自動化する。PythonおよびJavaの複数のアプリケーションでの評価により、本システムは高いテストカバレッジと効率的な実行能力を有することが示されている。

研究背景と動機

問題定義

中核的課題: 従来のソフトウェアテスト手法は効率が低く、費用が高く、人的介入が多い問題を抱えている
実際の必要性: ソフトウェア品質保証には包括的な検証および妥当性確認プロセスが必要であるが、手動テストは現代的なソフトウェア開発の効率要件を満たすことが困難である

重要性分析

ソフトウェアテストはソフトウェア工学教育における最も重要な分野の一つとして認識されている
回帰テストなどの手動テスト手法は特に時間がかかり、費用が高い
ソフトウェア製品が期待通りに実行され、品質基準を満たすことを保証することはソフトウェア工学において極めて重要である

既存手法の限界

手動テスト: 有効であるが時間がかかり費用が高い
従来の自動化テスト: 手動手法を完全に置き換えることができず、GUIテストなどのシナリオではなお人的参与が必要である
従来のエージェント基盤ソフトウェアテスト（ABST）: インテリジェントなテストケース生成能力が不足している

研究動機

LLMの強力な能力を活用し、マルチエージェントシステムと組み合わせることで、テストケースを動的に生成し、人的入力を大幅に削減し、テストケース作成および実行時間を最小化できるインテリジェントなテストフレームワークを構築する。

主要な貢献

LLMベースのマルチエージェントソフトウェアテストフレームワークを提案し、テスト生成からレポーティングまでのエンドツーエンド自動化を実現
4層アーキテクチャシステムを設計し、オーディオWebクライアント、ソフトウェアテストエージェント、LLM、および開発環境を含む
動的テストケース生成を実装し、LLMを活用してカスタマイズされた単体テストとテスト根拠を自動生成
可視化機能を統合し、DOT形式の呼び出しグラフを自動生成してアプリケーション相互作用を表示
システムの有効性を検証し、PythonおよびJavaプロジェクトで高いテストカバレッジ（平均93.45%-97.71%）を実現

手法の詳細

タスク定義

入力: ユーザーが音声またはテキストで提供するテストリクエスト（プロジェクト名、サブフォルダ、プログラミング言語などの情報を含む）出力: テスト結果、カバレッジ分析、テスト根拠、および呼び出しグラフを含む包括的なPDFレポート制約: PythonおよびJavaプロジェクトをサポートし、単体テストレベルに焦点を当てる

モデルアーキテクチャ

高レベルアーキテクチャ

システムは4つの主要コンポーネントで構成される：

オーディオWebクライアント: ユーザー入力（音声コマンドまたはテキスト）をキャプチャし、HTTP GETリクエストを通じてテストワークフローを開始
ソフトウェアテストエージェント: システムのコアコンポーネント。各コンポーネント間の相互作用を調整し、テストスクリプト生成、実行、レポート作成の抽象層として機能
大規模言語モデル（LLM）: エンティティ抽出、テスト生成、DOTグラフ生成タスクを実行
開発環境: プロジェクトコードへのアクセスを提供し、生成されたテストケースを実行して結果を表示

低レベルアーキテクチャワークフロー

初期化: クライアントがテスト生成器APIに音声コマンドを送信
エンティティ抽出: LLMがユーザープロンプトからプロジェクト名、サブフォルダ、プログラミング言語を抽出
ファイル位置特定: FileLocatorモジュールが指定されたプロジェクトフォルダを特定し、ファイル内容を抽出
テスト生成: LLM（Geminiを使用）が単体テストと対応する根拠を生成
グラフ生成: LLMが呼び出しグラフを可視化するためのDOT文字列を生成
実行とレポート: テスト実行器がテストを実行し、PDFレポート生成器が結果、カバレッジ、呼び出しグラフを含む包括的なレポートを作成

技術的革新点

インテリジェントなエンティティ抽出: LLMを活用して自然言語指示から主要なテストパラメータを自動抽出
動的テスト生成: コード分析に基づいて基本的なケースとエッジケースを含むテストスクリプトを自動生成
根拠生成: 各テストケースに対して詳細なテスト根拠とカバレッジシナリオの説明を提供
統合可視化: コードベースの相互作用関係を理解するために呼び出しグラフを自動生成
エンドツーエンド自動化: ユーザー入力から最終レポートまでの完全自動化プロセス

実験設定

データセット

異なる複雑度の4つのアプリケーションを使用：

Pythonプロジェクト:

Experiment: 基本的な計算機機能（47行のコード）
Cinema: 映画館管理システム（183行のコード）

Javaプロジェクト:

StudentAverage: 学生成績計算（114行のコード）
LibrarySystem: 図書館管理システム（269行のコード）

評価指標

実行成功率: すべてのステップ（テスト生成、実行、PDFレポート生成）を完了した実行の割合
テストカバレッジ: 生成されたテストケースがカバーするコードの割合
実行時間: 各操作段階の所要時間分析
言語比較: PythonプロジェクトとJavaプロジェクトのパフォーマンス差異

実装の詳細

LLMモデル: 主にGoogle Geminiを使用、比較実験ではChatGPTを使用
テスト回数: Pythonプロジェクト20回実行、Javaプロジェクト24回実行
入力形式: 複数の自然言語プロンプト形式をテスト

実験結果

主要な結果

成功率のパフォーマンス

Pythonプロジェクト: 20回の実行すべてが成功（成功率100%）
Javaプロジェクト: 24回の実行中3回失敗（成功率87.5%）
失敗の原因: 主に曖昧なプロンプトと生成されたテストスクリプトのコンパイルエラーが原因

実行時間分析

平均総実行時間: 83.5秒
テスト生成時間: 62.8秒（最大の割合を占める）
フォルダ位置特定: 9.7秒
DOTグラフ生成: 5.4秒
テスト実行: 3.2秒

言語比較結果

指標	Java	Python
平均総実行時間	86.7秒	80秒
テスト生成時間	62.4秒	63.3秒
テスト実行時間	5.44秒	0.87秒
平均テストカバレッジ	97.71%	93.45%

詳細なプロジェクト分析

プロジェクト	言語	コード行数	総時間	テスト生成	テスト実行	カバレッジ
LibrarySystem	Java	269	119.06秒	92.54秒	5.39秒	94.67%
StudentManager	Java	114	62.55秒	39.79秒	5.48秒	100.00%
Cinema	Python	183	110.13秒	92.43秒	0.79秒	88.30%
Experiment	Python	47	49.78秒	34.17秒	0.96秒	98.60%