ポスター発表

出力制約と表記正規化によるLLM 形式証明のタクティク選択評価

LLM による Lean 形式証明生成では,最終正否判定は Lean の機械検証で定まる. しかし実用上は,\emph{正しい証明の中から「参照タクティク列(問題特化タクティク)を同定できるか」}が重要であり, この同定には参照タクティク列との文字列一致(canonical)が有用な指標となる. 一方で生出力には,説明文・コードフェンス・改行・別名などの表記揺れが混入しやすく, 「実際には同等のタクティク列」であっても文字列一致が崩れて,タクティク選択が不安定になる. 本稿はこの課題に対し,出力制約(Gate)と表記正規化(style-canon)によりタクティク列を安定な正規形へ写像し, canonical に基づくタクティク選択を頑健化する三段評価パイプラインを提案する. また評価データとしてformal\_bench v0.4を作成した.実験を行った結果, 出力制約が弱い条件では Lean 成功率が 1.00 でも canonical がほぼ 0 となり選択が破綻し得る一方, 提案パイプラインにより canonical の一致率が回復し,問題特化タクティクの同定と比較が安定することを示す.

Mar 5, 2026

Noisy Channel に基づく生成確率による画像生成評価

近年の画像生成(T2I)モデルの進展により,生成画像の表現力や多様性は大きく向上している一方で,長文や複雑な指示を含む生成では,単一指標で出力を評価することが難しく,既存の評価手法は高度化した生成能力に十分対応できていない.本研究では,生成確率に基づくNoisy Channelにより T2I 評価を再定式化し,画像のテキスト整合性と視覚的品質を統一的に捉える確率的評価指標を提案する.提案手法は,LVLM の推論能力を教師強制尤度として用いた整合性評価と,自己回帰型画像生成モデルの尤度による品質評価を組み合わせることで,生成結果間の相対比較に依存せず,各画像を独立に評価できる.検証の結果,提案手法は人手による画像選好と高い整合性を示し,既存のスコアリング手法を一貫して上回る性能を達成した.また,評価観点を切り替えることで,同一の確率的枠組みのもとで多様な人手判断を柔軟に捉えられることを確認した.

Mar 5, 2026

高精度な流行語予測に向けて:n-gramトレンド分析における同形異義語の語義別成分分解

n-gram における出現頻度の時系列変化(トレンド)は、語の流行や普及の動向を分析する手法として広く利用されている。しかし、n-gram に基づく集計は表層形に依拠しており、語義や実体の弁別を前提としていない。このため、同一表記に複数の語義が存在する場合、トレンド線はそれらの混合を反映し、個別の動向解析を困難にする。本研究では、独立成分分析(ICA)を適用し、n-gram トレンドを語義単位の成分に分解できるかを検証する。

Sep 1, 2025

Cosine Similarity as Logits?: Few-shot Knowledge Graph Completion with Embedding Vectors of a Generative PLM and its Application in Knowledge Probing

The Knowledge graph completion (KGC) task aims to predict missing relations in knowledge graphs (KGs). Recently, text-based KGC approaches have gained attention but they present challenges: encoder-based methods require fine-tuning making it non-ideal when an ideal KG for training cannot be obtained, such as when KG is sparse or predicting new relation-types. Meanwhile, decoder-based methods make prediction by generating tokens, where entity disambiguation becomes a challenge. KGC is also used in knowledge proving, which aims to evaluate the know edge retrieval capability of pre-trained language models (PLMs), but existing probes for generative PLM capable of ranking all multi-token and single-token entities are computationally inefficient. To address these problems, we propose DEER, an encoder-based few-shot KGC, leveraging a generative PLM that achieves a linear inference time complexity. Our experiment shows that DEER outperforms a fine-tuned KGC model in a relationally inductive setting and aligns with an existing knowledge-probing method, positioning it as a possible alternative.

Mar 10, 2025

科学技術文献における知識グラフ補完を用いた効率的な知識グラフの作成

近年、科学論文の増加に伴い、科学的知識の関係性を扱うための知識グラフのような統一された構造化資源の需要が高まっている。このような構造化資源の整備は、新しい科学的知識の発見などに繋がることがある。しかし、そのような資源を人手で作成するには、各科学分野の専門知識が必要であり、資源作成には高いコストがかかる。本研究では、知識グラフを対象に、既存の科学関係抽出データセットを拡張することで、科学分野に関する知識グラフを作成する。また、知識グラフ補完タスクを知識グラフのデータ拡張に応用することで、既存の知識グラフから事実に即した新しい科学的知識の関係が導出可能かを検証する。

Aug 13, 2024