HuggingFace Daily Papers(社区热门论文)
66
基于超群相对策略优化拓展生物分子效用-多样性前沿
AI 摘要
研究团队提出超群相对策略优化(SGRPO),以解决生物分子生成器因优化任务效用而导致生成候选分子过于集中的问题。该框架直接从集合层面构建多样性奖励:为每个条件采样候选分子超群,比较相同条件下的多样性,并通过留一法将群体奖励分配至单个生成轨迹,再与效用奖励结合。SGRPO不依赖特定生成器或评估指标,可灵活与不同GRPO风格方法集成。在多个生物分子设计任务上的评估表明,SGRPO能有效拓展效用-多样性的帕累托前沿,相对于基线方法取得更优的前沿水平指标,并有助于在训练后保持更广泛的生成分布覆盖。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org