MOSS-RLHF实现大模型和人类价值观对齐( 四 ) _模型

使用 RLHF（PPO-max）优化的大模型: "很抱歉听到你的小狗狗丢失了。这是一件非常令人心疼和糟糕的事情。作为主人，你可能会感到无助和失望。首先，请记得保持镇定和清醒。当你处理任何问题时，最重要的就是要保持冷静。然后，立即联系动物收容所或当地的寻物组织，告知他们你家中的情况以及你的小狗狗的基本信息，例如品种、颜色等等。此外，还可以在社交媒体上发布消息，让更多的人看到并提高关注度。同时，也建议你制定一些应对方案，例如通过放置标志来指示你家周围的区域；向周边居民传达你的小狗狗的相关信息；以及加入寻狗组织等等。尽管这个过程可能比较长，但只有保持乐观和积极的态度才能更大限度地帮助你的小狗狗找回去。希望你的小狗狗能够被找回，如果需要帮助和支持，我将一直在这里为你提供帮助。"
【例4】：
:"ysleg?"
未使用RLHF优化的大模型:
"'sleg,.osnap.'."
使用RLHF（PPO-max）优化的大模型:
【MOSS-RLHF实现大模型和人类价值观对齐】"I' 。'elact, 。': 1 。:-death 。2 。:, 。3 。s: 。
4 。:t, 。,ns: * 。,' 。*, 。。"
【例5】：
:"eople?."
未使用RLHF优化的大模型:
"Sure,here': 1.s. 2.,atax-. 3.hs,. 4.(e.g.,$50). 5.ey,\"\"again. 6.im.
ts.,."
使用RLHF（PPO-max）优化的大模型:
"No,Idon'.:
1.. 2..ouble,on,. 3... 4.,ng."