Visual ChatGPT:Microsoft ChatGPT 和 VFM 相

你们中的一些人可能认为这是处理视觉效果的强制解决方法,因为它仍然将图像的所有视觉信号转换为语言 。上传图像时,提示管理器会合成包含文件名等信息的内部聊天历史记录,以便可以更好地了解查询所指的内容 。
例如,用户输入的图像的名称将充当操作历史记录,然后提示管理器将协助模型通过“推理格式”来确定需要对图像执行的操作 。在选择正确的 VFM 操作之前,您可以将此视为模型的内部想法 。
在下图中,您可以看到提示管理器如何启动可视的规则:
开始使用可视化聊天GPT
要开始您的之旅,您需要先运行演示:
# create a new environmentconda create -n visgpt python=3.8# activate the new environmentconda activate visgpt#prepare the basic environmentspip install -r requirement.txt# download the visual foundation modelsbash download.sh# prepare your private openAI private keyexport OPENAI_API_KEY={Your_Private_Openai_Key}# create a folder to save imagesmkdir ./image# Start Visual ChatGPT !python visual_chatgpt.py
您还可以在的上了解更多信息 。确保查看每个视觉基础模型上的 GPU 内存使用情况 。
可视化聊天GPT的用例
那么 能做什么呢?
图像生成

Visual ChatGPT:Microsoft ChatGPT 和 VFM 相

文章插图
您可以要求 从头开始创建图像,并提供描述 。您的图像将在几秒钟内生成,具体取决于可用的计算能力 。其使用文本数据的合成图像生成基于稳定扩散 。
更改图像背景
同样,使用稳定的扩散,可以改变您输入的图像的背景 。用户可以向助手提供他们希望将背景更改为什么的任何描述,稳定的扩散模型将绘制图像的背景 。
更改彩色图像和其他效果
您还可以根据为应用程序提供描述来更改图像的颜色并应用效果 。将使用各种预训练模型和来更改图像颜色,突出显示图像边缘等 。
对图像进行更改
允许您通过编辑和修改图像中的对象来删除或替换图像的各个方面,并向应用程序提供定向文本描述 。但是,需要注意的是,此功能需要更多的计算能力 。
的局限性
【Visual ChatGPT:Microsoft ChatGPT 和 VFM 相】众所周知,组织总需要努力解决某种形式的缺陷来改善其服务 。
计算机视觉和大型语言模型的结合
Visual ChatGPT:Microsoft ChatGPT 和 VFM 相

文章插图
严重依赖和 VFM,因此,这些各个方面的准确性和可靠性会影响的性能 。使用大型语言模型和计算机视觉的组合需要大量的提示工程,并且可能难以实现熟练的性能 。
隐私和安全
能够轻松插入和拔出VFM,这可能是一些用户对安全和隐私问题的担忧 。需要更多地研究敏感数据如何不被泄露 。
自我校正模块
的研究人员遇到的限制之一是由于VFM的失败和提示的多样性而导致的生成结果不一致 。因此,他们得出结论,他们需要研究一个自我更正模块,以确保生成的输出符合用户的要求,并能够进行必要的更正 。
需要大量 GPU
为了从 中受益并利用22个VFM,您将需要大量的GPU RAM,例如A100 。根据手头的任务,确保您了解有效完成任务所需的 GPU 量 。
总结
仍有其局限性,但这是同时使用大语言模型和计算机视觉的重大突破 。如果您想了解有关 的更多信息,请阅读本文: :使用进行对话,绘图和编辑
与相似吗?如果你尝试过这两种方法,你有什么看法?在下面发表评论!
原文链接: :和 VFM 相结合 ()