UI + 大模型

25

结合图像识别,思考界面所有能点击的按钮等
进行界面功能的猜测以及点击各个按钮可能发生的变化
最终生成一份用户视角的文档以及改进方案

开源思路参考

1. AppAgent

https://github.com/mnotgod96/AppAgent

https://appagent-official.github.io/

2. OmniParser + OmniTool

https://www.bilibili.com/video/BV1ruAGeKEFd

https://github.com/microsoft/OmniParser/tree/master

https://huggingface.co/spaces/microsoft/OmniParser

3. Computer use