UI + 大模型
结合图像识别,思考界面所有能点击的按钮等
进行界面功能的猜测以及点击各个按钮可能发生的变化
最终生成一份用户视角的文档以及改进方案
开源思路参考
1. AppAgent
https://github.com/mnotgod96/AppAgent
https://appagent-official.github.io/
2. OmniParser + OmniTool
https://www.bilibili.com/video/BV1ruAGeKEFd
https://github.com/microsoft/OmniParser/tree/master
https://huggingface.co/spaces/microsoft/OmniParser