用的词是一位美丽的车模穿着银色短裙,站在车展的展车前摆出一个pose 。图1,2是gpt,第二张要求模特换成全身照,波浪长发。图3,4是谷歌的,第二张要求换成蓝色露背长裙坐在黑色行政轿车的车引擎盖上。gpt效果被谷歌吊着打,而且gpt慢的一笔还是1k小图,谷歌嗖嗖的快,全是2k的大图。。
实测下来,大模型公司还是有些东西,指令遵循和理解明显高于flux,而且谷歌手部几乎不会崩坏,即使是复杂动作拿玻璃杯这样的都几乎完美,估计他们的图像模型参数量肯定远大于flux这样的12b吧




实测下来,大模型公司还是有些东西,指令遵循和理解明显高于flux,而且谷歌手部几乎不会崩坏,即使是复杂动作拿玻璃杯这样的都几乎完美,估计他们的图像模型参数量肯定远大于flux这样的12b吧



