33页ppt《大语言模型综合能力测评报告（2023）》，文末附下载链接

sqchi1991 / 2023-09-03 / 原文

ChatGPT的出现可以说是一股强劲的风潮，它开启了大型语言模型技术的繁荣时代。然而，自从2017年大型语言模型问世以来，OpenAI、微软、谷歌、Facebook、百度、华为等科技巨头一直在探索大型语言模型领域，持续不断地取得进展。ChatGPT只是将大型语言模型技术推向了一个爆炸式的发展阶段。当下，大型模型产品的格局呈现出了新的态势，国外公司在基础模型方面积累了深厚的经验，而国内公司则更加注重应用场景的开发。

自从2022年末开始，人工智能大模型就成了科技界乃至整个世界的热门话题。尤其是ChatGPT这类的大模型产品，发展速度快得让人瞠目结舌。有些预测数据甚至显示，到2030年，人工智能与大型计算的市场规模可能会突破万亿人民币。不仅如此，2023年国内的主要厂商也纷纷推出了自家研发的大语言模型产品。此外，国内还涌现出许多基于中文语言特点的大语言模型应用，逐渐构建起了一个庞大的生态系统。

为了对大语言模型应用进行深入研究，InfoQ研究中心采用了桌面研究、专家访谈和科学分析这三种研究方法。通过大量文献和资料的查找，他们积极收集了相关领域的信息。此外，还与十多位技术专家展开了面对面的访谈，以获取他们宝贵的见解和经验。为了更全面地探讨语言模型的特点，InfoQ研究中心将其拆分成了12个细分维度，涵盖了语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法的能力，以及安全和隐私这些方面。这种系统化的方法为研究提供了更准确、全面的视角。

分别对ChatGPTgpt-3.5-turbo、Claude-instant、Sagegpt-3.5-turbo、天工3.5、文心一言V2.0.1、通义千问V1.0.1、讯飞星火认知大模型、Moss-16B、ChatGLM-6B、vicuna-13B进行了超过3000+道题的评测，根据测评结果发布了《大语言模型综合能力测评报告2023》。