Marah AbdinSam Ade JacobsAmmar Ahmad AwanJyoti AnejaAhmed AwadallahHany AwadallaNguyen BachAmit BahreeArash BakhtiariHarkirat BehlAlon BenhaimMisha BilenkoJohan BjorckSébastien BubeckMartin CaiCaio César Teodoro MendesWeizhu ChenVishrav ChaudharyParul ChopraAllie Del GiornoGustavo de RosaMatthew DixonRonen EldanDan IterAbhishek GoswamiSuriya GunasekarEmman HaiderJunheng HaoRussell J. HewettJamie HuynhMojan JavaheripiXin JinPiero KauffmannNikos KarampatziakisDongwoo KimMahoud KhademiLev KurilenkoJames R. LeeYin Tat LeeYuanzhi LiChen LiangWeishung LiuEric LinZeqi LinPiyush MadanArindam MitraHardik ModiAnh NguyenBrandon NorickBarun PatraDaniel Perez-BeckerThomas PortetReid PryzantHeyang QinMarko RadmilacCorby RossetSambudha RoyOlli SaarikiviAmin SaiedAdil SalimMichael SantacroceShital ShahNing ShangHiteshi SharmaXia SongOlatunji RuwaseXin WangRachel WardGuanhua WangPhilipp WitteMichael WyattCan XuJiahang XuSonali YadavFan YangZiyi YangDonghan YuChengruidong ZhangCyril ZhangJianwen ZhangLi Lyna ZhangYi ZhangYunan ZhangXiren Zhou

摘要
我们推出了 phi-3-mini,这是一个参数量为 38 亿、在 3.3 万亿个标记(tokens)上训练而成的语言模型。尽管其规模小到足以部署在手机设备上,但其整体性能在学术基准测试和内部评估中均达到与 Mixtral 8x7B 和 GPT-3.5 相当的水平(例如,phi-3-mini 在 MMLU 上取得 69% 的得分,在 MT-bench 上得分为 8.38)。该模型的创新之处完全体现在其训练数据集上——这是为 phi-2 模型所用数据集的扩展版本,由经过严格过滤的网络数据与合成数据构成。此外,该模型还经过进一步对齐,以提升其鲁棒性、安全性以及对话格式的适配能力。我们还提供了初步的参数量扩展结果:基于 4.8 万亿标记训练的 70 亿参数(phi-3-small)和 140 亿参数(phi-3-medium)模型,二者在性能上均显著优于 phi-3-mini(例如,在 MMLU 上分别达到 75% 和 78% 的得分,在 MT-bench 上得分分别为 8.7 和 8.9)。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| mmr-total-on-mrr-benchmark | Phi-3-Vision | Total Column Score: 397 |