谷歌推出AudioPaLM一种可以用语音翻译文本的新语言模型

2023-07-27 17:01:39 来源：互联网

最近，大型语言模型(LLM)取得了许多新的进展和发展。这些模型是一种人工神经网络，具有许多参数，并使用自监督学习或半监督学习对大量文本数据进行训练。

这些大型语言模型为新的生成式 AI 工具提供了支持，例如Google Bard和 OpenAI 的 ChatGPT。最近，谷歌研究人员推出了一种名为 AudioPaLM 的新语言模型，该模型在听、说、译方面都能表现出色。

AudioPaLM 是一种多模态架构，结合了两种现有模型的优点：PaLM-2 和 AudioLM。该系统可以处理和生成文本和语音，并可应用于语音识别或用原始语音创建翻译。

(相关资料图)

PaLM-2 是一种基于文本的语言模型，能够熟练地理解文本特定的语言知识。AudioLM 擅长保留副语言信息，例如说话者身份和语气。

通过结合这两个模型，AudioPaLM 使用 PaLM-2 的语言能力和 AudioLM 的副语言信息保存功能，从而对文本和语音进行更深入的理解和生成。

该模型还可以对多种语言进行零样本语音到文本的翻译，甚至是在训练期间没有看到的语音组合。此功能对于实时多语言通信等现实应用程序非常有用。

AudioPaLM 还可以根据简短的语音提示跨语言传输语音，并且可以捕获和再现不同语言的不同语音。

AudioPaLM 在语音翻译基准测试中取得了顶级成绩，并在语音识别任务中展现了具有竞争力的性能。

Google 搜索的透视过滤器

谷歌在上个月的年度开发者大会 Google I/O 2023 上宣布了一种名为“Perspectives”的新 Google 搜索过滤器。现在，差不多一个半月后，该公司开始向全球所有 Google 搜索用户推出新的 Perspective 过滤器。

谷歌通过其社交媒体账号上的帖子宣布了这一消息。“上个月，我们在#GoogleIO 上分享了我们对搜索所做的更新，以帮助您找到并探索专家和普通人的不同观点。今天你就可以尝试一下，”该公司在其官方 Twitter 账号上发帖写道。

Google 搜索的新视角过滤器为搜索结果提供了人性化的一面。目前，用户在平台上看到的搜索结果受到该公司算法的影响，该算法基于日期、作者、评级和邻近度等多种因素。现在，新的透视功能通过引入真实人类的观点和建议来改变这一现状。

关键词：

为你推荐

音乐剧、歌剧、话剧，到底有什么区别？看完你就明白了

2022-07-08
中国官方发布关于加强科技伦理治理的意见

2022-03-21
四川将发放1170余万元文旅消费券激活春节文旅消费

2022-01-25
新疆克孜勒苏州阿图什市发生3.2级地震震源深度18千米

2022-01-25
封建迷信披上科技外衣是“算命”还是“算钱”

2022-01-25
春节倒计时牢记这些返乡防疫提示

2022-01-25
北京西城：新增无症状感染者实际工作单位不在西城，相关点位均为阴性

2022-01-25
一场特别的“团圆”：浙江湖州“小海豚”温暖过新年

2022-01-25
货车司机雪天被困高速暖心交警连夜送热水食物

2022-01-25
徐州警方捣毁制售假冒伪劣白酒窝点查获假酒1000余箱

2022-01-25