TwelveLabs在AWS re:Invent上宣布,其迄今为止最复杂的视频基础模型Marengo 3.0正式上市。它不仅仅是看视频,还会阅读和聆听,并捕捉场景节奏。该模型通过时间线跟踪视频内的物体、运动、情感和事件。客户现在可以通过Amazon Bedrock和TwelveLabs使用它。

Marengo 3.0在企业级规模上提供类似人类的视频理解
Marengo 3.0基于TwelveLabs多模态架构,将视频视为一个活生生的动态系统,将音频、文本、运动、视觉和上下文压缩成可以大规模搜索、导航和理解的内容。Marengo 3.0已准备好投入生产,并可立即实现投资回报率。基于广泛的测试,该模型将存储成本降低了50%,索引性能提高了两倍,并带来了一系列其他好处,因此任何拥有视频内容存储的人都可以充分利用他们的所有资产。
TwelveLabs首席执行官兼联合创始人Jae Lee表示:“视频占数字化数据的90%,但这些数据在很大程度上是不可用的,因为人类需要太长时间才能分解,机器也无法掌握和解释视频中发生的一切。”“解决这个问题一直是我们唯一的痴迷。现在,Marengo 3.0打破了可能的极限。对于企业和开发人员来说,这是一个无与伦比的解决方案。”
更智能、更快、更精简,实现真正的视频理解
Marengo 3.0的发布使TwelveLabs成为视频智能基础设施领域的突破性领导者,其能力无人能及。与依赖逐帧分析或将单独的图像和音频模型拼接在一起的竞争对手不同,Marengo 3.0允许用户以不同的方式观看并理解视频中的所有内容。这甚至包括最复杂、移动最快的片段。

现在,Marengo更擅长理解体育、媒体和娱乐、广告视频,以及政府和公共安全用例中发现的敏感视频类型。Marengo 3.0提供:
原生视频理解:Marengo 3.0不是根据图像模型改编的。它提供了基础模型级别的理解。
时空推理:新模型独特地理解跨时间和空间的上下文。
体育情报:Marengo 3.0提供球队、球员、球衣号码和动作跟踪,使识别亮点比以往任何时候都更快、更容易。
组合多模式查询:为了确保用户始终找到他们需要的东西,Marengo 3.0使他们能够在单个查询中组合图像和文本,以获得更精细的结果。
生产经济:Marengo 3.0降低了50%的存储成本,索引速度提高了2倍,同时创造了新的收入来源的潜力,帮助企业节省成本,同时提供了更多的增长机会。
企业应用就绪:即使是最大的组织也很容易开始。Marengo 3.0已在Amazon Bedrock上发布,可在其当前的AWS环境中快速安全地部署,也可直接通过TwelveLabs作为月度服务进行部署。
凭借其API-first设计,Marengo 3.0提供了紧凑的嵌入和四小时视频支持,比Marengo 2.7增加了两倍。此外,它还支持36种语言的多语言。
AWS人工智能基础设施副总裁Nishant Mehta表示:“TwelveLabs在视频理解方面的工作正在改变整个行业管理其视频功能的方式,为主要是手动过程带来前所未有的速度和效率。”“继TwelveLabs之前的Marengo和Pegasus型号被广泛采用后,我们很高兴成为第一家通过亚马逊Bedrock向客户提供Marengo 3.0的云提供商。”

Marengo 3.0目前可通过TwelveLabs或Amazon Bedrock获得,这是一种完全托管的服务,用于构建和扩展生成式AI应用程序和代理。AWS是第一家提供Marengo 3.0访问权限的云服务提供商。