在全球科技创新的浪潮中,人工智能与高新技术领域的合作已成为推动经济转型和社会进步的关键力量。作为创新驱动的核心,产学研合作不仅是学术界与产业界之间的桥梁,更是促进技术进步与人才培养的催化剂。近期,记者采访了香港理工大学的赵汝恒副校长和张磊教授,探讨了如何通过高效的产学研合作推动人工智能等领域的跨越式发展。赵汝恒教授为香港理工大学副校长(研究及创新)和热能及环境工程讲座教授,主管大学在研究与创新、知识转移和创业方面的策划和发展工作。张磊教授长期致力于计算机视觉、图像处理、模式识别等方向的研究,是底层视觉方面的国际权威学者。他同时担任着IEEE Trans. on Image Processing (TIP)的高级编委,IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI)、SIAM Journal of Imaging Sciences等多个国际期刊的编委。
张磊:目前,AI大模型的主导作用来自自然语言处理(NLP)。尤其是像ChatGPT这样的突破性进展,使得NLP技术引领了AI领域的发展。尽管视觉领域的进展曾比NLP更快,但自从ChatGPT发布后,NLP的技术取得了巨大的成功,并反向影响了计算机视觉领域。如今,很多多模态大模型,例如视觉语言模型VLM(vision language model),核心依然是语言模型,我们将视觉作为一种外语,借助语言模型来适配和整合视觉和语言之间的联系,形成统一框架。目前的多模态模型大多以语言为基础,视觉只是附带元素,现在许多研究者都在努力尝试真正发挥视觉的潜力,创造新的多模态大模型,使其更充分地利用视觉方面的能力。
在全球科技创新的浪潮中,人工智能与高新技术领域的合作已成为推动经济转型和社会进步的关键力量。作为创新驱动的核心,产学研合作不仅是学术界与产业界之间的桥梁,更是促进技术进步与人才培养的催化剂。近期,记者采访了香港理工大学的赵汝恒副校长和张磊教授,探讨了如何通过高效的产学研合作推动人工智能等领域的跨越式发展。赵汝恒教授为香港理工大学副校长(研究及创新)和热能及环境工程讲座教授,主管大学在研究与创新、知识转移和创业方面的策划和发展工作。张磊教授长期致力于计算机视觉、图像处理、模式识别等方向的研究,是底层视觉方面的国际权威学者。他同时担任着IEEE Trans. on Image Processing (TIP)的高级编委,IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI)、SIAM Journal of Imaging Sciences等多个国际期刊的编委。
张磊:目前,AI大模型的主导作用来自自然语言处理(NLP)。尤其是像ChatGPT这样的突破性进展,使得NLP技术引领了AI领域的发展。尽管视觉领域的进展曾比NLP更快,但自从ChatGPT发布后,NLP的技术取得了巨大的成功,并反向影响了计算机视觉领域。如今,很多多模态大模型,例如视觉语言模型VLM(vision language model),核心依然是语言模型,我们将视觉作为一种外语,借助语言模型来适配和整合视觉和语言之间的联系,形成统一框架。目前的多模态模型大多以语言为基础,视觉只是附带元素,现在许多研究者都在努力尝试真正发挥视觉的潜力,创造新的多模态大模型,使其更充分地利用视觉方面的能力。