尊龙凯时(中国)官方网站哪怕仅仅念念通过互联网传输一个二进制位的数据-尊龙凯龙时官网进入网页
发布日期:2026-05-28 13:54 点击次数:76
谷歌最近发了篇论文,重申了一个来自信息论的不雅点——“压缩即智能”。诚然,论文的新意,在于通过对“压缩率”的界说并提议关联狡计智商,从而不错尝试对“压缩即智能”给出一个定量的表示,并将其与东谈主工智能大模子商量起来。
所谓“压缩”,全称诚然是“数据压缩”。正如一册写得相配机动真理的普及读物《数据压缩初学》所指出的:
“咱们需要知谈这么一件事:咱们当下生涯在其中的这个狡计宇宙,十足建立在数据压缩算法之上。
是的,每个部分齐是如斯。
每个网页、每个图像、每首歌、每个对于猫的视频、每部流媒体聚积电影、每张自拍照、每次电子游戏下载、每个袖珍往复,以致是操作系统的每次更新,通盘这一切齐收获于压缩算法。事实上,哪怕仅仅念念通过互联网传输一个二进制位的数据,也离不开压缩的内容。
数据压缩本事最让东谈主惊异之处在于,它与以前40年里个东谈主狡计的许多要紧调动商量,但很少有东谈主知谈这一丝。”
信息论创举东谈主克劳德·香农在为传输信息进行压缩编码的经过中,判辨到这种压缩是有一个极限阈值的,栽植这个阈值,被压缩编码的信息就无法通过解码,收复为原始信息了,而是有相配一部分信息就此被亏本掉,比如手脚“有损压缩”的MP3音乐样式,听上去恶果就要比CD差不少。这个阈值被定名为“香农熵”。相应地,“无损压缩”即是压缩率末端在“香农熵”以下,比如解码后不错比拟好地酬报到CD音质的APE、FLAC等样式。通盘的当代压缩算法,不错说齐是在松懈地与“香农熵”作战争,但愿开采出以尽可能高的压缩率来“高保真”地保存、传输和复制信息的本事。
伸开剩余53%但其实数据压缩远不仅仅算法问题,而是波及东谈主类对宇宙压根的阐发方式。
咱们且撇开数据压缩算法中的数学旨趣,单就“压缩即智能”这一不雅点,其实和我在某篇机器学条记里所说的“模子即智能”,十足是等价的,因为所谓模子,即是给无尽变量的复杂宇宙建一个有限变量的模,通过被大大压缩的变量数目,过甚互相作用的结构,来灵验模拟复杂宇宙在某一特定时空中的运作模式(用本届诺奖得主杰弗里·辛顿的术语来说,就叫作念“泛化”,即通过少许已知数据准确先见宽敞未知数据),从而让咱们不错作出展望和决议。
事实上,通盘的科学公式齐不过乎是一种模子,因此也不过乎是一种数据压缩方式。模子老是只可在一定时空中起作用,哪怕它是牛顿定律,因为模子对数据的压缩根蓝本说老是为了拟合咫尺的“事实”——这恰是“践诺科学”的本色。更高的压缩率一般意味着更好的模子,也就意味着更高的智能,就好比万有引力定律对近代的不雅测天地有最高的压缩率(也即是用最淡雅的公式界说了这一天地的运作方式),因此牛顿不仅比绝大多数东谈主,而且比绝大多数科学家有更高的智能。
为什么咱们不错说“压缩即智能”或“模子即智能”?因为压缩变量数据大要建模,就意味着“主动”地挑选出一部分被以为是裂缝的变量,而断念绝大多数被以为是冗余的信息,来为这个看上去无比复杂的宇宙建模,这种阐发的“主动性”、这种应酬宇宙的“主动性”——而不是像(咱们是以为的)石头那样被迫采纳一切——不恰是当咱们谈及“智能”的期间,信得过让咱们嗅觉make sense的东西吗?
何况智能和学习才气高度关联。什么是学习?不管东谈主的学习已经机器学习,本色不齐是学惯用建立在有限数据集基础上的模子去应酬这个无尽宇宙尊龙凯时(中国)官方网站,并在应酬的经过中证据反应阻挡养息以至迭代模子吗?是以“学习即智能”很猛进度上也与“压缩即智能”等价,东谈主工智能大谈话模子,正如“GPT之父”伊尔亚·苏茨克维屡次强调的,本色上即是个着力极高的数据压缩机。
发布于:上海市
栏目分类