在这种情况下,往往我们只要了解人是如何处理问题的。
就能理解机器学习处理问题的思路或者说是方式。
通常我们在学习东西的时候。
或许我们的初衷是想着是将所有想学的内容一次性学懂学精。
但因为学习时间有限、学业任务繁多或者其余各种各样的观要素。
实际学习的时候是很难将所有的知识的学得一步到位的。
在这种情况下,一些擅于学习的人是怎么学习的呢?
这些人在进行学习时可能采用的做法是先将想学的知识的共性内容搞懂。
而后再花时间放在一些那些“疑难杂症”上。
虽然这种做法似乎是有点“偷懒”。
但人类一多半的智慧结晶都是因为偷懒才出现的。
不可否认这种看似偷懒的学习方式充满智慧。
至少从效率角度衡量的话,这种方式很值得称赞。
毕竟除了像医学等极其特殊的学科之外。
大部分领域所涉及到的知识,80%都是能够找出共性的。
在找到共性之后,再去解决另外的20%复杂知识。
这无疑是一种比较省力的思维。
在自然语言处理这个机器学习的典型方向引入预训练。
无疑等同于将部分优秀学生在学习中会用到的一种特殊的技巧“移植”过来。
这种思路很巧妙。
可为什么这种很巧妙的思路以前却没人尝试过呢?
伊芙·卡莉觉得未必是没人想过这方面。
但别人却无一例外的失败了。
涉及到知识的汲取,或许绝大多数人也知道先将80%有共性的知识搞定再搞定另外的20%可以省力。
但从过往的学业上看,伊芙·卡莉觉得她身边能够做到先将知识80%的共性找出来再去攻克疑难处的人少之又少。
甚至于除了伊芙·卡莉眼中的学霸之外根本没啥人能做到这一点。
伊芙·卡莉眼中的学霸又能有多少人呢?可以说是寥寥无几了。
也就是说这种先将80%有共性的知识搞定再搞定另外的20%这种很明智的做法实际很少有人应用。
明明是看起来更加容易的方式。
什么没多少人这么做?
伊芙·卡莉觉得主要原因是:
——大部分人并不善于找到知识的共性。
在不善于找到知识共性的情况下,一部分人虽然会尝试着找知识共性。
但实际上操作的时候找到80%知识的共性完全是奢望。
可能只能找到30%、20%甚至更少知识的共性。
如此一来这些人非但没有能够找到主体知识的共性。
反而在找共性的时候不知不觉将其余一些原本是普通的内容给异化成了这些人眼中的“非共性知识”。
而非共性知识在这些人心中又被这些尝试找共性的人心理暗示成了比较麻烦的知识。
这些原本并不是特别难的知识,在心理暗示的debuff下。
反而有可能成为这些尝试寻找共性的人所需要耗费大量时间去攻克的内容。
这种情况下,找知识的共性非但没对他们造成帮助。
反而成为了他们学习时候的拖累。
就很苦逼了。
与其出现这种情况,这些人干脆放弃了找知识的共性。
直接一视同仁,至少不会聪明反被聪明误。
类似于学习上这些人面对的窘境。
或许机器学习方面的学者也是因为同样的境遇才放弃了对训练数据共性的寻找。
至少在伊芙·卡莉这是因为这个原因。
纵然是现在知道了林灰在模型训练中引入了预训练方式。
伊芙·卡莉现在也不知道林灰究竟是如何做的。
按照林灰在论文中补充内容进行的阐述。
传统的训练机制下,文本摘要模型的产生思路是:
语料训练→模型
而按照林灰的思路引入预训练机制后。
文本摘要模型的产生思路是:
语料预训练→预训练模型→微调→模型
这個思路的本身是没问题的。
但伊芙·卡莉面对着这个全新的模型产生思路却满脑子全是问题。
具体应用的时候究竟引入何种的预训练方式才能够起到事半功倍的训练效率?
什么样的预训练模型才是预训练的目标?
对于预训练模型的“微调”究竟应该如何理解呢?
前两个问题是就林灰鼓捣的理论而产生的疑问。
第三个问题是因为语言方面的阐述而产生的一些疑问。
尽管伊芙·卡莉最近在向米娜·卡莉努力地学习汉语了。
但汉语显然并不是短时期内能够速成的。
对于预训练模型林灰所谓的“微调”的“微”究竟应该如何理解呢?
只是一点点小小的调整么?
还是说所谓的“微”只是因为林灰本人对这一事情难度的蔑视。
伊芙·卡莉觉得应该是后者。
不太可能是微小的调整。
毕竟涉及到文本摘要方面的模型往往都是极其复杂的。
一个正式模型所涉及到的参数都是极其繁多的。
更何况是预训练产生的预训练模型呢?
这种先于正式模型产生的粗模型可能参数要更加复杂。
当然,这只是伊芙·卡莉的一点猜测。
涉及到这些问题只有林灰本人才可能有真正的答案。
自从来到林灰的身边之后。
原本伊芙·卡莉以为自己的问题会逐渐变少。
但实际却是问题愈发变得多了起来。
至少刚才的那几个问题在美國的时候伊芙·卡莉就从来没疑惑过。
但对此伊芙·卡莉并没有灰心丧气。
科研方面从来都是提出问题比解决问题更重要。
伊芙·卡莉很清楚,虽然此时她的疑惑比在美國时候的疑惑还要多。
但这无关紧要,至少她现在提出的问题相比于以往那些问题现在才更接近技术的本质了。
而这就是学术上的成长。
伊芙·卡莉也不是一无所获。
原本她一向是比较好奇林灰这个此前几乎在文本摘要方面岌岌无名的人究竟是怎样在短时间做到弯道超车的。
毕竟涉及到语言模型的构建往往需要大量的时间。
但现在知道林灰搞的这个预处理之后。
伊芙·卡莉则感觉这个问题似乎不是太大问题。
按照林灰在论文补充内容提出的预训练机制的这个思路进行操作。
虽然引入预训练机制后仍然需要进行训练。
甚至看起来步骤要更繁琐了一些。
但伊芙·卡莉估计同等规模语料库下的训练
引入预训练机制的训练要比常规的至少能够节省50%的时间。
模型的训练引入预训练的处理方式会带来效率的提升。
这里面的道理通过学习方面的例子做类比很容易明白。
通常情况下,通过掌握知识的共性之后再攻克疑难显然效率上是比按部就班进行学习要高的。
同样的道理,机器学习的时候让机器掌握数据的共性之后再搞剩下的标注数据也会带来效率的提升。
林灰一度就是伊芙·卡莉眼中绝对意义上的天才。
在伊芙·卡莉看来天才的重点不在于“才能”,而在于“天分”
所有人似乎都知道的走出房间要找到门,却各种找不到门路。
而天才就是那个在众人茫然眼光之下信步走到门前并轻轻推开门的那个人。
在所有人面对着抽取式摘要算法的瓶颈而找不到走出文本摘要这个房间的方法之时。
linhui恰到好处地出现了,在所有人的茫然下信步般推开了一扇被称为是“生成式文本摘要”的崭新的门。
而现在来看,伊芙·卡莉觉得她以前的认知还是差点意思。
事实是林灰不光是绝对意义上的天才,还是当之无愧的强者。
如果林灰在论文中的补充内容里所描述的内容所言非虚的话。
这样的人不是强者又是什么呢?
预训练的提出说是对传统的语料训练方式的一次革命也不为过。
这将极大的给语言模型的训练进行助力。
伊芙·卡莉有预感在预训练的提出之后传统的自然语言处理这一领域有望全面进入到神经网络学习的时代。
如果真的能做到这份贡献的话。
那意义将是空前的。
要知道林灰搞出来的东西可不仅仅是预训练。
伊芙·卡莉注意到林灰在论文中对预训练的描述是基于迁移学习思想的预训练。
什么叫迁移学习?
借助迁移学习可以运用已有的知识来学习新的知识。
这一思想的核心是找到已有知识和新知识之间的相似性从而举一反三。
在机器学习这一领域,直接对目标从头开始学习成本太高。
借助于迁移学习的话就不用那么麻烦了。
很多时候我们可以运用已有的相关知识来辅助尽快地学习新知识。
比如,已经会了c语言,就可以类比着来学习c++;
已经学会希腊语,就可以类比着来学习英语。
世间万事万物皆有共性,合理地找寻它们之间的相似性之后。
利用这个桥梁来帮助学习新知识,可以省却很多新麻烦。
如果诚然是借助于这一思想的话。
在预训练的数据共性学习之后。
再对非共性标记数据进行额外学习时。
倘若因为迁移思想的引入使得预训练具备了举一反三的学习能力。
那么在对非共性标记数据学习所花费的时间可能会更少。
这样的话,伊芙·卡莉觉得先前的估计有点保守了。
同等规模语料库下的训练引入基于迁移思想的预训练机制的训练要比常规的至少能够节省70%的时间。
这就比较夸张了。
而且基于迁移思想搞定的东西某种意义上讲是可以“迁移”的。
也就是可移植性。
这特么的就逆天了。
涉及到文本摘要甚至是整个自然语言处理这一领域的研究以前多多少少是有点圈地自萌的意味的。
但如果具有了迁移性那完全是有可能渗透到别的领域的。
心念及此,一时之间伊芙·卡莉感觉林灰的着眼点也一定不是自然语言处理的这个小鱼塘。
林灰在下一盘大棋。
就能理解机器学习处理问题的思路或者说是方式。
通常我们在学习东西的时候。
或许我们的初衷是想着是将所有想学的内容一次性学懂学精。
但因为学习时间有限、学业任务繁多或者其余各种各样的观要素。
实际学习的时候是很难将所有的知识的学得一步到位的。
在这种情况下,一些擅于学习的人是怎么学习的呢?
这些人在进行学习时可能采用的做法是先将想学的知识的共性内容搞懂。
而后再花时间放在一些那些“疑难杂症”上。
虽然这种做法似乎是有点“偷懒”。
但人类一多半的智慧结晶都是因为偷懒才出现的。
不可否认这种看似偷懒的学习方式充满智慧。
至少从效率角度衡量的话,这种方式很值得称赞。
毕竟除了像医学等极其特殊的学科之外。
大部分领域所涉及到的知识,80%都是能够找出共性的。
在找到共性之后,再去解决另外的20%复杂知识。
这无疑是一种比较省力的思维。
在自然语言处理这个机器学习的典型方向引入预训练。
无疑等同于将部分优秀学生在学习中会用到的一种特殊的技巧“移植”过来。
这种思路很巧妙。
可为什么这种很巧妙的思路以前却没人尝试过呢?
伊芙·卡莉觉得未必是没人想过这方面。
但别人却无一例外的失败了。
涉及到知识的汲取,或许绝大多数人也知道先将80%有共性的知识搞定再搞定另外的20%可以省力。
但从过往的学业上看,伊芙·卡莉觉得她身边能够做到先将知识80%的共性找出来再去攻克疑难处的人少之又少。
甚至于除了伊芙·卡莉眼中的学霸之外根本没啥人能做到这一点。
伊芙·卡莉眼中的学霸又能有多少人呢?可以说是寥寥无几了。
也就是说这种先将80%有共性的知识搞定再搞定另外的20%这种很明智的做法实际很少有人应用。
明明是看起来更加容易的方式。
什么没多少人这么做?
伊芙·卡莉觉得主要原因是:
——大部分人并不善于找到知识的共性。
在不善于找到知识共性的情况下,一部分人虽然会尝试着找知识共性。
但实际上操作的时候找到80%知识的共性完全是奢望。
可能只能找到30%、20%甚至更少知识的共性。
如此一来这些人非但没有能够找到主体知识的共性。
反而在找共性的时候不知不觉将其余一些原本是普通的内容给异化成了这些人眼中的“非共性知识”。
而非共性知识在这些人心中又被这些尝试找共性的人心理暗示成了比较麻烦的知识。
这些原本并不是特别难的知识,在心理暗示的debuff下。
反而有可能成为这些尝试寻找共性的人所需要耗费大量时间去攻克的内容。
这种情况下,找知识的共性非但没对他们造成帮助。
反而成为了他们学习时候的拖累。
就很苦逼了。
与其出现这种情况,这些人干脆放弃了找知识的共性。
直接一视同仁,至少不会聪明反被聪明误。
类似于学习上这些人面对的窘境。
或许机器学习方面的学者也是因为同样的境遇才放弃了对训练数据共性的寻找。
至少在伊芙·卡莉这是因为这个原因。
纵然是现在知道了林灰在模型训练中引入了预训练方式。
伊芙·卡莉现在也不知道林灰究竟是如何做的。
按照林灰在论文中补充内容进行的阐述。
传统的训练机制下,文本摘要模型的产生思路是:
语料训练→模型
而按照林灰的思路引入预训练机制后。
文本摘要模型的产生思路是:
语料预训练→预训练模型→微调→模型
这個思路的本身是没问题的。
但伊芙·卡莉面对着这个全新的模型产生思路却满脑子全是问题。
具体应用的时候究竟引入何种的预训练方式才能够起到事半功倍的训练效率?
什么样的预训练模型才是预训练的目标?
对于预训练模型的“微调”究竟应该如何理解呢?
前两个问题是就林灰鼓捣的理论而产生的疑问。
第三个问题是因为语言方面的阐述而产生的一些疑问。
尽管伊芙·卡莉最近在向米娜·卡莉努力地学习汉语了。
但汉语显然并不是短时期内能够速成的。
对于预训练模型林灰所谓的“微调”的“微”究竟应该如何理解呢?
只是一点点小小的调整么?
还是说所谓的“微”只是因为林灰本人对这一事情难度的蔑视。
伊芙·卡莉觉得应该是后者。
不太可能是微小的调整。
毕竟涉及到文本摘要方面的模型往往都是极其复杂的。
一个正式模型所涉及到的参数都是极其繁多的。
更何况是预训练产生的预训练模型呢?
这种先于正式模型产生的粗模型可能参数要更加复杂。
当然,这只是伊芙·卡莉的一点猜测。
涉及到这些问题只有林灰本人才可能有真正的答案。
自从来到林灰的身边之后。
原本伊芙·卡莉以为自己的问题会逐渐变少。
但实际却是问题愈发变得多了起来。
至少刚才的那几个问题在美國的时候伊芙·卡莉就从来没疑惑过。
但对此伊芙·卡莉并没有灰心丧气。
科研方面从来都是提出问题比解决问题更重要。
伊芙·卡莉很清楚,虽然此时她的疑惑比在美國时候的疑惑还要多。
但这无关紧要,至少她现在提出的问题相比于以往那些问题现在才更接近技术的本质了。
而这就是学术上的成长。
伊芙·卡莉也不是一无所获。
原本她一向是比较好奇林灰这个此前几乎在文本摘要方面岌岌无名的人究竟是怎样在短时间做到弯道超车的。
毕竟涉及到语言模型的构建往往需要大量的时间。
但现在知道林灰搞的这个预处理之后。
伊芙·卡莉则感觉这个问题似乎不是太大问题。
按照林灰在论文补充内容提出的预训练机制的这个思路进行操作。
虽然引入预训练机制后仍然需要进行训练。
甚至看起来步骤要更繁琐了一些。
但伊芙·卡莉估计同等规模语料库下的训练
引入预训练机制的训练要比常规的至少能够节省50%的时间。
模型的训练引入预训练的处理方式会带来效率的提升。
这里面的道理通过学习方面的例子做类比很容易明白。
通常情况下,通过掌握知识的共性之后再攻克疑难显然效率上是比按部就班进行学习要高的。
同样的道理,机器学习的时候让机器掌握数据的共性之后再搞剩下的标注数据也会带来效率的提升。
林灰一度就是伊芙·卡莉眼中绝对意义上的天才。
在伊芙·卡莉看来天才的重点不在于“才能”,而在于“天分”
所有人似乎都知道的走出房间要找到门,却各种找不到门路。
而天才就是那个在众人茫然眼光之下信步走到门前并轻轻推开门的那个人。
在所有人面对着抽取式摘要算法的瓶颈而找不到走出文本摘要这个房间的方法之时。
linhui恰到好处地出现了,在所有人的茫然下信步般推开了一扇被称为是“生成式文本摘要”的崭新的门。
而现在来看,伊芙·卡莉觉得她以前的认知还是差点意思。
事实是林灰不光是绝对意义上的天才,还是当之无愧的强者。
如果林灰在论文中的补充内容里所描述的内容所言非虚的话。
这样的人不是强者又是什么呢?
预训练的提出说是对传统的语料训练方式的一次革命也不为过。
这将极大的给语言模型的训练进行助力。
伊芙·卡莉有预感在预训练的提出之后传统的自然语言处理这一领域有望全面进入到神经网络学习的时代。
如果真的能做到这份贡献的话。
那意义将是空前的。
要知道林灰搞出来的东西可不仅仅是预训练。
伊芙·卡莉注意到林灰在论文中对预训练的描述是基于迁移学习思想的预训练。
什么叫迁移学习?
借助迁移学习可以运用已有的知识来学习新的知识。
这一思想的核心是找到已有知识和新知识之间的相似性从而举一反三。
在机器学习这一领域,直接对目标从头开始学习成本太高。
借助于迁移学习的话就不用那么麻烦了。
很多时候我们可以运用已有的相关知识来辅助尽快地学习新知识。
比如,已经会了c语言,就可以类比着来学习c++;
已经学会希腊语,就可以类比着来学习英语。
世间万事万物皆有共性,合理地找寻它们之间的相似性之后。
利用这个桥梁来帮助学习新知识,可以省却很多新麻烦。
如果诚然是借助于这一思想的话。
在预训练的数据共性学习之后。
再对非共性标记数据进行额外学习时。
倘若因为迁移思想的引入使得预训练具备了举一反三的学习能力。
那么在对非共性标记数据学习所花费的时间可能会更少。
这样的话,伊芙·卡莉觉得先前的估计有点保守了。
同等规模语料库下的训练引入基于迁移思想的预训练机制的训练要比常规的至少能够节省70%的时间。
这就比较夸张了。
而且基于迁移思想搞定的东西某种意义上讲是可以“迁移”的。
也就是可移植性。
这特么的就逆天了。
涉及到文本摘要甚至是整个自然语言处理这一领域的研究以前多多少少是有点圈地自萌的意味的。
但如果具有了迁移性那完全是有可能渗透到别的领域的。
心念及此,一时之间伊芙·卡莉感觉林灰的着眼点也一定不是自然语言处理的这个小鱼塘。
林灰在下一盘大棋。