如果不用打字了,是不是意味着键盘也没用了?那笔记本岂🇼🝻🐓不是可以做的更薄?不对,没了键盘不就成了平板么?朱成想到了这🜉一点,感觉自家的电脑🂋🍍城可以多进一些平板电脑了。
在外界因为语音⚔识别而震惊的时候,罗辑所在的机🈰房却只能听到敲键盘的🜊🀙☸声音。尽管语音识别已经做了出来,但对于写代码而言意义不大。真正能将罗辑从这些繁重的任务中解救出来的只有语义识别!
开发语义识别,就如同罗辑预料的那样,并🝰🎴🕒不是一块好啃的🇼🝻🐓骨头。
更何况是中文体⚔系上的语义识别,这比其它语言要难📺☖⛀上几个级别。光是分词这一项,就能让人死掉不少脑细胞。中文不同于单词组成的拉丁文,拉丁文单词间的空格可以大幅⚠💵度减少电脑的识别难度,而中文却不行。
在中文里面,一句话就有很多意思。别🆣👖🈺说电脑了,有时候就连人也不好分辨。比如那句著名的“下雨天留客天天留我不留”,在没有标点符号的情况下,它至少有七种意思。对于电脑而言,别说这种地狱级的分词,哪怕是一些人们看来再简单不过🄧⛡🛸的句子也很难分辨。
比如“华科🁻大学生前来应聘”,电脑☬可能💝会理解为“华科大学,生前,来应聘”。
中文语义识别的第一个难点,也可以说是💝最大的难点便在这🇼🝻🐓里。怎样的⛵🞱😀分词算法才是最完美的?
罗辑在科技树中找到了方案,一种基于统计学模型的算法,构建一个三维矩阵,选取概率最高的一个。x🞾y轴是任意两个词语的组合,而z轴则是场景状态,根据语气和语态选取的最佳方案。
“不过这需要联网。”罗辑琢磨了一下,这似乎是目前最好的方案,虽然他的本意是打造一个可用于线下服务的智能,但是以现在的设备存储能力想要存下大量的语料库,根本就是天方夜谭。电脑肯定是不行的,光🐧🂏🍵脑还差不多。
“联网就联网吧⚔,在程序里预留一些常用算法,断网勉强也能用。”
解决了🛹第一个问⚔题之后,罗辑又陷入了瓶颈。他蓦然想起中文还有🀳一点很蛋疼,那就是没有和英文一样可用于区分人名地名的大小写。
要是🈡⛜仅仅这样也就罢🜑🁝了,关键是有些人的名字起就是一个词语,如果分词程序有智能的话,它一定会把这些人拖出去砍死。比如高峰、汪洋、罗辑……
“这……还是不要砍死了,半残就好。”
罗辑马上停止🄞⚐🐧了抱怨🜑🁝🜑🁝了,再困难也要解决不是?
“到底要怎么做?”
罗辑觉得自己有些天真了,一开始以☬为有了科技树绝对可以快🏥🜊速的解决问题,可事实上并非如此。之前做无线充电器时,都要用到机械方面的知识,而难度比无线充电更大的语义识别,其交叉的学科只会⚲更多。
“语义识别要什么?电脑编程、统计分🆣👖🈺析、数据建模……还有语言学?”罗辑看到科技树上🚔📉显示的内容完全傻眼了,前面的只要的理科内容,不管多难他都不怕,可偏偏最后一🔓⛴🞪项他却没有办法。
让罗辑🛹去看文科知识,那比杀了他还难受。可不学语言学,怎么可能做的出语气识别?
罗辑抓破脑袋也没有想出代替方🅱案,这似乎是唯一的解决方法。想想也是,对语言不熟悉的人又怎么做的出语🁀义识别?作为社交白痴的罗辑,自己都听不太明白别人的话,又怎么让🟧🟢电脑也“听”的懂?
学习语言学?
罗辑硬着头🁻皮只看了一会,就感觉头大如斗,就像熬了好几个通宵,困意如潮水般一波波涌来,怎么也挡不住。
这道是个催眠的好方法,😳🅞🇬罗🖬🕩🌒辑有些哭笑不得。
“只能走一步看一步了。”罗辑决定先将这🝰🎴🕒个问题搁置,等其他能解决的都解决了,再回头来考虑这个问题。
先搭建模型吧。
在外界因为语音⚔识别而震惊的时候,罗辑所在的机🈰房却只能听到敲键盘的🜊🀙☸声音。尽管语音识别已经做了出来,但对于写代码而言意义不大。真正能将罗辑从这些繁重的任务中解救出来的只有语义识别!
开发语义识别,就如同罗辑预料的那样,并🝰🎴🕒不是一块好啃的🇼🝻🐓骨头。
更何况是中文体⚔系上的语义识别,这比其它语言要难📺☖⛀上几个级别。光是分词这一项,就能让人死掉不少脑细胞。中文不同于单词组成的拉丁文,拉丁文单词间的空格可以大幅⚠💵度减少电脑的识别难度,而中文却不行。
在中文里面,一句话就有很多意思。别🆣👖🈺说电脑了,有时候就连人也不好分辨。比如那句著名的“下雨天留客天天留我不留”,在没有标点符号的情况下,它至少有七种意思。对于电脑而言,别说这种地狱级的分词,哪怕是一些人们看来再简单不过🄧⛡🛸的句子也很难分辨。
比如“华科🁻大学生前来应聘”,电脑☬可能💝会理解为“华科大学,生前,来应聘”。
中文语义识别的第一个难点,也可以说是💝最大的难点便在这🇼🝻🐓里。怎样的⛵🞱😀分词算法才是最完美的?
罗辑在科技树中找到了方案,一种基于统计学模型的算法,构建一个三维矩阵,选取概率最高的一个。x🞾y轴是任意两个词语的组合,而z轴则是场景状态,根据语气和语态选取的最佳方案。
“不过这需要联网。”罗辑琢磨了一下,这似乎是目前最好的方案,虽然他的本意是打造一个可用于线下服务的智能,但是以现在的设备存储能力想要存下大量的语料库,根本就是天方夜谭。电脑肯定是不行的,光🐧🂏🍵脑还差不多。
“联网就联网吧⚔,在程序里预留一些常用算法,断网勉强也能用。”
解决了🛹第一个问⚔题之后,罗辑又陷入了瓶颈。他蓦然想起中文还有🀳一点很蛋疼,那就是没有和英文一样可用于区分人名地名的大小写。
要是🈡⛜仅仅这样也就罢🜑🁝了,关键是有些人的名字起就是一个词语,如果分词程序有智能的话,它一定会把这些人拖出去砍死。比如高峰、汪洋、罗辑……
“这……还是不要砍死了,半残就好。”
罗辑马上停止🄞⚐🐧了抱怨🜑🁝🜑🁝了,再困难也要解决不是?
“到底要怎么做?”
罗辑觉得自己有些天真了,一开始以☬为有了科技树绝对可以快🏥🜊速的解决问题,可事实上并非如此。之前做无线充电器时,都要用到机械方面的知识,而难度比无线充电更大的语义识别,其交叉的学科只会⚲更多。
“语义识别要什么?电脑编程、统计分🆣👖🈺析、数据建模……还有语言学?”罗辑看到科技树上🚔📉显示的内容完全傻眼了,前面的只要的理科内容,不管多难他都不怕,可偏偏最后一🔓⛴🞪项他却没有办法。
让罗辑🛹去看文科知识,那比杀了他还难受。可不学语言学,怎么可能做的出语气识别?
罗辑抓破脑袋也没有想出代替方🅱案,这似乎是唯一的解决方法。想想也是,对语言不熟悉的人又怎么做的出语🁀义识别?作为社交白痴的罗辑,自己都听不太明白别人的话,又怎么让🟧🟢电脑也“听”的懂?
学习语言学?
罗辑硬着头🁻皮只看了一会,就感觉头大如斗,就像熬了好几个通宵,困意如潮水般一波波涌来,怎么也挡不住。
这道是个催眠的好方法,😳🅞🇬罗🖬🕩🌒辑有些哭笑不得。
“只能走一步看一步了。”罗辑决定先将这🝰🎴🕒个问题搁置,等其他能解决的都解决了,再回头来考虑这个问题。
先搭建模型吧。