淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信。
當年輕人在說“夸克真香”,他們在說什么?
文|史中
這世界上有兩種人不好惹,P站用戶和B站用戶,而且他們還很可能是同一撥用戶。
我相信B站用戶永遠正確。畢竟即使不正確,等把那些不喜歡他們的叔叔阿姨熬到帕金森擂不動鍵盤的時候,他們自然也就正確了。
所以,我的一個隱秘癖好就是:蹲守在很火的B站視頻中,研究大家在彈幕里討論什么東西。
前兩天,我偶然看到了知名UP“蘇星河”的一個視頻《我來講講為什么Safari是手機上最好的瀏覽器》,結果正片還沒開始,一票水友都在彈幕上刷:“夸克真香”、“夸克yyds”。
一堆夸“夸克”的夸夸詞匯碾過屏幕,讓屏幕正中的Safari圖標多少帶點尷尬。
可夸克到底好到啥程度,以至于一群粉絲要去Safari的地盤上游行?這個我還真拿不準。
我決定仔細研究一下。
當然我的研究方法比較NB,畢竟我是一個想認識誰就能認識誰的中哥,是時候施展魔法了。我戴上口罩沖進北京零下20度的寒風里,直接去找夸克App的產品技術同學們喝了個咖啡。
一個拯救學渣的搜索系統
一位夸克的同事看到風塵仆仆的我,說:“中哥你來晚了,整個2020年已經有好多老鐵換了各種姿勢夸我們了,用戶量比火箭竄得還快。”
“你們究竟干了什么,難不成把大家都給PUA了?”我問。
那不敢,不過這兩年我們在夸克搜索里做了很多功能,比如“指令控制”、“搜索直達”,大家都挺喜歡。但說出來你可能不信,2020年我們最香的模塊是“夸克學習”。
他說。
“納尼?夸克學習?有人在搜索里學習?學啥?咋個學法?”
我掏出手機定眼兒一瞧,還真有。。。
雖然心里全是問號,但中哥畢竟是身背一定流量的偶像,舉止要沉穩。于是我冷靜了一下,說:“我懂,我也是愛學習的人,在我的D盤專門有一個文件夾叫就叫做學習資料。總之我想和夸克學習的團隊聊聊。”
于是,夸克學習的產品經理夏雅曈坐在了我面前。
你聽聽這個名字的風格,如果不是民國時期的人,那一定是個90后。果不其然,她是一位93年的妹子,創造了我從藝以來見過產品經理的年齡最小記錄。
夏雅曈
然而她的記錄只保持了15秒,因為旁邊這位名叫寇至爽的團隊成員是94年的。。。
寇至爽
故事就從2020年春天說起吧。
那時候,你懂的,幾乎所有有頭有臉的App都上線了疫情防護的模塊。畢竟這么多年夸克是一票年輕人的心頭好掌中寶,保護我方祖國的花朵很重要,于是夏雅曈他們春節加班搞定了幫大家防疫的“疫情實時動態”模塊。
一口氣還沒喘勻實,他們突然發現一個有趣的現象:在夸克上“搜題”的老鐵越來越多,暴增50%。
Ethscriptions V2正式上線:7月25日消息,Ethscriptions協議創建者Middlemarch發推宣布,Ethscriptions V2正式上線,推出了一個新的面向以太坊訂閱市場的協議ESIP-2。此外,上線Pillars和mfpurrs兩個Collections。[2023/7/25 15:57:08]
搜什么題呢?
“比如有人會搜《岳陽樓記》,這看上去很像是在做作業。”夏雅曈說。
“我不信,萬一是古詩文愛好者呢?”我擺出魯豫臉。
“從當時的大數據來看,搜語文知識的人通常也會去搜索勾股定理、英文單詞之類,還有一些地理歷史知識,你看,這就非常像學生了。”她說。
到底為啥這么多人在夸克搜題嘞?
其實很好解釋:第一,夸克的用戶群本來就是年輕人,有很多人在親自上學。第二,疫情剛穩下來,學生們都被困在家里上網課呢,平時做作業遇到不會的題也沒老師可問,最方便的可不就是上網搜么。
寇至爽他們想了想,忽然想出了一個“至爽”的腦洞——既然用戶這么喜歡搜題,那我們為什么不幫人幫到底,送佛送上西天呢?
于是,他們設計了一個逆天的“小球”。同學在釘釘上網課的時候,夸克就變成一個小球安靜地蹲在右下角,當屏幕上的PPT里出現了題目時,只需要點一下小球,見證奇跡的時刻就到了。
夸克會把屏幕截圖,框選題目,它就會去后臺的題海里匹配,然后瞬間返回這道題的答案。不僅有答案,還有解題過程和思路,比閃電五連鞭還快。
大概就是這么個效果
萬萬沒想到,上個網課還開掛了呀。
金杯銀杯不如學渣的口碑,大家都沒反應過來,幾天之內夸克App的下載量已經沖到各大應用商店的前頭。
最巔峰的時候,所有過來的截屏搜索請求,有90%都是在搜題目。
寇至爽挑挑眉毛,示意我不用控制,可以盡情夸他。
僅僅是做了個小功能,就帶來這么大的搜索量,夸克團隊的小伙伴都驚呆了。不過開心之余,他們馬上發現一個巨大的Bug——海量的搜題請求并不是每一次都能得到答案,有很多同學歡歡喜喜搜題來,但卻兩手空空回家去。
這是為啥呢?
這里給你科普一段小知識:
1、負責為同學們的題目找答案解析的東西叫做“搜索引擎”,這個你是知道的。2、搜索引擎分很多種,最主流的叫做“網頁搜索引擎”,百度、Google,包括夸克主要的搜索引擎都是“網頁搜索引擎”。你輸入關鍵詞,它能幫你找到相應的網頁。3、還有很多其他搜索引擎,例如我們用到較多的就是“圖片搜索引擎”。你輸入關鍵詞,它給你找到相應的圖片,或者你上傳一張圖,它給你找來類似風格的圖片。
2、另一邊網絡上有海量的題庫,很多也是圖片的形式,同樣要抽取成純文本格式。
3、最后把用戶提交的題目和題庫里的題目的純文本做匹配,從而找到這道題的答案。
說到這你可能有點感覺了,搜題引擎和傳統通用引擎不太一樣:
如果把通用搜索引擎比作人人都坐的汽車,那搜題引擎就像是小區里送快遞的“菜鳥無人車”,雖然個頭不大,也不是人人都用,但技術含量卻是杠杠的。
好,科普完畢,我們回到故事。
說個小內幕。在疫情之前,夸克搜題確實是個小眾功能,所以團隊并沒有投入很多精力,背后的“搜索引擎”接入的是第三方服務,效果差強人意。
富蘭克林鄧普頓向美國SEC注冊區塊鏈私募股權基金:金色財經報道,資產管理巨頭富蘭克林鄧普頓(Franklin Templeton)最近進軍加密貨幣行業,正在探索區塊鏈私募股權領域,向美國金融監管機構注冊了富蘭克林鄧普頓區塊鏈基金 II 。據提交給美國證券交易委員會的文件顯示,富蘭克林鄧普頓代表指定該工具為美國證券交易委員會的私募股權基金,該工具對其投資者規定了最低 100,000 美元的投資額,且開放時間不超過 12 個月。[2023/5/11 14:56:21]
這回看到搜題量暴漲,團隊同學們立刻從葛優躺變成了金剛狼:咱們是不是要自己推出一個搜題引擎?這樣不僅掌握核心科技,還能大大提高解題率!
畢竟家里技術底子還是有的,夸克的同學們決定,搏一搏單車變摩托。
老司機斗麻匪
重擔一下子壓到了夏雅曈和團隊的身上。
作為產品經理,他們首先要回答一些靈魂拷問:究竟哪些學生在搜題?他們會在什么情況下搜題?他們搜題時希望看到怎樣的答案?
這些問題的答案可太太太重要了。畢竟,你懂的,如果搜題的都是學渣,想要抄答案,那這個產品道德上就不太成立了。。。
于是,夏雅曈在夸克里向使用搜題功能的同學們發送了邀請,讓他們來一場赤裸裸的“靈魂自白”。
結果大大出乎意料。
我猜你和我一樣,以為只有學渣會搜題。但事實恰好相反,學霸也搜題,而且搜得更多,更狠,更仔細。想想倒也合理,比你有錢的人,一般都比你努力。
其實學霸搜題的需求很復雜:不僅要找答案,還要了解詳細的解題思路,還要知道這背后隱藏的知識點,最好再來幾道同類型的題目鞏固一下才心滿意足。非常之雞掰。
其實不光是學生,老師和家長也要搜題。
老師在課堂上要講課,課后要批改作業、備課、輔導,拍照搜題可以幫他們把解題的時間節省下來,把更多精力放在琢磨教學內容上。
家長們主業是上班,晚上副業還得輔導孩子,經常還遇到題目不會做,甚是丟人。即使自己會做,但是有時又跟孩子講不明白,這時候他們也需要搜題。
這些事實讓夏雅曈他們虎軀一震,原來搜題功能真的可以幫助更多愛學習的同學節省時間,鞏固知識。那這利國利民的事兒可就干也得干,不干也得干了。
2020年6月,就在人們在蘇星河的視頻上刷“夸克真香”的檔口兒,“自研搜題引擎”項目正式上路了。
說到這,就不得不給你介紹一位新朋友,王杰雄。
王杰雄是一位技術大咖,想當初90后還忙著早戀的那些年,他已經加入了阿里云,和大家一起做“雅虎中文搜索”,掐指一算,搜索技術這事兒他已經干了十年。
王杰雄
接到夸克的任務,他露出了大菊已定的微笑:就這?
然而,上手之后不久,一種隱隱的哪里不對的感覺襲來。仿佛一個即將上任的縣長,本來吃著火鍋唱著歌,一抬頭突然面前出現一票麻匪。
這第一個麻匪就是“文字識別準確率”。
文字識別,準確名稱是OCR。它像一個不知疲倦的“謄寫師傅”——你把一張圖片給文字識別系統,它就能幫你把上面的字給識別、抄寫出來。
你有沒有給支付寶綁過銀行卡?掃一下卡面就能識別出上面的卡號,這就是文字識別系統干的。
例如拍這第5題,在拍題的時候會出現混入手寫字、框選到其他題目、照片不清晰等等問題。
很多時候,帶了噪聲看上去就像完全換了一道題,系統自然就沒辦法把這道題和題庫中的題目匹配準確。
STFX項目Discord服務器已被入侵:金色財經消息,據CertiK監測,STFX項目Discord服務器已被入侵,黑客發布了網絡釣魚鏈接。在團隊重獲其服務器的控制權之前,請勿點擊任何鏈接。[2023/5/6 14:46:58]
這時,王杰雄他們就要盡力讓系統學會“帶噪搜索”。
簡單來說,就是香農的信息論原理。信號有噪聲的情況下,就要增加信息的冗余。
王杰雄說。
舉個例子吧:比如你跟朋友打電話約在地鐵站B口見面,電話里對方聽不清你說的到底是B還是D,你也許會說:“我們在B口見面,AB的B,二B,不是四D。”
你看,你很可能不認識香農,但你自動采用了信息冗余策略,用了四種方式表達“B”,對方一般就不會理解錯誤了。
王杰雄他們正是用了同理的操作,每一道題都用不同的顆粒度切分,換幾種維度表達。這種表達雖然啰里八嗦,但是卻大大提高了匹配的精準度,算是曲線救國了。
不過這還不算完,更多的問題仍然擺在面前。
這第三個麻匪就是“公式歸一化”。
上過中學的淺友都知道,各種題目到了中學就不再“單純”了,比如這貨:Cu(OH)CO,堿式碳酸銅。再比如下面這道題:
你發現沒,題目里有各種角標、特殊符號,是你日常打字根本不知道怎么打出來的。
你都不知道怎么打,程序當然也不知道怎么打。。。不過,幸好科學家和代碼大神們已經總結好了一些規則,用一串直線排列的代碼就能表述出這些亂七八糟的公式。
可問題來了,對于同一種公式的表述規則有很多種,并不統一——就像同一部片兒,有avi,有rmvb,有mp4。。。兩個人見面,一個人說“Hello”,另一個人說“弄啥嘞”,那不可能匹配成功。
于是團隊必須把題庫里的各種公式的每一種表述都找出來,然后轉換成統一格式,這就是公式歸一化。
除了上面說的三個麻匪,還有圖片傳輸壓縮、算法和功耗的平衡、題庫本身豐富度等等,“麻匪”漫山遍野,一眼望不到頭。。。。
王杰雄發現,這不是“讓子彈飛”,這根本就是“亂槍打死”。這一大堆事要是等一個人搞完,那恐怕人類都登陸火星了。他趕緊吹響“集結號”——跟領導申請把其他技術同事一個個拉上船,并肩作戰。
沒顧得上開神馬“誓師大會”,技術攻堅組就這樣緊急成立了。
埋頭苦干一個月,這套搜索算法終于做出了雛形。夏雅曈他們趕緊拿來一些測試題目,結果是:這套算法的識別率只有友商的一半兒左右。。。
這個結果,如翔一般。
盤了盤,王杰雄發現根本原因還是整個搜索的鏈路太長——用戶拍照的清晰程度、用戶框選題目的精細度、文字識別的準確程度、文件傳輸中的壓縮比例、題目搜索的比對算法,每一步都有一定的信息損耗。
這種長鏈路的問題就如同你玩過的那種傳話游戲,一個同學傳給另一個同學,他再把聽到的內容傳給下一個同學。傳到最后,往往已經把“前門樓子”傳成了“肩膀頭子”。。。
然而,市場的競爭不等人,疫情籠罩下的2020年,你懂的,各大拍照搜題軟件都在拼命激戰搶奪用戶。
果然,團隊接到了來自領導層的驚天命令:自研搜題模塊要在國慶節上線!thisisanorder,不容爭辯。
王杰雄他們看看表,現在已經7月多了,過去論天過,現在就得論秒了。。。
二營長,拿我的“核武器”來
夸克學習技術團隊把吃奶的勁兒都使出來了,瘋狂地優化這個“傳話游戲”。
那段時間,王杰雄他們做夢都在想優化策略。但是,經常出現的結果是:一個優化策略上了之后,一半的題目解題率升高,另外一半兒的解題率反而下降,就像在游泳池里玩蹺蹺板,一個人浮出水面喘口氣,對面那個人就被淹在水下冒泡了。。。
CoinList發布“5.02.2023”預告,社區推測或將進行Sui公募:4月6日消息,據官方推特,CoinList發布帶有“5.02.2023”預告動畫,暗示5月2日或將有重要事件公布。
另據加密社區用戶推測,CoinList或將于5月2日進行Sui公募。[2023/4/6 13:47:34]
到后來,為了該用哪些優化策略,這群技術宅越討論越急眼,眼看就要從說服變成睡服。他們干脆決定,兵分好幾個小組,各自研究心儀的優化策略,最后再把這些技術疊加起來。
技術宅有技術宅的計劃,世界另有計劃:如此舍命狂奔,盡管和友商的解題率差距在縮小,但始終還是追不上。
夸克怎么說也是一個有牌面兒的搜索引擎,如果國慶節就這個亞子直接發布出去,那簡直是所有人都不能忍受的公開處刑。
禍不單行。
進入暑期,夸克搜題的活躍度開始肉眼可見地下降。原因很簡單——同學們放假了。即使是學霸,也不會凡爾賽到放假的時候也天天搜題吧。。。
那么,這些同學還會在9月份開學的時候如約回來嗎?萬一不回來,我們做了這么久的新搜題引擎給誰用呢?大家心里緊張得如同初戀的少男。
從8月最后幾天開始,所有人都捂著眼睛,從指縫里看夸克后臺搜題功能的用戶人數有沒有增長,就跟老韭菜看著自己的股票持倉一樣:哀其不幸,怒其不爭。
他們悲傷地發現,用戶數并沒有回到上學期期末的時候。。。
然而,就在他們確認自己要涼了的時候,9月5號左右,搜題的用戶突然開始暴漲,勢如破竹,很快就掙脫了之前的最高點。
又驚又喜的夏雅曈、王杰雄他們突然意識到,原來因為疫情的原因,全國的學校是錯峰開學的,學霸們雖遲但到,直到9月上旬才馬力全開。
誠如夸克學習的搜索框所言:我愛學習,學習使我快樂。
這下有兩件事是板上釘釘了:第一,國慶節新引擎鐵定是要發布了;第二,哪怕按國慶七天樂最后一天算,此時距離發布也只有一個月了。
怎么用一個月的時間把搜題質量提升到世界級水平?
技術團隊對視一眼,貌似只有使用最后一個“核武器”了!
你還記得我們之前留了一個伏筆么?最開始,技術團隊曾經繞過了第一個“麻匪”,文字識別系統。
其實大伙兒都知道,文字識別系統在整個搜題鏈路里是最重要的環節之一,但是,因為技術非常復雜,恐怕不是一兩個月就能做出來的,所以夸克技術團隊沒敢碰,一直在用集團提供的現成文字識別系統。
事到如今,無路可退,老司機只有背水一戰。
沒錯,他們的“核武器”就是——自己造一個完美契合搜題場景的文字識別系統。
智能搜索業務部負責人吳嘉盤點了一下,還真有一群人適合做這套系統,這就是過去有視頻內容文字識別經驗的黃銳華團隊。
如果是一般人,接到這樣的任務也許下一秒就準備辭職信了。但黃銳華不是一般人,非但面不改色,反而有點小興奮呢。
說起來,黃銳華也是阿里巴巴最早做搜索的那撥大神,從當年的阿里巴巴商品搜索,到后來的UC瀏覽器全網搜索,都有他團隊的身影。
十年搜索經驗填過的坑無數,不僅讓他們團隊積累了堪比《九陰真經》的經驗,還在兜里攢下了一堆“暗器”:
我們團隊有一個“工具箱”,里面全都是這么多年積累的自動化工具,有深度學習的,有模型優化的等等。普通團隊搭一個新系統像蓋瓦房,需要一磚一瓦從頭來過;有了這些工具,我們搭一個系統就像拼插樂高積木,時間會大大縮短。
黃銳華露出老師傅的蜜汁微笑。
搜題所需的文字識別系統需要有兩個功能:“印刷體文字識別”和“手寫體文字識別”。一個月的時間把兩個功能都做出來是來不及了,他們商量了一下,先只做相對容易也用處更廣的“印刷體文字識別”。
BTC跌破22500美元:金色財經報道,行情顯示,BTC跌破22500美元,現報22499.9美元,日內跌幅達到1.98%,行情波動較大,請做好風險控制。[2023/2/10 11:57:56]
接下來又到了硬核科普的時間段。
做一個文字識別系統最最核心的工作就是“訓練”。
訓練,簡單說就是讓人工智能看大量的數據。這個數據不是普通的數據,而是“標注數據”。
啥是標注數據?一道含有題目的照片拿過來,標注師不僅要把里面題目的精確位置框出來,還把對應的正確文字謄寫下來,這就是一個“標注數據”。無數個標注數據塞進訓練框架的煉鋼爐,就能煉出來一個“人工智能文字識別系統”。
這就是一個標注數據
當時,啪的一下,很快啊,老司機們搞來了大量的標注數據。然后馬不停蹄地進行針對“搜題場景”調優和測試。
黃銳華記得清清楚楚,那一個月他們過得可是緊張刺激干凈衛生,上午開會討論方案,晚飯前代碼就得寫好,夜里就要進行測試,一天一迭代,一夜一升級。
終于,到了9月下旬,文字識別系統終于出爐。是騾子是馬拉出來溜溜,黃銳華他們找來市面上所有能買到的商用文字識別系統,焚香擊鼓,來了一場“亂斗大比武”。
結果證明,在印刷版習題的識別率上,自己剛研發的這個識別系統最能打。文字識別和公式識別都比別人高幾個百分點。
他一拍大腿,這事兒要成。
像運動會接力棒一樣,文字識別系統第一時間傳給算法團隊。由于臨陣切換了文字識別系統這個“發動機”,導致王杰雄他們的搜索算法也要重新訓練,重新適配。
此時留給他們的時間,只剩最后幾天了。
王杰雄緩了口氣,以大將之風安慰團隊:“莫慌,只要膽大心細,時間應該還來得及。”
然而,半小時后,團隊同學就來報告:哥,跟你說個事兒,咱們手里的計算力資源好像不夠了。。。
王杰雄給跪了。
由于短時間內要計算炒雞大量的數據,團隊日常儲備的云計算資源直接被拉滿,目測要是僅靠這些資源,等這些計算搞定,2021年的第一場雪都來了。。。
你可能會問:“等等,團隊難道用的不是阿里云么?阿里云“吹牛”的時候我可是聽過的,不是說伸縮擴容一分鐘就搞定么?”
沒錯,然而問題并不出在阿里云上,而是出在真實世界的規則中——團隊擴容,需要預算,而這筆預算顯然是計劃外的,要走特殊流程,一半天兒肯定是批不下來。。。
危急時刻,奇景出現:從技術大牛到產品經理,從一線碼農到團隊領導,大家紛紛聯系相熟的鄰居團隊,從他們那里“借”資源。
對方有五臺機器,要!對方有一臺機器,也要!對方有一臺機器但是在另外的機房,沒問題,我們去人肉搬過來!對方開玩笑說你得請我吃飯,他們說請!對方說吃龍蝦,他們說吃!
就這樣“毫無底線”,不知道許諾出去多少頓飯,兩天之內,計算資源像螞蟻搬家一樣一點點堆壘起來,超越了平時的五倍還多。燒腦的計算像F1賽車一樣極速狂飆,在賽博世界表演了一場暴裂無聲的白日焰火。
這段危急時刻,正趕上橫跨周末,大家也都顧不上休息了,每天在辦公室連軸轉。當時是三伏天,而大廈周末是不給中央空調的,領導們就給大家找來了超大功率的電風扇,但桑拿天風扇也是杯水車薪,屋里仍然跟蒸籠一樣。沒人顧得上抱怨,汗水迷了眼就用身上的T恤擦,女同事不在就光膀子。
國慶節前一天,所有必要的計算終于跑完一遍,新算法百米沖刺上線,煥然一新的搜題引擎馬不停蹄地開始全鏈路測試。
標準測試數據下,夸克搜題的引擎總算、究竟、到底、終于跑出了行業頂尖的解題率。
王杰雄他們看著這個結果,激動得差點欲語淚先流。
這個接力棒又火速傳到產品團隊手上,由他們為億萬用戶做最終發布。按照規定,一般情況下假期是不能升級App的,但是夏雅曈他們早已提前打好了報告,拿到了金牌令箭,就等著假期推送升級。
就這樣,先是團隊內部人員接收了App升級包,第二天對幾千用戶隨機推送,然后是幾萬人,然后是幾十萬、幾百萬。終于趕在十一期間,把所有用戶的夸克App都升級完畢。
國慶收假,后臺的用戶數據開始滿載狂升。此時,王杰雄盯著屏幕反而異常平靜,他知道,眼前的一切絕非只是跳躍的數字,而是新搜題引擎像神龍一樣,在響應著無數學生、老師和家長的召喚。
滿屏都寫著“牛X”二字。
這么多環節,只有從每個環節都壓榨回來一點時間,才能讓整體搜題等待時間大幅減少。
于是團隊變身人肉榨汁機,從三個方向開始壓榨。
第一,壓榨照相機模塊。
為了方便開發迭代,之前的相機模塊采用的是輕量化的“web框架”,這次為了速度,前端團隊一狠心另起爐灶,換成了“客戶端架構”,雖然維護更難,但速度如飛。
第二,壓榨傳輸鏈路。
圖片從手機傳輸到夸克的服務器,要經過好幾個系統“接力”處理,路由器、運營商、負載均衡,進入服務器之后,也要像串糖葫蘆一樣經過幾道系統,這些系統有的跑在杭州機房,有的跑在張北機房,有的跑在廣州機房,相當于數據要在神州大地上來回奔襲好幾個來回。
雖然是光速來回,但畢竟咱們國家大得離譜,路上還是會消耗很多時間。
最終,技術團隊優化了調度方式,在每個機房都安排了一整套處理系統,讓用戶可以"就近接入",比如廣州的用戶就接入距離廣州最近的深圳機房,全套處理完直接把結果返回手機。就像現在人民群眾去辦事兒,“最多跑一趟”。
第三,壓榨算法系統。
之前為了保證搜題準確率,王杰雄他們為搜索引擎增加了很多“冗余”,這下為了節省時間,又不得不拆掉一些。
估計你也猜到了,壓榨算法系統肯定會帶來一些副作用,那就是識別率很有可能下降。
這個時候,黃銳華的文字識別團隊又殺了出來。他們也憋了一個大招:
重寫一套數據標注系統,讓外包團隊為他們重新標注一套比過去精準無數倍的題庫數據。他們要用這套新的標注數據,訓練出史上最準確的文字識別系統。
這套數據的標注要精準到什么程度呢?所有題目的框選都精確到了近乎像素級的精度。而為了達到這個目標,全部標注員都提前做了嚴格的培訓,還專門設立了檢查員的崗位,負責二次檢查數據標注的精度。最終數據拿回來,夸克的技術同學還要進行復查,絕不放過一個錯誤。
我們認準了一個道理:數據樣本的精度,決定了你識別能力的上限。所以我們就用這種笨辦法!
黃銳華一臉技術人的執拗。
這次數據標注,不僅標注了印刷文字,還標注了之前沒時間解決的手寫文字。而且手寫文字還包括了小學生、初中生、高中生的不同字體,也包括了手寫數學公式、手繪圖、手寫英語等等。
這一套標注下來,用了整整兩個月時間,所花的金錢成本遠超你的想象。
這個識別系統的效果怎么樣呢?用黃銳華的話說就是:“拿印刷體的識別來說,已經達到遙遙領先業界的效果,基本不會錯了。”
“基本不會錯?”我問。
“基本不會錯。”他說。
這種斬釘截鐵的話在嚴謹的技術老師傅嘴里說出來,還是挺震撼的。
就這樣,所有人又拼了兩個多月,100毫秒100毫秒地摳,先是把搜題中用戶等待的時間減少了30%,后來又減少到了最初的50%,這兩天他們還在拼命準備再減下去10%。
夏雅曈說,她手機里已經裝上了夸克最新版的測試版,搜題速度杠杠的。我說我不信,于是她給我現場展示了一下新老版本的速度對比。
我做成了gif你看看。
一個更香的世界什么樣?
2020年9月,王杰雄最忙的時候,他的女兒恰好上小學。
那段時間,王杰雄腳不沾地,顧不上家里,都是夫人幫著女兒輔導功課。不過王杰雄倒是很驕傲,畢竟夫人幫女兒輔導作業時,用的都是自己親手打造的御用特供指定版夸克搜題引擎。
女兒一天到晚被爹安利,如今遇到不會的題,都會搶在王杰雄前面輕描淡寫地說:“用夸克搜一下唄。”一起逛街遇到夸克的廣告——那個像馬桶圈兒的LOGO——女兒也會說:“又是你們的廣告!”
其實在團隊里,還有不少像王杰雄一樣的孩子家長,從小學到初中高中一應俱全,他們都是夸克搜題的核心用戶——在日常搜題的時候,他們遇到非常實際的問題,拿回來反饋給產品團隊,新功能很快就能加入全家桶。
比如錯題本功能:同學可以把錯題整理起來,系統智能識別里面的知識點,然后自動給出考察類似知識點的其他題目。再比如錯題打印功能:低年級的孩子父母不敢讓孩子長時間看手機或者平板電腦,于是希望能把錯題打印到紙上讓孩子去做。再比如口算批改功能:對于一些簡單的加減法算術題,家長需要每天幫小朋友檢查作業,有點枯燥。用這個功能一拍,所有答案是對是錯就一目了然了——疲憊一天的老父親老母親能多有幾分鐘放空的時間。
除了搜題功能本身,王杰雄他們還發現,作為阿里巴巴家的“富二代”,夸克的人工智能能力是碾壓別人的。
有了強大的人工智能技術儲備,其實未來還可以試著做出很多更科幻的功能,例如給定一個題目可以幫你寫作文,給出一個上句幫你填寫下句——這些題目本身都沒有對應標準答案,但是搜題引擎也可以試著憑空做題,空手接白刃。
我試了一下“AI續寫”,驚為天人。
夏雅曈的媽媽其實就是一位中學老師,在湖南老家教了半輩子課。
最開始夏雅曈定義搜題產品的時候,幾乎給媽媽一天打一個電話,詢問她給同學們出的題都是哪來的,甚至還要來了教研組老師的電話,還有校長的電話,甚至還跟媽媽經常買參考書的書店老板煲了幾個小時電話粥。
夏雅曈的敬業程度爆表,以至于當別人父母都勸孩子“多打電話回家”的時候,她媽媽反而勸女兒“少打點電話”。。。
“你媽煩死你了吧?”我問。
“畢竟親生的,沒辦法。”她笑。
“誒,要是以后同學們遇到不會的題都上網查了,沒人問老師了,你媽媽會不會失落啊?”我突發奇想,問夏雅曈。
我小的時候,每次學生寫了好的作文,她都會比學生自己還開心。從那時我就知道了,老師從來只會因為學生的進步而驕傲自豪,不會因為自己而失落。這也是我最佩服媽媽的地方。
她溫暖地一笑。
臨別之前,王杰雄還給我講了一件小事兒。
最近,他幫女兒報了好多線下補習班,花錢花到肉疼。在交錢的時候,他若有所思:“我生活在北京這樣的一線城市,有財力,也有智力跟進孩子的輔導。但是在三四線城市,甚至是那么多鄉村,那些孩子是不是永遠沒辦法接觸到這些優質的教育資源呢?”
想到這里,他好像忽然站在了站臺對側,越過呼嘯的列車,審視自己正在做的事情。
如果教育停留在物理世界,那么毫無疑問,最棒的教育資源一定只會留給精英的“后浪”們。可是,一旦教育來到線上,它就會展現出巨大的可能性——哪怕一個孩子生在偏僻的村莊里,只要有一部手機,只要他渴望學習,就可以以非常低的成本享受人工智能為Ta準備的教育資源,而且是定制化的教育資源。
未來世界的孩子,也許能享受到我們這代人從未有過,甚至沒敢想過的教育模式。
王杰雄的眼睛閃閃放光。
告別這群人,我又沖進冬天的城市。北風漫卷,山河無恙。按照劇本,此時我應該路遇幾個少年。但這個時間他們顯然應該正在溫暖的教室里聽課,有的眉頭緊鎖,有的迷惘張望。
“我看著你們,滿懷羨慕。”我又想起《后浪》里這句曾引發了口誅筆伐的輕飄飄的臺詞。
于是我猜,年輕人不能被收買,年輕人也從未被收買。
一個認真面對這個世界的App,從來不應只是生活優渥的后浪們口中戲謔的“真香”。最終有權評價它的,應該是嚴肅的,莊重的,渴望成為更好自己的每一張年輕的面孔。
P.S.鑒于Safari那期節目里滿屏的夸克,蘇星河后來又專門做了一期夸克的評測,你可以看看。
再自我介紹一下吧。我叫史中,是一個傾心故事的科技記者。我的日常是和各路大神聊天。
學習使我快樂
Tags:人工智能SafariPPT人工智能技術應用學人工智能后悔死了人工智能考研考哪些科目Safari幣是什么幣PPT幣PPT價格
這是一個讓人想起2017年12月虛擬貨幣泡沫的月份。比特幣價格在12月16日創下了20,000美元的歷史新高,在17日創下了22,000美元的新高,在25日創下了24,000美元的新高.
1900/1/1 0:00:00章永樂|北京大學法學院 2020年末有兩個重大事件,或許將改變世界格局與中國未來:一是已經簽署的全球最大貿易協議RCEP,另一個便是正被美國阻止,但卻即將達成的《中歐投資協定》.
1900/1/1 0:00:00現金是垃圾,投資者最終將把比特幣的價格推高至50萬美元以上。 CameronWinklevoss和TaylorWinklevoss兄弟1981年出生于美國紐約,在著名的富人區格林威治長大,父親是.
1900/1/1 0:00:002020年人民幣兌美元走勢呈現了“先貶值、后升值”的趨勢。首先是人民幣兌美元的匯率由2020年年初的“約6.9元人民幣兌換1美元,下滑至7月份的7.1元人民幣才能兌換1美元”.
1900/1/1 0:00:00Ripple首席技術官DavidSchwartz和VentureCoinist創始人LukeMartin討論了加密資產Billions項目組的效用.
1900/1/1 0:00:00小刀馬 比特幣今年的漲幅早已讓很多人“看不懂”,擁有者心中樂開花,沒有的也就看一個熱鬧。畢竟,幾萬美元一枚的比特幣不是一般人,一般資金可以去玩的;想撬動的市場也是異常龐大的,真正能在其中搏擊的也.
1900/1/1 0:00:00