阿里的追光者:每天為數億張圖片把脈 幫數十萬盲人「聽圖」
聽取顧客發來的評論意見、發布最新製作的商品介紹圖片,這是淘寶店主小峰5年來每天起床後必做的兩件事。
來自浙江的小峰自幼雙目失明,2015年在淘寶開了一家專賣電子產品的店鋪。通過「手耳並用」的方式,小峰可以和明眼人一樣,毫無障礙地和眾多買家進行溝通交流。
這一切得益於OCR(光學字元識別)技術。在阿里達摩院讀光OCR團隊的努力下,數十萬盲人登陸淘寶時,只要手指划過相關頁面和商品,手機就會準確地讀出的資訊 。
OCR技術的應用並不止於為視障人群修建「盲道」,小峰和數以百萬計的商家每天會在淘寶發布超過1億張商品圖片。
廣告發布是否違規?商品圖片是否侵權?在每天為海量圖片「把脈」的過程中,鍛造了讀光OCR強大的能力,這項原本只專註於商品治理的安全技術,逐漸進化為不同行業提供人工智慧服務的全能識圖產品。
不久前,阿里達摩院和阿里安全成立聯合實驗室,意味著「讀光」這一高精尖技術將在更多場景落地,而在「新基建」快速發展的當下,數字技術將展示出前所未有的普惠性。
每天為數億張圖片把脈
每天在淘寶新增的商品圖片達數億張。
如果用相紙把這些圖片列印出來,假設每張相紙厚度為0.2毫米,摞在一起的厚度超過20公里。
從這些圖片中找出違規發布的商品和資訊,依靠人的肉眼,即使每秒鐘能查看一張圖片,24小時內看完這些商品圖,需要1158人團隊不間斷持續作業才能完成。
在商品圖片內容豐富、場景複雜多樣的狀況下,讀光OCR技術的出現大大提高了平台治理的效率。
讀光OCR團隊負責人、高級演算法專家永攀介紹說,「讀光」的前身是成立於2011年的「影像把脈團隊」。
彼時,淘寶商品主要資訊傳遞方式是圖片,消費者搜索任何商品,映入眼帘的是首先是各個搜索結果的商品主圖,這張圖片傳遞的資訊可以在很大程度上影響用戶的購買判斷。
當圖片成為搶奪消費者注意力最直接的手段,很商家把商品主圖和呈現文字做得異常誇張,就像電線杆上的「牛皮蘚」廣告。
為了改善淘寶的商品呈現,「影像把脈團隊」上線治理「牛皮癬」的專項技術,判斷商品圖片中的文字以及整體圖片是否違規。
對圖片的識別、判定的意義並不只是是否美觀和誇張。更重要的是,通過對商品發布圖片的審核,可以及時發現銷售假貨侵權產品的商家。
今年2月2日,身在重慶的永攀在藥店買口罩時,發現線下要點的口罩已經被搶購一空。永攀很快意識到,大量口罩購買需求湧入線上,很多不法商家也可能會趁機混水摸魚。
與此同時,淘寶、天貓成立了「保衛口罩小分隊」,他們的任務就是守住口罩商品上線的關口。
這一天,讀光OCR團隊緊急優化技術,確保有貨源的商家能發布商品的同時,讓疑似假冒偽劣的商品無法上線。
「由於口罩以前是個小眾產品,突然爆發的需求和商品發布量,讓圖片掃描以及識別的工作量非常大。」永攀回憶說,這一仗把能調用的全部伺服器都用上了。有了每天檢測數億張圖片的磨礪,讀光OCR在口罩保衛戰這一役圓滿的完成了任務。
在阿里安全圖靈實驗室負責人薛暉看來,讀光OCR技術在知識產權保護領域的應用,不僅可以對商品發布進行檢測,配合其他技術的應用,還能對制售假分子予以限制。
一名曾因店鋪售假被淘寶關店,為再上淘寶開店,偽造了8次假身份,連戶籍地址都配套換了8次。但每次都被系統識別攔截,無緣再上淘寶的他,終於選擇放棄。
從管理到服務的有溫度治理
2015年9月1日,新廣告法開始執行,這為「讀光團隊」帶來了巨大的挑戰。
新廣告法禁用「最佳」、「最優秀」、「世界級」、「獨家」、「史上第一」等多種「極限詞」表達。
淘寶的存量商品超過了15億個,每個商品平均有17張描述圖片,90%的商品描述都在圖片中。由於很多商家並不具備專業知識,根本無法判斷自己是否違反了廣告法。
很多商家違法了但卻不自知,不但面臨處罰,還會遭遇惡意索賠團伙的敲詐勒索。
阿里安全在集團內部拉幾支團隊一起PK解決方案,最終「讀光團隊」接下了這個難題。
永攀回憶說,當時統計發現,淘寶存量商品圖多達數百億張,圖片上的文本內容非常複雜,常用字體就有100多種,還有一些非常個性藝術創造的字體。此外,圖片中經常會有各種透明半透明的背景,識別難度很高。
為了實現高效提速,「讀光團隊」做出了有別於市面通用的解決方案。
如果說外界當時處理一張主圖需要3到5秒,處理複雜圖需要1分鐘的話,「讀光團隊」提出的解決方案可將識別圖片的平均時間降到0.25到0.3秒。產品上線後,所有違規圖片可以在24小時內被處理。
一年之內,「讀光團隊」將技術能力進化到了實時處理,讓商家發布的違規圖片根本無法上線。
「當我們的安全技術能力從單純的管控變成風險服務,可以幫助到那些無意犯錯的商家,讓違反廣告法的圖片在沒有產生任何影響的情況下就被攔截下線。」永攀說,通過技術打擊作惡的壞人,而讓無意犯錯的商家「少踩坑」,這是「有溫度治理」的應有之義。
為數十萬盲人修建網路盲道
在數字經濟時代,依託人工智慧技術的治理模式和經驗,不僅在解決商業問題上發揮作用,創造新的商業機遇,在參與社會治理和解決各類社會問題上,提供了更多的想像空間,為社會創造更多新價值。
從2011年開始,「讀光團隊」為視障群體提供文字識別服務。不過,很多盲人朋友回饋依然存在理解障礙和錯誤的情況。
永攀解釋說,淘寶的圖片版式包括了廣告圖、商品圖、表格圖、圖文註解圖等,不同頁面的閱讀方式差異很大,絕不僅是把所有文字從左到右、從上到下閱讀一遍這麼簡單。這就需要研究將文字以合理的順序進行組織後,為視障人士閱讀,幫助他們正常理解。
團隊一邊與浙江大學、中國殘聯合作,共同研究商品圖片無法被視力殘疾人閱讀的問題,一邊邀請盲人測試者參與研發。
2019年,「讀光團隊」開始研發和落地版式分析和閱讀順序的深度學習技術,盲人商家小峰參加了無障礙工作組的測試,並以團隊成員的身份參與到優化讀光OCR的文本語序識別演算法的工作中。
「對普通人來說,新興互聯網技術的發展很多時候發揮著錦上添花的作用,但對盲人而言,具備著雪中送炭的意義,實實在在的幫助我們回歸社會、融入社會、參與社會。」小峰感慨。
截至2019年,數十萬視障人士因為「讀光」團隊的努力,在淘寶享受著足不出戶,購遍全球的互聯網新生活。2019年雙11期間,淘寶對「盲道」進行升級後,視障人士在實現無障礙購物的基礎上,首次可以用手機在雙11參加遊戲互動體驗,並得到更多實惠。
在數字時代主動尋找未來的光
2019年底,阿里達摩院與阿里安全成立聯合實驗室,讀光團隊與阿里安全圖靈實驗室實現了「握手」。
事實上,在日常平台治理的業務中,兩個團隊早已並肩戰鬥多年,聯合實驗室的負責人薛暉與永攀更是老相識了。
兩人同畢業於浙江大學光電系,永攀是薛暉隔壁實驗室的師妹,永攀所在的實驗室為嫦娥四號探測器提供了的相機光學技術,讓嫦娥四號向地球順利傳回世界上第一張近距離拍攝的月背影影像。
在隔壁實驗室技術「上了天」的時候,薛暉正在阿里安全死磕AI影像識別技術,將其落地應用在線下新零售場景中,兩人開玩笑地說這樣的場景恰好印證了人工智慧「上天入地」的說法。
如今,兩人的願景是讓高精尖的視覺技術在更多場景中落地。
「這個聯合實驗室要在數字化浪潮下,開拓『AI+辦公』、『AI+教育』等新模式,為新基建鑄就城牆;在技術上要以建設高效、通用、安全的OCR系統為抓手,聚焦小樣本學習、遷移學習與領域自適應、模型可解釋性研究、對抗魯棒性等課題,探索下一代人工智慧技術,為新基建構建安全的技術底座,這也是阿里提出的新一代安全架構的核心理念。」薛暉為團隊規划出了大的方向,接下來團隊的重點將聚焦在圖片、影片治理和辦公數智化兩個方面。
薛暉說,人們在日常看到的是清朗網路空間,這背後其實是安全演算法團隊與違法違規圖片影片的持續對抗。而OCR技術具有非常強的辦公屬性,如財務票據報銷、文件電子化、證件審核等,未來的辦公數智化解決方案可以輻射金融、司法、教育、醫療等行業,將人們從機械的、重複性的工作中解脫出來。
「我們想要兩條線推進,為OCR技術找到對業務、社會真正有價值的新方向。」永攀說,疫情中興起的非接觸式會議和教學已經證明,AI技術已經改變了傳統的內容生成方式。
這也是「合併」賦予讀光OCR團隊的新意義:不僅要讀光、追光,更要在數字時代主動尋找未來的光。
折扣商品資訊>>
南極人充電式聲波電動牙刷 券後價7.9元
聯想32g class10 高速記憶體儲卡 券後價 16.9元
一次性醫用外科口罩50隻 39.9元
一次性醫用口罩 一片0.33元
決明子枸杞菊花茶 卷後價9.9元
上帝天使之手起泡酒白葡萄酒(兩種口味) 券後價 39元
夏季薄款空調被 券後價29.9元
90分全自動反向摺疊照明傘 眾籌價49元