Microsoft, bir resimdeki nesneleri tespit edip neler olup bittiğini açıklayan bir teknoloji geliştiriyor.
Teknoloji şöyle çalışıyor.
Birinci aşamada resimdeki nesleler ve eylemler tespit ediliyor. Örneğin, bir adam, bir telefon, konuşmak ve kalabalık.
İkinci aşamada cümleler oluşturuluyor. Örneğin "Adam kalabalıkta yürüyor", "Adam telefonla konuşuyor" ve "Adam kalabalıkta yürüyerek telefonla konuşuyor gibi.
Üçüncü aşamada ise bu cümleler bir sıralamaya tabi tutularaka en uygun cümle seçiliyor. Yukarıdaki örnekteki "Adam kalabalıkta telefonla yürüyerek konuşuyor." gibi.
Uygulama, nesneleri tespit edebilmek için http://mscoco.org/ sitesindeki Microsoft COCO'dan yararlanıyor. Bu sitede nesnelerin kategorileri ayrılmış şekilde biçimlerini ve resimlerini tutan bir veritabanı mevcut. Sitede bir nesne belirttiğinizde bu nesneyi içeren fotoğraflara aranan nesne fotoğrafta işaretlenmiş şekilde ulaşabilirsiniz. Uygulama hazırlandığında bu veritabanından yararlanarak nesnelerin ne olduğunu belirleyebilecek.
Cümlelerin tespiti için de Microsoft ayrıca bazı yarışmalar düzenliyor.
Tabi hala geliştirme aşamasında. Geliştiriciler bazı konuların henüz halledilmediğini de belirtiyorlar. Ancak tamamlandığında müthiş bir şey olacağı kesin. |