Lebih jauh dengan (bisnis dan) SOLR

Kenapa harus SOLR, tidak cukupkah google site search/google coop?

Google memang mengindeks dengan handal,akan tetapi Google sepertinya tak akan bisa memberikan banyak interpretasi semantic. Di sinilah implementasi SOLR akan banyak membantu kita. Model searching yang dicontohkan Google adalah evolusi dari search jaman dulu. Walau model ini bekerja dengan baik, kebutuhan search terus berkembang, pada akhirnya pengalaman yang didapat dari aktivitas pencarian lewat Google tidak akan mampu mengakomodasi seluruh permintaan konsumen. Konsumen membutuhkan pengalaman pencarian yang lebih berkesan. Vertical search adalah salah satu jawaban dan harapan. Vertical search hanya bisa dibangun jika semua data dan relasi antar data tersebut tersedia. Dan tentu saja hanya yang pemilik data itu sendiri yang tahu dan mempunyai informasi yang telah disebutkan sebelumnya. Ya, berarti semua orang terkualifikasi untuk mendayagunakan SOLR. Dan sang pemilik data itu sendirilah memang pihak yang paling tepat untuk mengendalikan pengalaman aktivitas pencarian.

Contoh kasus. Mislakan berikut ini adalah data yang kita punyai:

SOLR for Dummies
Pennington, Havoc
7888XXXXX
USD $27

Bisakah google menjawab pertanyaan “Buku apa yang ditulis oleh Havoc Pennington?”, “Buku-buku apa saja yang harganya di bawah $30?”. Google tak akan mampu menjawab satu pun dari pertanyaan tersebut kecuali Google tahu semantik/makna data dalam teks tersebut. Sebaliknya, dengan SOLR kita bisa menjawab pertanyaan di atas. Karena kita tahu bahwa “SOLR for Dummies” adalah judul buku, maka kita bisa mengindeks data ini di bawah field book_title dalam SOLR. Kemudian “Pennington, Havoc” bisa diindeks di bawah “author” dan seterusnya. Maka kita pun bisa mencari data yang kita inginkan dengan lebih akurat.

Siapakah klien potensial kita?

Mengulang kembali apa yang sempat kita singgung sebelumnya. Berikut ini adalah beberapa jenis klien potensial.

  1. Blogs. Data dalam blog bisa dipastikan jauh dari terstruktur. Ini adalah klien potensial yang tersulit. Potensial karena tumpukan datanya sangat banyak dan sepertinya belum ada yang sanggup mengolahnya menjadi data berharga. Hmmm, sebentar, mari kita berimajinasi. Ada tidak kemungkinan: ”cari ulasan tentang SOLR yang ditulis oleh Akhmad Fathonih”. Dengan struktur umum kontent blog berupa title, excerpt, permalink, full-content, category, dan tags ternyata kita sudah bsia memberikan value lebih. Dengan semakin meningkatnya permintaan dan kepercayaan pengguna internet akan peer review dan citizen jurnalism, query yang baru saja saya sebut pasti akan muncul.
  2. e-commerce sites. Segala situs yang bertema amazon, e-bay atau craiglist akan lebih mudah diindeks karena data telah distrukturkan dan mempunyai relasi antar data yang sudah jelas.
  3. Semua pemilik data yang menginginkan datanya lebih discoverable bagi penggunanya

Apa yang harus kita bootstrap lebih dulu?

Selain infrastruktur (cores, storage, bandwidth, etc) di mana kita akan mendeploy SOLR, plugins (untuk CMS dan other data management system) adalah salah satu hal kritikal. Faktor ini akan turut menentukan rendahnya barrier of entry pada konsumen. Semakin mudah konsumer bisa memanfaatkan layanan kita maka besar peluang kita untuk mendapatkan konsumen, data (untuk di-mining is possible) dan peluang-peluang lain.

What do you say?

While I will think and write more on this subject, I’m all free for any discussion; whether you are rushing to execute this plan before anybody else, or you want a simply routine-breaking chit-chat.

Photo:
Source
Flickr
Author
Cayusa
License

Ideas: Selling custom search (using SOLR)

SOLR is a standalone enterprise search server with a web-services like API (per definition). Many reputable site has used SOLR as their search backend. See a sample on AOL or the complete list here.

So, will it work? What do we sell?

  • Sell grid power. This is no-brainer. But shouldn;t be the first in the priority list. For most site, search is a non-dominant action. So, they may already have the computing power needed to run their site (includes search activity)
  • Tuneable search experience. User will no longer depending on what their CMS provide, instead they can create their own search experience using their defined field and search weigthing.
  • Leverage content discoverability. Some site may have a big bulk of data inside their server. Indexing this data (on SOLR) may give them added value. Eg: faceted data can be displayed to attract visitors. It’s like “simple” data mining.
  • Targetted ad ;) . We can push ad onto the search page

Then, who are our potential customers?

  • e-commerce site. There are many e-commerce site in Indonesia. many of then is simply built from scratch of using off-the-shelf FOSS CMS such as osCommerce which is lacking good search feature. yes, MySQL Fultext search just won’t cut it.
  • document intensive site. Eg: library (OMG, there are lots of library out there), .go.id site
  • any rich content site

Ok, so how are we going to execute it, technically?

  • provide REST API, or
  • simply expose the SOLR endpoint for integration and searching purposes

Former option would enable us to push our ad. And the later seems fit premium service, where user can process raw SOLR data.

So, anyone interested? Or desperately wanting one for your own site? Or, you suddenly want to start your own web crawler? That’s an interesting idea … Going vertical, anyone?

Photo source: swisscan

Twitblogging: Seberapa besar peluang clone digg di Indonesia?

Liat lintasberita.com, jd tau kecenderungan netter utk menyukai berita pop kontroversial ;)

Ini artinya msh ada segmen netter yg blm diakomodasi oleh pemain lokal

‘ngapain bsaing dgn digg?’. Gk bsaing, kt justru bmain d ekosistem digg etc, completely not competing but filtering and recommending instead

‘Tp bagaimana kt bs menarik user?’. Tahu gk klo user itu lbh suka dg rekomendasi org2 yg sudah ia ‘kenal’?

Jadi ya pastikan early adopter dan ‘selebritis’ nongkrong d situs ‘digg’ anda

Nah, utk mbuat early adopters dan ‘selebriti’ mau nongkrong dan aktif ini lbh menarik lg untuk diobrolin :d

Selain itu, hrs ada incremental changes utk menjaga mood user. Exclusiveness jg bs jd unsur menarik.

Okeh, sila dreply ya klo puna feedback. Saya mo tidur. Ngantuks …zzz..zz

Di atas adalah twitblogging yang saya lakukan semalam. Kerana tiba-tiba terpikir sesuatu dan tak ingin kehilangan catatannya, maka twitter pun jadi opsi menarik. Berhubung sewaktu di-tweet belum ada yang reply ataupun memberikan feedback, saya berharap something different di blog ini :D . I really-really love to discuss such thing. I want to grow, I want to know where I am strong at and where are my weakness. I want to grow, and you definitely can grow with me. Bersama kita bisa ;) . Ya kan?

PS:

Segmen yang belum terakomodasi adalah segemen penyuka berita non kontroversial/pop

Photo “Scott Beale / Laughing Squid” by Laughing Squid