La
soci?t? SGI (NASDAQ?:?SGI), leader de confiance en mati?re de calcul
technique, s’est associ?e ? Kalev H. Leetaru de l’Universit? de
l’Illinois pour cr?er pour la premi?re fois le mappage et l’exploration
du contenu textuel int?gral de l’?dition en langue anglaise de
Wikipedia, dans le temps et dans l’espace. Les r?sultats comprennent des
visualisations de l’histoire moderne captur?es en moins d’un jour ?
l’aide de techniques d’exploration de donn?es in-memory. En chargeant
l’?dition en langue anglaise int?grale de Wikipedia dans le SGI?
UV? 2000, M. Leetaru a pu montrer comment la vue du monde de
Wikipedia s’est d?roul?e au cours des deux derniers si?cles. La
localisation, l’ann?e et le sentiment n?gatif ou positif ont ?t? li?s ?
ces r?f?rences.
Alors que les projets pr?c?dents ont cartographi? les entr?es de
Wikipedia avec des m?tadonn?es de localisation attribu?es manuellement
par un ?diteur, ces tentatives pr?c?dentes ne repr?sentaient qu’une
infime partie des informations de localisation de Wikipedia. Ce projet a
d?bloqu? le contenu des articles m?mes, identifiant chaque localisation
et chaque date dans les quatre millions de pages et dans les liens entre
elles pour cr?er un r?seau massif.
??Voir??
Wikipedia d’une toute nouvelle fa?on.
??Cette analyse
permet au monde de prendre du recul vis-?-vis des articles et des textes
individuels pour obtenir une vue de la for?t de connaissances
exceptionnelles captur?es dans Wikipedia, et non pas seulement une vue
page par page des arbres. On peut voir comment l’une des plus vastes
collections de connaissances humaines a ?volu? et ce que l’on ne pouvait
jamais voir auparavant, tel que le sentiment g?n?ral ? une date et ? un
lieu particulier, ou l’existence potentielle de lacunes dans la
couverture des connaissances??, a d?clar? Franz Aman, directeur du
marketing et chef de strat?gie de SGI. ??Nous adorons utiliser Google
Earth parce que nous pouvons effectuer un zoom arri?re et obtenir une
vue d’ensemble. Gr?ce ? SGI UV 2, nous pouvons appliquer le m?me concept
? Big Data pour avoir une vue d’ensemble de notre Big Data??.
Sur la base de cette analyse, on constate quatre p?riodes de croissance
dans la couverture historique de Wikipedia?: 1001-1500 (Moyen-?ge),
1501-1729 (D?but des Temps modernes), 1730-2003 (Si?cle des Lumi?res),
2004-2011 (?re Wikipedia) et sa croissance continue semble ?tre ax?e sur
l’am?lioration de sa couverture d’?v?nements historiques, plut?t qu’une
documentation accrue du pr?sent. Le ton g?n?ral de la couverture de
chaque ann?e par Wikipedia correspond ?troitement ? des ?v?nements
mondiaux majeurs, la p?riode la plus n?gative des 1000 derni?res ann?es
?tant la Guerre civile am?ricaine, suivie de la Seconde Guerre mondiale.
Cette analyse montre ?galement que la ??lacune de copyright?? qui efface
la plupart du vingti?me si?cle dans les collections d’ouvrages imprim?s
num?ris?s n’est pas un probl?me avec Wikipedia dont on constate la
croissance exponentielle r?guli?re de la couverture de 1924 ? ce jour.
Permettre aux chercheurs d’explorer Big Data ? la vitesse de Big Data
??La nature unidirectionnelle des connexions de Wikipedia, le manque de
liens, et la distribution in?gale de bo?tes d’information font ressortir
les limitations de l’exploration de m?tadonn?es dans des collections
telles que Wikipedia??, a d?clar? M. Leetaru. ??Gr?ce ? SGI UV 2, la
vaste m?moire partag?e m’a permis de poser des questions ? l’ensemble
complet des donn?es en temps quasi-r?el. Avec une ?norme quantit? de
m?moire partag?e ? coh?rence d’ant?m?moire au bout des doigts, je
pourrais simplement ?crire quelques lignes de code et l’ex?cuter ?
travers l’ensemble complet des donn?es, en posant toutes les questions
qui me viennent ? l’esprit. Cela est impossible avec une approche de
calcul ??scale-out??. Cela ressemble beaucoup ? l’utilisation d’une
machine de traitement de texte au lieu d’une machine ? ?crire ? Je peux
effectuer mes recherches d’une mani?re enti?rement diff?rente, en me
concentrant sur les r?sultats et non pas sur les algorithmes??.
L’approche analytique
Charg? dans SGI?
UV? 2000, l’ordinateur Big Brain, cet ensemble de donn?es massif a
subi un g?ocodage de texte int?gral et une codification par date
compl?te en utilisant des algorithmes qui ont identifi? chaque mention
de chaque localisation et de chaque date dans le texte de chaque entr?e
de Wikipedia. Plus de 80 millions de localisations et 42 millions de
dates entre 1000 AD et 2012 ont ?t? extraites, avec en moyenne 19
localisations et 11 dates par article (chaque 44 mots et chaque 75 mots,
respectivement). Les connexions entre chaque date et chaque localisation
ont ?t? captur?es dans un r?seau massif repr?sentant la vue de
l’histoire par Wikipedia. Cette instrumentation a permis ? M. Leetaru de
r?aliser une analyse en temps quasi-r?el de l’ensemble complet des
donn?es sur le SGI UV 2 pour cr?er des cartes visuelles ? travers
l’espace et le temps et voir non seulement comment l’histoire s’est
d?roul?e mais aussi le ton g?n?ral du monde au cours des mille derni?res
ann?es, et de tester de mani?re interactive une large gamme de th?ories
et de questions de recherche, un travail qui lui a pris moins d’une
journ?e.
Le nouveau SGI UV?: L’ordinateur Big Brain
La
famille de produits SGI UV 2 permet aux utilisateurs de trouver des
r?ponses aux probl?mes les plus difficiles du monde sur un syst?me aussi
facile ? administrer qu’un poste de travail. Construit avec la famille
E5 de processeurs Intel? Xeon?, ex?cutant un logiciel Linux standard, et
prenant en charge une large gamme d’options de stockage, le SGI UV 2
offre une solution de norme industrielle compl?te pour le calcul sans
limite.
En commen?ant avec seulement 16 c?urs et 32 gigaoctets de m?moire, le
SGI UV 2 peut d?marrer petit et s’agrandir facilement. Cette plate-forme
de la prochaine g?n?ration double le nombre de c?urs (jusqu’? 4096
c?urs) et quadruple la quantit? de m?moire principale coh?rente (jusqu’?
64 t?raoctets) par rapport ? la g?n?ration pr?c?dente, disponible pour
le calcul ??in-memory?? dans un syst?me ? une seule image. Le SGI UV 2
peut atteindre huit p?taoctets de m?moire partag?e et ? un d?bit E/S de
pointe de quatre t?raoctets par seconde (14 Po/heure), il pourrait
ing?rer le contenu int?gral de la collection d’ouvrages imprim?s de la
U.S. Library of Congress en moins de trois secondes.
Le SGI UV 2000 est disponible d?s maintenant. Le SGI UV 20 peut ?tre
command? d?s aujourd’hui et sera exp?di? ? partir d’ao?t 2012. Les prix
commencent ? 30?000 USD.
? propos de SGI
SGI, leader reconnu dans le domaine de l’informatique technique,
s’engage ? aider les clients ? r?soudre leurs obstacles ?conomiques et
technologiques les plus exigeants. Pour de plus amples renseignements,
veuillez consulter le site sgi.com.
Connectez-vous avec SGI sur Twitter
(@sgi_corp), Facebook
(facebook.com/sgiglobal), YouTube
(youtube.com/sgicorp), et LinkedIn.
Pour obtenir des photos et des vid?os, veuillez consulter?: http://www.sgi.com/go/wikipedia
? 2012 Silicon Graphics International Corporation. SGI et le logo SGI
sont les marques d?pos?es ou les marques de commerce de Silicon Graphics
International Corp. ou ses filiales aux ?tats-Unis et/ou dans d’autres
pays. Intel et Xeon sont des marques d?pos?es d’Intel Corporation.
Toutes les autres marques et d?nominations commerciales appartiennent ?
leurs d?tenteurs respectifs.
Images offertes par Kalev Leetaru
Photos/Galerie multim?dia disponibles?: http://www.businesswire.com/cgi-bin/mmg.cgi?eid=50313303&lang=fr